pdf to jpg c# : Change pdf document security properties SDK control service wpf web page azure dnn Knowvation-DX-PDF-Sanitizer-White-Paper0-part441

Making PDFs Safe 
Knowvation DX PDF Sanitizer
TM
Change pdf document security properties - C# PDF Digital Signature Library: add, remove, update PDF digital signatures in C#.net, ASP.NET, MVC, WPF
Help to Improve the Security of Your PDF File by Adding Digital Signatures
copy text from encrypted pdf; change security on pdf
Change pdf document security properties - VB.NET PDF Digital Signature Library: add, remove, update PDF digital signatures in vb.net, ASP.NET, MVC, WPF
Guide VB.NET Programmers to Improve the Security of Your PDF File by Adding Digital Signatures
change security settings pdf reader; decrypt pdf file online
Knowvation DX PDF Sanitizer
TM
EXECUTIVE SUMMARY 
The  Adobe  Portable  Document  Format  (PDF)  file  format  has  become  ubiquitous 
throughout industry, government and academia.  While the PDF is an efficient format for 
transferring files, many users do not realize its potential to transmit sensitive information 
that is hidden within the PDF.  This attribute of a PDF is particularly important since the 
PDF format is increasingly used for transmitting documents that have been declassified 
ahead of release to the public.  This whitepaper identifies all the potential hiding places 
within a PDF, the large vulnerability difference between PDFs originating from secure 
sources versus non-secure sources, and the methodology used by Knowvation DX to 
eliminate hidden data. 
The PDF format is used for viewing files that have been created in different applications 
(e.g.,  word  processing,  graphics,  publishing,  scanner,  and  Optical  Character 
Recognition [OCR]).  The PDF reader is made available for free, and allows for easy 
distribution of documents over computer networks and the Internet.  The PDF format is 
popular since it eliminates the need for possessing the application that was used to 
create the document when read-only display is all that is required.  It also creates a 
copy which cannot be easily changed and preserves the original content and format.   
Despite the widespread use of PDF documents, users who distribute these files may be 
unaware  of  the possibility  that  the  files might contain  hidden  data.    Data  can  be 
surreptitiously hidden in many places within a PDF that are not obvious to the casual 
PDF user; certain hiding places are not even well known  to more experienced PDF 
aficionados.    In  addition,  there  is a  need  to  consider  non-visible  object  data  and 
metadata  that  is  included  serendipitously  as  a  normal  action  of  the  application 
creating the document, but not consciously added by the user.  There may not be 
nefarious motives behind the inclusion of this hidden data, but its presence may have 
unanticipated  consequences  if  it  is  not  removed  as  part  of  the  document 
declassification process. 
This paper explores the four general hiding categories and the myriad of discrete hiding 
places within each general category.  The four hiding categories that are more fully 
explored in this paper are: 
1)  Hidden text in the OCR Text Layer; 
2)  Optional objects within the PDF that provide information about the PDF’s content; 
3)  Comments within the Internal Structural Layer; and  
4)  Steganographic data within the PDF Image Layer.   
PDFs that are created by digitizing hardcopy media in a secure environment by trusted 
sources only have only one hidden category where information can be transmitted that 
is not visible when reviewing the image online -- the  hidden text (item 1, above).  A 
“secure  environment  by  trusted  sources”  is  defined  as  a  government  facility  or 
C# PDF Password Library: add, remove, edit PDF file password in C#
To help protect your PDF document in C# project, XDoc.PDF provides some PDF security settings. C# Sample Code: Change and Update PDF Document Password in C#
change pdf security settings reader; decrypt a pdf file online
C# HTML5 Viewer: Deployment on ASP.NET MVC
RasterEdge.XDoc.PDF.HTML5Editor.dll. click MyMVCApplication and select "properties". validateIntegratedModeConfiguration="false"/> <security> <requestFiltering
secure pdf file; decrypt pdf online
Knowvation DX PDF Sanitizer
TM
contractor SCIF staffed with cleared personnel.  PDFs that are created in a non-secure 
environment by unknown sources may contain many categories where information can 
be hidden, including optional objects, comments, and steganographic data (items 2, 3, 
and 4, above).  Therefore, it is much easier to eliminate sensitive information from a file 
created in a secure environment than one created in a non-secure environment. 
PDF redaction is the process of removing sensitive visible image layer text and hidden 
OCR  text  from  a  PDF  document;  redaction  is  the  only  process  required  if  the  PDF 
created from hardcopy media was provided by a trusted source.  Once the sensitive 
material has been removed, the document may be distributed in declassified form to a 
broader audience.  PDF sanitization is a follow-on process to redaction.  It removes 
additional forms of hidden content that must be addressed.   
In instances where PDF documents were not
created by a trusted source, redaction is 
not  sufficient  to  ensure  that  all  sensitive  content  has  been  removed.    Sanitization 
addresses hidden content in PDFs created from digitized formats (e.g., jpeg, tiff, pdf) or 
from “born-digital” formats (e.g., Microsoft Office, FrameMaker, computer-aided design 
software).  This hidden content includes optional PDF objects, internal PDF structural 
data, and steganographic data within the pixels of images.   
The  Knowvation  DX  software  application  suite  from  Progressive  Technology  Federal 
Systems (PTFS) addresses all hidden information.  Once the words, concepts and images 
that are sensitive have been defined, the Knowvation DX Redaction Editor combines 
Knowvation’s  standard  content  management  capabilities  with  advanced  search 
techniques  such  as  Variable Adaptive  Pattern Recognition  (VAPR
TM
) to  identify  the 
visible text that is sensitive.  It can also redact sensitive images within manually drawn 
redaction zones.   
The Knowvation DX PDF Sanitizer operates in tandem with PDF Redaction to produce 
declassified PDF documents.  The Knowvation DX PDF Sanitizer was designed to address 
all possible combinations of hidden content in a PDF file.   The product is currently at 
Version 1.2, and removes hidden information such as metadata, bookmarks and PDF 
notes.    The  next  version  will  remove  all  remaining  hidden  content  as  well  as 
steganographic  data.    The  Table  below  summarizes  the redaction  and  sanitization 
processes. 
VB Imaging - VB Codabar Generator
check digit function for user's security consideration. Right click the project -> Properties -> Build -> Platform Create Codabar on Certain PDF Document Area.
decrypt pdf password online; create pdf the security level is set to high
C# Imaging - C# MSI Plessey Barcode Tutorial
to automatically add checksum digit for better data security. Plessey barcode at certain area of a document file, like Word, Excel, PowerPoint, PDF and TIFF
convert locked pdf to word doc; pdf secure signature
Knowvation DX PDF Sanitizer
TM
1.  WHY THE PDF FORMAT IS USED
PDF  is  a  de  facto  standard  for  sharing  information  electronically.    It  is  used  for 
converting files that have been created in different applications (e.g., word processing, 
graphics, publishing) into a format that can be viewed by the Adobe Reader software 
that is made available for free.   
PDF  provides  excellent  fidelity  and  portability,  and  allows  for  easy  distribution  of 
documents.  The  PDF  format  is  used  for  file  exchange  via  email,  for  publishing 
documents on the web, and for interactive content like forms and multimedia.  The PDF 
files retain the appearance of the original content across varying types of hardware 
and software that will be used to view the files. 
The  PDF  format  has  been  used  as  a  “safe”  format  for  mass  distribution  to  a  wide 
audience  via  email  or  posting  to  public  websites.    However,  the  robustness  and 
complexity of PDF formats allow for a wide variety of content types, which increases the 
likelihood that sensitive data may be unintentionally retained in a file.  In this regard, 
NSA has published information on methods to safely produce PDF files from MS Word.  
Understanding  the  inherent  risks  requires at  least a  basic understanding of the PDF 
format.    Even  though  the  format  is  “open”,  understanding  the  structure  and  the 
associated risks is not trivial. 
The  PDF  format  has become  increasingly  popular  for  physical  to  digital document 
conversion projects as well as declassification and FOIA projects.  This format provides 
the exact appearance of the original document but is also searchable (when OCR’d) 
and  can be  indexed  as  a  single document  or  when  combined  with  thousands  of 
documents.  
PDF Source 
Process 
Sub-process 
Explanations 
Knowvation Services 
Trusted and Secure 
Digitization Process 
Redaction  
Redact Visible 
Text 
Redact Dirty Words / 
Concepts / Figures 
Done in production by 
Knowvation DX 
Redaction Editor 
Redact Hidden 
Text Layer  
Non-Secure Source 
- Digitized Hardcopy 
All Sources - Born-
Digital Formats (MS 
Office, CAD, etc.) 
Sanitization 
Sanitize Optional 
Objects 
Remove optional PDF 
objects that may 
contain sensitive text  
PDF Sanitizer
TM
1.2 
removes metadata, 
bookmarks and 
comments. Complete 
requirements and 
solution are defined in 
the Knowvation 
Roadmap for future 
releases. 
Sanitize Internal 
Hidden Data 
Scrub text that is hidden 
in the internal structure 
Sanitize 
Steganographic 
Data 
Disrupt pixels to disable 
decoding of messages 
hidden in images 
Table 1 – Redaction and Sanitization Processes 
VB Imaging - VB Code 93 Generator Tutorial
to create Code 93 barcode on a certain page of PDF or Word document in VB Easy to use barcode relocation API solution to change barcode position within VB
pdf password unlock; decrypt pdf password
C# Imaging - Decode Code 93 Barcode in C#.NET
a higher density and data security enhancement to Right click the project -> Properties -> Build -> Platform & recognition from PDF document, our RasterEdge
advanced pdf encryption remover; can print pdf security
Knowvation DX PDF Sanitizer
TM
2.  PDF HIDING PLACES 
Virtually any PDF document may include hidden content that cannot be detected with 
visual inspection. 
2.1  W
HERE 
C
AN 
I
NFORMATION 
B
H
IDDEN IN 
PDF
S
PDF software provides a set of features that supports a broad range of editing and 
display capabilities.  These capabilities are implemented in multiple structural layers 
within PDF files, and each layer may contain hidden content.  Given the pervasive use 
of PDF, it is important to address all file  layers and content types that may contain 
hidden data, in order to reduce the risks of accidentally disclosing sensitive information. 
Most users familiar with PDF think of it as a collection of pages that generally look the 
same  regardless  of  operating  system  or  viewer  application.   However,  the  internal 
structure of the PDF file is much more than that.  There are three structural components 
of a PDF:  
1.  Visible Image Layer;  
2.  Hidden Text Layer; and  
3.  Internal Structure.   
Content can be hidden in any of these components. 
2.2  W
HAT 
K
IND OF 
C
ONTENT 
C
AN 
B
H
IDDEN IN THE 
PDF? 
Within the PDF file structure, there are four types of hidden content:  
1.  Hidden text in the Visible Image and Hidden Text Layers; 
2.  Optional objects in the Internal Structure that provide information about the PDF 
content; 
3.  Comments within the Internal Structure; and  
4.  Steganographic data within the Visible Image Layer.   
Each is discussed below. 
2.2.1  Hidden Text 
Text may be present in both the visible text (the searchable part) and in the image of 
that text (the display and print  part) in a PDF document.  Hidden text is  present  in 
searchable-image PDF files that were created from page images which have been 
converted to text using Optical Character Recognition (OCR). 
C# Imaging - C# Code 93 Generator Tutorial
Users can freely adjust the coordinates to change barcode location on Create Code 93 on C# Document Page. Code 93 linear barcode pictures on PDF documents, multi
decrypt pdf with password; pdf encryption
Knowvation DX PDF Sanitizer
TM
Figure 2.2.2-1: Data Created by MS Word 
2.2.2  Optional Objects 
The  structure  of  a  PDF  document  provides  a 
general-purpose  mechanism  for  maintaining  a 
binary representation of a set of generic objects. 
These “optional” objects are the building blocks 
for what the user ultimately perceives as a set of 
pages. 
In the vast majority of PDF files, optional objects 
are used in a manner that conforms to the PDF 
file format specification, and present no special 
exposure  to  carrying  sensitive  information, 
concealed  or  otherwise.    However,  due  to  the 
general-purpose nature of this object system, it is 
possible for sensitive information to be concealed 
in the PDF file in a manner that is not identifiable 
through visual inspection by an end user.  In fact, 
non-visible data may be  included  as  a  normal 
action of the application creating the document, and not consciously added by the 
user.  For example, when an image is cropped in MS Word, the user only sees the 
cropped image, but the file retains the entire image and may port the entire image to 
PDF along with the cropping indicators. MS Word also captures metadata from the IT 
system it resides on (see Figure 2.2.2-1), and that metadata may be classified at a level 
above  the  information  in  the  document.   
W
hether  or  not  hidden  data  is  included 
consciously, a PDF file runs the risk of serving as the electronic document equivalent of 
 Trojan  horse,  appearing  from  the  outside  as  a  benign  document,  but  carrying 
potentially dangerous material inside.  The PDF may also act as a reverse Trojan horse 
where a released document unwittingly transports sensitive data wrapped in releasable 
material in a way that is not obvious to the casual reader or recipient. 
The following set of more than thirty objects and artifacts can be included in a PDF file 
(Please see Attachment 1 for descriptions of these items):   
Document Metadata 
Object Metadata 
Embedded Content 
and File Attachments 
Annotations and 
Comments 
Form Fields and Form 
Data 
Hidden Text – Not 
Searchable Image 
Hidden Text – 
Searchable Image 
(optional) 
Hidden Layers 
Bookmarks 
Embedded Search 
Index 
Digital Signatures 
Adobe Reader 
Extensions 
Article Threads 
Links, Actions and Scripts 
Watermarks 
Stamps 
Bates Numbers 
Typewriter Text 
Sticky Notes 
Highlighted, Crossed 
Out, or Underlined Text 
Buttons 
Multimedia (Video, 
Sounds, SWF, 3D 
objects) 
Drawing Markups 
Markups Added by 
Third-Party Plug-ins  
Embedded Print Settings 
Knowvation DX PDF Sanitizer
TM
Overlapping Objects, 
Obscured Text and 
Images 
Embedded Images with 
Reduced Display 
Dimensions 
Embedded Thumbnail 
Images 
Alternate Images 
PDF Opening View 
Automatic Page 
Advancement and 
Page Transitions  
Deleted Hidden Page 
and Image Content 
It is desirable to remove the optional components within PDF documents because they 
may contain sensitive hidden content, or because they are otherwise deemed to be 
inappropriate for declassified publication. 
2.2.3  Comments
Comments are the third major type of potentially sensitive hidden internal data in a 
PDF file.   PDF comments are lines of text, preceded by a “%” character, that can 
optionally exist within the PDF file, but that have no representation within the PDF object 
mechanism. Comments can be used to provide supplemental information about how 
components of the file are structured, or about where the data was generated.  They 
are  used  by  publishers  of  electronic  documents  to  provide  a  linkage  between  a 
generated PDF file and some source document.   For example, a PDF file produced 
from Adobe Illustrator may contain PDF comments that are ignored by Acrobat, but 
that  can  be  used  by  Illustrator  in  the  event  that  the  PDF  file  is  re-imported  into 
Illustrator.  These comments are typically benign, but because they are not displayed 
within Acrobat, they can contain data that is difficult to review. 
Comments  can  be  used  to  embed  sensitive  information  into  the  PDF  file  that  is 
completely undetectable to everyone except a knowledgeable expert equipped with 
a binary file editor. 
2.2.4  Steganographic Data 
Steganographic data is content that may be hidden in the internal structure within 
raster images that are, or become part of a PDF file.  Such data or messages are 
invisible  to  the  naked  eye,  yet  they  can  be  decoded  by  a  user  that  has  the 
appropriate software.   
Steganographic content may take several forms.  For example, it may be image data 
that is obscure to the normal viewer, typically as a watermark or mask.  It may also 
take the form of binary data that is communicated through the source image’s pixel-
level data.  These hidden messages are very difficult to detect in all their forms. 
Knowvation DX PDF Sanitizer
TM
Figure 3-1: Document Scanning Process 
3.  PDF’S FROM SECURE VERSUS NON-SECURE SOURCES 
PDF files may be produced from hardcopy 
documents  or  from  electronic  files.  
Hardcopy documents can be converted to 
PDF via scanning (See Figure 3-1).  Electronic 
files  in  “born-digital”  format  are  usually 
converted  into  PDF  using  commercial 
conversion  software  programs  (known  as 
“distillers”) that accept source formats such 
as Postscript, MS Word or Computer-Aided 
Design format, and produce output to PDF.  
Note  that  these  electronic  files may  have 
originated  as  hardcopy  documents  that 
were converted to text files via OCR.  Any 
application  that  can  send  output  to  a 
printer  can  interface  with  Acrobat’s  print 
driver software to generate a PDF file.   
There are many potential sources for data in a PDF document.  Some examples are: 
Adobe Distiller and the PDFMaker tools (two of the common applications used to 
convert an MS Word file to a PDF) translate much of the layering complexity from 
one format to the next.   
Images placed on top of text in an MS Word document will continue to hide (but 
not prevent access to) the underlying text within the resulting PDF file.   
Metadata captured by MS Word which may be classified at a level above the 
information in the document. 
Non-visible data is included as a normal action of the application creating the 
document, but not consciously added by the user.    
Acrobat  Professional  and  Adobe  LiveCycle  Designer  can  generate  PDF  output 
without requiring input from any external source document.   
Metadata and non-visible data created by applications are typically present in PDFs 
without  any  malicious  intent.    However,  the  presence  of  this  data  may  have 
unanticipated consequences if the document is distributed without restriction.  As a 
result of these many sources of data in PDFs, a user receiving a PDF document and 
wishing  to  remove  sensitive  data  before  sharing  the  document  may  need  a 
sanitization procedure to fully determine whether sensitive data remains in the file.  
PDFs that are created by digitizing media in a secure environment by trusted sources 
have only one place where information can be transmitted that is not visible when 
reviewing the image online -- the Hidden Text Layer of the PDF.  PDFs that are created 
in a non-secure environment by unknown sources may be more complex and have 
many  places  where  information  can  be  hidden,  including  optional  objects, 
Knowvation DX PDF Sanitizer
TM
comments, and steganographic data.  It is easier to eliminate undesirable information 
from  a  file  created  in  a  secure  environment  than  one  created  in  a  non-secure 
environment.  Therefore, PDFs from a non-secure source require more comprehensive 
processes to find and remove hidden text that may contain sensitive information.     
4.  REDACTION AND SANITIZATION 
PDF redaction and sanitization are the processes for removing visible text and hidden 
data that is sensitive from a PDF document so that the document may be distributed to 
a broader audience.    
Content may need to be removed from a PDF document due to security, privacy, 
confidentiality  or  other  legal  considerations.  For  example,  security  and  privacy 
considerations may make it necessary to remove the name of the author, specific 
content, or comments that were embedded in the file when the PDF was created or 
subsequently edited.  Redaction and sanitization both pertain to the removal of visible 
and hidden content that is not intended for publication and distribution to a broad 
audience.  This includes allowing the PDFs to move from a higher level security domain 
(i.e., JWICS) to a lower level (i.e., SIPRNet).   
We use the term PDF “redaction” to refer to the process of removing text from the 
image layer and OCR or hidden text layer of a PDF document that was provided by a 
trusted source.
In this case, electronic documents were created through digitization 
(scanning) of hard copy paper or film media by PTFS or another trusted source that 
had complete control over how the PDF was made and what information was placed 
into the PDF structure.  As a result, only image data and text layer data created via 
OCR need to be addressed for the removal of unwanted material.   
We  use  the  term  PDF  “sanitization”  to  refer  to  the  follow-on  process  of  removing 
additional hidden content from a PDF document that was provided by a non-secure 
source
 Here, electronic documents were not
created through digitization performed 
by a trusted source.  As a result, redaction is not sufficient to ensure that all sensitive 
content has been removed.  Sanitization additionally addresses hidden content in PDF 
files  created  from  “born-digital”  formats  (e.g.,  Microsoft  Office,  FrameMaker,  CAD 
software). 
4.1  R
EDACTION
Redaction  begins  with  the  identification  of  sensitive  or  “dirty”  words,  concepts  or 
images that need to be removed. Once the visible dirty words or zones of dirty content 
are found and approved for removal, they are removed and replaced with black, 
white, or colored rectangles and noted by an Exemption Code stamp. The sensitive 
information is removed from both the visible image layer as well as the hidden OCR 
layer. 
Knowvation DX PDF Sanitizer
TM
4.2  S
ANITIZATION
Three forms of sanitization are needed – removing optional objects, scrubbing internal 
data, and disrupting steganographic data. Implementing these processes make PDF 
documents virtually inviolable and enhances their security when shared to lower level 
domains. 
4.2.1  Removing Optional Objects
In order to remove unwanted optional objects, the objects contained within the file 
must be examined; the objects defined by the PDF standard must be validated; and 
the outliers that are to be expunged must be identified.  The validation process can 
produce a report of the exceptions that it encounters within the file.   
The process of validating internal objects for an input PDF file produces a list of non-
standard objects, including those outside of the published PDF standard.  It is then 
necessary to ensure that potentially sensitive information contained within those non-
standard objects is removed from the PDF file before the file proceeds to the mark-up 
and redaction processes. 
The process for expunging this sensitive information using Knowvation DX PDF Sanitizer 
is a two step process.  In the first step, the objects’ references within the PDF file are 
removed.  In the second step, a new PDF file is created in place of the original, utilizing 
a technique known in PDF as a “referenced links saved” operation.   This operation 
effectively rewrites the document to the binary file system from scratch, including only 
those objects for which a current reference within the PDF file exists. All objects that 
are no longer referenced within the PDF file are eliminated, which ensures that the 
scrubbed objects will have no binary representation.  This means that any sensitive 
information  that  may  have  been  removed  through  scrubbing  can  no  longer  be 
reconstructed, even by knowledgeable PDF experts using the most sophisticated PDF 
toolkits and binary file editors. 
4.2.2  Scrubbing Internal Data
The “referenced links saved” operation to remove optional objects by creating a new 
file  will  also scrub PDF  comments, which are  one  type of  internal  data that  may 
contain sensitive information in a PDF file.   
4.2.3  Disrupting Steganographic Data
Steganographic data or messages are very difficult to detect in all their forms.  Full 
detection would require pixel-by-pixel analysis of each image found in the PDF file, 
using a definition file of known steganographic data encryption methods. 
Fortunately, measures can be taken to insure that any hidden steganographic data 
cannot  be decoded. Decoding steganographic data can be disabled by making 
Documents you may be interested
Documents you may be interested