how to upload and view pdf file in asp net c# : How to select all text in pdf file Library control component asp.net web page windows mvc nsa-redact0-part297

Report # I333-015R-2005
Date 12/13/2005
Redacting with Confidence: How to Safely Publish 
Sanitized Reports Converted From Word to PDF
Architectures and Applications Division
of the
Systems and Network Attack Center (SNAC)
Information Assurance Directorate
National Security Agency
ATTN: I333
9800 Savage Rd. STE 6704
Ft. Meade, MD 20755-6704
(410) 854-6191  commercial
(410) 854-6510 facsimile
W2Kguides@nsa.gov
CLASSIFICATION//X1
How to select all text in pdf file - search text inside PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn how to search text in PDF document and obtain text content and location information
pdf find text; make pdf text searchable
How to select all text in pdf file - VB.NET PDF Text Search Library: search text inside PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn How to Search Text in PDF Document and Obtain Text Content and Location Information in VB.NET application
convert a scanned pdf to searchable text; search pdf files for text programmatically
1
This page intentionally left blank.
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
Extract various types of image from PDF file, like XObject Image, XObject Form, Inline Image, etc. C#: Select All Images from One PDF Page.
select text in pdf reader; search multiple pdf files for text
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
Dim allImages = PDFImageHandler.ExtractImages(doc) ' Extract all images in page 2. Dim page As PDFPage = doc VB.NET : Select An Image from PDF Page by
pdf text select tool; text searchable pdf
2
Abstract
There are a number of pitfalls for the person attempting to sanitize a Word document for release.  
This paper describes the issue, and gives a step-by-step description of how to do it with 
confidence that inappropriate material will not be released.
SUMMARY
Both the Microsoft Word document format (MS Word) and Adobe Portable Document (PDF) are 
complex, sophisticated computer data formats.  They can contain many kinds of information 
such as text, graphics, tables, images, meta-data, and more all mixed together.  The complexity 
makes them potential vehicles for exposing information unintentionally, especially when 
downgrading or sanitizing classified materials.    Although the focus is on MS Word, the general 
guidance applies to other word processors and office tools, such as WordPerfect, PowerPoint, 
Excel, Star Office, etc.
This document does not address all the issues that can arise when distributing or downgrading 
original document formats such as MS Word or MS PowerPoint.  Using original source formats, 
such as MS Word, for downgrading can entail exceptional risks; the lengthy and complicated 
procedures for mitigating such risks are outside the scope of this note.
DETAILS
MS Word is used throughout the DoD and the Intelligence Community (IC) for preparing 
documents, reports, notes, and other formal and informal materials.  Commonly used versions of 
MS Word include Word 2000, Word XP, and Word 2003.
Adobe PDF is used very extensively by all parts of the U.S. Government and military services 
for disseminating and distributing documents of all kinds.  PDF provides excellent fidelity and 
portability, and allows easy distribution of documents over computer networks and the Internet.  
PDF files are usually produced using commercial conversion software (so-called “distillers”) that 
accept source formats such as Postscript or MS Word, and output PDF.  PDF is often used as the 
format for downgraded or sanitized documents.
As numerous people have learned to their chagrin, merely converting an MS Word document to 
PDF does not remove all metadata automatically.  In addition, Adobe Distiller and the 
PDFMaker Add-in to MS Word (the most common way to convert) convert much of the layering 
complexity from one format to the next.  For example, images placed on top of text in MS Word 
will be copied verbatim to PDF with the same layout.
Typical Kinds of Exposures
When attempting to sanitize a document, analysts commit three common mistakes with MS 
Word and PDF that lead to most cases of unintentional exposure.
1. Redaction of Text and Diagrams- Covering text, charts, tables, or diagrams with black 
rectangles, or highlighting text in black, is a common and effective means of redaction 
for hardcopy printed materials.  It is not effective, in general, for computer documents 
distributed across computer networks (i.e. in “softcopy” format). The most common 
mistake is covering text with black.
VB.NET PDF Text Redact Library: select, redact text content from
coding example shows you how to redact PDF text content Dim outputFilePath As String = Program.RootPath + "\\" output.pdf" ' open document All Rights Reserved
find and replace text in pdf; search a pdf file for text
C# PDF Text Redact Library: select, redact text content from PDF
C# coding example describes how to redact PDF text content. String outputFilePath = Program.RootPath + "\\" output.pdf"; // open document All Rights Reserved
find text in pdf image; search text in pdf image
3
2. Redaction of Images- Covering up parts of an image with separate graphics such as 
black rectangles, or making images ‘unreadable’ by reducing their size, has also be en 
used for redaction of hardcopy printed materials.  It is generally not effective for 
computer documents distributed in softcopy form.
3. Meta-data and Document Properties - In addition to the visible content of a document, 
most office tools, such as MS Word, contain substantial hidden information about the 
document.  This information is often as sensitive as the original document, and its 
presence in downgraded or sanitized documents has historically led to compromise.
Note that many of these mistakes can also occur inadvertently in document composition.  For 
example, sensitive information in an embedded image can be overlaid with another image during 
format.  Such hidden data can be difficult to be spot during manual review of the softcopy.
Application Tools and Settings for Removing Data
Microsoft Word XP/2003: Microsoft has attempted to remedy certain issues with Metadata in 
Office XP and up by including a menu option to remove personal information (metadata).  There 
is also a tool available for free from MS, Remove Hidden Data 1.0 (for XP) and 1.1 (for Office 
2003), hereafter referred to as RHD, that allows batch removal information from Word 
documents.  None of these will remove sensitive information from the main document; neither 
will they remove all metadata of possible concern. And RHD 1.0 suffered from stability issues.  
Reliance of these tools may give a false sense of security. 
Figure A: PDFMaker Settings in MS Word
C# HTML5 PDF Viewer SDK to view PDF document online in C#.NET
Compatible with all Windows systems and supports .NET Framework 2.0 & above Able to select PDF document scaling. Easy to search PDF text in whole PDF document.
find text in pdf files; pdf searchable text converter
VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
Compatible with all Windows systems and supports .NET Framework 2.0 & above Able to select PDF document scaling. Easy to search PDF text in whole PDF document.
select text in pdf; how to select text in pdf and copy
4
Adobe Acrobat 5.0/6.0:  The use of PDF conversion tools on a Word document does guarantee 
the removal of a great deal of data, such as version information and change tracking.  These tools 
also convert embedded objects such as Excel spreadsheets into images so that only the viewable 
face of the object remains.    Adobe’s conversion tool for within Word, PDFMaker, is an add -in 
that works in connection with Adobe Distiller.  Distiller is a robust PostScript to PDF application 
whose operation can be modified by Conversion Settings selectable within Distiller or 
PDFMaker (Select Adob
e PDF->Change Conversion Settings->Advanced Settings).  Most of 
these tweak the size and resolution of the resulting PDF.   PDFMaker itself has a number of 
Word-specific settings as shown in Figure A, two of which are relevant to the sanitizer.  The 
checkbox “Convert Document Information” controls the  conversion of MS Word metadata to 
PDF and is checked by default.  “Attach source file to Adobe PDF” does just what it suggest: it 
inserts a copy of the original Word document inside the output file, almost certainly not what 
was intended by the analyst.  It is unchecked by default.  Unselecting “Convert Document 
Information” removes one avenue of metadata leakage, but will not stop the other sources of 
leakage.
Deletion not Redaction
The key concept for understanding the issues that lead to the inadvertent exposure is that 
information hidden or covered in a computer document can almost always be recovered.  The 
way to avoid exposure is to ensure that sensitive information is not just visually hidden or made 
illegible, but is actually removed from the original document.  Thus any sensitive information 
must be removed from the document through deletion. The procedures detailed below discuss 
some of the ways to maintain formatting during the process. 
Section 2: Procedures to Sanitize a Word Document
The following steps were tested with MS Word 2000 and Acrobat 5.0 and 6.0.  Other recent 
versions should work similarly.  While time-consuming, these steps give the highest confidence 
that sensitive information is not hidden in the released document.   Copying the text and images 
into a blank document is a good way to manually review a sensitive document, since sections can 
be copied over one at a time as they are reviewed.   
Pictorial Outline of Procedure--
Copy of Original 
Report.doc
Original Report.doc
Sensitive 
Data
Save a copy of the 
original document and 
edit this document instead.  
The original remains as a 
backup.
Original Word 
Document with 
Sensitive Data
Copy of Word 
Document with 
Sensitive Data
VB.NET PDF - View PDF with WPF PDF Viewer for VB.NET
13. Cancel. Unhighlight all search results on PDF. 14. Whole word. Select to search all text content filled in. 15. Ignore case.
convert pdf to word searchable text; how to search text in pdf document
C# WPF PDF Viewer SDK to view PDF document in C#.NET
13. Cancel. Unhighlight all search results on PDF. 14. Whole word. Select to search all text content filled in. 15. Ignore case.
how to select text in pdf; how to select text in pdf image
5
Redacted Report.doc
Review document and delete sensitive text, 
diagrams, tables and images using the techniques 
described.  Turn off Track Changes, Comments, 
and other visible markups.  Rename document to 
remove sensitive information and to indicate 
manual redaction has been completed. 
NewRedacted 
Report.doc
Open new blank Word document, and select and 
copy data into it.  This step removes residual 
document composition information (except data 
associated with the default template!).  Selecting 
and copying section by section is a good way to 
verify that redaction was done correctly. 
New Redacted 
Report.pdf
Final Redacted 
Output.
Convert Word document to PDF (here using 
PDFMaker).  Review final output PDF for 
missed redactions, or formatting issues. 
Redacted Copy of 
Original Document 
(sensitive metadata)
New Document 
with Redacted Copy 
(metadata reset)
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
example that you can use it to extract all images from Dim page As PDFPage = doc.GetPage(3) ' Select image by you how to copy pages from a PDF file and paste
converting pdf to searchable text format; pdf searchable text
C# WPF PDF Viewer SDK to annotate PDF document in C#.NET
PDF annotating tool, which is compatible with all Windows systems Click to select drawing annotation with default properties Click to add a text box to specific
convert pdf to searchable text online; can't select text in pdf file
6
Detailed Procedure
Create a new copy of the document. 
1.
Open the document and select 
File->SaveAs
from the top menu bar; 
give the file a new name. Make sure the 
new name is not itself sensitive. Do all 
redacting work with the new copy, 
preserving the original as a backup.
Turn Off Track Changes 
2.
The Track Changes feature is a toggle. 
Selecting 
Tools->Track Changes
from 
the top menu bar toggles the feature on 
or off. The quickest way to determine if 
Track Changes is on or off is by looking 
at the bottom status bar. The letters TRK 
are dimmed if Track Changes is off and 
bold if Track Changes is on.
Review and Delete Sensitive Content
3.
Select each chart, diagram, image or 
segment of text to be redacted and delete 
that item. Delete all comments.
Resizing an image, covering a section 
with a black box, or changing the color 
of a font to make it invisible will not 
work. The item must be deleted. If 
deleting an item changes the format or 
structure of the document in an 
unacceptable way, replace the item with 
meaningless content of a size that keeps
the formatting correct. If the redacted 
item is text, replace the text with copies 
of a single character such as all As or all 
Xs. If the redacted item is an image or a 
chart, replace the item with a gray 
rectangle of the same size.
Example: Redacting text. Figure 1 on 
the right shows a page of a document 
before redaction. Figure 2 shows the 
same page after deleting some text (the 
area marked by the large black arrows at 
the top of the figures). 
Figure 1 – Original Document
Figure 2 – Text deleted from original changes 
formatting
7
Notice that the chart and a paragraph 
from the next page move up in the 
document because deleting the text has 
shifted the subsequent text (the area 
marked by the large black arrow at the 
bottom of figure 2). 
Because of this shift, subsequent pages 
may need to be reformatted to ensure 
figures stay with certain text, or that 
page breaks are in the correct place, or 
that other such formatting issues do not 
adversely alter the appearance of the 
document. This could be time 
consuming for a large document. If 
formatting changes are a concern, 
replace the text with meaningless 
content of the same size rather than 
delete it. Figure 3 shows a before and 
after close-up of the replaced text. 
Notice that the paragraph following the 
replaced text did not shift position thus 
preserving the formatting of the rest of 
the document.
Example: Redacting a chart, image, or 
other object. Figure 4 shows the page 
from Figure 1 after redacting some text 
and deleting the chart. In this case, the 
chart is an image. Notice that some text 
and part of a table have shifted onto the 
page. To preserve the formatting, insert a 
gray rectangle the same size as the chart 
(or image) into the vacant space as 
detailed in the following steps:
a. Before deleting the image, determine 
its size: select the image, select 
Format->Picture
from the top 
menu bar, and then select the 
Size
tab in the Format Picture dialog box.  
Make a note of the height and width 
of the image.
b. Select the image and delete it.
Figure 3— Replacing deleted text with an equal 
amount of meaningless text.
Figure 4
8
c. Insert a rectangle in the same space: 
select 
Insert->Picture->Autoshapes
from the top menu bar (this opens 
the AutoShapes toolbar). Select the 
rectangle from the Autoshapes 
toolbar as in Figure 5.  Left click the 
rectangle which creates a drawing 
canvas.  Move the cursor somewhere 
on the drawing canvas, left click 
again to drop a rectangle on the 
canvas.
d. resize the rectangle: select the 
rectangle, move it to the upper left 
corner of the drawing canvas, right 
click, select 
Format AutoShape
from the menu as in Figure 6 (this 
opens the Format AutoShape dialog 
box), select the Size tab, enter the 
desired height and width of the 
rectangle and hit 
OK
Figure 5
Figure 6
9
e. Fill the rectangle with gray: select 
the paint bucket on the bottom 
toolbar which brings up the Fill 
toolbar shown in Figure 7.  Left click 
on one of the gray colors.
f. Figure 8 shows the page after 
redacting the text and the chart; 
Notice that the format and page 
layout of the subsequent text in the 
document is preserved.
Figure 7
Figure 8
Documents you may be interested
Documents you may be interested