how to upload pdf file in c# windows application : How to search pdf files for text SDK application service wpf windows .net dnn pdfguide0-part570

Guide To Creating Accessible PDFs 
Section 508 
Accessibility of Electronic and Information Technology  
for People with Disabilities 
How to search pdf files for text - search text inside PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn how to search text in PDF document and obtain text content and location information
select text pdf file; search multiple pdf files for text
How to search pdf files for text - VB.NET PDF Text Search Library: search text inside PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn How to Search Text in PDF Document and Obtain Text Content and Location Information in VB.NET application
find text in pdf files; select text in pdf file
2
INTRODUCTION   
Scanned PDFs Versus Text PDFs 
Scanned PDFs are essentially a picture of a document. Just like a paper copy, the information is 
not accessible to people who are blind and to many people who have low vision. Text PDFs, 
however, can be accessible if they are prepared correctly. 
You get a Text PDF by— 
Converting the source document to a PDF directly from the source application using a 
PDFMaker. 
Converting scanned (image) PDFs to text with an Optical Character Recognition (OCR) tool. 
Distinguishing Between Scanned and Text PDFs 
How do you know if a file is a scanned PDF or a text PDF?  
There are two easy ways: 
Use the Text tool in Acrobat and see if you can highlight text in the document. If you can't, 
the document has not been rendered by an OCR tool, and assistive technology will not be 
able to read it.  
Use the Quick Check feature in Acrobat. Go to the Advanced menu, select Accessibility 
and then Quick Check. If the document is an image (scanned PDF), a message will appear 
saying the document appears to contain no text. 
If you can highlight the text or the Quick Check recognizes text, go to the Text PDFs 
section. 
If you cannot highlight the text or the Quick Check does not recognize text, go to the Scanned 
PDFs 
section. 
Scanned PDFs 
Although it is better to create the PDF from the source application, sometimes you must begin with a 
scanned document because you don’t have the electronic source file (Word, Excel, etc.). A scanned 
document is an image file until it goes through the OCR process. 
If you only have a paper copy, scan your document with your scanner set for grayscale 
scanning and text and images. If your document is scanned using a setting other then 
grayscale, the resulting PDF will be color indexed, and Acrobat might interpret the text as image 
objects and not text. If this occurs, you must use a graphics program to change the image to 
grayscale.  
Use at least 300 dpi (dots per inch). The greater the resolution (higher number), the better your 
results will be. 
If you scanned the document as an image PDF or you have an existing scanned PDF, you must 
render the text with an OCR tool. Although you can use any OCR software like OmniPage or 
ScanSoft (which might be more suitable for large documents), these instructions discuss the 
OCR tool built into Acrobat Professional 7.x.  
VB.NET PDF Convert to HTML SDK: Convert PDF to html files in vb.
be easily edited), is less searchable for search engines are able to perform high fidelity PDF to HTML Converted HTML files preserve all the contents of source
find and replace text in pdf; search text in multiple pdf
C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net
DotNetNuke), SharePoint. All text content of target PDF document can be copied and pasted to .txt files by keeping original layout. C#.NET
how to select all text in pdf; searching pdf files for text
Converting a Scanned Document to Text  
To perform OCR in Acrobat— 
1.  Go to the Document menu, select Recognize Text Using OCR and then Start
Figure 1. Path for accessing the Acrobat OCR tool 
2.  The Recognize Text dialogue box will open. 
Figure 2. Recognize Text dialogue box 
3.  Click the Edit button to configure the settings. A second dialogue box will appear: 
Figure 3. Recognize Text-Settings dialogue box 
4.  Define the following fields in the Recognize Text-Settings dialogue box:  
a. Primary OCR Language: English (US)  
b. PDF Output Style: Formatted Text & Graphics  
c. Downsample Images: Lowest (unless the document requires higher resolution images, but this 
will increase the file size). 
5.  Click OK to close the Recognize Text-Settings dialogue box and return to the Recognize Text 
dialogue box.  
6.  Click OK to close the Recognize Text dialogue box and start the rendering process. This might take 
a few minutes to complete.  
3
VB.NET PDF Convert to Text SDK: Convert PDF to txt files in vb.net
Convert PDF to text in .NET WinForms and ASP.NET project. Text in any PDF fields can be copied and pasted to .txt files by keeping original layout.
how to search pdf files for text; pdf text select tool
C# HTML5 PDF Viewer SDK to view PDF document online in C#.NET
Images. File and Page Process. File: Merge, Append PDF Files. File: Split PDF Rotate a PDF Page. PDF Read. Text: Extract Text from PDF. Text: Search Text in PDF.
pdf make text searchable; how to select text on pdf
7.  If you try to render a PDF that is already a Text PDF, a message appears stating "Acrobat could not 
perform recognition (OCR) on the page because this page contains renderable text.” 
Figure 4. Message that appears if you try to 
render a file that is already a Text PDF 
Checking your Rendered Text Document  
Once the document has gone through the OCR process, the PDF is a Text PDF. Unfortunately, this 
process doesn’t work perfectly. If Acrobat isn't able to translate something, it labels it as a 
“Suspect”. To ensure your document reads correctly, you must review these suspects and make any 
necessary corrections. 
1.  Go to the Document menu and then Recognize Text Using OCR. 
Figure 5. Path for accessing OCR tool 
2. Option 1: Select Find First OCR Suspect. 
a.  The Find Element dialogue box will pop up showing the first OCR Suspect.   
Figure 6. Find Element dialogue box 
The OCR 
suspect will be 
highlighted on 
the page.
e.
b.  The suspect will be highlighted in the text and in the middle of the dialogue box. The tool’s text 
“interpretation” appears in the suspect field. 
4
VB.NET PDF File Merge Library: Merge, append PDF files in vb.net
File: Merge, Append PDF Files. |. Home ›› XDoc.PDF ›› VB.NET PDF: Merge and Append PDF. VB.NET Demo code to Combine and Merge Multiple PDF Files into One.
how to select all text in pdf file; how to select text in pdf image
VB.NET Create PDF from Text to convert txt files to PDF in vb.net
Images. File & Page Process. File: Merge, Append PDF Files. File: Split PDF Document. PDF Read. Text: Extract Text from PDF. Text: Search Text in PDF. Image
how to search a pdf document for text; convert pdf to searchable text online
c.  Make corrections in the Suspect field and then select Accept and Find. (You must “accept” a 
suspect for Acrobat to identify it as text. If you select Find Next, the suspect will remain as an 
image.) 
d.  If the OCR tool identifies a suspect that shouldn’t be read as text (object, image, rule line, etc.), 
select Not Text. This will leave the item as an image/object. 
3. Option 2: Select Find All OCR Suspects. 
a.  The page or document will now have a rectangular red box around every OCR suspect. 
b.  When you click on a red box, the Find Element dialogue box will appear, allowing you to make 
and accept corrections, as discussed above.  
Text PDFs 
A PDF with rendered and recognized text still requires work to ensure it includes— 
Correct “tags” 
Alternative text describing all images and objects that are not “background” 
Correct reading order  
Bookmarks 
Document properties, including language assignment 
Tags 
“Tags” help assistive technology interpret documents by identifying the purpose of each element on the 
page (e.g., paragraph <p>, heading level 1 <h1>, table <table>, figure <figure>, list <l>, list item <li>, 
etc.).  
If you created a PDF from the source application and enabled tags in the conversion settings, 
your document should already be tagged. If not, you will need to add them. 
1. Option 1: From the Advanced menu, select Accessibility and then Add Tags to Document. 
(This choice is best if your document is lengthy.) 
Figure 7. Path for accessing the Add Tags to Document option 
2. Option 2: From the Advanced menu, select Accessibility and then TouchUp Reading Order. 
(This choice is best if your document is short because it allows more accurate tagging.)  
5
C# Create PDF from Text to convert txt files to PDF in C#.net, ASP
Images. File and Page Process. File: Merge, Append PDF Files. File: Split PDF Rotate a PDF Page. PDF Read. Text: Extract Text from PDF. Text: Search Text in PDF.
search text in pdf using java; text searchable pdf
C# PDF Convert to HTML SDK: Convert PDF to html files in C#.net
HTML webpage will have original formatting and interrelation of text and graphical How to Use C#.NET Demo Code to Convert PDF Document to HTML5 Files in C#
pdf text search tool; search pdf documents for text
Figure 8. TouchUp Reading 
Order dialogue box 
a.  Using your cursor, draw a rectangle around each piece of content to highlight it. (You must do 
this before many of the tagging choices in the TouchUp Reading Order dialogue box become 
available.) 
i.  If the item you wish to change is already grouped correctly, you may click on its number in 
the upper left corner (see Figure 9). 
b.  Tag each piece of content correctly, identifying headers, tables, figures, etc. separately 
i.  Be sure to identify background items (like rule lines) correctly so they will be tagged as 
“artifacts” and ignored by assistive technology. 
ii.  When your are done, your page should look something like this: 
Figure 9. Example of what a PDF page looks like 
when using the TouchUp Reading Order tool if 
the Show Page Content Order option is selected 
6
iii.  Note that the figures in Figure 9 are missing alternative text. See Alternative Text for Figures 
and Objects 
for guidance on adding alternative text. 
3.  Once you’ve added tags, you can view them by going to the View menu and selecting Navigation 
Tabs and then Tags. 
Figure 10. Path for accessing the Tags Panel 
4.  In the resulting Tags Panel, click on the "+" sign next to Tags to expand the listing and view the 
tags added to the document (this is called the tag tree).  
Figure 11. Tags Panel (left) and Tags Panel (right) showing the expanded tag tree 
Alternative Text for Figures and Objects 
Alternative text is a short description describing an image or object that conveys information. It 
allows a person using assistive technology to interpret information that is conveyed visually. For 
example, Figure 11 could have the following alternative text associated with it:  
Figure 11. The Tags Panel showing a collapsed Tags listing (as indicated by a plus sign) (left) 
and the Tags Panel showing an expanded Tags listing or tag tree (right). 
Note: If you created the PDF from a source document that already included alternative text and 
enabled tag creation in the conversion settings, the document should include that alternative text. 
Note: In Acrobat, alternative text is referred to as “alternate” text. 
1.  Open the TouchUp Reading Order dialogue box as discussed in Step 2 of the Tags section. When 
you do this, you should see sections of content grouped as shown in Figure 12 below. 
a.  Identify any figures/objects missing alternative text. These items should be identified onscreen 
by a note that reads “No alternate text exists.” 
b.  Right click on the image and select Edit Alternate Text.  
7
2.  Add a description of the figure in the resulting dialogue box. Do not start the description with “Image 
of” or “Figure of” unless it is important to convey that it is a particular kind of image (e.g., 
screenshot, photograph, diagram, flowchart, etc.). 
Reading Order 
You need to check if the reading order of your document is correct, especially if you used the Add Tags 
to Document option. As the name implies, reading order is the order in which assistive technology 
reads content to users.  
1.  To review reading order, open the TouchUp Reading Order dialogue box. 
a.  As long as you have checked the Show Page Content Order option on the TouchUp Reading 
Order dialogue box, Acrobat will display the order in which content will be “read” by assistive 
technology (see numbers on content boxes in Figure 12). In the example below, some of the 
content is out of order (for example, the two text columns will not be read in consecutive order 
as they should be). This will hinder understanding of the document, so you should fix it. 
Figure 12. An example of a PDF page with incorrect 
reading order 
2.  To fix reading order— 
a.  Select the Show Order Panel button on the TouchUp Reading Order dialogue box (see Figure 
8). 
b.  In the resulting Order Panel, select and drag the item that you need to move to its proper 
position. 
8
Figure 13. Order Panel showing the 
reading order of the document 
Bookmarks 
Bookmarks allow users to navigate through a PDF by clicking the bookmark names in the 
Bookmarks panel (see Figure 14). There are two ways to create new bookmarks. 
Creating Bookmarks Individually 
1. Create Bookmarks.  
a.  Select text (or an image or part of an image) that you want to serve as the destination of the 
bookmark.  
b.  Press Ctrl-B (or click the New Bookmark icon at the top of the Bookmarks tab).  
c.  Repeat as necessary.  
2.  In the Bookmarks panel, give the bookmark a descriptive title (preferable one that matches 
headings in the text). 
Figure 14. Bookmarks Panel  
Creating Bookmarks from Document Structure 
If you have a document that has been tagged with headings, you can create bookmarks from those 
headings in one step. 
1.  From the Bookmarks panel, select Options and then New Bookmarks from Structure. 
2.  In the Structure Elements dialogue box, select the heading levels that you want to use for 
bookmarks (e.g., heading 1, heading 2). 
3.  Enter a title for the set of bookmarks (e.g., replace “Untitled” with “Contents”). 
9
Document Properties 
Section 508 requires authors to specify the language used in the document. The other document 
properties discussed below help visitors find documents online. Further, the Office of Communications 
is developing agency document standards that may stipulate their use.  
1.  Go to File and Document Properties
2.  On the Advanced tab, make sure the Language field is set to “English US”. 
Figure 15. Document Properties dialogue box showing 
the available language options on the Advanced tab. 
3.  On the Description tab, insert useful entries in the Title, Author, Subject, and Keyword fields. 
Figure 16. Description tab of the Document Properties 
dialogue box 
10
Documents you may be interested
Documents you may be interested