itextsharp c# view pdf : Extract images from pdf files without using copy and paste Library application component asp.net html web page mvc D4.1%20%E2%80%93%20Intermediate%20report%20on%20digitised%20input%20content5-part1345

thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
32 
5.  Optical Character Recognition (OCR) of Scanned, Prepared and 
Cleaned Documents 
5.1 Overview 
After cleaning and preparing the scanned documents with ScanTailor all sources containing 
printed  text  have  to  be  processed  by  an  optical  character  recognition  tool.  For  the 
thinkMOTION project we recommend the Software ABBYY FineReader 10 Professional. 
ABBYY FineReader converts text images into machine-readable (or editable) text. Before 
performing OCR, the program analyses the structure of the entire document and detects the 
areas that are containing text, barcodes, images and tables. 
5.2 Download and Installation 
First of all you have to buy and to install the software. For installation follow the instructions 
of the setup program.  
5.3 Processing Steps for OCR 
After installing FineReader successfully, do the following steps. 
Step 1: Start the program ABBYY FineReader   
Start ABBYY FineReader by using the icon 
at your desktop or chose it from the 
Start/Program button at your Windows task bar. 
The program window opens and you have the choice between different output formats and 
different tasks (figure 31). Although it seems to be the correct task for the thinkMOTION 
project, do not use the task Adobe PDF => Convert to Searchable PDF Document because it 
saves your file as PDF format instead of the project recommended PDF/A format. Please 
uncheck the option Show at startup so that this window does not appear at the next start. 
(You can launch this window at any time by pressing the New Task button in the menu bar.) 
Figure 31 - FineReader task window after startup – do not use it! 
Please follow the instruction: 
  Ignore the start-up window with the tasks if it still appears. 
  Choose from the menu File the option New FineReader Document. 
Extract images from pdf files without using copy and paste - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
how to extract images from pdf in acrobat; extract image from pdf in
Extract images from pdf files without using copy and paste - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract image from pdf online; extract photos from pdf
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
33 
Step 2: Import the cleaned and prepared pages into the FineReader project 
In this step you have to import the single page images, which are cleaned and procesed by 
ScanTailor Software, into your FineReader project.  
Please follow the instruction: 
  Choose from the menu File the option Open PDF File/Image…  
  Navigate to the ScanTailor output directory (e.g. 
C:\scans\110125_05_010607009_reuleaux_cultur_und_technik\scans\out) and 
choose all pages (select the first TIFF file, hold down the SHIFT key, select the last 
TIFF file). 
Figure 32 – FineReader – project configuration 
  Press the Options… button and check or change the settings at the tab 
Document 
  Set the Document languages to Autoselect for normal use. 
  Set the Document print type to Autodetect for normal documents or to Typewriter if 
you have a document written in typewriter font. 
  You can leave the Document properties blank – it will be ignored in later steps 
anyway. 
  Change to tab Scan/Open 
Figure 33 – FineReader – project configuration and progress of reading and analysing the pages
  Use setting Automatically read aquired page images. 
C# PDF File Merge Library: Merge, append PDF files in C#.net, ASP.
Combine scanned images to PDF, such as tiff functions can be implemented independently, without using any Adobe to easily merge and append PDF files with mature
pdf image extractor c#; extract jpg pdf
C# PDF Convert to Images SDK: Convert PDF to png, gif images in C#
Turn multipage PDF file into single image files respectively in .NET framework. Description: Convert all the PDF pages to target format images and output
extract image from pdf java; some pdf image extractor
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
34 
  Make no Image processing (We have it already done in ScanTailor – a second time 
needs a further check-up and manual correction process!). Uncheck all options for 
this. 
  Press OK to close the options window and then Open in the Open Image Dialog. 
The program recognises all the pages of the project one by one. This step can take some 
time. The displayed window shows you the progress. 
Step 3: Work with FineReader document 
After the reading and the analysing process all opened files can be previewed on the left side 
of the window. The active area is split into two windows, containing the original Image and 
the Text, optically recognised and converted into machine-readable text. 
Figure 34 – FineReader – OCR result with highlighted unsurely recognised characters
The first page is automatically displayed in these two windows. In the Text window (right) you 
can see the characters highlighted, which are not surely recognised, and you can correct 
them. If there are too many faults, please check your setups for language and print type. 
Usually most of the highlighted characters are still correct and the user cannot see wrong 
characters in the online portal anyway. The only disadvantage is that these incorrect words 
are not found in some cases by the full text fuzzy search. But important information of the 
source such as the title, the author, the publisher and the issue date are entered as meta 
data in the database manually and will be found by the user search in all cases anyway. For 
that reason and to work efficiently in the thinkMOTION project it is not recommended to apply 
any corrections to the OCR result. 
Step 4: Exporting the FineReader document into a PDF/A document 
The next step is saving the document as a PDF/A file (PDF/A is a standardised PDF format 
for archiving). Do not use the normal PDF format, which is also offered. 
VB.NET PDF Convert to Jpeg SDK: Convert PDF to JPEG images in vb.
& pages edit, C#.NET PDF pages extract, copy, paste, C#.NET can help developers convert standard PDF file to all the content (including both images and texts
some pdf image extract; how to extract a picture from a pdf
VB.NET PDF File Split Library: Split, seperate PDF into multiple
Divide PDF file into multiple files by outputting PDF file size. Independent component for splitting PDF document in preview without using external PDF
extract text from image pdf file; extract vector image from pdf
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
35 
Please follow the instruction: 
  From the menu File choose the option Save Document As…,  choose PDF File/A 
Document (see figure 35) 
Figure 35 – FineReader – configurations for export as PDF/A file 
  Navigate to the PDF folder in your scan folder (e.g. 
C:\scans\110125_05_010607009_reuleaux_cultur_und_technik\pdf) Do not save it 
yet! 
  Press the Options… button and check or change the settings at the tab Save 
PDF/A 
  Set Paper size to Keep original image size  
  Set Save mode to Text under the page image and uncheck all options, only Keep 
headers and footers can be active.  
  Set the Picture settings to Custom… and choose the Resolution As original and set 
the Format to ZIP, Colour (lossless).  
  Press OK twice  
  In the save dialog window use the dmgID, that ends with “009”, as name of the PDF 
file and press the Save button. 
Then the program Adobe Reader opens the file containing a number of pages equal to the 
number of images. Please check the quality of the page layout, of the text and of the pictures 
and drawings. 
Please note: The selected options in all tabs of the FineReader program are saved and 
should represent the default mode on further use of the program. But you should better 
check them again for the next time or if other persons have been working with your PC.  
6.  Data Handling – Part II: Upload the Folder Structure of a 
Processed Document  
After scanning and processing a document, all the scanned raw data, the project file and 
PDF/A file containing OCR output are in the according folder structure. It is then necessary to 
upload this structure and the files to the server. To achieve this, please follow these steps. 
VB.NET PDF File Merge Library: Merge, append PDF files in vb.net
Merge two or several separate PDF files together and into one PDF VB.NET Components to combine various scanned images to PDF Merge PDF without size limitation.
extract images from pdf files without using copy and paste; pdf image extractor
C# PDF Convert to Word SDK: Convert PDF to Word library in C#.net
of target PDF document, keeps the elements (like images, tables and this situation, you need to convert PDF document to some easily editable files like Word
pdf image extractor online; extract pdf pages to jpg
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
36 
Please follow the instruction: 
  In the ProDB press Scan to navigate to the Scan Workflow Overview 
  Find the table entry for the document you would like to upload. Check that its 
workflow state is Reserved for scanning. (Figure 7, Label 1). 
  Press the Upload button in the actions column for the document (Figure 36). A pop-
up will ask you if all necessary content (e.g. raw scans, PDF file) has been placed into 
the correct subfolders of the predefined folder structure (Figure 37). Press OK to 
continue. 
Figure 36 - Button for uploading the folder structure of a document 
Cancel
Figure 37 - Pop-up that asks if all content is in place and ready for upload 
  An Uploader window will appear and will list the folder selected for upload. Please 
check if this is the folder you intend to upload and press the Next button (Figure 39). 
Note: Your web-browser may display a security warning since the Uploader needs to 
access your local hard drive (Figure 38). Please select Run. 
  The Upload window will display an indicator that reflects the progress of the upload 
(Figure 40). As soon as the transfer completes, you can press the Close button of the 
Uploader. 
  If the upload was successful, in the ProDB the workflow state of the document will 
change to Uploaded. (Figure 41). Note: In some web-browsers it is necessary to 
press the Refresh button to see the new workflow state. If the upload did not 
complete successfully, an error window will display a log of the failed upload process. 
VB.NET PDF Convert to Word SDK: Convert PDF to Word library in vb.
PDF pages can be converted to separate Word files within a PDF content by outputting its texts and images to Word In order to convert PDF document to Word file
extract image from pdf; extract image from pdf c#
C# Create PDF from Word Library to convert docx, doc to PDF in C#.
Easy to create searchable and scanned PDF files from Word. Free online Word to PDF converter without email. RasterEdge.XDoc.PDF.dll.
pdf extract images; how to extract text from pdf image file
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
37 
Figure 38 - Pop-up that asks permission to access the local hard drive in order to upload scanned content 
Figure 39 - Main window of the Uploader with the list of items scheduled for upload 
Figure 40 - Main window of the Uploader with a progress indicator 
Figure 41 - Successfully uploaded document 
C# PDF insert image Library: insert images into PDF in C#.net, ASP
Create high resolution PDF file without image quality losing in ASP.NET application. Add multiple images to multipage PDF document in .NET WinForms.
extract images from pdf; online pdf image extractor
C# Create PDF from PowerPoint Library to convert pptx, ppt to PDF
Easy to create searchable and scanned PDF files from PowerPoint. Free online PowerPoint to PDF converter without email. RasterEdge.XDoc.PDF.dll.
extract pdf images; extract images from pdf file
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
38 
Annex 
The following examples should give you a feeling for the problems and criteria, which have to be 
observed and used during the workflow of digitizing documents for the thinkMOTION project. The 
annex is divided into two parts. Annex A shows examples for working with ScanTailor and Annex B 
shows examples for working with ABBYY FineReader. 
Annex A – Check parameters for scanned files 
This annex shows you some examples for bad parameters for scanning. 
Please check by samples the compression parameters, the resolution and the number of colours in 
the image properties of your scanned files. You can use a picture viewer like IrfanView (Menu 
bar/Image/Information).  
Figure A1 shows wrong compression parameter. In this case the scanned pictures are JPEG 
compressed inside a TIFF file.  
Figure  A2  shows  the  compression  errors  for  the  wrong  parameters  from  Figure  A1.  JPEG 
compression is bad for character recognition and also the ScanTailor software is not able to import 
such files. Do not use it! 
Please observe that the file extension do not tell you in any case how the file is compressed! TIFF-
files for example can be inside lossy JPEG compressed (example_2_colour.tif in Figure A1). So it 
is absolutely necessary to check the file properties with a tool like IrfanView. 
Figure A1 - Wrong compression parameter - JPEG 
compression in a TIFF file 
Figure A2 - JPEG compression error - blowing types 
(and lines) and JPEG boxes 
Figure A3 shows another wrong compression parameter. In this case a Fax Encoding compression 
is used. This compression uses only two colours black and white. In Figure A4 you can see gaps in 
the types as the result of the encoding compression errors.  This effect is extra strong on typewriter 
sources. Such compression errors are bad for character recognition. Do not use it! 
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
39 
Figure A3 - Wrong Compression – Fax Encoding, 2 colours 
Figure A4 - Fax Encoding compression error – gaps in the types, especially on typewriter sources 
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
40 
Annex B – Examples for working with ScanTailor 
The following examples explain the influence of the settings on the quality of the output pages. 
Some settings are to be seen in more than one example but with different sources to make you 
sensitive for the problems, which you have to pay attention to when using ScanTailor. 
B1 Influence of the colour mode settings for the colour mode Grayscale 
on the page and margin appearance  
Figure B1 - Greyscale mode, margins are of the original scanned background colour 
Figure B2 - Greyscale mode, margins are filled with white colour 
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
41 
Figure B3 - Greyscale mode, margins are white filled, the background of the content region is equalized to the 
white margins, but the rear side content is visible again, even though with a lower visibility 
Figure B4 - Colour mode settings: Black and White mode. The colour is lost. Do not use this setting for all-over 
imprinted sources! 
Documents you may be interested
Documents you may be interested