itextsharp c# view pdf : Extract images pdf acrobat SDK Library API .net wpf web page sharepoint D4.1%20%E2%80%93%20Intermediate%20report%20on%20digitised%20input%20content2-part1342

Table of Contents 
1.  Introduction ........................................................................................................................ 3 
2.  Data Handling – Part I: Reserve the Document on the ProDB Server and Create a Folder 
Structure on your Local Computer .................................................................................... 4 
2.1  Configuration .............................................................................................................. 4 
2.2  Description of the Scan Workflow Overview in the ProDB ......................................... 5 
2.3  Reserving a Document for Scanning and Processing ............................................... 6 
2.4  Description of the Folder Structure Created on your Local Computer ....................... 8 
3.  Scanning ........................................................................................................................... 9 
3.1  Scanner Hardware ................................................................................................... 10 
3.2  Scanner Software .................................................................................................... 11 
3.3  Scanning Parameters .............................................................................................. 11 
3.4  Saving your Scanned Raw Images .......................................................................... 12 
3.4.1  File Format ........................................................................................................ 12 
3.4.2  File Naming - Saving Path ................................................................................ 12 
3.4.3  Quality Check Up .............................................................................................. 17 
4.  Preparing and Quality Improvement of Scanned Documents ......................................... 17 
4.1  Overview .................................................................................................................. 17 
4.2  Download and Installation ........................................................................................ 18 
4.3  Processing Steps for Preparing and Cleaning of Scanned Documents ................... 18 
4.3.1  Starting and Setting Up ScanTailor .................................................................. 18 
4.3.2  Processing the Scanned Documents Step by Step in ScanTailor .................... 19 
5.  Optical Character Recognition (OCR) of Scanned, Prepared and Cleaned Documents . 32 
5.1  Overview .................................................................................................................. 32 
5.2  Download and Installation ........................................................................................ 32 
5.3  Processing Steps for OCR ....................................................................................... 32 
6.  Data Handling – Part II: Upload the Folder Structure of a Processed Document ........... 35 
Annex ..................................................................................................................................... 38 
Annex A – Check parameters for scanned files ................................................................. 38 
Annex B – Examples for working with ScanTailor .............................................................. 40 
Annex C – Examples for working with ABBYY FineReader .............................................. 49
Extract images pdf acrobat - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract photos from pdf; how to extract a picture from a pdf
Extract images pdf acrobat - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract image from pdf acrobat; extract images from pdf acrobat
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
1.  Introduction 
Please note: The important keywords of the step descriptions in this tutorial are in bold 
letters, the  names  of  buttons  or  fields,  which  are  visible  in  the  program  windows  (or 
screenshots) of the English software version as well as the names of the software, are in 
italics. 
Figure 1 shows the workflow necessary to scan, process, and upload a document. This 
workflow involves two computers: the ProDB server and your local computer that is usually 
connected to the scanner hardware.  
The four main steps are: 
1.  Reserve the document on the ProDB server and create a folder structure on the 
local computer: This will lock the document and shows other users of the ProDB that 
they should not scan it (to prevent redundant work). The folder structure will be 
created on the local computer and will hold the files for one document (scanned and 
processed content). 
2.  Scanning: Depending on the type of your scanner hardware you have to scan your 
files into a specific folder of the created folder structure by using a predefined file 
name on your local computer. 
3.  Processing: To improve the visual quality of your scanned images and to make the 
text  of  the  documents  searchable,  some  processing  steps  are  necessary.
The 
recommended software for processing is listed in Table 1. 
4.  Upload: As soon as scanning and processing is done on the local computer and the 
folder structure contains all necessary files, it can be uploaded to the ProDB server. 
There it will be archived, imported and linked to the corresponding database entries. 
Table 1 - Recommended software for processing scanned documents 
Name 
Web address 
Price 
Remark 
IrfanView  
www.irfanview.com 
Free, donations are 
welcome 
Other picture 
viewer is possible. 
ScanTailor 
scantailor.sourceforge.net  Free, donations are 
welcome 
Necessary 
ABBYY 
FineReader 
www.abbyy.de 
< 100 € in various online 
shops 
Necessary 
ABBYY 
FineReader XIX for 
Fraktur 
www.frakturschrift.com 
0.04 … 0.1 € per page 
Only necessary if 
you have a lot of 
documents with 
Gothic type. 
Total Commander 
www.ghisler.com 
Shareware, 28€ 
Other tool for batch 
renaming is 
possible. 
Adobe Professional  www.adobe.com 
About 100 € educational 
license 
Helpful for quality 
checkup of your 
generated PDF files 
- but not absolutely 
necessary.  
.NET PDF Document Viewing, Annotation, Conversion & Processing
Extract hyperlink inside PDF. PDF Write. Redact text content, images, whole pages from PDF file. Edit, update, delete PDF annotations from PDF file. Print.
extract text from image pdf file; extract image from pdf file
C# PDF Converter Library SDK to convert PDF to other file formats
other external third-party dependencies like Adobe Acrobat. NET supports file conversion between PDF and various documents and images, like Microsoft
extract image from pdf in; how to extract images from pdf
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
Scanning
Processing
LocalComputer
Createfolderstructure
Upload folderstructure
Reserve document
Server/ProDB
C# Windows Viewer - Image and Document Conversion & Rendering in
in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat. Convert to PDF. Convert to Various Images.
extract photos pdf; extract image from pdf java
C# powerpoint - PowerPoint Conversion & Rendering in C#.NET
without using other external third-party dependencies like Adobe Acrobat. 2003, 2007 and above versions, raster images (Jpeg, Png PowerPoint to PDF Conversion.
extract images pdf; extract images from pdf online
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
Figure 2 - Grant permissions to ProDB website 
2
1
Figure 3 - Configuration of Scan Workflow Overview 
2.2  Description of the Scan Workflow Overview in the ProDB 
The Scan Workflow Overview displays a table of documents that you have edited during a 
number of recent days (Figure 4, Label 1). Each line of the table contains the DMGLib ID, 
author and title and the workflow state of one document (Figure 4, Label 2).  
The state can be 
  Not scanned. – The document has not been scanned or reserved for scanning. 
  Reserved for scanning. – The document has been reserved and will be scanned 
and processed soon. 
  Uploaded. – The document has been scanned, processed and uploaded. 
Other columns of the workflow table are the scan folder name the server has assigned to 
this document and a column (local path existence) that indicates if this scan folder exists on 
your local hard drive in the content folder (see Configuration section above). If a scan folder 
name has been assigned but does not exist locally, the column contains a button to Create 
folder on local hard disk. 
The last column lists available actions that depend on the state of each document. These 
actions are 
  Reserve for scanning. – By pressing this button you reserve the document for 
scanning and processing. The document is then locked and will stay so until you 
upload the scanned and processed content. 
OK
Cancel
Filename:
File type:
All files
Searchin:
C# Word - Word Conversion in C#.NET
without using other external third-party dependencies like Adobe Acrobat. document, including Jpeg, Png, Bmp, Gif images, .NET Graphics PDF to Word Conversion.
extract image from pdf; pdf image text extractor
JPEG to PDF Converter | Convert JPEG to PDF, Convert PDF to JPEG
Features and Benefits. Powerful image converter to convert images of JPG, JPEG formats to PDF files; No need for Adobe Acrobat Reader; Seamlessly integrated into
extract image from pdf online; pdf image extractor online
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
  Upload content. – As soon as you have put the raw data and processed content into 
the folder structure, you may press this button to upload the whole folder structure to 
the server. 
2
1
Figure 4 - Workflow state and reserving documents 
2.3  Reserving a Document for Scanning and Processing 
Before you scan a document, you need to reserve this document on the server so that no 
one else tries to scan it at the same time. Follow these steps to reserve a document. 
Please follow the instruction: 
  Navigate to the Scan Workflow Overview 
  Find the table entry for the document you would like to scan. Check that its workflow 
state is Not scanned (Figure 5, Label 1) and that the Local Content folder is set 
correctly. 
  Press the Reserve button in the actions column for the document (Figure 5, Label 
2). A pop-up will ask you if you are sure that you want to reserve the document since 
it requires you to scan, to process and to upload the content of the document (Figure 
6, left). Press OK to continue. 
  Another pop-up will inform you if the reserve request was carried out successfully 
(Figure 6, right). 
PDF to WORD Converter | Convert PDF to Word, Convert Word to PDF
No need for Adobe Acrobat and Microsoft Word; Has built-in wizard to guide your Open PDF to Word Convert first; Load PDF images from local folders in "File" in
how to extract images from pdf files; how to extract images from pdf file
C# Excel - Excel Conversion & Rendering in C#.NET
without using other external third-party dependencies like Adobe Acrobat. PPT) 2003, 2007 and above versions, raster images (Jpeg, Png Excel to PDF Conversion.
pdf extract images; extract images from pdf online
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
1
2
Figure 5 - Buttons for reserving a document that is in the state Not Scanned. 
Cancel
Figure 6 - Question if the user is sure that he wants to reserve the document (left) and result of the 
reserve request (right) 
The result of the reservation process is shown in figure 7. The column workflow state has 
now changed to Reserved for scanning and the column scan folder name contains the 
folder name that has been determined by the server. Additionally, the column local path 
existence indicates if this folder exists in the base folder on your local hard disk (e.g. 
“c:\scans”,  see  section  Configuration).    After  pressing  the  Reserve  button,  the  folder 
structure should be created automatically on your local PC. 
1
2
Figure 7 - Successfully reserved document 
GIF to PDF Converter | Convert GIF to PDF, Convert PDF to GIF
and convert PDF files to GIF images with high quality. It can be functioned as an integrated component without the use of external applications & Adobe Acrobat
how to extract a picture from a pdf; extract vector image from pdf
DICOM to PDF Converter | Convert DICOM to PDF, Convert PDF to
organized interface, allowing users to convert DICOM (DICOM) images to, from PDF documents with converters, users do not need to load Adobe Acrobat or any
extract jpg from pdf; extract image from pdf in
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
2.4 Description of the Folder Structure Created on your Local 
Computer 
By means of pressing the Reserve Button in the ProDB a folder structure (Figure 8) will be 
created on your local computer in the specified Local content folder (Base Folder).  
Figure 8 - Example for the predefined folder structure created on your local hard disk – Do not change 
these folder names! 
The following name scheme is for your information only, you are not allowed to change the 
names and folder structure generated by the database. The names of the folders means: 
Main folder name: yymmdd_##_xxxxxxxxx_authorsname_begin_of_title (generated by 
ProDB) 
yymmdd 
Date of starting process (2 digits for year, month and day) 
## 
Serial number of source of the day (start index = 01 for each day)  
xxxxxxxxx  
9-digit DMG-ID (creating by ProDB) 
authorsname 
Name of the main author or editor 
begin_of_title  The first significant words of the title 
Subfolders used for: 
(“~/” means the path you have used for download the folder structure from the ProDB)
Figure 9 – Special pages such as a cover page and two fold-out pages scanned in the fold-out state 
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
Table 2 – Meaning and intention of the folders and subfolders generated by the ProDB 
Subfolder name 
Description what folders contain 
~\application data 
Project files of tools used such as ScanTailor 
~\pdf 
Output of the OCR tool ABBYY FineReader as 
PDF/A-File 
Do not use this folder for other PDF documents such 
as described in ~\original_digital_docs! 
~\original_digital_docs 
Original files, which already exist as files and do not 
need a scanning process such as MS Word or PDF 
documents 
~\scans 
Scanned and unchanged images, the so called raw 
scans, as uncompressed or lossless compressed 
files. Use this folder for scans from a double page 
book scanner, from flatbed scanner or from a sheet 
feeder scanner. Use it also for fold-out pages 
scanned in the fold-in state. 
~\scans\bad_scans 
Scanned images, which are incorrect and rescanned 
again – please move this images into this folder and 
do not delete it. 
~\scans\even 
See ~\scans  
But use this folder for scans of the even pages 
(2,4,6,8, …)  if you use a single page book scanner 
(Figure 15). 
~\scans\even\bad_scans 
See ~\scans\bad_scans but for scans of even pages 
~\scans\odd 
See ~\scans  
But use this folder for scans of the odd pages 
(1,3,5,7, …) if you use a single page book scanner 
(Figure 15). 
~\scans\odd\bad_scans 
See ~\scans\bad_scans but for scans of odd pages 
~\scans\out 
Processed output images of the quality improvement 
tool (ScanTailor) 
~\scans\special_pages 
Scanned images of special pages such as fold-out 
pages scanned in the fold-out state, cover pages if in 
the original state, etc. (Figure 9) 
Images in this folder are the unchanged raw scans as 
uncompressed or lossless compressed files. 
3.  Scanning 
The aim of this workflow step is to make image files from paper sources (books, articles, etc.) 
and to store them in a given folder structure according to a given name scheme.   
Because of further processing steps all pages have to be scanned, also blank pages!  
Cover pages should be scanned if they are in the original state and not blank (Figure 9).  
“Fold-out pages” have to be scanned within the fold-in state in the normal scan sequence. 
After finishing the process by scanning the last page, the fold-out pages have to be scanned 
in the fold-out state again (Figure 9). If those are too large for one scan, then scan them in 
multiple overlapping sections (naming see below “File naming”). 
Scan only documents for which you have the chance to clarify the rights of use! 
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
10 
3.1 Scanner Hardware 
Generally there are three different types of scanners concerning the types of output files: 
  Double page book scanner (delivers a sequence of images containing two pages in 
each file)  
  Single page book scanner (delivers a sequence of images containing single pages, 
only one type of pages, the even or the odd pages are in an upright position) 
  Flatbed and sheet feeder scanner (delivers a sequence of single pages in an upright 
position) 
Figure 10 – Double page book scanner Zeutschel with a special book cradle (left); single page book 
scanner Plustec A300 (middle); sheet feeder scanner HP Scanjet (right) 
Figure 11 – Output of the scanner software depending on the type of used scanner hardware 
thinkMOTION - Digitizing of Paper Based Documents - Tutorial 
11 
3.2 Scanner Software 
Usually each scanner will be delivered with its own scanner software. In this tutorial it is not 
possible to describe each software tool individually.  
In some cases the delivered scanner software does not work properly. E.g. the book scanner 
Plustek OpticBook A300, by itself a good device, the software has a bug. In the Scan-to-file-
mode different picture formats can be chosen, such as TIFF-uncompressed without any 
parameters and TIFF-compressed with compression parameters – but both settings save 
your scan files in a JPEG-compressed TIFF-file with a loss of quality. ScanTailor, the tool for 
the next step in the workflow, cannot handle this file format. It shows only black images after 
the importing process. Alternatively, you can use a picture viewer with a batch scanning 
function, such as IrfanView. In this case you have to install at least the vendor’s scanner 
driver. You can start the batch scanning process by choosing your scanner in the File/Select 
TWAIN source (not the WAI device) then chose File/AcquireBatch-Scanning.  
If you use the Plustek OpticBook A300 Scanner via TWAIN interface with IrfanView, you 
cannot use the buttons at your scanner device and you have to trigger your scanning 
process with the mouse button or the keyboard. It is not an easy handling. The problem is: 
You have to press the book against the scanner’s book edge, normally with two hands, in 
order to get a good result and you have to start scanning by mouse or keyboard at the same 
time. A well-proven solution is a foot switch in addition to mouse and keyboard. So you have 
both hands on the book and you can trigger the scanning process with your foot. It is even 
easier than the device buttons. 
Figure 12 – Foot switch for triggering the scan process 
3.3 Scanning Parameters 
Since each scanner software  has its individual user  interface and parameters it is not 
possible to write down a tutorial for this. From the experience with different scanner software 
some hints will be given below. It is your responsibility to find the positions in your software 
where you can set the parameters. 
The following parameters have to be observed: 
  Colour Mode: Scan colour mode depends on your type of document 
 Colour mode with 24 bit, “True Colour”, 16,7 Million colours for documents with 
more than about 5% coloured pages 
 Grey scale with 8 bit, 256 grey scales, for all black and white or grey shaded 
documents 
 Scan all pages with grey scale and additionally all colour pages in colour mode 
if the document contains about less than 5% colour pages 
 Never use 2 bit, bitmap or black and white scan mode! Even though in later 
steps we will convert it to black and white the scanned raw images must be 
archived in colour or grey scale mode (preservation). 
  Resolution: Scan generally with a resolution of at least 300 dpi. Documents with 
small lines and small fonts should be scanned with 400 dpi. Do not change the 
resolution within a document! It causes problems in later steps. 
Documents you may be interested
Documents you may be interested