itextsharp c# view pdf : Extract image from pdf in control application utility azure web page winforms visual studio D4.1%20%E2%80%93%20Intermediate%20report%20on%20digitised%20input%20content1-part1341

11 
Figure 9: Self-made V-shape book scanner based on double EOS600D (18MPix each) developed by the French partner. 
Prototype will be tested in June 2011. 
Figure 10: Epson GT-20000 with auto document feeder for loose leave documents  
Figure 11 shows the different types of the output format of the raw images depending on the type of the used 
scanner. That means that different steps in the further workflow are necessary. 
Extract image from pdf in - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract images pdf acrobat; how to extract images from pdf
Extract image from pdf in - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract image from pdf in; extract pictures pdf
12 
Figure 11: Output of the scanner software depending on the type of used scanner hardware 
2.4  Scanner software used in the thinkMOTION project 
For each scanner an own scanner software is delivered or offered. Usually these software tools work probably 
and provide the main functionality of the hardware. Most of the project partners use the software, which was 
delivered with the scanner. However, in some cases the delivered scanner software does not work properly. 
E.g., the hardware of the book scanner Plustek OpticBook A300 works very good and fast but the delivered 
scanner software causes a small but important problem. In the Scan-to-file-mode different picture file formats 
can  be  chosen,  such  as TIFF-uncompressed  without  any  parameters  and TIFF-compressed  with  some 
compression parameters 
but both settings save the scan files in a JPEG-compressed TIFF-file with a loss of 
quality. However, it is a fundamental fixing in the thinkMOTION project to save the raw scan data in an 
uncompressed or lossless compressed file format.  
Alternatively,  we used a picture viewer  with a batch scanning  function  via  TWAIN  interface,  such  as 
IrfanView (www.irfanview.com) and the latest 
vendor’s scanner driver. 
But now there comes up a new 
problem. The device buttons for starting the scanning process at the Plustek OpticBook A300 Scanner cannot 
be used while scanning via a third-party software. Therefore, the scanning process has to trigger with the 
mouse button or the PC keyboard. It is an uncomfortable handling because the operator has to press the book 
against the scanner’s book edge, normally with two hands, in order to get a good 
scanning result and at the 
same time the operator has to start scanning process by the mouse button or the keyboard.  
A well-proven solution could be found in the project by using a foot switch (Figure 12) in addition to mouse 
and keyboard. Therefore, the operator has both hands on the book and can trigger the scanning process with 
his or her foot. It is even easier than the usage of the original device buttons. 
VB.NET PDF Text Extract Library: extract text content from PDF
Extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
pdf image extractor c#; extract images from pdf online
C# PDF Text Extract Library: extract text content from PDF file in
Ability to extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
pdf image extractor online; how to extract text from pdf image file
13 
Figure 12: Foot switch for triggering the scanning process 
2.5  Scanning parameters and file format for saving the raw scans 
The following parameters are defined for scanning paper-based documents within the thinkMOTION project: 
Colour Mode: Scan colour mode depends on your type of document 
 All pages have to be scanned in c
olour mode with 24 bit, “True Colour”, 16,7 Million colours 
for documents with more than about 5% coloured pages. 
 All pages have to be scanned in grey scale with 8 bit, 256 grey scales, for all black and white 
or grey shaded documents. 
 All pages have to be scanned with grey scale and additionally all colour pages in colour mode 
if the document contains less than 5% colour pages. 
 2 bit, bitmap or black and white scan modes are not allowed for scanning in this project.  
Resolution: Generally, the documents have to be scanned with a resolution of at least 300 dpi. 
Documents with small lines and small fonts should be scanned with 400 dpi. The resolution within a 
document should not be changed, because it causes problems in later steps. 
Quality improvement tools of scanner software: In normal case, it is not allowed in this project to 
use any kind of filters and image corrections functions such as brightness, contrast, sharpness etc. 
during the scanning process. They should be switched off. The quality improvement process takes 
place in WP5. The raw scan data have to be saved unchanged. 
Scanning area: To reduce the file size the scanning area can be reduced and be adjusted to the page 
size. However, it is necessary to check that no content disappears. Reducing the scanning area can 
speed up the scanning process significantly. The scanning area (width and height) for the same size of 
pages within a document should be equal.  
The file size of the scanned images can reach approximately between  5 and 70 MB depending on the 
resolution, the colour mode and the  page size. Therefore, an  adequate disk space at  the  local scanning 
computer is essentially. Recommended is a free disk space of at least 1 Terabyte. 
Scan files must be saved in a TIFF uncompressed file format (lossless compression as TIFF-LZW is possible 
to reduce the file size but not recommended). The lossless TIFF-ZIP compression cannot be used in this 
project because the software ScanTailor, which is used for further processing steps in WP5, cannot import this 
file format. Any lossy compressions such as JPEG are not allowed for scanning paper-based documents in the 
thinkMOTION Project. 
C# PDF insert image Library: insert images into PDF in C#.net, ASP
C#.NET PDF SDK - Add Image to PDF Page in C#.NET. How to Insert & Add Image, Picture or Logo on PDF Page Using C#.NET. Add Image to PDF Page Using C#.NET.
extract images from pdf; extract images from pdf acrobat
VB.NET PDF insert image library: insert images into PDF in vb.net
VB.NET PDF - Add Image to PDF Page in VB.NET. Insert Image to PDF Page Using VB. Add necessary references: RasterEdge.Imaging.Basic.dll.
extract pictures from pdf; how to extract images from pdf file
14 
2.6  File naming and saving path 
The scanned files have to be saved in the folders, which were generated by the ProDB website automatically 
and described in Table 1. The scanned files should be named according to the following file name scheme. 
Usually the scanner software can automatically generate file name suffixes (running numbers). The operator 
has to initialize the start index, the number of digits and the increment value. 
File naming: xxxxxxxxx_####.tif  
xxxxxxxxx  
9-digit DMG-ID (see DMG-Lib 
ProDB, the same like in folder name) 
####   
4-digit serial number with the following parameters: 
start index = 0001; 
increment for the next single or double page image = 1; 
index for scanning of fold-out pages in the fold-
out state = “page index of the 
fold-out page scanned in the fold-
in state”+[a
-z],  
Example: 
 image of the fold-out page scanned in the fold-in state: 
001547009_0067.tif,  
 image of the fold-out page scanned in the fold-out state 
001547009_0067a.tif (Figure 4), and if it is too large for the scanner 
hardware, it have to be scanned 
into multiple images and b, c, d … 
have 
to be attached 
to the file name such as 001547009_0067b.tif …
Depending on the used type of the scanner hardware and the type of scanned pages different folders (Figure 3) 
should be used for saving the scanned images. The scanned images have to be saved into the folder 
“~/
scans
or in the corresponding subfolder generated by the “Reserving a Document for Scanning and Processing“
process described above. Figure 14 shows the general workflow for processing documents and especially the 
different handling for the output of different scanners. 
Figure 13 
Folders, which should be used for saving scanned images, depending on the type of scanner and the types of pages
C# Create PDF from images Library to convert Jpeg, png images to
Best and professional C# image to PDF converter SDK for Visual Studio .NET. C#.NET Example: Convert One Image to PDF in Visual C# .NET Class.
extract pdf pages to jpg; online pdf image extractor
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
Page: Extract, Copy and Paste PDF Pages. Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others in C#.NET Program.
extract images from pdf c#; extract images from pdf files
15 
Figure 14 
General workflow for processing documents, folders for saving scanned images depending on the type of scanner 
hardware as well as the flow of generated documents 
2.7  Additional file handling for special pages like cover or fold-out pages 
Cover pages, if they are not blank, and fold-out pages in the fold-out state should scanned into the folder 
~\special_pages
.  These  pages  have  to  be  processed  separately from  the  normal  content  pages.  After 
finishing the quality improvement workflow steps in WP5 and before starting the OCR process, these special 
pages have to be merged with the normal scanning sequence.  
The images of the fold-out pages in the fold-out state should be inserted after the fold-out pages scanned in the 
fold-in state in the normal scanning sequence. So the user can see, while page turning in the online portal, 
these pages first in the fold-in state and then in the fold-out state, just as in the original paper document. 
Before inserting these pages, the correct file naming as defined above has to be rechecked, so that the pages 
are in the correct alphabetic order. 
2.8  Additional file h
andling for „
Single page book scanners
For single  page book scanners, such as the Plustek OpticBook A300, scanning  of odd and even pages 
alternately (means scanning following the page numbers) leads to errors such as twice scanned pages or 
forgotten and not scanned pages, because the book has to be turned after each scan. Another problem is the 
additional physical work load for the operator
’s wrist and arm
by turning the book permanently. For this 
reason, it is recommended to scan all odd pages first and then all even pages in two different folders.  
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
example that you can use it to extract all images from PDF document. ' Get page 3 from the document. Dim page As PDFPage = doc.GetPage(3) ' Select image by the
extract pdf images; how to extract images from pdf in acrobat
VB.NET PDF Form Data Read library: extract form data from PDF in
PDF software, it should have functions for processing text, image as well tell you how to read or retrieve field data from PDF and how to extract and get
pdf extract images; extract images from pdf files without using copy and paste
16 
Figure 15 
Example of scanned pages in the odd and the even folder
The scanned odd pages are in an upright position and all even pages are upside-down (Figure 15) and have to 
be turned in a further workflow step with the tool ScanTailor in WP5 automatically.  
After finishing the scanning process with a single page book scanner both scanning sequences have to be 
merged to one sequence in the folder 
~\scans
. A simple cut&paste process causes errors because the file 
names are equal. If different file names would be used, the correct order of the pages will be lost. If the files 
would be renamed by using a suffix index, problems with gaps in the index sequence (caused by rescanned 
and deleted pages), will occur. 
One possible way is to rename the files by using a prefix index number (Table 2). This can be done with a 
batch-renaming tool like Total Commander (www.ghisler.com).  
Table 2 
Example of renaming odd files, the rescanned page n° 7 has no effect on the order of renamed files 
Original page 
number in book 
Old file name 
New file name 
Remark  
~_0001.tif 
0001~_0001.tif 
~_0002.tif 
0003~_0002.tif 
~_0003.tif 
0005~_0003.tif 
~_0005.tif 
0007~_0005.tif 
(Page scanned twice, ~_0004.tif moved to 
~\scans\odd\bad_scans 
~_0006.tif 
0009~_0006.tif 
Figure 16 shows the renamed and merged pages ready for further workflow steps in WP5. Since all even 
pages are in an upside-down position, it is easy to find out if there are any errors by the renaming and merging 
process are caused. 
All scanned 
odd pages are 
in an upright 
position 
All scanned 
even pages  
are upside-
down 
17 
Figure 16 - All pages are renamed, merged and ready for processing 
2.9  Quality Check Up 
During the scanning process, a first quality check-up in the preview window of the scanner software for each 
page is necessary. It should be proved if the scanned page is complete, if the colour mode chosen correctly or 
if the page put straight on the scanner. If there is realized a faulty scan the page have to be rescanned again. 
After finishing the scanning process, or merging process (if necessary), the quality, the correct order, the 
resolution, the colour mode, the non-compression file format and a plausible file size of the scans have to be 
checked randomly.  
Results of the work package WP4 within the thinkMOTION project 
3
In the first project year, regional digitisation service centres were established in all partner countries. It was 
necessary to perform training courses with the staff to practice the workflow, the handling with the database 
and to point to possible sources of errors and problems. In preparation to these training days a lot of training 
materials and a 50-page tutorial was written, which explain all necessary steps of the workflow for digitising 
of paper- based documents in detail. This tutorial summarises the experiences in a catalogue of rules, which 
can be used by other European digitisation projects (see Annex I). 
The project partners acquired appropriate scanning devices. One partner has built a book scanner by itself 
another partner is designing its own book scanner now. All others own book scanners already, using it 
together with their libraries or bought ones.  The thinkMOTION partners work together as a European 
digitisation network for this project and in the future for further European digitisation projects. By now more 
than  1,900  books,  journal  articles,  teaching  materials,  over  3,600  slides,  and  more  than  900  physical 
demonstration models could be digitized, processed in a quality improvement process and will be accessible 
via the Europeana online portal by the end of 2011.   
While searching for relevant documents for the DMG-Lib portal some seldom documents were be found and 
digitised. Figure 17 shows two scanned pages of a handwritten transcript of the year 1868 of a lecture of 
Professor Franz Reuleaux, one of the most important scientists in mechanism science. 
18 
Figure 17
. Unprocessed handwritten transcripts of 1868 of Franz Reuleaux’s lecture “Vorträge über Maschinenbaukunde”. 
Reuleaux is one of the most important scientists in mechanism science. 
Outlook for the next project year 
4
In the next project year, the number of digitized content will be increased. The scanning equipment basis and 
the workflow, especially for pictures, slides and physical demonstration models in motion, will be improved. 
Additionally training courses for these types of sources must be prepared and performed. Training materials 
and tutorials have to be worked out. 
19 
Annex I 
Tutorial Workflow for Digitizing Paper Based Documents for the thinkMOTION Project 
2011-03-29-tutorial-digitizing_v1.0.doc  --  Release 1.0 
Tutorial 
Workflow for Digitizing  
Paper Based Documents  
for the thinkMOTION Project 
Authors: Veit Henkel, Erwin Lovasz, Michael Reeßing 
Documents 
Web upload 
Reprinted 
document 
Scanning 
OCR 
Documents you may be interested
Documents you may be interested