itextsharp c# view pdf : Extract text from pdf image software SDK dll winforms .net windows web forms D4.1%20%E2%80%93%20Intermediate%20report%20on%20digitised%20input%20content0-part1340

DELIVERABLE 
Project Acronym: 
thinkMOTION 
Grant Agreement number: 
250485 
Project Title: 
Digital Mechanism and Gear Library goes Europeana 
D4.1 - Intermediate report on digitised input content 
Revision: 1.1 
Authors:  
Veit Henkel (Ilmenau University of Technology) 
Project co-funded by the European Commission within the  ICT Policy Support Programme 
Dissemination Level 
Public 
Confidential, only for members of the consortium and the Commission Services 
Extract text from pdf image - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract photo from pdf; extract images from pdf c#
Extract text from pdf image - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
online pdf image extractor; extract jpg pdf
Revision History
Revision 
Date 
Author 
Organisation 
Description 
1.0 
29.06.11 
Veit Henkel 
IUT 
1.1 
19.07.2011 
Rike Brecht 
IUT 
Review 
Statement of originality:  
This deliverable contains original unpublished work except where 
clearly indicated otherwise. Acknowledgement of previously published 
material and of the work of others has been made through appropriate 
citation, quotation or both. 
C# PDF Text Extract Library: extract text content from PDF file in
Ability to extract highlighted text out of PDF document. Supports text extraction from scanned PDF by using XDoc.PDF for .NET Pro. Image text extraction control
extract image from pdf java; extract pdf pages to jpg
VB.NET PDF Text Extract Library: extract text content from PDF
Extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
extract jpg from pdf; some pdf image extract
Contents 
Introduction ..................................................................................................................................................4 
1
Workflow of the work package WP4 - Digitising heterogeneous input content .........................................4 
2
2.1  The aim of the work package WP4 and dependencies on other WPs ...................................................4 
2.2  Workflow of digitising paper based documents ...................................................................................4 
2.3  Scanner hardware used in the thinkMOTION project ..........................................................................8 
2.4  Scanner software used in the thinkMOTION project .........................................................................12 
2.5  Scanning parameters and file format for saving the raw scans ...........................................................13 
2.6  File naming and saving path ...............................................................................................................14 
2.7  Additional file handling for special pages like cover or fold-out pages .............................................15 
2.8 
Additional file handling for „Single page book scanners“
.................................................................15 
2.9  Quality Check Up ...............................................................................................................................17 
Results of the work package WP4 within the thinkMOTION project .......................................................17 
3
Outlook for the next project year ...............................................................................................................18 
4
Annex I ...............................................................................................................................................................19
C# PDF insert image Library: insert images into PDF in C#.net, ASP
Free PDF image processing SDK library for Visual Studio .NET program. Powerful .NET PDF image edit control, enable users to insert vector images to PDF file.
extract color image from pdf in c#; extract text from image pdf file
VB.NET PDF insert image library: insert images into PDF in vb.net
VB.NET code to add an image to the inputFilePath As String = Program.RootPath + "\\" 1.pdf" Dim doc New PDFDocument(inputFilePath) ' Get a text manager from
extract photos pdf; extract image from pdf acrobat
Introduction 
1
In June 2010  partners  from six European  universities started  the project  thinkMOTION  with the  main 
objective of providing content from the field of motion systems via the Europeana online portal.  
The located content, which  is  proved to  be relevant,  will  be digitized,  processed  and presented in  the 
multilingual interactive online portal DMG-Lib (www.dmg-lib.org) accessible also via Europeana and by this 
way also accessible for a wide range of European user groups like interested laymen, engineers, scientists, 
lecturers and students. The provided interactive material leads to a deeper understanding and motivates to 
learn more about the scientific and technical background in a European society of lifelong learning. Very 
different types of content like textual sources, physical models and drawings will be collected by partners in 
several  European  countries.  In  the  library,  new  ways  of  content  representation,  information  retrieval 
(supported by a multilingual semantic network) and cross-linking are supported. 
The thinkMOTION project is divided into ten work packages, which depend partly from each other. 
Work package 4 (abb
reviation: WP4) with the title “
Digitising heterogeneous input content
has the aim to 
digitize heterogeneous content sources using different special work places in a high quality and quantity. This 
paper is an intermediate report about the work in WP4, which was done in the first project year.  
Workflow of the work package WP4 - Digitising heterogeneous input content 
2
2.1  The aim of the work package WP4 and dependencies on other WPs 
The aim of the work package WP4 is to digitize heterogeneous content sources called input content in the 
following. For content which are already exists in digital form (e.g. proceedings of conferences of the last few 
years, which can be provided in PDF or MS Word file format) the workflow in WP4 can be skipped. Such 
content will be processed in WP5 
Processing of digitised content and integration into DMG-
Lib”
In the first project year the focus was on the digitizing of paper based documents such as books, journals, 
journal articles, patents, theses, proceedings, technical drawings, drawings from printed documents, teaching 
material. Additionally, some of the project partners have taken photos of machines, devices or portraits or 
videos of physical demonstration models or have scanned slides.  
The work in WP4 (Digitising heterogeneous input content) is depending on other work packages and tasks. 
WP4 receives input from WP3 (Locating and providing relevant sources and clarification of rights of use). In 
WP3 the located and selected content will be registered in the DMG-Lib database, the Intellectual Property 
Rights (IPR) for these input contents will be clarified and necessary rights of use will be obtained. The work 
in  WP3  provides  the  selected  content for  the digitising process  in WP4.  WP4  delivers  input for  WP5 
(Processing of digitised content and integration into DMG-Lib). In WP5, the scanned documents will be OCR 
processed, quality improved, converted into a web-compliant file format and uploaded into the DMG-Lib 
online portal accessible for Europeana.   
2.2  Workflow of digitising paper based documents 
In the thinkMOTION project a MySQL Database, running on a SuSE Linux Apache server is used for storing 
the content data, the meta data and the process data, which describes and register the data flow and all 
important workflow steps. This database is called thinkMOTION Production Data Base, in the following 
abbreviate with ProDB.   
Figure 1 shows the workflow necessary to scan, process, and upload a document. This workflow involves two 
computers: the ProDB server and local computers that are connected to the scanner 
hardware at the partner’s 
workstations.  
The four main steps in the workflow are: 
C# Create PDF from images Library to convert Jpeg, png images to
If you want to turn PDF file into image file format in C# application, then RasterEdge XDoc.PDF for .NET can also help with this.
extract images from pdf files without using copy and paste; extract image from pdf
C# PDF insert text Library: insert text into PDF content in C#.net
Text to PDF. C#.NET PDF SDK - Insert Text to PDF Document in C#.NET. Providing C# Demo Code for Adding and Inserting Text to PDF File Page with .NET PDF Library.
extract images from pdf files; how to extract images from pdf in acrobat
1. Reserving the document on the ProDB server and creating a folder structure on the local computer: 
This will lock the document and shows other users of the ProDB that they should not scan it. This 
prevents redundant work by scanning the same content at various partners. The folder structure will be 
created on the local scanner workstation computer and will be  hold the files for one document 
(scanned and processed content). 
2. Scanning: Depending on the type of the used scanner hardware, the scanned documents have to be 
saved into a specific folder of a ProDB-created folder structure by using a predefined file name on the 
local computer. 
3. Processing: To improve the visual quality of your scanned images and to make the text of the 
documents searchable, some processing steps are necessary. This work is a task of WP5. 
4. Uploading: As soon as scanning and processing is done on the local computer and the folder structure 
contains all necessary files, it can be uploaded to the ProDB server. There it will be  archived, 
imported and linked to the corresponding database entries. This work is also a task in WP5. 
Figure 1 - General workflow for reserving and uploading documents 
contains tasks of WP4 and WP5 
In the ProDB the 
Scan Workflow Overview
” page
displays a table of documents that you have edited 
recently (Figure 2, Label 1). Each line of the table contains the DMGLib ID, the author(s), the title and the 
workflow state of one document (Figure 2, Label 2). The state can be 
not scanned
reserved for scanning
or 
uploaded
The not-scanned-state means that the document has not been scanned or reserved for scanning. The reserved-
for-scanning-state shows the operator, that the document has been reserved and will be scanned and processed 
soon. The third state is named uploaded and means that the document has been scanned processed and 
uploaded. In this case, the workflow steps of digitizing and quality improvement (WP4 and WP5) are finished.  
Other  columns of the  ProDB-workflow-table  are the  scan  folder  name  the  server  has assigned  to  this 
document and a column (local path existence) that indicates if this scan folder exists on your local hard drive 
in the content folder (see Configuration section above). If a scan folder name has been assigned, but does not 
exist on the local computer, the column contains a button to create the folder on the local hard disk. 
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
Page: Extract, Copy and Paste PDF Pages. Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others in C#.NET Program.
how to extract pictures from pdf files; pdf image text extractor
VB.NET PDF Form Data Read library: extract form data from PDF in
featured PDF software, it should have functions for processing text, image as well how to read or retrieve field data from PDF and how to extract and get
extract image from pdf using; extract text from pdf image
The last column lists available actions that depend on the state of each document. These actions can make a 
reservation for scanning or can start the uploading process of the content (raw scan data and processed data). 
Actions can  be  reserve  for  scanning  and  upload  content.  The  Reserve-for-scanning-action  reserves  the 
document entry for scanning and processing. The document entry is then locked. This state will be stay until 
you have uploaded the scanned and processed content. The Upload-content-action starts the uploading process 
for the raw data and the processed content from the local scanning computer to the server. 
Figure 2 - Workflow state and reserving documents 
By reserving a document for scanning in the ProDB, a folder structure (Figure 3) will be created on the local 
computer in the chosen local content folder path.  
Figure 3 - Example for the predefined folder structure created on the local hard disk 
The names of the generated folders means: 
Main folder name: yymmdd_##_xxxxxxxxx_authorsname_begin_of_title 
yymmdd 
Date of starting process (2 digits for year, month and day) 
## 
Serial number of source of the day (start index = 01 for each day)  
xxxxxxxxx  
9-digit DMG-ID (creating by ProDB) 
authorsname 
Name of the main author or editor 
begin_of_title 
The first significant words of the title 
2
1
Subfolders are used for raw scanned data, processed data or processing project data. Table 1 shows the 
meaning and the usage of the folders. 
Table 1 
Meaning and intention of the folders and subfolders generated by the ProDB 
(“~
\
” 
means the path, which is used for the download of the folder structure from the ProDB on the local computer) 
Subfolder name 
Description what folders contain 
~\application data 
Project files of used tools such as the quality improvement 
tool ScanTailor 
~\pdf 
Output of the OCR tool ABBYY FineReader as PDF/A-File 
Not for other PDF documents such as described in 
~\original_digital_docs section 
~\original_digital_docs 
Original files, which already exist as files and do not need 
a scanning process such as MS Word or PDF documents 
~\scans 
Scanned and unchanged images, the so-called raw scans, 
as uncompressed or lossless compressed files. Use this 
folder for scans from a double page book scanner, from 
flatbed scanner or from a sheet feeder scanner. Should be 
used also for fold-out pages scanned in the fold-in state. 
~\scans\bad_scans 
Scanned images, which are incorrect and rescanned again 
should be moved into this folder and do not be deleted. 
~\scans\even 
See ~\scans  
This folder should be used for scans of the even pages 
(2,4,6,8, …)  if a single page book scanner 
is used. 
~\scans\even\bad_scans 
See ~\scans\bad_scans but for scans of even pages 
~\scans\odd 
See ~\scans  
But use this folder for scans of the odd pages (1,3,5,7, …) 
if you use a single page book scanner. 
~\scans\odd\bad_scans 
See ~\scans\bad_scans but for scans of odd pages 
~\scans\out 
Processed output images of the quality improvement tool 
ScanTailor 
~\scans\special_pages 
Scanned images of special pages such as fold-out pages 
scanned in the fold-out state, cover pages if in the original 
state, etc. (Figure 4) 
Images in this folder are the unchanged raw scans as 
uncompressed or lossless compressed files. 
Figure 4 
Special pages such as a cover page and two fold-out pages scanned in the fold-out state 
After reserving the document in the ProDB described above, the document must be scanned. The aim of this 
workflow step is to make image files from paper sources (books, articles, etc.) and to store them in the 
mentioned folder structure according to a given name scheme.  Because of further processing steps all pages 
have to be scanned, also the blank pages.  Cover pages should be scanned if they are in the original state and 
not blank (Figure 4, left). So called 
“Fold
-
out pages” have to be scanned within the fold
-in state in the normal 
scan sequence. After finishing the process by scanning the last page, the fold-out pages have to be scanned in 
the fold-out state again (Figure 4, right).  
2.3  Scanner hardware used in the thinkMOTION project  
Generally, three different types of scanners concerning the types of the output files are used in the project: 
Double page book scanner (delivers a sequence of images containing two pages in each file)  
Single page book scanner (delivers a sequence of images containing single pages, only one type of 
pages, the even or the odd pages are in an upright position 
explanation in chapter 2.8 Additional file 
h
andling for „
Single page book scanners
Sheet feeder scanner (delivers a sequence of single pages in an upright position) 
Figure 5:  Zeutschel OS 4000, book scanner with a special book-cradle  
Figure 6: Self-made V-shape book scanner 
“tm
-
books”
, developed by the Romanian partner  
10 
Figure 7: Book scanner Zeutschel OS 12000HQ  
Figure 8: Plustek OpticBook A300, low-cost book scanner with a special book-edge 
Documents you may be interested
Documents you may be interested