itextsharp c# view pdf : How to extract text from pdf image file control application system web page html azure console dcvm0-part1401

Contact: 
pdfsupport@pdf-tools.com 
Owner: 
PDF Tools AG 
Kasernenstrasse 1 
8184 Bachenbülach 
Switzerland 
http://www.pdf-tools.com 
Copyright © 2001-2016 
3-Heights™ Document 
Converter SME Edition 
Version 4.6 
User Manual 
How to extract text from pdf image file - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract jpg pdf; how to extract images from pdf file
How to extract text from pdf image file - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract image from pdf using; how to extract a picture from a pdf
3-Heights™ Document Converter, Version 4.6 
Page 2 of 68 
January 25, 2016
© PDF Tools AG - Premium PDF Technology 
Table of Contents
1
Introduction .......................................................................................... 4
1.1
Product Editions ...................................................................................... 4
1.1.1
Enterprise Edition ............................................................................. 5
1.1.2
Small-Medium Enterprise Edition (SME) ............................................... 6
1.1.3
Desktop Edition ................................................................................ 6
1.2
Applications ........................................................................................... 6
1.2.1
Online Applications............................................................................ 6
1.2.2
Batch Processing .............................................................................. 7
1.2.3
Archiving ......................................................................................... 7
1.2.4
Document Assembly and Publishing .................................................... 7
1.3
Features ................................................................................................ 7
2
Installation ............................................................................................ 9
2.1
Platform Requirements ............................................................................ 9
2.2
Platform Preparation ............................................................................... 9
2.3
Server Installation ................................................................................ 11
2.4
Server Configuration ............................................................................. 11
2.4.1
License Configuration ...................................................................... 12
2.4.2
Service Configuration ...................................................................... 13
2.4.3
Office Configuration ........................................................................ 13
2.4.4
Outlook Configuration ...................................................................... 15
2.4.5
Watched folder Configuration ........................................................... 17
2.5
Post Installation Procedure for Server Components ................................... 18
2.5.1
Page Count Logging ........................................................................ 18
2.5.2
Document Conversion Settings ......................................................... 18
2.5.3
Watched Folder Options ................................................................... 19
2.6
Client Installation.................................................................................. 21
2.7
Updating an Existing Installation ............................................................. 21
3
Using the Document Converter ............................................................ 22
3.1
Explorer Shell Extension ........................................................................ 22
3.1.1
Using the Shell Pop-up .................................................................... 22
3.1.2
Configuration of the Pop-up Menu ..................................................... 23
3.2
Watched Folders ................................................................................... 23
3.3
Command Line Executable ..................................................................... 23
3.4
Office Add-In ........................................................................................ 24
3.4.1
Configuration ................................................................................. 24
3.4.2
Installation for 64-Bit Office ............................................................. 24
3.4.3
Using the Office Add-In ................................................................... 24
4
Configuration ....................................................................................... 26
4.1
Conversion Control................................................................................ 26
4.2
O2PSRV.exe.config ............................................................................... 37
4.3
O2PWSC.exe.config ............................................................................... 38
4.4
O2PWFS.exe ........................................................................................ 39
4.4.1
O2PWFS.ini .................................................................................... 39
4.4.2
Implementation Limits ..................................................................... 41
5
Reference Manual ................................................................................ 42
C# PDF Text Extract Library: extract text content from PDF file in
PDF file. Ability to extract highlighted text out of PDF document. Supports text extraction from scanned PDF by using XDoc.PDF for .NET Pro. Image text extraction
extract vector image from pdf; extract image from pdf acrobat
VB.NET PDF Text Extract Library: extract text content from PDF
Extract and get partial and all text content from PDF file. Extract highlighted text out of PDF document. Image text extraction control provides text extraction
extract pdf images; extract images from pdf acrobat
3-Heights™ Document Converter, Version 4.6 
Page 3 of 68 
January 25, 2016
© PDF Tools AG - Premium PDF Technology 
5.1
Document Type Index ........................................................................... 42
5.2
Document Extensions Index ................................................................... 42
5.3
Processing Paradigm ............................................................................. 43
5.4
Conversion Jobs.................................................................................... 44
5.4.1
API ............................................................................................... 44
5.4.2
Command Line Executable ............................................................... 56
5.4.3
Watched Folder Service ................................................................... 56
5.4.4
Stamping ....................................................................................... 57
5.5
PDF/A.................................................................................................. 58
5.6
Security Considerations ......................................................................... 58
5.6.1
TIFF Output Format......................................................................... 59
5.6.2
Conversion of Internet Mail Messages ................................................ 60
5.6.3
HTML Conversion ............................................................................ 61
5.7
Platform Issues .................................................................................... 61
6
Troubleshooting Tips ........................................................................... 64
7
Samples ............................................................................................... 66
7.1
Command Line Tool .............................................................................. 66
7.2
C API .................................................................................................. 66
7.3
C#.NET ............................................................................................... 67
7.4
Visual Basic Script................................................................................. 67
7.5
Java .................................................................................................... 68
7.5.1
Microsoft.NET based Java API ........................................................... 68
C# PDF insert image Library: insert images into PDF in C#.net, ASP
Create high resolution PDF file without image quality losing in ASP.NET application. Add multiple images to multipage PDF document in .NET WinForms.
extract image from pdf c#; pdf image extractor
VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
Reduce image resources: Since images are usually or large size, images size reducing can help to reduce PDF file size effectively.
pdf image extractor; extract images from pdf files without using copy and paste
3-Heights™ Document Converter, Version 4.6 
Page 4 of 68 
January 25, 2016
© PDF Tools AG - Premium PDF Technology 
Introduction 
The 3-Heights™ Document Converter constitutes a solution for converting a wide range 
of document formats to PDF or TIFF. It can create PDF/A-1 and PDF/A-2 compliant files 
from office documents, images, or just simple text files. 
The Document Converter supports various document formats and also includes support 
for unpacking and processing e-mail attachments and ZIP or RAR archives that may be 
nested in arbitrary depth. 
The main purpose of this product is to help you: 
• make documents archivable (especially MS Office documents)  
• migrate existing archives  
• exchange documents  
• fulfilling standards (ISO) and security requirements  
• archive websites and e-mail  
• standardize the variety of formats across the corporation 
1.1 
Product Editions 
The Document Converter comes in three different editions. Each edition is intended for a 
certain purpose. The generic product overview and evaluation-versions can be found on 
the web at: 
https://www.pdf-tools.com/pdf/Document-Converter-Service.aspx 
VB.NET PDF insert image library: insert images into PDF in vb.net
VB.NET code to add an image to the inputFilePath As String = Program.RootPath + "\\" 1.pdf" Dim doc New PDFDocument(inputFilePath) ' Get a text manager from
pdf extract images; how to extract images from pdf files
C# PDF File Split Library: Split, seperate PDF into multiple files
Application. Best and professional adobe PDF file splitting SDK for Visual Studio .NET. outputOps); Divide PDF File into Two Using C#.
extract image from pdf in; extract image from pdf java
3-Heights™ Document Converter, Version 4.6 
Page 5 of 68 
January 25, 2016
© PDF Tools AG - Premium PDF Technology 
If you are in doubt which version is best for you, please feel free to contact the PDF 
Tools pre-sales team. 
http://www.pdf-tools.com/pdf/Corporate/Contact.aspx 
Enterprise 
Edition 
SME Edition 
Desktop 
Edition 
Operation Systems
Server 
Windows  Server 
2008,  2008-R2, 
2012 
Windows  Server 
2008,  2008-R2, 
2012 
Client 
Windows Vista or 
newer 
Unix system (via 
web-service) 
Windows Vista or 
newer 
Windows Vista or 
newer 
Terminal Server 
Required1 
Formats
Office, Text 
Yes 
Yes 
Yes 
PDF, Images 
Yes 
Yes 
Yes 
E-Mail with Attachments 
Yes 
Yes 
Website 
Yes 
Yes 
Containers (e.g. ZIP) 
Yes 
Yes 
Yes 
Custom (e.g. CAD) 
Yes 
eatures
Application/Interfaces 
Watched folders 
Shell 
extension 
for Explorer 
Watched 
e-mail 
folders via IMAP 
API 
Web-service 
Shell 
Watched folders 
Shell  extension 
for Explorer 
API 
Shell 
Interactive 
PDF/A-1, PDF/A-2 
Yes 
Yes 
Yes 
TIFF Output 
Yes 
Yes 
Load-Balancing 
Yes 
OCR 
Optional 
Optional 
Optional 
1.1.1  Enterprise Edition 
This is the full-featured server-based solution for automated document conversion. It 
can be embedded in various ways into existing systems or be used to create a new 
conversion process. It provides all features described in this documentation, such as a 
watched folder service, a shell interface for batch jobs, a shell extension to right-click a 
1 may include terminal server licenses 
C# PDF File Compress Library: Compress reduce PDF size in C#.net
Reduce image resources: Since images are usually or large size, images size reducing can help to reduce PDF file size effectively.
extract images from pdf c#; extract vector image from pdf
VB.NET PDF File Merge Library: Merge, append PDF files in vb.net
When you have downloaded the RasterEdge Image SDK for also provided you with detailed PDF processing demo Imaging.Demo directory with the file name RasterEdge
how to extract images from pdf in acrobat; extract images pdf acrobat
3-Heights™ Document Converter, Version 4.6 
Page 6 of 68 
January 25, 2016
© PDF Tools AG - Premium PDF Technology 
document in Windows Explorer and convert to PDF, API (C/C++, .NET, COM, Java), 
web-service and load-balancing. 
The Enterprise Edition is meant for medium to large corporations and/or situations 
where high throughput is needed. It requires a Windows Server operating system. 
For the installation it is required to have knowledge on Windows Server environments. 
For the configuration, it is preferable to have knowledge on PDF and PDF/A. A software 
engineer may be required when using the API and make use of the full potential of the 
product. 
The latest version of the Document Converter Enterprise Edition manual can be found on 
the web at: 
https://www.pdf-tools.com/public/downloads/manuals/dcve.pdf 
There is a separate API documentation available for the .NET interface: 
https://www.pdf-tools.com/public/downloads/manuals/dcve_api.pdf 
1.1.2  Small-Medium Enterprise Edition (SME) 
The SME Edition is a stripped-down and therefore easier to use version of the Enterprise 
Edition. It does  not provide an API, website-archiving or load-balancing.  Its main 
purpose is document conversion using watched folders. Many features, especially the 
watched folder configuration, described in this documentation apply to the SME Edition. 
The SME Edition is intended to be installed and configured by a system administrator 
who has knowledge about PDF and PDF/A. 
There is a separate installation and configuration documentation available for the SME 
Edition, which can be used as a quick-start. 
https://www.pdf-tools.com/public/downloads/manuals/dcvm.pdf 
1.1.3  Desktop Edition 
This edition is for interactive use only. It is a separate desktop-tool and has nothing in 
common with respect to installation, configuration and use with other editions. However, 
the resulting PDF/A documents are equal to the other editions. 
Its documentation can be found here: 
https://www.pdf-tools.com/public/downloads/manuals/dcvd.pdf 
1.2 
Applications 
The  3-Heights™  Document  Converter  addresses  applications  that  are  in  need  of 
automated document conversion. 
1.2.1  Online Applications 
Online applications as well as interactive clients make use of the Document Converter to 
provide document conversion on-the-fly. Typical documents are processed in only a few 
3-Heights™ Document Converter, Version 4.6 
Page 7 of 68 
January 25, 2016
© PDF Tools AG - Premium PDF Technology 
seconds to be presented to the users. There is no need to set up any infrastructure on 
the client side, making deployment as easy as possible. 
1.2.2  Batch Processing 
Batch processing is supported in several ways by the Document Converter. A convenient 
way to handle conversion batches is via so called “watched folders”. Input documents 
just need to be copied into a dedicated folder to be automatically processed, with the 
output documents created in the configured output folder. 
Even more flexibility is available by integrating the service into application specific 
scripts or command files. 
1.2.3  Archiving 
The 3-Heights™ Document Converter is a great tool for archiving mixed collections of 
office  documents,  including  e-mail  with  attachments.  It  also  accepts  ZIP  or  RAR 
archives, and produces a single PDF/A-1 or PDF/A-2 conforming document containing 
the whole collection of input documents converted to PDF. 
1.2.4  Document Assembly and Publishing 
The capability to convert and assemble documents can also serve to assemble multiple 
documents into one and prepare it for distribution. 
1.3 
Features 
The 3-Heights™ Document Converter combines the features of the 3-Heights™ PDF 
Producer driver for Windows and the various document authoring applications such as 
Microsoft Word, Excel, PowerPoint, Visio, etc. 
The most significant features include 
•  Robust client/server architecture 
•  Scalability for high throughput by parallel processing 
•  Quick and easy installation (MSI Installer) 
•  Configuration application for easy management of conversion settings 
•  Minimal platform and resources requirements for clients 
•  Convenient integration into user environment via explorer pop-up menu 
•  Automatic conversion processing from watched folders 
•  Application Programming Interfaces available (C/C++, Java, COM) 
•  Support for multiple office application versions 
•  The document applications and formats currently supported are 
•  Microsoft Office, including Word, Excel, PowerPoint, Visio, Outlook 
•  Versions 12 or later (MS Office 2007, 2010, 2013); recommended version is MS 
Office 2010 (64 bit) 
3-Heights™ Document Converter, Version 4.6 
Page 8 of 68 
January 25, 2016
© PDF Tools AG - Premium PDF Technology 
•  Document formats corresponding to the installed MS Office version 
•  MS Word accepts non-native formats, such as plain text (ASCII and UNICODE), 
WordPerfect, HTML and others. 
•  The only MS Outlook format currently supported are .MSG files; these may contain 
any content that Outlook can display and print; attachments are extracted and 
converted as well 
•  PDF (Portable Document Format) 
•  EML (Internet Mail Message format, as exported e. g. from Outlook Express) 
•  Image Documents (TIFF, JPEG, BMP, PNG, GIF, JBIG2, JP2, JPM) 
•  ZIP or RAR files containing documents corresponding to any supported format 
•  Output as PDF: PDF/A-1b, PDF/A-1a, PDF/A-2b, PDF/A-2u, PDF/A-2a, PDF/A-3 
(a,u,b) 
•  Output as TIFF: Bi-tonal, Monochrome, Color; with CCITT G4, JPEG, flate, LZW or 
no compression 
3-Heights™ Document Converter, Version 4.6 
Page 9 of 68 
January 25, 2016
© PDF Tools AG - Premium PDF Technology 
Installation 
This chapter guides you through the installation of the 3-Heights™ Document Converter. 
2.1 
Platform Requirements 
The hardware and software resources required for proper operation of the Document 
Converter depend on the type of input documents and processing options used. The 
following table lists typical scenarios with recommended minimum resources: 
Disk 
Memory 
CPUs 
Small  Office  Documents,  low  throughput  (<1  page  per 
second average) 
100 
MB 
512 MB 
Complex Documents 
200 
MB 
1-2 GB 
Raster image based documents for conversion with OCR 
recognition; moderate throughput; OCR Service on separate 
Computer 
200 
MB 
512 MB 
OCR Service platform (per 2 CPU OCR license) 
200 
MB 
512 MB 
In addition to the resources listed above, add the disk space requirements for any office 
applications you need to install to support the corresponding source document formats. 
As you may have noticed from the table above, the following factors and parameters are 
involved: 
Disk space usually is not an issue. The Document Converter installation is small, and 
disk  space  is  determined  mainly  by  space  requirements  for  storing  log  files  and 
temporary files. 
Memory requirements are mostly determined by the type of conversions involved. Office 
applications may demand a significant amount of memory when source documents are 
large or complex. Another reason for high memory demand can be e.g. high resolution 
PDF  to TIFF conversion  (that is  performed natively  by  the  Document  Converter). 
Configuring multiple worker sessions will also require more memory, as each session will 
occupy a certain amount of memory (which can vary from a few MB to several 100 MB 
depending on the type of documents being processed). 
2.2 
Platform Preparation 
Please use the following check list for making sure your platform is prepared for the 
installation of the 3-Heights™ Document Converter. A more comprehensive description 
of the preparation steps follows the checklist. 
3-Heights™ Document Converter, Version 4.6 
Page 10 of 68 
January 25, 2016
© PDF Tools AG - Premium PDF Technology 
 Windows 7 or higher, Windows 2008 Server or higher2 installed (Standard 
Edition, English or German); Internet Explorer
3
 Microsoft.NET 4.0 
3a  Enable  Remote  Desktop  connections  (Control  panel,  System  Properties, 
Remote tab) 
 Install Microsoft Office 2010, or 2013 (select features as appropriate, leaving 
away unnecessary gadgets; install complementary add-ons as required; install 
Service Packs) 
 Optional: install Adobe Reader, version 10 or later. This is not only useful to 
view converted PDF documents on the server, but also enables the converter 
service to process PDF forms based on XFA that need rendering. 
Perform standard installations for the Windows operating system. PDF Tools supports 
Windows 7 or higher, Windows 2008 Server, Windows 2012 Server in English 
and German. The use of other configurations is possible, but PDF Tools will not be able 
to provide support for platform related issues. 
Make sure the full Microsoft.NET 4.0 Framework or newer is installed. 
Install Microsoft Office 2007, 2010 or 2013; carefully choose the options to have the 
features available that will be needed with the Document Converter (i.e. file import 
filters for WordPerfect etc.). 
Outlook 2003 and newer: a specific user can start Outlook only once on a server, 
because  it  exclusively  locks  the  user’s  Outlook.pst  (located  under  Local 
Settings\Application Data\Microsoft\Outlook). Thus, when configuring multiple worker 
sessions on the same server, a different user account must be specified for each. 
2
See Platform Issues for a short discussion of these platforms 
3
Internet Explorer may be relevant, if the web site archiving feature shall be used or for 
converting HTML bodies of emails 
Documents you may be interested
Documents you may be interested