itextsharp c# view pdf : Extract pdf images control Library platform web page asp.net winforms web browser DAReadme0-part1346

Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 1 
May 1/2009 
ImageMAKER Discovery Assistant Readme 
 
ImageMAKER Discovery Assistant automates the process of preparing documentation for legal 
discovery.  Supported features include document conversion to TIFF and PDF, Bates stamping, extraction 
of meta data, OCR text extraction, printing, and export to Summation and Concordance case 
management tools.   
Product Features include: 
•  Scalable to millions of conversions per day. 
•  Simple to install and use 
•  Powerful customizable feature set. 
•  Custom Development and support available. 
•  Tools to manage the processing of terabytes of data. 
•  Support for extracting OLE embedded documents 
•  Optional support for text searchable PDF, and color TIFF output. 
•  Simple to use database front end, capable of scaling to millions of documents across multiple  
machines.   
•  Support for most common document types, including Word, Excel, PowerPoint, PDF, HTML, TXT, 
JPEG, and RTF. 
•  Also includes support for converting Microsoft Outlook MSG and PST files, and Lotus Notes 
email files. 
•  Flexible built‐in bates stamper supports writing bates labels to any four corners of the output 
TIFF file. 
•  Creates TIFF files, Meta data, Txt output, and a conversion log for each file converted. 
•  Add‐on upgrade to convert to scanned PDF. 
Contents 
Quick Overview 
Installation 
Supported File Types 
Extract pdf images - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
how to extract images from pdf; extract pictures pdf
Extract pdf images - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract image from pdf file; how to extract images from pdf files
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 2 
Incorrect Document Extensions 
Office 12 / 2007 Support 
 MSG and PST Handling 
Handling Outlook Security issues 
Support for De‐Duplication 
Support for De‐Blanking 
Bates Stamping 
Advanced Excel Spreadsheet Processing 
Support for proper DATE and TIME settings in Word and Excel 
Database Format for the Discovery Assistant project 
Support for Scalability 
Support for Lotus Notes (NSF) 
Support for PaperPort .MAX files 
Forensics Tools 
Support for OCR 
Support for TIFF Pass‐through 
Support for Scanned TIFF Files 
Handling WordPerfect files using Word (WPD) 
Algorithm to check for and assign duplicates 
Handling Terabytes of Data 
System Requirements 
Handling Parent Child relationships 
Exported Ranges of DOCID and BATES Numbers 
Support for UTC Date/Time 
Loading in a 'Selection Set' 
Estimating Page Counts 
Benchmarks tests on Discovery Assistant 
Error Conversion Codes 
Support for Conversation Topic and Conversation Index in Outlook 
Setting up Discovery Assistant to do conversions running as a service 
Handling Password Protected Files 
Setting up Distributed Processing 
Support for RAR files 
Using Discovery Assistant as a preview tool 
MSG Handling 
Questions and Answers 
Application Details 
Adding a new file association 
Quality Control Support in Discovery Assistant 
Supported File Types 
Adobe Acrobat 7.0 (PDF) 
Internet Explorer (HTML) 
C# PDF Text Extract Library: extract text content from PDF file in
Ability to extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
extract text from pdf image; extract pictures from pdf
VB.NET PDF Text Extract Library: extract text content from PDF
Extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
extract image from pdf using; extract photo from pdf
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 3 
.GIF and .JPG 
Outlook (PST and MSG) 
Outlook Express (EML and DBX) 
Access Database (MDB) 
Autocad (DWG, DXF and DWF) 
VectorWorks (MCD) 
QuickView support (converting unsupported file types) 
Contact Information 
Appendix 
Quick Overview:  
Discovery Assistant can be downloaded from 
http://www.discoveryassistant.com/Download/Downloads.asp
  
Basic idea is the product can take any set of computer generated documents, including email, word 
documents, pdf files, spreadsheets, and/or scanned documents (from hard drive, and/or CD‐Rom's), and 
convert them to TIFF or PDF and associated meta‐data, suitable for importation into Case Management 
software.   
The product can also directly output Bates Stamped TIFF and PDF for direct production of documents for 
legal discovery. 
Discovery Assistant currently exports to the following Case Management systems: 
 Summation 
DII Class I  ‐ tiff and text 
DII Class II ‐ source files 
 Concordance 
IPRO‐Tech    ‐ images are loadable into Ipro 
Opticon      ‐ images are loadable into Opticon 
 Comma Separated Value (CSV) 
  
currently only supports TAB output 
 Ringtail 
  
Ringtail Legal from FTI 
 Introspect IDX (Zantaz) 
IDX file format 
Some distinguishing Discovery Assistant features include: 
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
VB.NET: Extract All Images from PDF Document. This is an example that you can use it to extract all images from PDF document. ' Get page 3 from the document.
extract images pdf; extract jpeg from pdf
C# Create PDF from images Library to convert Jpeg, png images to
Create PDF from Images. |. Home ›› XDoc.PDF ›› C# PDF: Create PDF from Images. C#.NET PDF - Create PDF from Images in C# with XDoc.NET PDF Control.
extract color image from pdf in c#; extract images from pdf acrobat
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 4 
•  conversion of all printable document types to TIFF or PDF. 
•  emphasis on conversion speed.   
•  support for removal of duplicates. 
•  extraction of TEXT and metadata.  
•  integrated OCR support for extracting text from scanned images. 
•  proper Date/Time stamped values for macros in Word and Excel. 
•  integrated Bates Stamping. 
•  blank page removal 
•  file management features, including a 'MOVE' capability. 
•  ability to auto preview the conversion results. 
•  specialized Excel formatting controls, including 'fit to pages' feature. 
•  ability to identify document file types by content rather than file extension. 
•  upgrade to output in color (jpeg compressed TIFF) 
•  upgrade to output to postscript (color postscript) for conversion to PDF or direct printing 
•  support utilities to handle the processing of Terabytes of data. 
•  Export to Concordance and Summation. 
•  Export to CSV, Introspect, Ringtail, IPRO. 
Our company focus is to provide a high quality easy to use product.  We provide quick turn‐around on 
reported problems, and to offer custom development services in the event that custom features are 
required ‐ ensuring that the Discovery Assistant product meets our customer's exact needs. 
We are the developers of the underlying core technology used in the Discovery Assistant product, and 
have been in business selling print drivers, viewers, and document conversion products since 1990. 
Installion: 
1.  Take a quick look at the User Manual 
2.  Install the Microsoft .NET Framework Version 1.1 Redistributable Package 
http://www.microsoft.com/downloads/details.aspx?FamilyId=262D25E3‐F589‐4842‐8157‐
34D1E7CF3A3&displaylang=en
  
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
Page: Extract, Copy and Paste PDF Pages. Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others in C#.NET Program.
extract jpg from pdf; extract image from pdf acrobat
C# PDF Convert to Images SDK: Convert PDF to png, gif images in C#
C#.NET PDF SDK - Convert & Render PDF to Images in C#.NET. Free .NET DLLs for converting PDF to images in both .NET WinForms and ASP.NET application.
extract images from pdf online; extract images from pdf c#
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 5 
Install the Microsoft .NET Framework Version 2.0 Redistributable Package (x86)   
http://www.microsoft.com/downloads/details.aspx?FamilyID=0856eacb‐4362‐4b0d‐
8eddaab15c5e04f5&DisplayLang=en
  
OR 
Install the Microsoft .NET Framework Version 2.0 Redistributable Package (x64)   
http://www.microsoft.com/downloads/details.aspx?familyid=B44A0000‐ACF8‐4FA1‐
AFFB40E78D788B00&displaylang=en
  
   
 (still trying to determine if we need one or both). 
3.   Install Microsoft Outlook, and Lotus Notes (if required). 
4.   Install the latest Microsoft Office updates: 
http://office.microsoft.com/OfficeUpdate/default.aspx
  
5.   Install the DiscoveryAssistant application  (unzip XDCAssistant.zip and run Setup.exe). 
6.   Call your technical contact (Ken Davies) at ImageMAKER Development for a walkthrough 
instruction. 
 (604) 525‐2108.  Pacific Standard Time. 
Quick Start Instructions: 
1.  Download and install the .NET runtime version from Microsoft. 
http://www.microsoft.com/downloads/details.aspx?FamilyId=262D25E3‐F589‐4842‐8157‐
34D1E7CF3A3&displaylang=en
  
Also, confirm you have the latest Office updates from Microsoft:        
http://office.microsoft.com/OfficeUpdate/default.aspx
  
Make sure you have installed the Office Tools \ Microsoft Office Document Imaging product 
(contains the OCR engine that Discovery Assistant uses). 
Also, if running Windows 2008, make sure you have downloaded and installed the Desktop 
Experience (Image Viewer for Jpeg). 
[To install Desktop Experience, from the Start Button, go to Administrative Tools, and click on 
Server Manager.  In the Features Summary section of Server Manager, click Add Features.  In the 
Add Features dialog, select the 'Desktop Experience’ check box, and then click Next, and Install.] 
2.  Unzip the Discovery.zip file and run DiscoverySetup.exe.  Setup automatically installs print 
drivers, Discovery Assistant.exe, PST, MSG Lotus Notes and ZIP crackers. 
C# PDF Convert to Jpeg SDK: Convert PDF to JPEG images in C#.net
Following demo code will show how to convert all PDF pages to Jpeg images with C# .NET. // Load a PDF file. String inputFilePath
extract images pdf acrobat; pdf image text extractor
C# PDF insert image Library: insert images into PDF in C#.net, ASP
Powerful .NET PDF image edit control, enable users to insert vector images to PDF file. Merge several images into PDF. Insert images into PDF form field.
extract jpg pdf; online pdf image extractor
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 6 
3.  Select the ‘All Files’ tab in Discovery Assistant, and select ‘Scan’.  Use this interface to select the 
directory containing the files to be converted.  After the scan has completed, you can sort the 
files based on filename, full path/filename, date, size, type, or whether it is convertible or not. 
4.  Switch tabs to view ‘Files that can be converted’.  Then use the display buttons  to Queue 1, or 
Queue All files for conversion 
5.  Switch tabs again to ‘Queued’ for conversion, and again, from the buttons choose to convert 
one, or convert all files.  Current suggestion is to first choose only one file to convert. 
6.  As the files are converted the first time, one or two dialogs may pop up.  If we don’t properly 
time‐out, and shut down the problem application, you can auto‐close these dialogs yourself.  
There is a second application (XDCAdmin.exe) that can be used to ‘auto‐close’ these dialogs.  
Details on how to auto‐train the XDCAdmin to  auto‐close, auto‐shutdown, and auto‐kill follow 
in the detailed notes.  
(see UserManual.doc) 
7.  Once you have some success, and have identified what problems (if any) there are with the test 
conversions, set things up to do a full conversion of all queued files. 
8.  Switch tabs again to ‘Converted’ and ‘Failed’.  You can look at the resultant files using the 
interface provided.  Use this interface to investigate any errors that might have come up.  We 
can be useful at this phase to identify what fixes are necessary. 
9.  After all conversions are done, you can perform the following operations from the  Converted 
Files tab: 
•  Deblank the output files ‐ remove blank pages from selected files. 
•  Assign Bates Numbers. 
•  Assign Document ID's. 
•  OCR any image files (scanned PDF files). 
•  Bates Stamp the resultant TIFF files. 
10.  Once you are done with conversions, you can export the conversion results to Concordance / 
Summation / IPRO / or a comma separated value file (CSV file) for inclusion in another database, 
spreadsheet or document management format. 
If converting XLS files, we recommend choosing between the following settings: 
11. Under Admin / Configure / Excel Settings, users have the choice to force output to a specified 
number of pages (print to fit), or to print at full size. In either case the complete spreadsheet is 
rendered, not just the last saved print range.  Default is to print the entire spreadsheet at full 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 7 
size. 
If converting PST and MSG files, we recommend the following additional steps: 
12.  If you are planning on converting PST or MSG files, there may be an issue with the Outlook 
security dialog.  We provide a tool to automatically close these dialogs, but if there is still a 
problem, The Outlook Security Dialog can be turned off permanently by opening Outlook 2007, 
and choosing:  Tools / Trust Center / Programmatic Access / "Never warn me about suspicious 
activity". 
13. Conversion will go quicker if you have the Outlook client open.  This reduces the time we take 
opening and closing Outlook. 
14. There is tremendous variety in PST/MSG files.  Our current working methodology is if you do 
have a conversion failure, we can likely comment on (and fix) the problem by getting you to 
send us a log files.  Log files can be generated by running imgLOG.exe before loading files to be 
converted.  
 (Start / Programs / Discovery Assistant / imgLog.exe). 
To remove date headers and footers from MSG, TXT, HTML: 
15. MSG files are formatted as TXT, RTF, or HTML. 
 
For each of these file types we use a different application to do the printing. 
TXT ‐> notepad 
 RTF ‐> Word 
HTML ‐> Internet Explorer. 
For Notepad and Internet Explorer, under the File/PageSetup dialog, there are header/footer 
strings.  
To remove headers/footers from HTML and MSG that are rendered as HTML do the following: 
1.  Open Internet Explorer 
2.  Go to File/PageSetup 
3.  Delete the strings in the Header and Footer edit boxes 
4.  Click 'ok' 
5.  Exit Internet Explorer 
 Can remove headers/footers from TXT rendered images the same way as Internet Explorer. 
To Get Internet Header extraction working: 
16. First make sure that Outlook CDO (Collaboration Data Objects) is installed.   
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 8 
Pre Office 2007: CDO comes standard with your Office installation, but must be selected ON to 
be installed.      
Office 2007: you must download and install a separate add‐on from Microsoft:  Collaboration 
Data Objects, Version 1.2.1 
http://www.microsoft.com/downloads/details.aspx?familyid=2714320d‐c997‐4de1‐
986f24f081725d36&displaylang=en
  
To check if CDO is already installed, Look in the registry for: HKEY_CLASSES_ROOT\CDO.Message 
And look in your system folder for:  C:\WINDOWS\system32\cdosys.dll 
To install CDO (Collaboration Data Objects)... 
1.  Get the Office installation disk. 
2.  Run Office Installation.  As you already have Office installed, choose 'update'. 
3.  Select advanced... 
4.  Expand the Outlook distribution list, look for and enable the ‘Collaboration Data Objects' 
value.  Default is to change the 'x' to read 'my computer'. 
5.  Select OK. 
6.  Installation should ADD CDO, and not remove any other Office applications. 
You must also turn 'Internet Headers' on from the Project Options / Outlook tab 
(default is ON). 
Internet headers are extracted to the .MTF file (Metadata File) during conversion. You can open 
the Metadata file in the Converted tab to review the contents.   
Internet headers are appended to the bottom of the metadata file. 
Headers will either be marked as: 
 
Internet Header:<UNAVAILABLE> 
 
or: 
 
Internet Header:...lots of data... 
Note: Only messages that have been received have Internet Headers.  Messages that have been 
sent (and not received) have no headers. 
To View the Internet Headers in Outlook, open the source MSG file (use the Open Source button 
in Discovery Assistant), then select 'View Options'. 
To export Internet Headers, be sure to select the INETHEADER field on (near or at bottom of the 
list). 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 9 
To convert WordPerfect Office files (WPD and WB3): 
17. Quatro Pro, and Word Perfect require some simple setup before doing any conversion of those 
file formats. 
Fix is to open the application, and load a sample file (can create a simple file if you want to).  
Next, make sure that the default printer is the ImageMaker XDC Service1 driver, do a print, and 
then do a file save.  
Leave these applications open, but minimized, or reduce the window footprint to a smaller 
portion of the screen. 
See comments further on down about using Word to handle WordPerfect files. 
To get Lotus Notes support working: 
18. At startup, Discovery Assistant looks for Notes.exe in the \program files\Lotus\Notes\ directory.   
It then forces a 'path' change to the local logged in user to make sure that the lotus directory is 
part of the system path in order for the dll's to work.  (No idea why Lotus does not do this as 
part of its own installation). 
If you've just recently installed Lotus Notes, then you need to re‐install  Discovery Assistant to 
set the path information. 
Support for OCR: 
19. To enable Discovery Assistant to use the Microsoft Office 2003 OCR engine (recommended), first 
confirm that OCR is working by running the Microsoft Office Tools / Microsoft Office Document 
Imaging product.  Open a TIFF file, and then choose OCR to confirm the OCR engine is working. 
Support for Search: 
20. Full text search can be done either before conversion, or after conversion.  See notes on 
dtSearch (end of this file).  Requires that you separately download dtSearch from the dtSearch 
website. 
Support for Distributed Processing: 
21. Discovery Assistant allows multiple machines to be controlled from a master machine to provide 
faster throughput for job conversions. 
To set up Distributed Processing, see notes near the end of the file entitled:  “Setting up 
Distributed Processing". 
Support for Searchable PDF: 
22. To get searchable PDF working, you need to do the following: 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 10 
1.  Install a Postscript print driver onto your machine.  Recommendation is to install an HP 
LaserJet PS, or Apple LaserWriter (either color or B&W). Can do this by doing an Add 
Printer from the Printer's dialog. 
2.  Download and install the Discovery Assistant Postscript update from 
http://www.discoveryassistant.com/Download/Downloads.asp
.  
3.  When installing the postscript update, you will be prompted to download and install 
GhostScript and GhostView ‐ two open source products that convert Postscript to PDF. 
4.  Re‐start Discovery Assistant and re‐queue files for conversion.  When converting, 
choose 'Postscript' as the output file type. 
5.  review, bates stamp, and export as Searchable PDF. 
Note: if the input file is a scanned image, the output file will also come out as a scanned image.  
The only way to get text out of a scanned image is to convert to TIFF, then use Discovery 
Assistant to OCR it. 
Switching from Demo to Release: 
23. If you have processed documents in DEMO mode, and have now licensed the product, and want 
to export files, you need to: 
 
 
1.  From the Project menu item, select 'remove temp files'. 
2.  Re‐queue the converted files, and re‐convert.  This removes the demo stamp. 
Avoiding memory problems: 
24)    Make sure the following aren't running: 
•  Google Desktop.  Turn this off as it consumes vast amounts of CPU. 
•  Microsoft Office tablet service (WISPTIS.EXE).  Turn this off as it eats memory like crazy on every 
file open command.  (CiceroUIWndFrame message crash) 
Supported File Types (quick overview): 
Discovery Assistant supports file formats based on file extension.   
To check for an associated application for any given extension, you can: 
1.  Try to open the file by double clicking on the file icon 
2.  Try printing the file by dragging the file over onto a printer icon. 
Discovery Assistant also lists associated files: 
Documents you may be interested
Documents you may be interested