itextsharp c# view pdf : Extract images from pdf online software control dll windows azure .net web forms DAReadme3-part1349

Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 31 
30+ gigs of hard drive space (for output files). 
Microsoft Office, Acrobat, IE6, and any other file type application  pre‐installed. 
 Preferred Computer Configuration: 
3 Gig memory 
Dual 64 bit AMD 2 GHz processor running Windows XP  
      
200 GIG hard drive. 
      
Gigabyte network cable 
Discovery Assistant comfortably handles the conversion of up to 100,000 files per project. For example, 
if you have one million files to convert, then our recommendation is to break them down into 10 
separate projects. 
Sample Hard Drive requirements: 
3.3 Gigs NSF file 
expands to: 
15284 files. 
9 Gigs of source files 
13 Gigs of TIFF/Text/Metadata 
Handling Parent Child relationships: 
When we load in PST / MSG/ ZIP files, we keep track of all parent/child relationships between the 
related files. 
Specialized parent/child relationships handling is done at: 
•  Queuing for conversion. 
•  Assigning doc id's and bates numbers 
•  Time of export 
•  User interface can identify parent / child / sibling  of any item in the queue. 
 
In addition, there are a number of metadata fields designed explicitly to identify ranges of 
parent/children. 
Extract images from pdf online - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract image from pdf file; extract photos pdf
Extract images from pdf online - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract images from pdf c#; how to extract images from pdf files
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 32 
Current methodology for handling parent/children we first load the parent, then we enumerate each of 
the children, assigning sequential FileID numbers as we go along. Next we process the children's 
attachments, assigning FileID's as we move along, and so forth until the message is processed.  We then 
go onto the next message. 
'Child next' order turned OFF is how we load the files into Discovery Assistant.  
0(0‐6) 
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 
|         | 
1(0‐6)  2(2‐9*) 3(0‐6)  4 
5     6(6‐12*) 
 
 
 
 
 ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐   
 
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 
|       |               |       
 
7      (8‐15*)    9  
 
10 
11      12(6‐12*) 
         | 
         ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 
         |       |       | 
          13    14    15 
 
'Child next' order turned ON is how we assign Bates Numbers, Document ID's in preparation for export. 
0(0‐15) 
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 
|         | 
10 
11 
12 
     |   
 
 
 
     ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐  
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 
     |         | 
 
     3       4 
 
13 
14 
15 
                | 
                ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 
                |       |      | 
                5       6      7 
 
Assumptions:  
1.  There is only one parent, everything else is a child. 
2.  every child has the same parent (0), and all files have the same range (0‐15). 
3.  when we hit a PST file, that breaks the cycle.  PST files are not parents. If a msg file contains a 
PST file, then we don't keep track of children. 
VB.NET PDF Text Extract Library: extract text content from PDF
Extract highlighted text out of PDF document. extraction control provides text extraction from PDF images and image Best VB.NET PDF text extraction SDK library
how to extract text from pdf image file; pdf image extractor c#
C# PDF Text Extract Library: extract text content from PDF file in
Free online source code for extracting text from Ability to extract highlighted text out of PDF control provides text extraction from PDF images and image
extract pdf pages to jpg; extract images from pdf
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 33 
4.  The diagram contains items, and range values in brackets.  Any range value with an asterix in it is 
an incorrect 'child next' grouping. 
Parent Child relationships are reported in the export files through the following MetaTags:  
(Summation example) 
@ATTACHRANGE         "filename" based 
@C GROUPRANGE        "filename" based 
@C BATESGROUPRANGE   "bates number" based 
@C BEGATTACH         "filename" based 
@C ENDATTACH         "filename" based 
 
Where "filename" can be any combination of  DocID, FileID, Title, Bates Number etc.  (naming scheme). 
 
If your original files are all named by their DOCID's, and you want to preserve that information at time of 
export, then set "filename" to %TITLE% in the naming scheme, and all exported files, and file ranges 
(except for BATESGROUPRANGE) will be based on the original filenames. 
Exported Ranges of DOCID and BATES Numbers: 
DocID Export fields for Summation: 
   Parent: DOCID_00016 
   Attachments DOCID_00017‐DOCID_00022 
 
   @ATTACH DOCID_00017; DOCID_00018; DOCID_00019; DOCID_00020; DOCID_00021; DOCID_00022 
   @ATTACHRANGE DOCID_00017‐DOCID_00022  
   @C BEGDOC DOCID_000160001 
   @C ENDDOC DOCID_000160002 
   @C GROUPRANGE DOCID_00016‐DOCID_00022 
   @C BEGATTACH DOCID_00016 
   @C ENDATTACH DOCID_00022 
 
Bates export fields for Summation: 
   Test Data: 
   Parent:  NTR00033‐NTR00034 
   first attachment NTR00035‐NTR00035 
   last attachment: NTR00041‐NTR00053 
 
   @BATESBEG NTR00033 
   @BATESEND NTR00034 
   @C BATESGROUPRANGE NTR00033‐NTR00053 
   @C BATESGBEG NTR00033 
   @C BATESGEND NTR00053 
 
C# HTML5 Viewer: Load, View, Convert, Annotate and Edit Raster
C#.NET RasterEdge HTML5 Viewer supports convert images to Tiff (.tif, .tiff) online, create PDF document from images. Raster Images Annotation.
extract pictures pdf; extract text from image pdf file
VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
PDF to text, C#.NET convert PDF to images, C#.NET file & pages edit, C#.NET PDF pages extract, copy, paste C#.NET read barcodes from PDF, C#.NET OCR scan PDF.
extract photo from pdf; how to extract images from pdf in acrobat
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 34 
Note: @ATTACHRANGE and @ATTACH are the only export field that list JUST the attachments.  All other 
fields include the mail message and attachments within the range. 
Support for UTC Date/Time 
All dates are UTC based (coordinated universal time), but expressed in the local time zone of the 
machine that is doing the conversion. 
Here are the exceptions: 
•  All files have a Created, Modified and Accessed date stored in UTC format.  These date/times 
are displayed in local time by the machine that is accessing them.  For example, if the files are 
written to a hard drive in London at 9:00 AM (Local time is UTC‐0), and that hard drive is then 
read in Vancouver (Local Pacific time is UTC ‐8), the time stamp will be reported as 1:00 AM. 
•  If files are 'copied' to another directory or filename, then the Create and Last accessed dates of 
the new file will change to today's date and time.   
•  If files are 'zipped', then 'unzipped', the Created Date, and Last Accessed Date will be set to 
today's date/time.  Only modified date will be retained.  Same goes for RAR compressed files ‐ 
when uncompressed, only the 'modified' date will be correct. 
•  Email received/sent date/time values are stored UTC, and reported in local time. 
•  Word / Excel / Powerpoint, Acrobat store the following additional UTC dates in their MetaData: 
Date Created 
Date Last Printed 
Date Last Saved 
When we extract these date/times, we use these values to over‐ride the operating system values for 
Created/Modified.   
Note: most simple file types (such as TXT, HTML, JPEG) have operating system date/time values for 
Created, Modified and Accessed, and do not contain any embedded Date/Time Metadata.  
Loading in a 'Selection Set' 
Discovery Assistant supports two different selection sets: Document ID, and FileID. (FileID's are 
internally assigned numbers.  Document ID's are user defined strings). 
To define a selection set, create a TEXT file containing the FileID's, or DocumentID's, one file per line in 
the text file, then use the 'select' button to load that file in. 
Items in file list are marked 'selected'. 
Practical use: 
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
Use corresponding namespaces; using RasterEdge.Imaging.Basic; using RasterEdge.XDoc.PDF; VB.NET: Extract All Images from PDF Document.
extract images from pdf file; some pdf image extract
C# HTML5 PDF Viewer SDK to view PDF document online in C#.NET
Form Process. Data: Read, Extract Field Data. Data: Auto Redact Text Content. Redact Images. Redact Pages. Annotation & Add Text Box. Drawing Markups. PDF Print.
how to extract pictures from pdf files; extract image from pdf java
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 35 
1.  Do a first pass‐through to produce converted documents. 
2.  Assign DocumenID, and export DocumentID with data set. 
3.  Customer reviews data, and provides you with a list of DocID's to produce. 
4.  Load selection set in 'converted' tab. 
5.  Assign Bates Numbers to selection set.  Choose 'child recursive' to get children. 
6.  Sort on Bates Numbers, and select only those that have been assigned bates numbers.  Parents 
of children are identified by 'bates range'. 
7.  Select which files you want to bates stamp. 
8.  Bates Stamp 'selected' files and export OR Export unstamped Selected files. 
 
 
Estimating Page Counts 
If you convert to TIFF, and then use the 'summary report' on the all files tab, you get a CSV file 
containing formatted information about: 
•  file types 
•  number of pages per file 
•  total size of files by type 
•  number of files converted / passthrough / failed /skipped. 
 
If you don't want to invest time converting the files, BUT still want an estimated page count (for billing 
purposes), then queue the data for MetaData conversion only.   Then convert (metadata only).  
Discovery Assistant then estimates page count based on file size if the count is not already included in 
the metatata. 
Values used to 'estimate' bytes per page, broken down by file type, are stored in the registry at: 
HKLM\Software\ImageMAKER\DiscoveryAssistant\Settings\PageCountEstimates. If you do change these 
values, you need to stop/re‐start Discovery Assistant for them to take effect.  These values are also 
stored in the setup.ini file, and re‐set at installation time. 
Actual values for TIFF files are calculated. 
Metadata values for Word and PDF are used if available. 
VB.NET PDF - Convert PDF Online with VB.NET HTML5 PDF Viewer
NET read PDF, VB.NET convert PDF to text, VB.NET extract PDF pages, VB Able to set scaling value of converted images. VB.NET HTML5 PDF Viewer: Convert PDF Online.
how to extract a picture from a pdf; some pdf image extractor
VB.NET PDF - Create PDF Online with VB.NET HTML5 PDF Viewer
PDF to text, C#.NET convert PDF to images, C#.NET file & pages edit, C#.NET PDF pages extract, copy, paste C#.NET read barcodes from PDF, C#.NET OCR scan PDF.
extract images from pdf acrobat; extract jpg from pdf
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 36 
All other file types are defaults at 10,000 bytes per page. 
Some file types (like zip, nsf, pst, msg) are estimated at 1 page per. 
Benchmarks tests on DiscoveryAssistant:  
Benchmark processing: 
On a 2 Ghz system, converting a mix of doc / xls / pdf / html / msg files (with or without 
attachments), our rated speed is one page per second. 
Hardware Recommendations: 
Because file conversion is a diskbound process the greatest determining factor for performance 
is file access speed.  The greatest performance increase will be realized by moving input files to 
a local hard drive and have output files written to a local hard drive.  All applications such as 
Word, Excel, Acrobat, etc. also need to be accessed from the local drive. 
Multi‐processor machines are not recommended.  I don't believe the performance increase 
would be significant especially in relation to hardware cost. 
Available memory is a factor (more memory means less swapping to disk).  512mb or greater 
recommended. 
Processor speed is a factor.  1.8G or greater recommended. 
Specifics:  
Test Suite: 
235 documents approx. 3,000 pages.      Compaq 1.8G P4 512mb ram 
Mix of Word, Excel, PowerPoint, PDF, HTML, Text 
TIF G4 300dpi 
45 pages per minute 
TIF G4 200dpi Windows Fast Dithering 
120 pages per minute 
Apple LaserWriter 16/600 PS PostScript 
600dpi 
220 pages per minute 
Larger documents (more pages per document) produce more dramatic differences. 
Word Document test only on a Pentium 4 2.6 Ghz  
Tested 7 WORD files (simple graphics, lots of text) with the following page sizes: 
3, 71, 3, 5, 16, 3, 204 
3.2 GHZ machine, no hyper‐threading.  Lots of memory and big hard drive. 
Output DPI 
Output Format  Pages per Minute
Page Per Minute without the last File 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 37 
300 
G4 
84 
70 
300 
G3 
87 
70 
300 
G3 
257 
206* 
200 
G4 
150 
130 
200 
G3 
150 
130 
200 
G3 
332 
270* 
* dithering set to Windows Fast Dither 
Basic trend: 
Speed is greatly enhanced by setting the default dither output to 'Windows Fast Dither'  
(image quality can be slightly compromised). 
 More graphically complicated files take longer to convert. 
 The higher the output resolution, the slower the conversion. 
          
Additional processing for MSG and PST results in slower conversion. 
          
There is a slight performance penalty for saving in G4 format. 
 
The Windows Fast Dither uses a reduced memory area for conversion, and 'dithers' the text and 
graphics to B&W as they are being written to the surface.  The Error Diffusion Dithering method 
dithers the whole image when it is being written to file (and can take up significantly more 
memory). 
     
As you increase the dpi (dots per inch) of the output file, the speed to create each page goes up. 
At 200 dpi, the page contains 3.7 million pixels. 
At 300 dpi, the page contains 8.4 million pixels. 
Current installation default is 300 dpi and 'Windows Fast Dither' set to on.   
Error Conversion Codes: 
    ‐1     "General error", 
    ‐2     "Job cancelled", 
    ‐3     "ShellExec call failed", 
    ‐4     "Control Dialog communication failed", 
    ‐5     "Pipe not found", 
    ‐6     "Connect timeout", 
    ‐7     "Bad UNC name", 
    ‐8     "Path too long", 
    ‐9     "Remote request requires UNC names for input and output files", 
    ‐10    "Timeout total time", 
    ‐11    "Timeout job start", 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 38 
    ‐12    "Timeout first page", 
    ‐13    "Timeout next page", 
    ‐14    "Timeout max pages exceeded", 
    ‐15    "Input file zero length", 
    ‐16    "Timeout waiting for print queue to clear", 
    ‐17    "No suitable printer available", 
    ‐18    "Specified printer does not exist", 
    ‐19    "File association does not exist", 
    ‐20    "PrintTo command does not exist", 
    ‐21    "Print command does not exist", 
    ‐22    "Input file does not exist", 
    ‐23    "Output path does not exist", 
    ‐24    "Disk corrupted", 
    ‐25    "Spooler Restarted", 
    ‐26    "Unable to set DEMO stamp", 
    ‐27    "Timeout waiting for exclusive access to document type", 
    ‐28    "Timeout waiting for available printer", 
    ‐29    "Could not set default printer", 
    ‐30    "Print aborted", 
    ‐31    "Aborted from Print Manager", 
    ‐32    "Memory allocation failed", 
    ‐33    "Disk write failed (probably disk full)", 
    ‐34    "Disk write failed (probably file access)", 
    ‐35    "Page too long to make into landscape mode", 
    ‐36    "Unknown file type specified for output", 
    ‐37    "Unknown file type", 
    ‐38    "Generic FAX write error", 
    ‐39    "Print aborted from control dialog", 
    ‐40    "Unable to read from named pipe", 
    ‐41    "Terminated by parent application", 
    ‐42    "Cannot find named pipe", 
    ‐43    "Error calling 16‐bit MFX", 
    ‐44    "Error pipe closed (likely means driver timed out)", 
    ‐45    "Shell execute failed", 
    ‐46    "Create process failed", 
    ‐47    "Output file type unsupported", 
    ‐48    "Failed to restart spooler" 
Support for Conversation Topic and Conversation Index in Outlook: 
All internally generated 2003 Outlook email contains a "Conversation Topic" and "Conversation Index" 
value. 
As email is routed back and forth, the index value is incremented with additional characters.  In a sorted 
list of Topic values and index values, the longest index value is the last email in the chain. 
Idea is lawyers can reduce the amount of data by producing only the last item in the chain AND the 
unique attachments in previous emails (draft attachments). 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 39 
Note: Once an email leaves the office (transmitted as MIME), the index and topic values are lost. 
Details: The PR_CONVERSATION_INDEX property is used in conjunction with the 
PR_CONVERSATION_TOPIC property to allow a conversation thread to be followed. 
ConversationIndex property ‐ the first 22 bytes are the same for all messages in the thread. Each 
message adds 5 bytes to the conversation index of its parent message. 
Note however that ConversationIndex property is broken in all versions of Outlook except 2003 
Microsoft MSDN reference: 
http://msdn2.microsoft.com/en‐us/library/ms527425.aspx
  
For more information on conversations, see Tracking Conversations.  
http://msdn2.microsoft.com/en‐us/library/ms528947.aspx
  
Setting up Discovery Assistant to do conversions running as a service: 
1.  Confirm that Discovery Assistant is working correctly, then shut down Discovery Assistant. 
2.  Run XDCLauncher in the \program files\ImageMAKER\Discovery Assistant directory.  This will 
start up a system tray application in the bottom right hand corner of the screen. 
3.  Right click on XDC Launcher system tray item, and select 'run as a service'.  You will be prompted 
for a user login name and password.  You need to provide a valid login user name and password.   
Conversions must happen as a logged in user.  (Applications can't seem to print to a print driver 
in the 'system account'. Not sure why this is.). 
4.  If you do want to change or review the service, go to Services Manager (can run services.msc 
from the run command, or you can go into Control Panel / System / Services).  Locate the 
XDCService, and right click to select properties.  From the Log On, you can re‐set the username, 
password. From the General tab, you can manually start/stop the service. 
5.  Restart Discovery Assistant, and try converting some files that previously converted.  Files will 
convert, but you won't see any screen activity. 
6.  Everything should work.  Note, because we are opening documents, the machine will be busy.  
Also, if you are converting Word, Excel, or Acrobat file types, you can't be using Word, Excel, or 
Acrobat.   
7.  Should there be any conversion problems, you need to stop Discovery Assistant, switch back to 
using xdcService in normal mode, then re‐convert to try and determine the problem. 
8.  At any time, you can also run imglog.exe and the XDC Admin to get more logging information on 
conversion progress. 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 40 
Handling Password Protected Files: 
If the file is password protected, our current default behavior is to time out waiting for the application to 
print.  We then kill the application. The default timeout value is 30 seconds.   If there are a lot of 
password protected files, then conversion is going to go very slowly. 
Failed files can be 'moved' to another directory, and then set up for password cracking.  Our 
understanding is that cracking a password can take multiple hours per file, and not something to try in 
real time. 
Some password protected files will put up a user dialog, prompting for a password.  The operator can 
enter the password at this point.   This would include entering passwords for RAR and ZIP files (at time 
of import), or passwords for XLS, PDF, and DOC (at time of conversion). 
There is limited specialized code to handle the automation of passwords for XLS handling.  If the 
password for all your XLS files is the same, then you can enter the password as a registry value, and 
Discovery Assistant will use that password on all password projected XLS files.  The registry location is 
HKLM\Software\ImageMAKER\ExcelPrintTo\Settings ‐ "password=". 
Note: there are a number of 3rd party applications designed to handle password detection and cracking 
for: Excel, Access, Word, RAR, PDF, Outlook. 
    Detection: 
        http://www.ozgrid.com/Services/find‐protected‐files.htm
  
    Cracking:   
        http://www.ozgrid.com/Services/access‐password‐recover.htm
  
Setting up Distributed Processing: 
If you have two or more machines with Discovery Assistant installed, then you can set these machines 
up in a master/slave architecture to drive conversion speed. 
1.  Install Discovery Assistant on each machine 
2.  Test conversions of multiple type of files to ensure everything is installed 
3.  For Distributed processing to work, all machines must be logged in as the same user.  Slave 
server machines cannot be Windows XP home, and need to be upgraded to Pro. 
Machines should be able to access each other's shared drives, and should all have the same 
date/time setting.    
To synchronize times settings, you may need to designate the Master machine as the time 
source.  Can do this from DOS prompt as follows:  net time \\computername /set  
Documents you may be interested
Documents you may be interested