itextsharp c# view pdf : Extract images from pdf files SDK application service wpf azure windows dnn DAReadme2-part1348

Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 21 
 Support for Scalability 
Additional conversion machines can be added to improve overall throughput. 
Large conversion requests can be broken down into a set of smaller jobs, each of which is run on a 
different computer.   
To ensure that each computer has the same conversion settings, we recommend saving the 
DiscoveryAssistant.xml file, and the HKLM\Software\Imagemaker registry settings, and then duplicating 
these two files across the various machines. 
The discoveryAssistant.xml file (installed in the same directory as the discoveryAssistant.exe file) 
\program files\imagemaker\discovery assistant\discoveryAssistant.xml 
Contains all the global project settings (and is text readable). 
The remaining settings (that control document formatting) are saved in the registry.  You can export the 
hive HKLM\Software\ImageMAKER to a .REG file, and use this as the other settings file. 
To match a second machine's settings: 
•  install Discovery Assistant 
•  copy over the DiscoveryAssistant.xml file 
•  double‐click on the saved imageMAKER.reg file 
Support for Lotus Notes (NSF) 
Discovery Assistant supports loading Lotus Notes NSF files natively. 
Before installing Discovery Assistant, make sure you have Lotus Notes client version installed first. 
(we've tested using Lotus Notes Domino Designer 6.0.3). 
If Discovery Assistant is already installed, install Lotus Notes, then re‐install Discovery Assistant. 
At startup, Discovery Assistant looks for Notes.exe in the \program files\Lotus\Notes\ directory. It then 
forces a 'path' change to the local logged in user to make sure that the lotus directory is part of the 
system path in order for the dll's to work.  (No idea why Lotus does not do this as part of its own  
installation). 
If you've just recently installed Lotus Notes, then you need to re‐install Discovery Assistant to set the 
path information. 
Download site for Lotus Notes client: 
  
http://www‐128.ibm.com/developerworks/downloads/
  
Lotus Notes®, Domino Designer, and Domino Administrator clients V8 or later. 
Extract images from pdf files - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract image from pdf java; pdf image text extractor
Extract images from pdf files - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract images pdf acrobat; how to extract a picture from a pdf
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 22 
 Here is the direct link to the notes client: (these link names change over time) 
http://www.ibm.com/developerworks/downloads/ls/lsndad/?S_TACT=105AGX28&S_CMP=DLM
AIN
  
Lotus Notes Metadata 
Type: Lotus Notes Document 
 ID:B0DB4E68D9BF457B86256FBA00621AE9 
From: CN=Helmuth X Fendel/OU=LAKE/OU=CORP/O=ABBOTT 
To:CN=Giorgio 
Martellino/OU=ADDITN11/OU=ADD_ITL_HUB/OU=ADD_EURO_HUB/OU=ADD_HUB/O=ADD/C=US@ABB
OTT;"Karrer, Roberto (INT'L)" <Roberto.Karrer@ace‐ina.com> 
Cc:Bryan.Willcox@ace‐ina.com;CN=Charles M 
Santora/OU=LAKE/OU=CORP/O=ABBOTT@ABBOTT 
Bcc: 
Subject:Re: Sibutramina ‐ Privileged & Confidential 
Sent:2002‐04‐10 10:23:54 
Received:2002‐04‐10 10:23:56 
Date Modified:2005‐03‐04 09:51:34 
Date Created:2005‐03‐04 09:51:34 
Date Accessed:2005‐03‐04 09:51:34 
 Size:18255 
 Importance:1 
 Priority:1 
Mood:0 
PreventCopying:0 
ReturnReceipt:0 
IsSentByAgent:0 
Number of Attachments:0 
Body: Message Contents 
EndBody: 
 
Known Problems: 
On some NSF files, we have troubles extracting attachments.  Fix seems to be to stop, then re‐
start Discovery Assistant, then re‐import the NSF file (or do a re'check if already imported). 
Alternate solution: 
Convert Lotus Notes messages to PST 
http://www.lotus‐notes‐export.com/XitNotes.asp
  
Problem #2 
VB.NET PDF Text Extract Library: extract text content from PDF
Extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
extract images pdf; extract pictures from pdf
C# PDF Text Extract Library: extract text content from PDF file in
Ability to extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
how to extract images from pdf file; extract vector image from pdf
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 23 
A user with appropriate Access Control List (ACL) rights receives the following error when 
attempting to open a local replica of a database: 
"The database has local access protection and you are not authorized to access it locally."  
  
Solution 
This will occur in cases where a user other than the current user created the local replica. This 
occurs because the Notes client has a default security setting to encrypt local replicas. This 
setting is accessed via File ‐> Security ‐> User Security ‐> Notes Data ‐> Databases. To create 
local replicas that are not encrypted, select "Do not locally encrypt" rather than the default 
"Locally encrypt using".  
  
Alternate Solution: 
Switch to the user supplied Notes id file (filename.id); then open the datbase  enter the 
password, and go to File/Access Control, set everything to Manager;  then 
File/Application/Properties/Encryption Settings and checked the "do not encrypt" box; and then 
compacted the database. 
Related information 
How to Determine Which Databases Are Encrypted 
Encrypting PAB causes error 'Unable to create location' 
Error Accessing Server Database "This Database Has Loca 
http://www‐1.ibm.com/support/docview.wss?rs=0&uid=swg21088323
  
Problem #3 
If you encounter problems, run the Logger (red button on top right of Discovery Assistant 
application).  You can then email us the log contents for further analysis.   
example problem: 
[08‐06‐27 11:35:47 AM DA::OpenNsfDatabase()] 
System.Runtime.InteropServices.COMException (0x80040154): COM object with CLSID 
{5FB98ACD‐8EAA‐4E2D‐A980‐9B1C678B8C4D} is either not valid or not registered. 
possible resolution: 
1.  From DOS prompt, type 'path'.  Make sure that the path contains a pointer to the 
nnotes.dll file (c:\program files\lotus\notes\NNOTES.DLL) 
VB.NET PDF File Merge Library: Merge, append PDF files in vb.net
Merge two or several separate PDF files together and into Able to integrate VB.NET PDF Merging control to Components to combine various scanned images to PDF
extract pdf pages to jpg; extract images from pdf files
C# PDF Convert to Jpeg SDK: Convert PDF to JPEG images in C#.net
may customize the names of all converted JPEG image files in .NET Following demo code will show how to convert all PDF pages to Jpeg images with C# .NET.
extract pictures pdf; some pdf image extract
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 24 
2.  re‐register the nsfCracker.dll: regsvr32 "c:\Program Files\Imagemaker\Discovery 
Assistant\NSFCRACKER.DLL" 
Make a note of any reported problems registering the DLL. 
If installing on Vista, make sure DOS is running in Admin mode. (right click on Command prompt, 
and choose Admin). 
Problem #4 
Notes error: "You must supply the bulk decryption key in order to extract this file object." 
Resolution: 
The Encrypt incoming mail field is set to Yes in the Mail section of the user's Address Book entry. 
Once this was changed to “No” the problem is resolved. 
Problem #5 
You attempt to read newly‐encrypted mail (i.e. with a new key) with an old backup ID file that 
does not contain the new key, and the following error occurs: 
"Specified Private Key Does Not Exist." 
Additionally, if an encrypted message has an attachment and you attempt to open it with an old 
backup ID, the message above is generated and an empty message with the attachment is 
displayed. If you then try to launch or detach the attachment, the following error occurs: 
"You Must Supply the Bulk Decryption Key in Order to Extract This File Object 
<path\filename>)". 
or (in Notes 4.6x): 
"The encrypted data has been modified or the wrong key was used to decrypt it: Could not 
detach to file <path\filename> 
or (in Notes 5.x): 
"You cannot access portions of this document because it is encrypted and you do not have any 
of the keys: Could not detach to file <path\filename> 
This issue only occurs if an old ID is being used. To avoid the issue, use a current ID.  
The fact that the error messages could be more descriptive has been reported to Lotus Quality 
Engineering. 
Possible Resolution: 
C# PDF Convert to HTML SDK: Convert PDF to html files in C#.net
Embed converted HTML files in HTML page or iframe. Use JS (jquery) to control PDF page navigation. Export PDF images to HTML images.
extract images from pdf files without using copy and paste; pdf image extractor c#
VB.NET PDF Convert to HTML SDK: Convert PDF to html files in vb.
Embed converted html files in html page or iframe. Export PDF form data to html form in .NET WinForms and ASP.NET. Turn PDF images to HTML images in VB.NET.
extract images from pdf acrobat; extract pdf images
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 25 
This issue might occur when a user's ID has been updated with a new Public key, and the user is 
using an older version of their ID which contains the old Public Key. A user can initiate the 
updating of their Public key by using the menu options: File, Tools, User ID, More Options, New 
Public Key. The ID will then need to be recertified. 
Support for Novel GroupWise
 
Unfortunately, we currently do not support GroupWise directly. 
However... there is a product that might be able to help with migration: 
http://www.transend.com/products_transend_migrator.asp
  
There is a special Transend Migrator Forensic Edition license for use in forensic environments for 
eDiscovery. One license per workstation allows the conversion of an unlimited number of data 
files/mailboxes. Please contact us for more information on Transend Migrator Forensic Edition. 
Transend Corporation,   
     
225 Emerson Street, Palo Alto, CA 94301  
     
Phone: 650‐324‐5370 
 
Converts Messages/Folders, Attachments, Archives, Address Books, Calendars and Tasks Between 
Virtually All Email Systems/Clients.  Includes support for: 
     
Lotus Notes 
 Outlook/Exchange (server or .pst file) 
     
Outlook MSG Files 
     
GroupWise (5.5+ for GW Archives) 
     
IMAP4 Server  
     
HTML 
     
Eudora  
     
Netscape/Mozilla/Thunderbird 
     
AOL 
     
CompuServe 2.0+ 
     
Outlook Express 
     
Pegasus  
     
Notework 
     
ExpressIT (Native and SMTP) 
     
cc:Mail  
     
DaVinci 3.0+ 
     
MHS/SMF‐70 
     
Calipso Archive 
     
Transport File (Transend proprietary format) 
     
Sun One (via IMAP) 
     
Pop Server 
     
http://www.transend.com/supported_mail_systems.asp
  
C# PDF File Merge Library: Merge, append PDF files in C#.net, ASP.
Combine scanned images to PDF, such as tiff, jpg, png, gif, bmp XDoc.PDF) is designed to help .NET developers combine PDF document files created by
pdf image extractor online; how to extract images from pdf
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
VB.NET: Extract All Images from PDF Document. This is an example that you can use it to extract all images from PDF document. ' Get page 3 from the document.
extract jpg from pdf; extract photos pdf
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 26 
Support for PaperPort .MAX files 
If you have the Paperport application installed, and it supports printing MAX files, then Discovery 
Assistant supports converting MAX files to TIFF. (tested and works). 
CommandLine: <D:\Program Files\ScanSoft\PaperPort\PPPAGEVW.EXE /p 
z:\web_test_files\5pages.max"> 
Forensics Tools: 
  OST ‐> MSG   Advanced Exchange Recovery.  http://www.exchange‐recovery.com/
.  $600 
  PST ‐> MSG   Aid4Mail  http://www.aid4mail.com
 
 
  hard drive usb write protect.  
    Logicube Hard Drive & Media Duplication 
    http://www.logicube.com/logicube/pressreleases/writeprotect.asp
  
Support for OCR 
Discovery Assistant now supports a native OCR feature.  The default is to use Microsoft Office 2003 
MODI control if available, otherwise, uses a SimpleOCR package shipped with Discovery Assistant.   
Microsoft MODI OCR uses the OmniPage SDK engine from Nuance software (and is our current best of 
breed recommendation).  To confirm you have MODI installed, run Microsoft Office Document Imaging 
application, load a TIFF file, and select 'OCR'.  The application will install OCR if not already installed. 
Discovery Assistant extracts text from documents during the conversion process. Extraction is extremely 
accurate as the text is generated by the print driver during the print process. 
If source documents are scanned images though, there is no text extraction when printing.  In this case, 
you can manually OCR those documents you would like the text from by selecting the OCR button in the 
Conversion Tab. 
Fixes: 
OCR was not successful (no text was found) on one or more pages.   
http://support.microsoft.com/kb/918215/en‐us
  
Support for TIFF Pass­through 
To speed up the processing of scanned TIFF documents... if the source documents are already in the 
proper format (scanned B&W, standard dpi), then processing can be sped up by selecting 'Enable no‐
Print convert on images'.  You can select this flag from the Admin / Configure screen. 
If this flag is set, then Discovery Assistant does not print the image, but creates an exact copy of the 
source image ready for further processing. formatted (standard dpi, and scanned in B&W) 
C# PDF File Split Library: Split, seperate PDF into multiple files
Also able to combine generated split PDF document files with other PDF files to form a new PDF file. Split PDF Document into Multiple PDF Files in C#.
extract jpg pdf; pdf image text extractor
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 27 
Support for Scanned TIFF Files 
For Discovery Assistant to properly fill in the Custodian / Box / Folder information at time of export, the 
scanner operator must save the original TIFF files according to the following rules: 
1.  Each Custodian gets their own output directory.  An example custodian would be John Smith. 
2.  Within the custodian directories are subdirectories that correspond to each of the boxes.  ie: if 
John Smith's documents come in three boxes, then there are three BOX folders in the John 
Smith directory. 
c:\...\John Smith\Box1 
c:\...\John Smith\Box2  
c:\...\John Smith\Box3 
  
3.   Within the box directories are the folder names.  If a folder contains multiple folders, then 
those names are appended.  ie: if Box1 contains 3 folders: January, February, March, and the 
January Folder contains two sub folders: Invoices, Receipts ‐ then the output scanned TIFF files 
will be placed in the following directories: 
c:\...\John Smith\Box1\January\*.tif 
c:\...\John Smith\Box1\January‐Invoices\*.tif 
c:\...\John Smith\Box1\January‐Receipts\*.tif  
c:\...\John Smith\Box1\February\*.tif 
c:\...\John Smith\Box1\March\*.tif 
 
Discovery Assistant then uses the following logic to automatically generate the Custodian / Box / Folder 
export information: 
1.  TIFF filename, "c:\...\%1\%2\%3\filename.tif" is broken back into the following sub‐directories: 
           sub directory %1 is Custodian name 
           sub directory %2 is Box name 
           sub directory %3 is folder name 
  
This way, no one has to hand‐code any information.   
 The Discovery Assistant operator checks that the scanner folder is correct when adding files into the 
project (checks that the scanner operator has done their job).  If there is any confusion as to where 
documents came from, they can be immediately traced back to the original folder by using the displayed 
source path name.  The source path name is reduced to Custodian / Box / Folder at time of export. 
 If at some later date the Discovery Assistant operator is processing a PST file, or multiple folders of data, 
then the same rules apply when extracting the Custodian, Box, and Folder.  (ie: everything is consistent 
moving forward). 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 28 
Handling WordPerfect files using Word: (WPD) 
If installing WPD support for the first time in Word, you may need to install the WPD plug‐in. 
Next, you need to set up a file association for WPD files.  Easiest way to do this is to right‐click on a WPD 
file, then associate Microsoft Word with that file type.  (Open association). 
Next, to get print and printto file associations established, easiest way to do this is to run the 
DA_Sysinfo.exe application and use it to copy across the DOC file associations.  \program 
files\imagemaker\discovery assistant\DA_Sysinfo.exe  wpd‐doc 
To switch to using WordPrintTo to handle WordPerfect, go to Discovery Assistant Admin / Configure / 
Documents, and go to .DOC to get the over‐ride settings. 
 The Override setting for WPD will look something like: 
     "C:\Program Files\ImageMaker\Discovery Assistant\WordPrintTo.exe" /pt "%1" "%2" "%3" "%4" 
Copy these same settings to the WPD entry in the Documents dialog. 
Calculation of MD5 Hash code to detect duplicates:
 
 Under Options / De‐Duping, users can set the following values: 
 Hash Code Sample Size(KB) 100  (set to 0 for entire file) 
 On conversion: 
•   Ignore Duplicates   (process as usual) 
•   Skip Duplicates     (don't convert) 
•   Copy Duplicates     (copy the TIFF file from previous conversion) <‐‐‐‐ recommended 
•   Link Duplicates     (point to the TIFF file from previous conversions 
Hash codes are generated when the file is first entered into the database. To speed things up, users can 
set hash code generation to just the first K bytes of a file.  Default is 100K. 
Duplicates are generated as files are added to the database.  If a duplicate is found, the duplicate file, 
and the file being added are both marked as 'duplicate'. 
Email files are binary files with unique index values within them (MessageID). To compare if emails are 
duplicates, we extract and check only the text contents of the message. 
Algorithm to check for and assign duplicates: 
For each new file being processed: 
If Message File, then extract message body (as text). 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 29 
 Calculate MD5 hash code for first (x) bytes of file.  (multiple of 1K) 
Convert hash code to a string 
Loop until Done: 
Search existing database for first matching MD5 hash code. 
               
If no matching MD5 hash code 
               
 
Add new hash code. 
              Done 
          
Else 
              Binary compare the two matching files. 
               
 
If files match 
Mark both as duplicates. 
Done 
Else 
Add a character extension to the hash value to make it unique, and loop 
End Loop 
Handling Terabytes of Data: 
We rate our product at a gig per day per machine.  1 gig of data averages out to approximately 70,000 
pages, and about 5 gigs of storage space.  Actual conversion speeds are rated at 3,500 pages per hour of 
straight conversion (20 hours a day), plus an additional 4 hours a day to handle the other house‐keeping 
tasks, like file import / de‐duplication / deblanking / bates labeling / exporting etc. 
In addition to straight conversion is the time to: 
•  Set up the machines and install all appropriate software. 
•  Quality control review of output data. 
•  Exception handling. 
•  Trouble‐shooting. 
The Discover Assistant operating philosophy is that if you want to convert Terabytes of data, you need 
multiple‐Terabytes of storage space and lots and lots of computers.   
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 30 
To handle terabytes of data requires: 
•  Enumerating what files are to be converted using our TeraBite application. 
•  Breaking the project down into 1 or 2 gig Batch files. 
•  Optionally run a global 'de‐dup' check 
•  Process the Batch files across multiple machines. 
•  Export the resultant files back into a case management system for additional processing 
 
Assuming each GIG of data yields approximately 70,000 tiff pages, rough estimates as to time to process 
the data are as follows: 
Pages per TeraByte: 
70,000 pages per gig  * 1000 gigs = 70,000,000 pages 
Computer time to process a TB (assumes an average of 1 second per page): 
70,000,000 * 1/60  =  1,200,000 minutes  
20,000 hours  or approximately 1000 days. 
Standard outsourcing prices per TB (3 cents a page): 
           
70,000,000 * .03 = $200,000 
If you had 100 computers on‐site processing the data, 1TB would take 10 days to process. 
With two operators running the machines, costs to do a TB would be: 
        $20K amortization of computers  (10% of $200,000 worth of equipment) 
        $20K amortization of software (10% of $200,000 worth of ImageMAKER, Office, etc) 
     + $10K
 for operator costs 
        $50K 
 
If you were to outsource the same job to a third party (at preferred rates), expected costs would be:     
$200K 
System Requirements: 
Windows 2000, Windows XP, Windows 2003 (client, server, or WTS). 
1 gig of ram. 
Documents you may be interested
Documents you may be interested