Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 61 
custodian2\Folder2\sales.xls 
file3 
custodian3\Box1\Folder3\january.doc   
file4 
custodian3\Box1\Folder3\february.doc 
file5 
custodian3\Box1\Folder3\march.doc 
file6 
 
Will get the following directory exports: 
Flat: 
‐‐‐‐‐‐‐‐‐ 
 
|‐‐‐Output 
|      File1.tif 
|      File2.tif 
|      File3.tif 
|      File4.tif 
|      File5.tif 
|      File6.tif 
|      File1.txt 
|      File2.txt 
|      File3.txt 
|      File4.txt 
|      File5.txt 
|      File6.txt 
|‐‐‐Source 
       File1.doc 
       File2.pdf 
       File3.xls 
       File4.doc 
       File5.doc 
       File6.doc 
 
 
 
Mirror: 
‐‐‐‐‐‐‐‐‐ 
 
|‐‐‐Custodian1 
|   |‐‐‐source 
|   |      File1.doc 
|   File1.tif 
|   File1.txt 
|  
|‐‐‐Custodian2 
|   |‐‐‐Folder1 
|   |   |‐‐‐source 
|   |   |      File2.pdf 
|   |   file2.tif 
Pdf image extractor c# - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
pdf image extractor online; extract images from pdf c#
Pdf image extractor c# - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract images from pdf acrobat; extract jpg from pdf
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 62 
|   |   file2.txt 
|   | 
|   |‐‐‐Folder2 
|       |‐‐‐source 
|       |      File3.xls 
|       file3.tif 
|       file3.txt 
|‐‐‐Custodian3 
    |‐‐‐Box1 
        |‐‐‐Folder3 
            |‐‐‐souce 
            |      File4.doc 
            |      File5.doc 
            |      File6.doc 
            File4.tif 
            File5.tif 
            File6.tif 
            File4.txt 
            File5.txt 
            File5.txt 
 
 
Bates: 
 
‐‐‐‐OUTPUT 
|   ‐‐‐‐Bates_file1 
|   |      File1.tif   
|   ‐‐‐‐Bates_file2 
|   |      File2.tif   
|   ‐‐‐‐Bates_file3 
|   |      File3.tif   
|   ‐‐‐‐Bates_file4 
|   |      File4.tif   
|   ‐‐‐‐Bates_file5 
|   |      File5.tif   
|   ‐‐‐‐Bates_file6 
|          File6.tif   
‐‐‐‐SOURCE 
|   ‐‐‐‐Bates_file1 
|   |      list.doc 
|   ‐‐‐‐Bates_file2 
|   |      sample.pdf 
|   ‐‐‐‐Bates_file3 
|   |      sales.xls 
|   ‐‐‐‐Bates_file4 
|   |      january.doc 
|   ‐‐‐‐Bates_file5 
VB.NET TIFF: TIFF Text Extractor SDK; Extract Text Content from
Please get the latest XDoc.Tiff C# Developer Guide here. Standalone VB.NET TIFF text extractor SDK that extracts control SDK into VB.NET image application by
extract pictures from pdf; how to extract a picture from a pdf
VB.NET PowerPoint: Extract & Collect PPT Slide(s) Using VB Sample
demo code using RasterEdge VB.NET PowerPoint extractor library toolkit. provide powerful & profession imaging controls, PDF document, image to pdf files and
extract pdf images; extract images from pdf files
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 63 
|   |      february.doc 
|   ‐‐‐‐Bates_file6 
|   |      march.doc 
‐‐‐‐TEXT 
|   ‐‐‐‐Bates_file1 
|   |      File1.txt  
|   ‐‐‐‐Bates_file2 
|   |      File2.txt   
|   ‐‐‐‐Bates_file3 
|   |      File3.txt  
|   ‐‐‐‐Bates_file4 
|   |      File4.txt  
|   ‐‐‐‐Bates_file5 
|   |      File5.txt   
|   ‐‐‐‐Bates_file6 
           File6.txt 
 
 
  
Vol/Box 
 
‐‐‐‐VOL0001 
    ‐‐‐‐BOX0001 
    |   |‐‐‐‐source 
    |   |      File1.doc 
    |   |      File2.pdf 
    |   File1.tif 
    |   File2.tif 
    |   File1.txt 
    |   File2.txt 
    | 
    |‐‐‐BOX0002 
    |   |‐‐‐‐source 
    |   |      File3.xls 
    |   |      File4.doc 
    |   File3.tif 
    |   File4.tif 
    |   File3.txt 
    |   File4.txt 
    | 
    |‐‐‐BOX0003 
    |   |‐‐‐‐source 
    |   |      File5.doc 
    |   |      File6.doc 
    |   File5.tif 
    |   File6.tif 
    |   File5.txt 
    |   File6.txt 
VB.NET Word: Extract Word Pages, DOCX Page Extraction SDK
on also owns high compatibility with Visual C# .NET code. feature, this VB.NET Word page extractor add-on page, sort Word page order or insert image into Word
extract pictures from pdf; extract image from pdf acrobat
VB.NET TIFF: TIFF to Text (TXT) Converter SDK; Convert TIFF to
NET developers to interpret and decode TIFF image file. But different from TIFF text extractor add-on powerful & profession imaging controls, PDF document, tiff
extract image from pdf; extract image from pdf java
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 64 
 
Summation DII notes: 
Classifications of DII Files  
Summation created a batch load file format and protocol that service bureaus can use to facilitate the 
processing and delivery of eDiscovery that will be loaded into a Summation case. Service bureaus can 
provide eDiscovery using three different types of DII files:  
* Class I DII file ‐ This class is geared toward traditional paper discovery service bureaus that scan paper 
documents and use Optical Character Recognition (OCR) technology on the resulting imaged documents. 
Also, in this model, e‐mail messages and electronic documents (received in either in paper or native, 
electronic format) are converted or petrified by a service bureau to TIFF or PDF image formats, and the 
text and metadata are extracted. When loaded into a Summation case, the image information is loaded 
into the ImgInfo table, the full‐text is loaded into the ocrBase, and generated metadata is loaded into 
the Core Database. The difference between a Class I DII file and a DII file prepared for previous versions 
of Summation is the ability of the Class I DII file to more easily maintain the parent/child relationships of 
compound documents.  
* Class II DII file ‐ This file is geared toward forensic‐oriented service bureaus that extract or parse 
metadata and e‐mail message information for loading into designated Summation Core Database fields. 
Native electronic files are copied to the eDocs repository specified in the case directory structure. Once 
the files are copied and the data loaded, the user can take advantage of Summation's multi‐file format 
index, search, and retrieval functions to produce electronic documents in their native formats. These 
Class II DII file attributes will allow users to narrow or winnow down a collection of electronic data, such 
as e‐mail messages, to only disclose relevant non‐privileged data to the requesting party. The Class II DII 
file also facilitates the preservation of the parent/child relationships of compound documents.  
* Class III DII file ‐ This file is a combination of the Classes I and II DII file formats.  
The above DII load file classes give Summation users the ultimate flexibility for applying the varying 
formats and protocols used to acquire, process, deliver, and deploy digital information underlying 
litigation, regulatory compliance, and risk management.  
Note: The above DII load file formats are also acceptable formats to deliver electronic data that will be 
loaded into CaseVault, the litigation hosting service and subsidiary of Summation Legal Technologies. 
CaseVault can be used as a winnowing platform for cases that include large volumes of electronic data. 
Once the set is culled and reduced, the electronic data can be loaded into a Summation system for 
additional review and case preparation.  
Note: 
Tokens can be longer than 8 characters, but fields cannot be. For example, the @ATTACHRANGE token is 
11, but it populates the ATTRANGE field, which is only 8. Custom tokens have to be under 8 because the 
fields they populate are limited to 8 chars in size. 
C# Word: How to Extract Text from C# Word in .NET Project
you can rest assured because this Word text extractor preserves both to provide powerful & profession imaging controls, PDF document, image to pdf files and
how to extract pictures from pdf files; extract text from image pdf file
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 65 
ImageMAKER custom defined additional fields in the Summation Export DII file: 
   @C FILENAME calendar.zip 
   @C FILEPATH Z:\Web_test_files\calendar.zip 
   @C ISDUP True 
   @C DUPPATHS C:\test\test.HTM; C:\test\testcopy.htm. 
   @C PGCOUNT 10 
 
Details: 
FILENAME ‐ name of file at time of conversion. 
FELEPATH ‐ original source path for file (when being converted). 
PGCOUNT  ‐ number of pages in the converted file. 
Default is 1 if record not defined in data set.. or defaults to last value defined if not defined in a 
FileID record. 
If files are exported single page per file, then this value indicates  total number of exported 
pages for the source file. 
PgCount is already defined as a custom data field in the Summation 
database. 
ISDUP ‐ defines whether the record has any other duplicates in the exported data set.   
This information is used when reviewing the data ‐ and indicates that there are other copies of 
the same information elsewhere in the data set.  (Field name lengths are limited to 8 chars). 
Supported values are 'True' and 'False' 
DUPPATHS ‐ lists the 'filePath' source file names that are in the duplicate set. 
This value lists source filenames of the duplicate files, not DocIDs' and gives an immediate 
indication as to where the duplicate data is stored. FilePaths are separated by a '; ' character 
pair (Semicolon/space). 
If there are no duplicates, then the character string 'NA' is required. 
Sample DII File: 
; Summation DII Class I File 
; Created on 7/20/2005 2:55:29 PM 
; Created by DiscoveryAssistant version 3.2 build 1095 
; Copyright © 2004,2005 ImageMaker Development Inc. 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 66 
; Machine Name: BLAISE 
; Project Path: F:\Work\TEST.xml 
; Project Name: TEST 
; Project ID: TM 
 
@FULLTEXT DOC 
@T 0000038 
@DOCID 0000038 
@MEDIA eDoc 
@APPLICATION WinZip File 
@C FILENAME calendar.zip 
@C FILEPATH Z:\Web_test_files\calendar.zip 
@C PGCOUNT 1 
@C ISDUP False 
@C DUPPATHS NA 
@ATTACH 0000039; 0000040; 0000041; 0000043; 0000044; 0000045; 0000046; 0000047; 0000048; 
0000049; 0000050; 0000051; 0000052; 0000053 
@ATTACHCOUNT 14 
@DATESAVED 7/21/2005 
@DATECREATED 7/21/2005 
@D @I\ 
0000038.tif 
 
@T 0000039 
@DOCID 0000039 
@MEDIA eMail 
@MSGID  
@C PGCOUNT 1 
@C ISDUP True 
@C DUPPATHS Z:\Web_test_files\calendar.zip\calendar.pst\Personal Folders\Tasks\a second task 
request.msg;C:\imgmaker\temp1\a second task request.msg 
@SUBJECT a second task request 
@EMAIL‐BODY separate task item in a separate task list. 
@EMAIL‐END 
@ATTACHCOUNT 0 
@PARENTID 0000038 
@D @I\ 
0000039.tif 
 
Available MetaData Fields for Summation: 
     @C BEGDOC: Export file title of first page 
     @C ENDDOC: Export file title of last page 
     @APPLICATION: Name of creating application 
     @C ATTCOUNT: Count of attachments 
     @ATTACH: List of export file titles of attachments 
     @ATTACHRANGE: Range of export file titles of attachments 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 67 
     @C GROUPRANGE: Range of export file titles that belong as a group.  e.g. an email and it's 
attachments or a zip file and its contents 
     @C BATESGROUPRANGE: Range of Bates Numbers that belong as a group.  e.g. an email and it's       
attachments or a zip file and its contents 
     @C BEGATTACH: Export file title of first page of group.  e.g. an email and it's attachments or a zip file 
and its contents 
     @C ENDATTACH: Export file title of last page of group.  e.g. an email and it's attachments  or a zip file 
and its contents 
     @C ATTTITLE: File title of attachment 
     @FROM: Document author 
     @BATESBEG: Beginning Bates number 
     @BATESEND: Ending Bates number 
     @C BATESGBEG: Beginning Bates number for group. e.g. an email and it's attachments or a zip file 
and its contents 
     @C BATESGEND: Ending Bates number for group.  e.g. an email and it's attachments or a zip file and 
its contents 
     @BCC: Blind Carbon Copy recipient 
     @CC: Carbon Copy recipient 
     @C DACOMMNT: Discovery Assistant PassThru comment 
     @DATECREATED: Source document creation date 
     @TIMECREATED: Source document creation time 
     @DATERCVD: Email received date 
     @TIMERCVD: Email received time 
     @DATESAVED: Source document modified date 
     @TIMESAVED: Source document modified time 
     @DATESENT: Email sent date 
     @TIMESENT: Email sent time 
     @C DATEACC: Source Document Last Access Date 
     @C TIMEACC: Source Document Last Access Time 
     @C DOCTITLE: Document Title 
     @C DUPPATHS: Source document paths of duplicate items 
     @EMAIL‐BODY: Body of email 
     @C FILEEXT: Source file extension 
     @C FILEPATH: Source file path 
     @C XSFPATH: Exported source file path 
     @C FTITLE: Source file title 
     @C FILENAME: Source file name (including extension) 
     @C FTYPENAME: Source file type name 
     @FOLDERNAME: Email parent folder name 
     @FROM: Email From address 
     @C HASHCODE: MD5 hash code value for source document 
     @C ISDUP: True/False is duplicate 
     @C ITEMID: Discovery Assistant file ID 
     @MSG: Email message ID 
     @C PGCOUNT: Output file page count 
     @PARENTID: Export file title of parent item 
     @C SFTITLE: Short file title 
     @C SIZEDISK: Source file size on disk 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 68 
     @STOREID: Message store identifier 
     @C STORNAME: Message store source file name 
     @SUBJECT: Email subject 
     @TO: Email To address 
     @C ITEMINDX: Item Index 
     @C INETHDR: Internet Header 
     @C DOCID: Document ID 
     @C ALTRCALW: Alternate Recipient Allowed 
     @C AUTOFWD: Auto Forwarded 
     @C BILLINFO: Billing Information 
     @C CATEGOR: Categories 
     @C COMPNIES: Companies 
     @C DATEDFDL: Deferred Delivery Date 
     @C TIMEDFDL: Deferred Delivery Time 
     @C DELAFSUB: Delete After Submit 
     @C DATEEXP: Expiry Date 
     @C TIMEEXP: Expiry Time 
     @MULTILINE HTMLBODY: HTML Message Body 
     @C IMPRTNCE: Importance 
     @C MSGCLASS: Message Class 
     @C MSGMLG: Message Mileage 
     @C NOAGING: No Aging 
     @C DLVRPTRQ: Originator Delivery Report Requested 
     @C OLINTVER: Outlook Internal Version 
     @C OLVER: Outlook Version 
     @C RDRECREQ: Read Receipt Requested 
     @C RCVBYNAM: Received By Name 
     @C RCVBENAM: Received On Behalf Of Name 
     @C RCPREPRO: Recipient Reassignment Prohibited 
     @MULTILINE REPRECIP: Reply Recipients 
     @C SAVED: Saved 
     @C SENSI: Sensitivity 
     @C SENT: Sent 
     @C SNTBENAM: Sent On Behalf Of Name 
     @C SUBMTTED: Submitted 
     @READ: Message read y/n? 
     @C UNREAD: UnRead 
     @C VOTOPT: Voting Options 
     @C VOTRESP: Voting Response 
     @C GLBLPRM: 'Yes' if this is the first occurance of this item in the global table. 
     @C GLBLCNT: Count of occurances of this item in the Global Project table. 
     @C SRCCUSTOD: Source Custodian.  Obtained from third to last directory name in source file path. 
     @C SRCBOX: Source Box.  Obtained from second to last directory name in source file path. 
     @C SRCFOLDER: Source Folder.  Obtained from last directory name in source file path. 
     @C DATEPRNT: Source Document Last Print Date 
     @C TIMEPRNT: Source Document Last Print Time 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 69 
Concordance Export File Format: 
Source documents are to be generated into single page TIFF files, single page TXT files, and a meta‐data 
file. 
Meta data and the single page TXT file are then combined to create a single DAT file per page for import.  
Each data file is assigned a unique ID (Bates Number).   
Concordance imports all the DAT files from a given directory into the database. 
The list of image files is listed in the .LOG file.  There is a unique TIFF file for each DAT file crated.  The 
image files are imported all at the same time through the Opticom Viewer interface. 
Detailed Requirements: 
Create the following files: 
1.  multi‐line .DAT files containing information for each page of each file. 
2.  multi‐line .LOG file containing a list of tiff images (OPTICOM Load images) that are associated 
with each defined page. 
.DAT File Description: 
The .DAT file contains file meta data, with the exported text as the last field. 
Export fields for the data are defined in the 'export fields' section (below). 
Sample data are also provided in the 'sample data' data section (below). 
The .DAT file contains a single comma delineated list of fields. 
But... Rather than using the common notation 
    "field1","field2","field3"  
notation, fields are delineated by substituting decimal 20 for ',', and decimal 254 for '"'.   
Decimal 20 and decimal 254 are explicitly defined to NOT occur in any imported text. 
Newline values in the imported text are modified to be decimal 174. 
.DAT File Sample: 
The sample data: 
   to:Ken Davies 
   from:Sales 
   Subject:The year ahead 
   Text: A long discussion about the year ahead. 
      Looking forward to your comments. 
      Call me if you want to do lunch. 
 
Copyright © 2009 ImageMAKER Development. www.DiscoveryAssistant.com
   sales: 604 525‐2170
.   Page 70 
becomes: 
   (245)Ken Davies(245)(20)(245)Sales(245)(20)(245)The year ahead(245)(20)(245)A long discussion 
about the year ahead(174)      Looking forward to your comments.(174)      Call me if you want to do 
lunch.(174)(245) 
 
where the values in brackets (245) (20) (174) are decimal byte values in the data stream. 
The data fields in this example are pre‐defined to be "to","from","subject","text". 
.DAT file fields: 
Field Name 
Sample Data 
Populated 
STARTPAGE 
00010002 
YES 
ENDPAGE 
00010002 
YES 
DATE 
20041219 
YES [Date Accessed/Sent Date] 
DOCTYPE 
Doc extension 
YES [SourceFile Ext] 
TITLE 
Untitled 
YES [Title from MetaData] 
AUTHOR 
Simmons;RC / McMurrian;HP 
YES [Author/From:from MetaData] 
AUTHORORG 
Cole Evans and Peterson 
NO 
RECIPIENT 
McCorman;SL 
YES [To: from MetaData] 
RECIPORG 
Cowco 
NO 
CC 
“” 
YES [Cc: from MetaData 
SUMMARY 
“” 
NO 
CONDITION 
“” 
NO 
ATTACH_TYPE 
“” 
NO 
LEAD_DOC 
“” 
NO 
ATTACHMENTS 
“” 
NO 
PRIMARYDATE 
19831220 
YES [Date Created] 
PAGES 
YES 
CCORG 
“” 
NO 
ATT 
“” 
NO 
ATTORG 
“” 
NO 
OCR1 
*** 0010002 **** …. contents of page…  NO 
OCR2 
“” 
NO 
OCR3 
“” 
NO 
OCR4 
“” 
NO 
OCR5 
“” 
NO 
RENUMBER 
161 
NO 
ISSUE 
“” 
NO 
DISC_STATUS 
“” 
NO 
SOURCE_FILE_NAME  C:\fname.doc 
YES 
SOURCE_FILE_SIZE 
104456 
YES 
 
Hyperlinked Source documents: 
Documents you may be interested
Documents you may be interested