EMC CAPTIVA 7 MODULES 
OVERVIEW 
ABSTRACT 
This document provides an overview on the EMC® Captiva® Capture and Advanced 
Recognition modules, including the image capture, document classification, and data 
recognition modules, exporters, utilities, administration, software development kits, 
and Professional Services modules. The document also provides a list of all modules in 
version 7 that are ScaleServer aware or that can be run as a native Windows service.  
EMC PRODUCT DESCRIPTION GUIDE 
Pdf file thumbnail preview - control application platform:C# PDF Thumbnail Create SDK: Draw thumbnail images for PDF in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support Thumbnail Generation with Various Options for Quick PDF Navigation
www.rasteredge.com
Pdf file thumbnail preview - control application platform:VB.NET PDF Thumbnail Create SDK: Draw thumbnail images for PDF in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support Thumbnail Generation with Various Options for Quick PDF Navigation
www.rasteredge.com
TABLE OF CONTENTS 
EMC CAPTIVA INPUT AND PROCESSING 
MODULES 
4
SCANPLUS 
4
RESCANPLUS 
4
MULTI-DIRECTORY WATCH (MDW) 
4
EMAIL IMPORT 
4
IMAGE PROCESSOR 
4
IMAGE CONVERTER 
5
IMAGE DIVIDER 
5
EMC CAPTIVA RECOGNITION MODULES 
5
CLASSIFICATION 
5
EXTRACTION 
6
NUANCE OCR 
6
EAST EURO / APAC OCR 
6
PAGE REGISTRATION 
6
COLLECTOR 
6
EMC CAPTIVA OPERATOR MODULES 
6
DESKTOP 
6
CLASSIFICATION EDIT 
6
EMC CAPTIVA EXPORTS 
7
STANDARD EXPORT 
7
ODBC EXPORT 
7
EMC CAPTIVA ENTERPRISE EXPORTS 
7
EMC DOCUMENTUM ADVANCED EXPORT 
7
EMC DOCUMENTUM APPLICATIONXTENDER EXPORT 
7
IBM CONTENT MANAGER EXPORT 
8
IBM-FILENET PANAGON IMAGE SERVICES / CONTENT SERVICES 
EXPORT 
8
IBM-FILENET CONTENT MANAGER EXPORT 
8
OPENTEXT LIVELINK EXPORT 
8
MICROSOFT SHAREPOINT EXPORT 
8
SAP ARCHIVE EXPORTER AND AP CONNECT 
8
EMC CAPTIVA DESIGN AND ADMINISTRATION
N
control application platform:How to C#: Preview Document Content Using XDoc.Word
RasterEdge XDoc.Word provide you with APIs to get a thumbnail bitmap of the first page in the word document file. You can be able to get a preview of this word
www.rasteredge.com
control application platform:How to C#: Preview Document Content Using XDoc.PowerPoint
XDoc.PowerPoint provide you with APIs to get a thumbnail bitmap of the first page in the PowerPoint document file. You can be able to get a preview of this
www.rasteredge.com
9
DESIGNER 
9
RECOGNITION DESIGNER 
9
CAPTUREFLOW SCRIPT EDITOR 
9
ADMINISTRATOR 
9
WEB SERVICES 
9
SOFTWARE DEVELOPMENT KIT (SDK) 
10
EMC CAPTIVA  UTILITY MODULES 
10
COPY 
10
MULTI 
10
TIMER 
10
CAPTIVA HIGH AVAILABILITY AND 
CLUSTERING 
10
CAPTIVA SCALESERVER 
10
CAPTIVA CAPTURE SERVER AND MICROSOFT CLUSTERING11
EMC PARTNER ADD-ON MODULES AND 
PRODUCTS 
11
PRIMEOCR MODULE FOR CAPTIVA CAPTURE 
11
PDFOPTIMIZER FOR CAPTIVA CAPTURE 
11
REVEILLE MANAGEMENT CONSOLE FOR CAPTIVA CAPTURE11
PROFESSIONAL SERVICES MODULES 
11
EXTRACTOR MODULE 
11
BATCH CREATOR 
11
REPLICATOR 
12
SORT 
12
OPEX SCANNER MULTI-DIRECTORY WATCH 
12
IBM ONDEMAND EXPORT 
12
IBML IMPORT 
12
DIGITAL SIGNATURES 
12
SCALESERVER-AWARE MODULES 
13
MODULES RUNNING AS NATIVE WINDOWS 
SERVICES 
14
control application platform:How to C#: Set Image Thumbnail in C#.NET
PDF to text, C#.NET convert PDF to images, C#.NET PDF file & pages VB.NET How-to, VB.NET PDF, VB.NET Word, VB.NET Excel How to C#: Set Image Thumbnail in C#.NET.
www.rasteredge.com
control application platform:How to C#: Preview Document Content Using XDoc.excel
RasterEdge XDoc.Excel provide you with APIs to get a thumbnail bitmap of the first page in the Excel document file. You can be able to get a preview of this
www.rasteredge.com
EMC CAPTIVA INPUT AND PROCESSING 
MODULES 
SCANPLUS  
ScanPlus is a smart client module that enables users to scan hardcopy documents and 
import image files into Captiva. It uses Pixel Translations' ISIS (Image and Scanner 
Interface Specification) driver set, which is the industry standard interface for high 
performance scanners, and supports more than 450 makes and models of scanners. 
An intuitive and customizable workspace layout lets users resize, move, add, and 
delete task panels, re-order images in a batch, and modify scanner settings.  
RESCANPLUS 
RescanPlus is a smart client module that enables users to rescan hardcopy 
documents. RescanPlus uses all the same basic functionality of the ScanPlus module, 
including ISIS. The RescanPlus module is used for rescanning poor quality images. 
MULTI-DIRECTORY WATCH (MDW) 
Multi-Directory Watch module monitors multiple directories for new files. When new 
files are detected in a specified directory, the module creates a new Captiva batch 
based on the Captiva process defined for that directory. 
Multi-Directory Watch: 
Runs at intervals as needed. Each time it runs the module imports files found in a 
watched directory into one or more batches until all files are imported. 
Locates images in subdirectories within a watched directory. 
Determines the level at which an image is inserted with each processed file. 
Deletes a file after it is successfully imported into the Captiva system, unless an 
alternate success path directory is specified. 
Moves files with import errors to a selected error path directory, and logs errors 
to an error log file in the same directory. 
Displays errors that occur while importing files in the application window. 
Reads a delimited text file and parses the text into separate Captiva attributes. 
Runs in unattended mode as a service. 
Parses the text of a specified XML file into separate Captiva attributes. 
EMAIL IMPORT 
Email Import module receives documents in the form of e-mail and attachments from 
a mail server. The modules parse the incoming e-mail, enabling the various parts of 
the e-mail message (message body and attachments) to be imported as separate 
items into Captiva. 
Email Import module is another way to get images and data into your Captiva 
system. Email Import module includes the ability to: 
Import any attachment, including non-image files 
Search multiple e-mail Inboxes 
Import from various e-mail systems 
Capture information such as recipient, subject, and body, as Captiva values to be 
saved with that batch. 
IMAGE PROCESSOR 
Image Processor, together with Image Processing profiles, replaces the Auto Annotate 
and Image Enhancement modules. Image Processor module lets you apply image 
filters to detect content, remove distractions such as holes or lines, adjust colors, 
control application platform:How to C#: Generate Thumbnail for Word
Images. Convert Word to ODT. Convert PDF to Word. a Word File. File: Merge Word Files. File: Split Word Text Search. Insert Image. Thumbnail Create. Thumbnail Create
www.rasteredge.com
control application platform:How to C#: Generate Thumbnail for PowerPoint
Document. Conversion. Convert PowerPoint to PDF. Convert PowerPoint File: Merge PowerPoint Files. File: Split PowerPoint Text Search. Insert Image. Thumbnail Create
www.rasteredge.com
improve line quality, and correct page properties using Image Processing profiles. It is 
also possible to integrate third-party image filters, and using scripting to dynamically 
apply filters based on set conditions. 
You can use profile scripting to extend the functionality of existing filters. 
Image processing filters include the following: 
Detection: barcodes, blank pages, color marks, colorfulness, patch codes. 
Removal: background, black bars, holes, lines. 
Color Adjustment: Adjust overall color, convert specific color, convert to black 
white, convert to black white advanced, invert black white   
Image Quality: adjust lighting, adjust thickness, remove specs, smooth edges 
Page Correction: crop, deskew, rotate, scale 
IMAGE CONVERTER 
Image Converter module is responsible for image conversion functionality. Image 
conversion is a mechanism that lets you convert files from one format to another and 
transforms files from one type to another. 
Image Converter module implements the following features: 
Performs file conversion: Depending on the image conversion profile defined for a 
step, conversion can include:  
Changing image properties including file format, color format, and compression; 
Converting non-image files to images and PDF files, and images to PDF files; 
Generating output files of specific file types such as, for example, PDF, TIFF, and 
BMP, with the opportunity to specify additional options for these types of files; 
Merging single-page files to multi-page documents and splitting multi-page 
documents into single pages; 
Merging annotations added to TIFF images by other modules, such as Image 
Processor or Captiva Desktop, into the output image. 
Supports processing of image and non-image files: Supports converting a wide range 
of image formats, Microsoft Office documents, PDF, and HTML files. 
Creates thumbnails for all pages with the single-page output type: Generates 
thumbnails of the pages processed. 
IMAGE DIVIDER 
Image Divider acquires, identify, and process multi-page image files. Once Image 
Divider identifies an incoming file as a multi-page image file, it is able to split this file 
into single-page files while preserving the attributes of the original image file. 
EMC CAPTIVA RECOGNITION MODULES 
CLASSIFICATION 
Classification module comes with Captiva Advanced Recognition and used to classify 
documents automatically by assigning each document to a template defined in a 
project. Documents that are not classified automatically during the classification 
phase need to be classified manually using the Classification Edit module. This module 
is included with Captiva Advanced Recognition product. 
The classification engine used by the Classification module applies several 
classification algorithms to the images, including: 
Full Page Image Analysis: Evaluates and compares an entire image to the models 
stored in each template. 
control application platform:C# Image: View & Operate Web Page Using .NET Doc Image Web Viewer
Support multiple document and image formats, like PDF and TIFF; the page order of source document file using mouse dragging in thumbnail preview section;
www.rasteredge.com
control application platform:How to C#: Overview of Using XDoc.PowerPoint
See this C# guide to learn how to use RasterEdge PowerPoint SDK for .NET to perform quick file navigation. You may easily generate thumbnail image from
www.rasteredge.com
Handwritten Detection Analysis: Evaluates images to determine the percentage of 
handwriting they contain. If higher than a predefined threshold, an image is 
classified as “handwritten”. 
Full text Analysis: Performs OCR and evaluates the resulting text for keywords, 
pattern matches, or regular expressions that were defined in a template. 
High Precision Anchors: Selects a feature of an image based on a similar feature 
that was demarcated on a model image stored in a template. 
EXTRACTION 
Extraction module extracts data from each page of a document using. It then 
combines the page-level outputs into a single document. Two technologies are used 
for data extraction: 
Zonal recognition: extracts data from predefined areas of a page 
Free form recognition: extracts data from the entire page 
Several recognition engines are available supporting almost all languages and types 
of recognition including machine print, hand print, checkboxes, 1D barcodes, 2D 
barcodes, signatures (present or not), French and US Checks (machine print and hand 
print, MICR/CMC7, and CAR/LAR). 
NUANCE OCR 
Nuance OCR module is the standard OCR module that is included with Captiva 
Capture. This module performs optical character recognition (OCR) on images using 
up to three engines and supports 114 languages and a wide variety of output formats, 
including PDF. Optional licensing is available for handprint and optical mark 
recognition (OMR). 
EAST EURO / APAC OCR 
East Euro / APAC OCR module performs optical character recognition of scanned or 
imported images and exports the image and index data to more than 25 different 
word processing and text formats. The module works at any trigger level (all nodes 
below the trigger level task are combined into a single output file). 
PAGE REGISTRATION 
Page Registration module registers images to conform to a template image. You can 
perform zonal OCR on static form fields with confidence that the OCR zones will be 
associated with the correct area of their scanned images. 
COLLECTOR 
Collector is part of Production Auto-Learning (PAL). PAL automatically creates new 
graphic templates using the images collected by Collector. The newly created 
templates are used to automatically identify a document.  
EMC CAPTIVA OPERATOR MODULES 
DESKTOP 
Captiva Desktop is a new desktop client in Captiva 7.0 for capture operators. Captiva 
Desktop can be easily customized for all types of capture tasks—image quality review, 
document assembly, high-speed data entry and indexing, high-speed data correction, 
and data validation. 
CLASSIFICATION EDIT 
Classification Edit comes with Captiva Advanced Recognition and is used to review 
and classify documents that were not automatically classified during document 
recognition. Classification Edit enables operators to manually classify all documents 
ts 
control application platform:How to C#: Overview of Using XDoc.Excel
See this C# guide to learn how to use RasterEdge Excel SDK for .NET to perform quick file navigation. You may easily generate thumbnail image from Excel.
www.rasteredge.com
control application platform:How to C#: Overview of Using XDoc.Word
C# users how to: create a new Word file and load Word from pdf; merge, append can be drawn and added to a specific location on Word file page. Create Thumbnail.
www.rasteredge.com
that were not classified automatically by the Classification module. Operators can 
classify documents by assigning each document to a template that has been defined 
in a project. 
Classification Edit module is an attended module that an operator interacts with to 
successfully process documents onto the next step. Batches selected for processing 
during production open automatically in the Classification Edit production window 
where the operator can complete and correct automatic classification that was 
performed during the Classification step. 
EMC CAPTIVA EXPORTS 
STANDARD EXPORT 
Standard Export module performs data export from a batch to the specified 
destination. The data and image can be exported in any of the supported file formats. 
Export profiles define the batch processing scenario and the export commands that 
will be applied to the batch. They define filters that select batch nodes for data export 
based on a filtering condition. The selected nodes are handled with a set of export 
commands defined for that filter. 
ODBC EXPORT 
ODBC Export module saves Captiva values and image data, and performs SQL queries 
and database updates by using Open Database Connectivity (ODBC) drivers into 
ODBC-enabled applications. 
EMC CAPTIVA ENTERPRISE EXPORTS 
EMC DOCUMENTUM ADVANCED EXPORT 
EMC Documentum® Advanced Export module enables users to specify an unlimited 
number of objects for export, define properties for each one, end export documents 
to new or existing objects in the Documentum system. The module processes tasks in 
unattended production mode, specifies objects and corresponding object properties, 
designates the owners of newly created documents, and specifies who can access 
each document. The Documentum Advanced Export functionality: 
Processes tasks unattended in production mode. 
Specifies objects and corresponding object properties. 
Designates the owners of newly created documents and each object. 
Creates a flexible export list containing objects and renditions. All definitions can 
be exported to one or more folders and cabinets. 
Implements an object search to find and export documents. 
Supports major, minor, and branch versioning. Exporting a branch version is 
useful when the current version of the document is locked. 
Specifies the state within a document lifecycle to apply to a document, and 
specifies an alias set to determine the document permissions. 
Links one or more available documents to several folders during the export. 
Exports multiple renditions of a document. 
EMC DOCUMENTUM APPLICATIONXTENDER EXPORT 
EMC Documentum ApplicationXtender® Export module sends image data and index 
data into the ApplicationXtender content management repository. 
ApplicationXtender Export module: 
Initiates ApplicationXtender workflows. 
Provides Full Text Indexing module support. The module can route a document to 
the ApplicationXtender Export Full Text Indexing module. 
Map Captiva values to the index fields (including multi-valued fields) of a selected 
document class. When setting up the module, users can map Captiva values to 
the index fields of a selected document class. 
Use Captiva values to specify output locations. When setting up the module, 
users can specify the desired export location using a combination of hard-coded 
characters and Captiva values in setup mode. A Captiva value is a variable used 
within Captiva to store setup and processing information, including file and image 
names, module configuration settings, processing statistics, and data captured 
during processing. Users separately specify the application name and index fields 
for maximum flexibility. ApplicationXtender Export module creates any part of the 
required path that does not already exist. 
IBM CONTENT MANAGER EXPORT 
Specifically for older i-series, the IBM Content Manager Export modules export image 
data and index data into an IBM ImagePlus VisualInfo repository. The Captiva Capture 
Tree structure is preserved as folders and documents, while index data is formatted 
and stored as VisualInfo attributes. The IBM Content Manager Export allows you to 
export image data and, optionally, index data to IBM ImagePlus. Indexing can also be 
performed prior to exporting by using the Captiva Capture/IBM CMIP-390 Index 
module. IBM Content Manager Exporter for Captiva sends data directly to an IBM 
Content Manager back end. 
IBM-FILENET PANAGON IMAGE SERVICES / CONTENT 
SERVICES EXPORT  
IBM-FileNet Panagon Image Services / Content Services Export module enables you 
to connect a Captiva server to an IBM-FileNet server, and populate your IBM-FileNet 
system with batch information, including tree structures, documents, and Captiva 
values. During module setup, users can select what items to export and assign 
Captiva values to index or property fields to facilitate later retrieval from the FileNet 
system 
IBM-FILENET CONTENT MANAGER EXPORT 
IBM-FileNet Content Manager Export module exports Captiva images and data to an 
IBM-FileNet Content Manager system. You can export and store any type of document 
and map Captiva Capture values to index fields within document classes.  
OPENTEXT LIVELINK EXPORT 
OpenText Livelink Export exports image and index data directly to the Livelink 
Content Management system. The export enables you to specify categories and 
assign attribute values for each item, and export captured data to an enterprise 
workspace, personal workspace, workflow, Object ID, or Volume ID. 
MICROSOFT SHAREPOINT EXPORT 
Microsoft SharePoint Export module sends image and index data directly to Microsoft 
SharePoint 2003, 2007, and 2010. 
SAP ARCHIVE EXPORTER AND AP CONNECT 
SAP® Archive Export and AP Connect module export content from Captiva Capture to 
a content server via the SAP HTTP Content Server Interface, and export 
administrative data (metadata) from Captiva Capture values to an SAP R/3® system 
via the SAP ArchiveLink® interface. If Archive Export is configured for the Late 
Archiving mode, then only a small amount of data is sent to the SAP R/3 system that 
links the existing invoice data to the image on the Content Server. If Archive Export is 
configured for the Early Archiving mode, then all of the name-value pairs defined in 
the index fields are transferred to the SAP R/3 system. 
EMC CAPTIVA DESIGN AND ADMINISTRATION  
DESIGNER 
Captiva Designer 7.0 is a new design and development tool for creating, configuring, 
deploying, and testing the capture system end-to-end. It provides a unified 
development environment that lets you define one or more capture systems. Each 
capture system is composed of a set of CaptureFlows, profiles, document types, and 
other service components that make up an end-to-end working system. These 
reusable service components are configurations that are not specific to any capture 
process. 
RECOGNITION DESIGNER 
Captiva Recognition Designer allows project administrators to create, edit, and test 
recognition projects before uploading them to the production environment. 
Recognition projects contain instructions for passing documents and their information 
through classification, recognition, and validation steps of a process. For additional 
customization, project administrators can create and edit project scripts and import 
templates from other projects. Recognition Designer allows users to work in either 
basic mode using Captiva Capture, or advanced mode using Captiva Advanced 
Recognition. 
CAPTUREFLOW SCRIPT EDITOR 
CaptureFlow Script Editor provides the ability to write custom code as part of the 
CaptureFlow development process. A process model can be associated with a C# or 
VB.NET project that stores code-behind for the process steps. A project is added for a 
CaptureFlow automatically when you add scripting for any of its steps for the first 
time. Each step in a process model can be given a script file in the project. 
ADMINISTRATOR 
Administrator is a browser-based module that is accessed through a Microsoft 
Internet Explorer browser. It interacts with the Captiva system on several levels, 
enabling it to perform necessary administrative tasks.  
An administrator is able to: 
Configure a ScaleServer group 
Perform all Captiva server administrative tasks 
Control all process and batch administration, including monitoring batch traffic 
and finding batches 
Perform administrative tasks related to Captiva modules 
Install and maintain Captiva licenses 
Configure the logging subsystem to capture informative, real-time data 
Configure and generate informative, customizable reports 
WEB SERVICES  
Web Services provides an XML-based web services framework to support service-
oriented architectures (SOA). This architecture enables the Captiva system to either 
be a consumer or provider of web services. Captiva web services enable external 
systems to interact with Captiva processes, and enable Captiva to interact with the 
workflows of external systems. Also, external systems can use specific capabilities of 
individual Captiva modules without using the entire Captiva system. The following 
ing 
modules support web service functionality: 
Web Services Input module: Captiva module that serves as a web services provider, 
processing SOA requests from external web services consumers. 
Web Services Output module: Captiva module that serves as a web services 
consumer, using Internet protocols to access the functionality of external SOA 
participants (web services providers). 
SOFTWARE DEVELOPMENT KIT (SDK) 
Captiva Software Developer’s Kit (SDK) enables an experienced C or Visual Basic 
programmer to develop Captiva compatible modules. The toolkit gives developers 
access to required files and documentation for building Captiva compatible modules in 
a Microsoft Visual Basic development environment that: 
Communicates with one or more Captiva Capture servers 
Manages files on the Captiva Capture server(s) 
Receives tasks from one or more Captiva Capture servers for processing 
Manages Captiva Capture values 
Structures and manages batch information in an Captiva Capture tree 
The SDK also includes source code for sample applications, all necessary header files, 
and a manual in PDF.  
EMC CAPTIVA  UTILITY MODULES 
The following utilities are included with the Captiva Server. 
COPY 
Copy utility enables batches to be copied either to another Captiva Capture system, a 
local or network directory, or an FTP site.  
MULTI 
Multi is a multiple-purpose module that is able to manipulate nodes within the batch 
tree, change the effective trigger level in a process, and can also sound a beep to 
notify when a module finishes processing all tasks for any number of batches. When 
launched, Multi runs independently of an operator, and receives tasks as they become 
available from the server.  
TIMER 
Timer module changes values of a batch, or a group of batches, at a user-specified 
time. During setup, rules are created to specify the conditions under which Timer 
changes values, and the operations Timer performs during production. 
CAPTIVA HIGH AVAILABILITY AND 
CLUSTERING 
Captiva uses several technologies to ensure high availability and failover protection. 
CAPTIVA SCALESERVER 
Captiva ScaleServer technology provides Captiva Capture systems with many 
benefits, including increased availability, higher productivity, improved workload 
balancing, and centralized control. In a ScaleServer group, multiple Captiva servers 
work together as a single capture system, distributing the processing workload. Each 
server in the ScaleServer group manages its own work, and each client workstation 
requests work from all available servers. When a module finishes processing, it sends 
the batch back to the Captiva server where it originated. The multiple servers appear 
Documents you may be interested
Documents you may be interested