mvc display pdf from byte array : How to extract pictures from pdf files Library application component asp.net windows .net mvc EZTwain_User_Guide8-part1935

EZTwain Pro User Guide
Functions – Optical Character Recognition (OCR) 
Introduction
Optical Character Recognition (OCR) is the industry term for the reading of text in an 
image by machine.  You will also sometimes see it called Intelligent Character 
Recognition (ICR). This is highly relevant to scanning because so much of what we 
scan contains text.  Extracting the text on a scanned page can be useful for indexing 
documents, for searching them, and for automatic routing and processing.
EZTwain OCR is based on a multi-engine architecture with a specific set of supported 
engines in each release.  You can enumerate the supported or available engines, 
select an engine, and use that engine to recognize text in scanned or loaded images.
EZTwain Pro currently supports only one OCR engine, the TOCR engine by Transym 
Computer Services Ltd (www.transym.com
 This engine is not provided by Dosadi – 
it must be separately licensed and installed.  The TOCR engine was chosen because it 
was the engine most recommended by our customers for its speed and accuracy at 
plain text recognition.  It outputs plain text – no font, font-size, style or other 
formatting information is provided. 
Although this release of EZTwain Pro only supports one engine, we expect to support 
additional engines in the future.  Please code defensively: Engine codes are constants 
and will never change, but the default OCR engine may change from release to 
release.  At start-up, EZTwain Pro will select the available engine that we think will 
give the most satisfactory results for the greatest number of new customers.  Keep in 
mind that in the future this may not be the Transym engine, or it could be a 
substantially different version of the Transym engine.
Using TOCR with EZTwain Pro is relatively simple:
1. Install the TOCR product according to Transym's directions.
2. In your application, start by selecting the TOCR engine using 
OCR_SelectEngine(EZOCR_ENGINE_TRANSYM)
(Or the equivalent in your programming language.)
3. If that returns True (1) you may invoke other OCR services either directly 
using OCR_RecognizeDib, or indirectly using functions such as 
OCR_IsAvailable
BOOL OCR_IsAvailable()
This function returns True (1) if any OCR services are available.  This does not mean 
that any particular engine is available: Always check for the particular engine you 
prefer using OCR_IsEngineAvailable.
OCR_Version
int OCR_Version()
Page 79
How to extract pictures from pdf files - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
pdf image extractor; pdf image text extractor
How to extract pictures from pdf files - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract images from pdf c#; extract images from pdf file
EZTwain Pro User Guide
Returns the version number of the EZTwain Pro OCR subsystem, as the usual m.nn 
fraction multiplied by 100.  So a version 1.25 OCR subsystem will return 125.  Note 
that this is the version of our OCR subsystem, not the version of an OCR engine.
OCR_IsEngineAvailable
OCR_SelectEngine
OCR_SelectDefaultEngine
OCR_SelectedEngine
OCR_EngineName
BOOL OCR_IsEngineAvailable(int nEngine)
BOOL OCR_SelectEngine(int nEngine)
BOOL OCR_SelectDefaultEngine()
int OCR_SelectedEngine()
string OCR_EngineName(int nEngine)
These functions allow you to test for availability of a specific OCR engine, to select an 
engine, to see what the currently selected engine is, and to retrieve the human-
readable name of any supported engine.
OCR Engine Codes
Symbol
Code
Description
EZOCR_ENGINE_NONE
0
‘null’ OCR engine - turns off OCR.
EZOCR_ENGINE_TRANSYM
1
TOCR engine by Transym Ltd.
Using OCR_EngineName, you can enumerate the supported OCR engines, to populate 
a listbox for example.  Just call OCR_EngineName(i) with i = 0, 1, ... until it returns 
an empty string.
OCR_SetEngineKey
void OCR_SetEngineKey(string key)
Passes a registration/unlock key to the selected OCR engine.
For example, Transym Computer offers a reseller version of their TOCR engine. When 
you license this product, you receive a special version of TOCR, and a 16-digit 
registration number. Once the reseller version of TOCR is installed on a computer, 
you can use it through EZTwain by passing in the registration number with a call like 
this:
OCR_SetEngineKey(“0123-4567-89AB-CDEF”)
OCR_SetLineBreak 
OCR_SetLineBreak(string sEOL)
Set the character sequence to use for line breaks in OCR'd text (as returned by 
OCR_Text and OCR_GetText).
Page 80
VB.NET PDF Convert to Word SDK: Convert PDF to Word library in vb.
be converted to separate Word files within a short time in VB.NET class application. In addition, texts, pictures and font formatting of source PDF file are
extract photos from pdf; how to extract images from pdf
VB.NET Image: VB.NET Codes to Load Images from File / Stream in .
When evaluating this VB.NET imaging library with pictures of your own powerful & profession imaging controls, PDF document, image to pdf files and components
extract image from pdf online; extract images from pdf
EZTwain Pro User Guide
The default OCR line break is \n (LF or 0x0A)
Other commonly used line breaks are \r (CR, 0x0D) or CRLF.
Set this before doing OCR - it does not modify already recognized text.
OCR_RecognizeDib
int OCR_RecognizeDib(HDIB hdib)
Recognize text in the specified image, using the currently selected engine.  The 
recognized text can be retrieved with OCR_Text or OCR_GetText, and the position 
information with OCR_GetCharPositions and OCR_GetCharSizes.
Return codes:
0
no error, but no text found.
n>0
n characters of text are available – including spaces and newlines.
-1
OCR services or selected engine not available.
-3
the image handle is null or invalid.
-5
there was an internal error or the OCR engine returned an error.
In case of an error, call TWAIN_ReportLastError, TWAIN_LastErrorCode, or similar 
functions for more details.
OCR_RecognizeDibZone
int OCR_RecognizeDibZone(HDIB hdib, int x, int y, int w, int h)
Recognize text in the specified rectangle (zone) of the specified image, using the 
currently selected engine.  Otherwise identical to OCR_RecognizeDib.
Be sure you understand the parameters: (x,y,w,h) specify a rectangle w pixels wide, 
h pixels high, starting y pixels down from the top of the image and x pixels in from 
the left edge.
OCR_Text
string OCR_Text()
Returns the text recognized by the last call to OCR_RecognizeDib.  If there is any 
problem, returns the empty string.
OCR_GetText
BOOL OCR_GetText(char *buffer, int buflen)
Retrieves the text recognized by the last call to OCR_RecognizeDib.  It copies no 
more than buflen characters into buffer, including a terminating NUL (0 character) 
for those languages that require this.  If successful, returns True (1), otherwise False 
(0).
Page 81
VB Imaging - VB Code 93 Generator Tutorial
VB developers to create Code 93 on popular image files, including BMP developers to create and write Code 93 linear barcode pictures on PDF documents, multi
how to extract pictures from pdf files; extract image from pdf c#
C#: Use OCR SDK Library to Get Image and Document Text
a digital camera, scanned document or image-only PDF using C# color image recognition for scanned documents and pictures in C#. Steps to Extract Text from Image.
how to extract images from pdf in acrobat; extract jpeg from pdf
EZTwain Pro User Guide
OCR_TextLength
int OCR_TextLength()
Returns the number of characters in the stored OCR text.  Does not include the 
terminating NUL, for those of you working in languages that care about that.
OCR_TextOrientation
Int OCR_TextOrientation()
Returns the orientation of the text found by the last OCR_RecognizeDib.
The value is the number of degrees clockwise that the input image was auto-rotated 
before OCR was performed.
Currently, the returned value is always a multiple of 90, so the only possible values 
are 0, 90, 180 and 270.
Example: If the original was turned 90 degrees clockwise before scanning, it will be 
auto-rotated 90 degrees *counter-clockwise* before OCR, so in that case the value 
of this function will be 270.
OCR_GetCharPositions
OCR_GetCharSizes
BOOL OCR_GetCharPositions(long x[], long y[])
BOOL OCR_GetCharSizes(long w[], long h[])
Retrieve the positions and sizes, respectively, of the characters recognized by the 
last call to OCR_RecognizeDib.  Positions are in pixels relative to the top left corner 
of the processed image.  Sizes are in pixels.
It is the caller's responsibility to ensure that x, y, w, and h are arrays of long (32-bit) 
integers, allocated large enough to hold N entries, where N is the character count 
returned by OCR_TextLength or the last call to OCR_RecognizeDib.  Sorry we don't 
have example code yet.
OCR_ClearText
void OCR_ClearText()
Clear the text and other information stored by the last OCR recognition.  After this 
call, OCR_TextLength will return 0, and OCR_Text and OCR_GetText will return the 
empty string.
OCR_WritePage
BOOL OCR_WritePage(HDIB hdib)
Recognize the text in the specified image, then write the image plus the (hidden) 
text to the currently open PDF output file.  An available OCR engine must be 
selected. There must be a PDF file currently open for output, opened with 
TWAIN_BeginMultipageFile.
Page 82
C# Imaging - Scan RM4SCC Barcode in C#.NET
& decode RM4SCC barcode from scanned documents and pictures in your Decode RM4SCC from documents (PDF, Word, Excel and PPT) and extract barcode value as
extract text from image pdf file; extract photos pdf
C# Imaging - C# Code 93 Generator Tutorial
to write and draw the best Code 93 barcode pictures in png, jpeg, gif, bmp, TIFF, PDF, Word, Excel Code93 barcode and save it to image files/object using
some pdf image extract; pdf image extractor c#
EZTwain Pro User Guide
OCR_WriteTextToPDF
BOOL OCR_WriteTextToPDF()
Write the text from the last OCR to the next PDF page.  The output text is retained 
until a page is written to a PDF file, then it is placed (invisibly) on that page.
Page 83
C# Imaging - Scan ISBN Barcode in C#.NET
which can be used to track images, pictures and documents in Load an image or a document(PDF, TIFF, Word barcodes from png image files and extract ISBN barcode
extract images from pdf acrobat; how to extract text from pdf image file
Save, Print Images in Web Image Viewer| Online Tutorials
of single page printing and multi-page printing for pictures and documents; various file formats like PNG, JPEG, GIF, BMP, TIFF, PDF, MS Word Save Images & Files.
extract image from pdf acrobat; extract pictures from pdf
EZTwain Pro User Guide
Functions – Image Files
This section...
describes the options and restrictions of each file format,
explains how EZTwain decides which format to use when writing a file,
describes which DLLs are required to support the various file formats,
lists the functions that write images to files.
File Formats - Restrictions and Options
Format
Image Type(BPP)
Options
BMP
No options.
No compression.
Single page/image per file.
BW(1),
Palette(4,8),
RGB(24)
These are standard BMP formats.
Gray(8)
EZTwain can read and write this format, but some 
other programs may interpret a BMP of this format 
as a palette-color image with 256 colors (which all 
happen to be shades of gray...)
Gray(16),
RGB(48),
CMY(24,48),
CMYK(32)
EZTwain will read and write these non-standard 
formats in BMP, but few other programs will read 
them correctly.
TIFF
Many options.
Most accomodating file format.
EZTwain can append to an existing file.
Single or multiple pages/images per file.
See also: TIFF: Special Features, page 97
BW(1)
Default compression: CCITT Group 4 Fax, which 
does very well on scanned office documents. 
Other supported BW compressions are RLE (run-
length encoding), CCITT Group 3 Fax, LZW, and 
‘Packbits’.
Palette(4,8)
Default compression: None.
Some palette images compress well with LZW.
Gray(8),
RGB(24),
CMY(24),
CMYK(32)
Default compression: None.
JPEG compression is available, but creates 
compatibility problems with some older software.
Gray(16),
RGB(48),
These ‘deep’ images can be written (and read), 
but are always stored uncompressed. 
Page 84
VB.NET Image: Mark Photo, Image & Document with Polygon Annotation
SDK, which can be used to create the most common 7 types of annotations on various image files. What's more, if coupled with .NET PDF document imaging add-on
extract image from pdf using; extract image from pdf file
VB.NET Image: Sharpen Images with DocImage SDK for .NET
VB.NET Coding. When you have made certain corrections in your VB.NET project photo or image files, you might want to sharpen your pictures before saving them
extract color image from pdf in c#; how to extract images from pdf files
EZTwain Pro User Guide
CMY(48)
PDF
Highly flexible format.
Supports single and multipage files.
EZTwain can read its own PDF files, but not most 
other PDFs.
EZTwain can append to its own PDF files, probably 
some others.
See also: PDF-Specific Features, 100
BW(1),
Palette(4,8)
Always compressed with ‘Flate’ compression, 
which is a form of LZ compression.
Gray(8),
RGB(24),
CMYK(24)
Always compressed with JPEG compression. 
Degree of compression controlled by 
TWAIN_SetJpegQuality.
Note that CMY images are not supported.
JPEG
Gray(8),
RGB(24),
CMY(24)
Technically, EZTwain writes the JFIF file format, 
which is a non-progressive JPEG stream with some 
additional tags such as resolution.
One page/image per file.
Degree of compression controlled by 
TWAIN_SetJpegQuality.
Not defined for BW or Palette images, nor for 
‘deep’ images of > 8 bits/channel.
GIF
BW(1),
Palette(4,8)
No options.
Single image per file.
Compression is always by LZW.
RGB(24,48), 
CMY(24,48), 
CMYK(32)
These can be written to GIF format but they are 
always converted to 8-bit palette color before 
writing.  This is suitable only for export, because it 
destroys so much of the information in the image.
DCX
BW(1)
No options.
Rarely used format, commonly associated with 
facsimile applications.
Multiple pages/images allowed in a file.
Can be appended to, see: 
TWAIN_SetFileAppendFlag.
Standard compression does well on documents.
PNG
BW(1),
Palette(4,8),
RGB(24)
No options.
Single image per file.
Standard compression is LZ, which does well on 
scanned printed or typed documents, poorly on 
images and photos.
Page 85
EZTwain Pro User Guide
File Format Codes (TWFF_* Codes)
Format 
Name
Code Extension
Meaning
TWFF_TIFF
0
.tif, .tiff
Tagged Image File Format.
Note: By default, Group4 Fax compression is used 
for 1-bit images, all others are uncompressed.
TWFF_BMP
2
.bmp
Windows Bitmap – uncompressed.
Note: BMP support is built into EZTwain, so is 
always available.
TWFF_JFIF
4
.jpg, .jpeg
JPEG File Interchange Format 1.02
TWFF_PNG
7
.png
Portable Network Graphics
TWFF_DCX
97
.dcx
DCX - multipage PCX fax format.
TWFF_GIF
98
.gif
Graphics Interchange Format
Note: TWFF_GIF is not a TWAIN constant, TWAIN 
does not recognize GIF.  GIF support is only 
provided by EZTwain.
TWFF_PDF
99
.pdf
(Adobe) Portable Document Format
Note: Same comment as for GIF above.
How EZTwain Chooses Output Format
If you use TWAIN_AcquireToFilename or DIB_WriteToFilename, the format of the 
output file is determined as follows:
If the specified filename ends in  .BMP, .JPG, .JPEG, .TIF, .TIFF, .PNG, .GIF, .DCX 
or .PDF, then the file is saved in the corresponding format.  Otherwise the current 
Save Format is used.  The Save Format is set by TWAIN_SetSaveFormat and is 
initially BMP.
Similarly, TWAIN_AcquireMultipageFile will write PDF format if the filename ends 
with .PDF, TIFF format if the filename ends with .TIF, .TIFF or .MPT (Multi-Page Tiff), 
and DCX format if it sees a .DCX extension.  If it does not recognize the file 
extension, it uses the current Multipage Format – which is set by 
TWAIN_SetMultipageFormat (p 35) and is initially TIFF.
File Format Support - Optional DLLs
The EZTwain main module (Eztwain3.dll) by itself can only read and write the BMP 
file format.  To write the other file formats, the optional EZ* DLLs must be properly 
installed - See EZTwain Components, page 2.
Important: If you use either EZTiff.dll or EZPdf.dll, you must also install 
EZJpeg.dll (whether or not you actually use JPEG compression.)
Page 86
EZTwain Pro User Guide
General file-writing settings
TWAIN_SetFileAppendFlag/TWAIN_GetFileAppendFlag
void TWAIN_SetFileAppendFlag(int nAppend)
int TWAIN_GetFileAppendFlag(void)
These functions set and query the File Append Flag. This flag controls what EZTwain 
does in the event of writing to a TIFF or DCX file which already exists.  If the File 
Append Flag is non-zero and the program attempts to write to an existing TIFF or 
DCX file, EZTwain appends images to the existing file.  Otherwise if the File Append 
Flag is 0 (the default case), writing a TIFF, DCX (or any other) file overwrites any 
previous contents of that file.  Note: If there is no existing file, this flag is ignored.
TWAIN_SetJpegQuality / TWAIN_GetJpegQuality
void TWAIN_SetJpegQuality(int nQ)
int TWAIN_GetJpegQuality(void)
Sets the quality of JPEG compression throughout EZTwain, including any 
subsequently saved JPEG/JFIF file, or JPEG compressed image in PDF and TIFF 
format.  You can use any value from 1 to 100, although I have never heard of 
anybody using a value below 40 in practice.  This table lists some sample values for 
guidance.  The sample compression gives the ratio of the uncompressed to the 
compressed JPEG file, for a 200 DPI RGB scan of a National Geographic magazine 
cover.
Quality
Description
Sample Compression
1
Lowest-quality, smallest files
150X
25
Low quality
40X
50
Moderate quality
20X
75
Good quality [DEFAULT]
12X
90
High quality
6X
100
Highest quality
2.5X
You cannot directly control the size of JPEG files – lower quality means smaller files, 
higher quality means larger, but the relationship is non-linear and depends on the 
content of the image being compressed.
Even at quality 100 JPEG is still a lossy compression - there will still be degradation 
of the image, although it is very unlikely to be detectable by the human eye. 
Nonetheless there are subtle mathematical changes in the image, and repeated 
compression and recompression even at quality level 100 can lead to cumulative 
(visible) image degradation.
PDF: By default, PDF uses JPEG compression for grayscale and RGB or CMYK color 
images.  See PDF_SetCompression for more information.
TIFF: Subject to some warnings about compatibility, TIFF files can be written with 
JPEG compression (See TWAIN_SetTiffCompression.
Page 87
EZTwain Pro User Guide
Writing images to files
DIB_WriteToFilename/TWAIN_WriteToFilename
int DIB_WriteToFilename(HANDLE hdib, string pszFile)
int TWAIN_WriteToFilename(HANDLE hdib, string pszFile)
Writes an image to a file.  If the file string ends with a recognized extension (BMP, 
JPG, JPEG, TIF, TIFF, PNG, GIF, DCX or PDF), then the file is written in the implied 
format.  Otherwise, the file is written using the current save format: See 
TWAIN_SetSaveFormat.  Normally if the output file exists it is overwritten, but TIFF, 
PDF and DCX files can be appended to: See TWAIN_SetFileAppendFlag.
hdib
DIB handle, as returned by TWAIN_AcquireNative
pszFile
filename string
If pszFile is NULL or points to a null string, the user is prompted for the filename and 
format with a standard Windows File Save dialog.  The Save dialog will only offer 
formats that are available and valid for the given image.
Return values:
0
success
-1
user cancelled File Save dialog
-2
file open error (invalid path or name, or access denied)
-3
image is invalid, or cannot be written in this format.
-4
writing data failed, possibly output device is full
DIB_WriteArrayToFilename
int DIB_WriteArrayToFilename(HDIB ahdib[], int n, string File)
Write n images from array ahdib to the specified file.
If n is 1, this is exactly equivalent to calling DIB_WriteToFilename.
If n > 1, this is a shortcut for calling
TWAIN_BeginMultipageFile,
TWAIN_DibWritePage (for each image)
TWAIN_EndMultipageFile
...with appropriate error handling, of course.
Return values:
0
success
-1
user cancelled File Save dialog
-2
file open error (invalid path or name, or access denied)
-3
a) image is invalid (null or invalid DIB handle)
b) support for the save format is not available (missing DLL?)
c) DIB format incompatible with save format e.g. B&W to JPEG.
-4
writing data failed, possibly output device is full
-5
other unspecified internal error
-6
a multipage file is already open
-7
multipage support is not installed.
Page 88
Documents you may be interested
Documents you may be interested