download pdf file in c# : Convert excel to pdf with hyperlinks application control cloud windows azure html class User%20Guide_English5-part485

Chapter 6
Recognition
The aim of OCR is to read text from a source image and retain
the source page layout. Before this can be done, however, the
main recognition parameters – recognition language, source 
text print type, and document type  need to be set. This chapter
deals with these parameters and other important recognition
issues, including the use of different recognition settings, etc.
Chapter Contents:
z General information on recognition
z Recognition language
z Source text print type
z Other recognition options
z Background recognition
z Recognition with training 
z How to train a user pattern
z How to edit a user pattern
z User languages and language groups
z How to create a new language
z How to create a new language group
Convert excel to pdf with hyperlinks - insert, remove PDF links in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Free C# example code is offered for users to edit PDF document hyperlink (url), like inserting and deleting
add hyperlinks to pdf online; pdf hyperlinks
Convert excel to pdf with hyperlinks - VB.NET PDF url edit library: insert, remove PDF links in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Help to Insert a Hyperlink to Specified PDF Document Page
add hyperlink to pdf acrobat; convert excel to pdf with hyperlinks
General information on recognition
Note: Always ensure that the following options have been correctly set before you start
recognition: recognition language, source text print type, and document type.
You may: 1. Recognize a block or several blocks drawn on an image. 
2. Recognize an open page or all pages selected in the Batch window.
3. Recognize all unrecognized batch pages.
4. Recognize all pages in background mode. Background mode allows you to
edit and recognize pages at the same time.
5. Recognize pages in training mode. Training mode is used for recognizing
texts set in decorative fonts or for processing large volumes (more than a
hundred pages) of documents of inferior print quality.
6. Recognize the same batch on several workstations.
To start recognition:
z Either click the 2Read button on the WizardBartoolbar, or
z Select the item of your choice in the Processmenu: 
Read– to recognize the open page or all the pages selected in the Batch
window;
Read All Pages– to recognize all unrecognized batch pages;
Read Block– to recognize a block or several blocks drawn on the image;
Start Background Recognition– to start recognition in background
mode.
By default, the 2Read button recognizes the open image. To change button
mode, click the arrow to the right of the button and select the mode of your
choice in the local menu.
Note: When you perform OCR on a page that has already been recognized, recognition will
only be carried out on new or modified blocks. 
Recognition language
FineReader recognizes both mono and multilingual (e.g. EnglishFrench) documents.
To set the text recognition language, select it in the dropdown list on the Standard toolbar. 
To recognize a multilingual document:
1. Select the Select multiple languagesitem in the language list on the
Standardtoolbar. The Recognition languagedialog will open. 
2. Select the languages of your choice in the Recognitionlanguagedialog. 
52
ABBYY FineReader 6.0 User’s Guide
VB.NET PDF Convert to HTML SDK: Convert PDF to html files in vb.
Embed PDF hyperlinks to HTML links in VB.NET. Available zoom setting (fit page, fit width). .NET component to convert adobe PDF file to html viewer.
add url to pdf; check links in pdf
C# PDF Convert to HTML SDK: Convert PDF to html files in C#.net
Embed PDF hyperlinks to HTML links. Our PDF to HTML converter library control is a 100% clean .NET which is designed to help .NET developers convert PDF to HTML
convert doc to pdf with hyperlinks; pdf link to attached file
Note:
1. If you find that you often use a certain language combi
nation, you can create a new language group that
includes the languages you most often use.
2. Increasing the number of the recognition languages used
simultaneously may have an adverse effect on recognition
quality. A reasonable number of languages to use simulta
neously is 2–3.
3. Before recognizing a document, ensure that the fonts
selected on the Formatting tab support all the charac
ters contained in the recognition language(s) chosen,
otherwise the recognized text will be displayed incor
rectly (“?” or “ ” symbols will appear instead of letters).
See under “Fonts for Recognition Languages that may be
Displayed in Text Editor Incorrectly” in ABBYY
FineReader Helpfor more information.
You may find that your chosen recognition language is not listed. This can be because of one
of the following reasons :
1. The language is not supported by FineReader. See the complete list of recog
nition languages under “Supported Languages” in ABBYY FineReader
Help.
2. The language has not been included in the recognition language list dis
played on the Recognition toolbar. To add a language, select the Choose
more languagesitem in the language list on the Standardtoolbar. The
Recognition languagedialog will open. Select the language of your choice
in the dialog.
3. The language was disabled during custom installation.
Note: Always ensure that you use the same folder as the one that contains FineReader.
To show/hide a language in the dropdown list on the toolbar: 
z Select the language of your choice in the LanguageEditor dialog
(Tools>Language Editor) and then check or uncheck the Show this
language in the dropdown list on the toolbaritem.
Tip: It is even possible to  set a recognition language for an individual block. To do this,
rightclick the block concerned and select the Propertiesitem in the local menu. The
Propertiesdialog will open. Select the Blocktab in the dialog and then select the block
recognition language in the Languagesfield on the tab.
53
Chapter 6. Recognition 
VB.NET PDF Page Replace Library: replace PDF pages in C#.net, ASP.
to svg, C#.NET convert PDF to text, C#.NET convert PDF to images to, VB.NET PDF, VB.NET Word, VB.NET Excel, VB.NET Able to replace all PDF page contents in VB.NET
add links to pdf file; add links to pdf in acrobat
VB.NET PDF Thumbnail Create SDK: Draw thumbnail images for PDF in
svg, C#.NET convert PDF to text, C#.NET convert PDF to images VB.NET PDF, VB.NET Word, VB.NET Excel, VB.NET an easy work and gives quick access to PDF page and
adding links to pdf document; pdf link to specific page
Source text print type
As a rule source text print type is determined automatically. To ensure that this is the case,
select Autodetectin the PrintTypegroup (Tools>Optionsmenu, Recognition tab). 
When recognizing draft mode dot matrix printouts or typewritten texts, recognition quality
can sometimes be increased by selecting another printtype:
z Select the Typewriter item if you wish to recognize typewritten texts
z Select the Dot Matrix Printeritem if you wish to recognize dot matrix
printouts.
An example of draft mode dot matrix text. Character lines are
made up of individual dots.  
An example of typewritten text. All letters are of equal width
(compare, for example, “w” and “a").
To change print type:
z Select the print type of your choice on the Recognition tab in the
Optionsdialog (Tools>Options menu).
Note: Once you have completed recognition of typewritten texts or dot matrix printouts,
remember to reenable the Autodetectitem to recognize normal texts once again.
Other recognition options
Show image during recognition
When processing large numbers of pages, recognition is invariably faster if the processed
image is not displayed onscreen. To run recognition without displaying the image: 
z Clear the Show image during recognition item on the Generaltab
(Tools>Options menu). 
Text direction
If the application recognizes blocks containing vertical text incorrectly (a text block or a
table cell):
z rightclick the block containing the vertical text and select the Properties
item in the local menu. The Blockpropertiesdialog will open. Select the
relevant item in the Textdirection list in the dialog and rerecognize the
image.
54
ABBYY FineReader 6.0 User’s Guide
.NET PDF SDK | Read & Processing PDF files
Able to convert PDF documents into other formats (multipage TIFF, JPEG, etc Include extraction of text, hyperlinks, bookmarks and metadata; Advanced document
accessible links in pdf; adding a link to a pdf in preview
PDF Image Viewer| What is PDF
with advanced capabilities, such as text extraction, hyperlinks, bookmarks and easy-to-use interface enabling you to quickly convert your PDF images into
pdf link; add links to pdf
Inverted or flipped block
If the application recognizes blocks containing inverted or flipped text incorrectly (a text
block, a table cell, or a whole table):  
z Rightclick the block concerned and select the Propertiesitem in the local
menu. The Block properties dialog will open. Select the Inverted or
Flippeditem in the dialog and rerecognize the image.
Background recognition
If you wish to edit previously recognized pages and run recognition at the same time, you
may find background recognition mode useful. To start background recognition:
z Select the StartBackgroundRecognition item in the Processmenu.
The  sign will appear in the status line at the bottom of FineReader’s
main window. If Detailsview mode is active in the Batch window (to acti
vate Detailsview mode, rightclick on the Batch window and select
View>Detailsin the local menu), the page currently being recognized will
have the  icon displayed in the Openedbycolumn.
When background recognition mode is activated, recognition will resume automatically if
an unrecognized page is added to the batch.
Note: Running background mode in the case of multiprocessor systems leads to an increase
in recognition speed if the batch being processed contains a large number of pages.
To stop Background Recognition:
z Select the StopBackgroundRecognition item in the Processmenu.
Note: Background recognition mode uses recognition options active at the moment it has
been started.
Recognition with training
As previously stated, FineReader can read texts set in practically any font regardless of  print
quality. Consequently, no prior training is normally required before recognition can take
place. FineReader, nevertheless, features a number of user pattern training tools.
Train User Pattern mode may come in useful when:
1. recognizing texts set in decorative fonts;
2. recognizing texts containing unusual characters (e.g. mathematical symbols);
55
Chapter 6. Recognition 
3. recognizing large volumes (more than a hundred pages) of texts of low print
quality.
Tip: Use Train User Pattern mode only if one of the above applies. In other cases
you may obtain a slight increase in recognition quality, but the time and effort involved will
probably outweigh the benefit received. 
Pattern training works as follows. One or two pages are recognized in training mode, and,
subsequently, a pattern created. FineReader then uses this pattern to aid recognition of the
remaining text.
Sometimes two or even three characters may get “glued” together, and FineReader may be
unable to enclose each character in an individual frame to separate them. If this proves to
be the case (i.e. you cannot move the frame so that it contains only one whole character
and no other character parts), you can train FineReader to recognize the whole inseparable
character combinations. Examples of character combinations frequently found glued togeth
er include ff, fi, and fl. Such combinations are referred to as ligatures.
Note:
1. A pattern is only useful in the case of documents that have the same font, font
size, and resolution as the document used to create the user pattern. 
2. Each pattern is created for a particular batch. Consequently, if a batch is
deleted, its user pattern is also deleted. Patterns can, however, be copied into
other batches. To transfer a user pattern to another batch, simply save the
batch options in a batch template format file.
3. If you switch to recognizing texts set in a different font, always disable any
user patterns – choose  the Do not use user pattern item on the
Recognitiontab, menu Tools>Options.
To train a user pattern:
1. Start Trainuserpattern mode – click the Train user pattern radio but
ton on the Recognition tab, Tools>Options menu, in the Training
group. The default pattern name ("Default") will be displayed in the status
line. 
2. Click the 2Read button.
3. Train your pattern – recognize one or more pages in Train user pattern
mode. Trained characters are saved in the default pattern. Once you have
completed training the pattern, FineReader will save the pattern
(Default.pat) in the current batch folder.
4. Edit your pattern.
5. Deactivate training mode (click the Use user pattern button on the
Recognitiontab).
6. Recognize the rest of the text – click the 2Read button. 
56
ABBYY FineReader 6.0 User’s Guide
Note:
1. To create several patterns for the same batch, use the PatternEditordialog
(click the Pattern Editor button on the Recognition tab or select the
Tools>Pattern Editormenu item). Create a new pattern (click the New
button in the dialog) and select it (click the Set Active button). Working
with a created pattern is no different to working with a default pattern (see
steps 15). Keep in mind, however, that only one pattern may be active at any
one time. 
2. If you’ve created several patterns for the same batch, the active one will be
the pattern that was last created. The active pattern name is displayed in the
status bar. To activate another pattern, select the pattern of your choice in
the pattern list in the Pattern Editordialog (Tools>Pattern Editor
menu) and click the Set Active button. Then click the Use user pattern
button on the Recognition tab, Tools>Optionsmenu, in the Training
group. 
3. If the Use builtin patternsoption is set, FineReader will read all texts
using its builtin patterns and stop only at uncertain characters. If you are
training the system to read decorative and/or nonstandard fonts (for exam
ple, Tibetan) the use of inbuilt patterns may result in characters being read
incorrectly. If the latter occurs, disable the use of inbuiltpatterns (clear the
Use builtin patternscheckbox on the Recognitiontab) and train the
system to recognize each unknown character it is likely to encounter. 
How to train a user pattern
1. Make sure the Train
user patternbutton on
the Recognition tab
(Tools>Optionsmenu)
in the Training group is
enabled. 
2. Click the 2Read button.
FineReader will start
recognition. Whenever it
comes across an
unknown character, the
Pattern Trainingdia
log will open, and the
character image dis
played within it.
57
Chapter 6. Recognition 
Training to recognize a character:
The frame in the top dialog window should enclose a single character, and this character
must be fully enclosedby the frame. If the frame encloses only part of a character or
more than one character, click the frame borders and move them so that the abovestated
requirements are met. The 
and 
buttons move the frame border as well (and are
useful for training italic symbols – see below). Once you have positioned the frame correct
ly, type in the character and click the Train button. 
Note:
1. You may only train the system to read characters included in the alphabet.
If you wish to train FineReader to read characters that cannot be entered from
the keyboard, use a combination of two characters to denote these nonexis
tent characters or copy the required character from the Character Table
(click the  button in the Pattern Trainingdialog to open the Character
Table).
2. If you wish to train the system to retain character formatting, select the cor
responding Italic or Bold item in the Pattern Trainingdialog before
clicking the Train button.
3. Make sure that only uppercase/lowercase characters are entered when train
ing uppercase/lowercase character images respectively.
If you make a mistake during training, click the Back button to return the frame to its pre
vious position. The last “imagecharacter” pair to be entered will automatically be removed
from the pattern. Note that this “undo” function is limited to the last word trained.
Training to recognize ligatures
A ligature is a combination of two or three “glued” characters, for example, fi, fl, ffi, etc.
These characters are difficult to separate because they are “glued” as part of the printing
process. In fact, better results can be obtained by treating them as “single” compound char
acters.
Training ligatures is no different to training separate characters:
1. Type in the desired character combination and click the Train button. 
2. The frame in the top dialog window should enclose the entire ligature. You
can move the frame border using the mouse or by clicking the 
and
buttons. 
Each pattern may contain up to 1000 new characters. However, avoid creating too many lig
atures, as it may have an adverse effect on recognition quality. 
Always take the following into account when training FineReader: 
1. FineReader does not differentiate between certain characters that are nor
mally considered different. For example, the straight (
), right (
) and left (
)
58
ABBYY FineReader 6.0 User’s Guide
apostrophes are treated as one character – the straight apostrophe. Thus,
you will never see right and left apostrophes in recognized text, even if you
attempt to train FineReader into recognizing them.
2. The way in which certain characters are recognized depends on their envi
ronment.
How to edit a user pattern
You may wish to edit a new pattern before you start using it, as an incorrectly trained pat
tern will result in recognition quality being adversely affected.
The pattern should only contain whole characters or ligatures. Characters with cut edges
and incorrectly labeled characters should be removed from the pattern. 
To edit a user pattern:
1. Select the Pattern Editoritem in the Toolsmenu. The Pattern Editor
dialog will open.
2. Select the relevant pattern and click the Editbutton in the dialog. The User
Patterndialog will open.
3. Select a character and click the Propertiesbutton to edit the character
caption and set the correct typeface: italic, bold, subscript or superscript.
Click on the Deletebutton to remove any incorrectly trained characters
from the batch. 
User languages and language groups
In addition to the builtin languages and language groups, you may also create new lan
guages and language groups (made up of languages supported by FineReader) and use them
for recognition. 
You may want to create a new language if you need:
1. To use a user dictionary. 
z For example, you want to recognize an English text containing many
abbreviations.  You therefore create an abbreviation dictionary, create a
new language and linkup the dictionary to the language. You then cre
ate a new language group consisting of English (using the application
dictionary) and your new language (containing the abbreviations dic
tionary), and use this language group to recognize your texts.
2. To recognize documents of a specialized nature, for example: 
z supermarket productline lists containing only product codes. Product
codes are usually made up of numbers and a few letters. Consequently,
59
Chapter 6. Recognition 
you can create a new language consisting only of the numbers and let
ters used in the codes to be applied when recognizing documents of this
type.
z documents set in capitals only. Recognition quality is increased if you
create a language in which all lowercase letters are prohibited.
You should create a language group if you use a particular language combination often.
To create a new language or language group open the Language Editordialog (Tools
menu, Language Editoritem).
How to create a new language
To create a new recognition language:
1. Select the Language Editor item in the Tools menu.
2. Click the New button and in the resulting dialog select the Create a Copy
of the Languagebutton, then select your preferred source language.
3. The Simple Language Propertiesdialog will open.
Set the following  language parameters for the new language (all parameters are
entered in the Simple Language Properties dialog):
1. The new language name.
2. The basic alphabet to be used by the language. This parameter is set in the
Alphabetfield. If necessary, edit the alphabet by clicking the
button. 
3. The dictionary to be used by the application (for both recognition and spell
check purposes). You may choose one of the following: 
None(no dictionary to be used)
60
ABBYY FineReader 6.0 User’s Guide
Documents you may be interested
Documents you may be interested