open pdf file c# : How to add a text box in a pdf file software control dll winforms web page azure web forms 09_chapter%2020-part259

2
STUDY OF OPTICAL CHARACTER 
RECOGNITION ALGORITHMS AND TOOLS
Introduction 
Optical Character Recognition Algorithms 
Optical Character Recognition Tools 
Creation of Master Dataset for Characters and Digits 
Result Analysis of tools for Characters and Digits 
Summary of Characters and Digits for Evaluated Tools 
Recognition Rate Analysis 
References 
How to add a text box in a pdf file - insert text into PDF content in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
XDoc.PDF for .NET, providing C# demo code for inserting text to PDF file
how to insert text into a pdf; how to add text to a pdf in reader
How to add a text box in a pdf file - VB.NET PDF insert text library: insert text into PDF content in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Providing Demo Code for Adding and Inserting Text to PDF File Page in VB.NET Program
add text to pdf; add text field to pdf acrobat
Chapter 2 
17 
CHAPTER 2 
STUDY OF OPTICAL CHARACTER RECOGNITION 
ALGORITHMS AND TOOLS 
2.1  Introduction 
The handwritten character recognition system is classified as online system 
and offline system. 
Online Recogntion: Online handwriting recognition involves the automatic 
conversion of text as it is written on a special digitizer or PDA, where a sensor 
picks up the pen-tip movements as well as pen-up/pen-down switching. This 
kind  of  data  is  known  as  digital  ink  and  can  be  regarded  as  a  digital 
representation  of  handwriting.  The obtained  signal  is converted into  letter 
codes which are usable within computer and text-processing applications [1]. 
Offline Recognition: Offline recognition operates on pictures generated by an 
optical scanner. The data is two-dimensional and space-ordered which means 
that overlapping characters cannot be separated easily. Offline handwriting 
recognition involves the automatic conversion of text in an image into letter 
codes which are usable within computer and text-processing applications. The 
data  obtained  by  this  form  is  regarded  as  a  static  representation  of 
handwriting. Offline handwriting recognition  is comparatively  difficult,  as 
different people have different handwriting styles [2].  
Researcher has studied OCR Algorithms which are used for offline character 
recogntion. 
2.2  Optical Character Recognition Algorithms 
Researcher has studied following optical character recognition algorithms. 
2.2.1  Template Matching Algorithm 
2.2.2  Statistical Algorithm 
VB.NET PDF Text Box Edit Library: add, delete, update PDF text box
Document Protect. Password: Set File Permissions. Password: Open Document. Edit Highlight Text. Add Text. Add Text Box. Drawing Markups. PDF Print. Work with
add text box to pdf file; how to add text to a pdf document using acrobat
C# PDF Text Box Edit Library: add, delete, update PDF text box in
with .NET PDF Library. A best PDF annotator for Visual Studio .NET supports to add text box to PDF file in Visual C#.NET project.
how to input text in a pdf; adding text to pdf in reader
Chapter 2 
18 
2.2.3  Structural Algorithm 
2.2.4  Neural Network Algorithm 
2.2.5  Support Vector Machine 
2.2.6  Decision Tree Classifier 
2.2.1  Template Matching Algorithm 
Template matching is a system prototype that useful to recognize the character 
or alphabet by comparing two images. Template matching is the process of 
finding the location of sub image called a template inside an image. Once a 
number  of  corresponding  templates  is  found  their  centers  are  used  as 
corresponding  points  to  determine  the  registration  parameters.  Template 
matching  involves  determining  similarities  between  a  given  template  and 
windows  of  the  same  size  in  an  image  and  identifying  the  window  that 
produces the highest similarity measure. It works by comparing derived image 
features  of  the  image and template for each  possible displacement of the 
VB.NET PDF Password Library: add, remove, edit PDF file password
This VB.NET example shows how to add PDF file password with access permission setting. passwordSetting.IsAssemble = True ' Add password to PDF file.
add text pdf file acrobat; how to add text to a pdf file in acrobat
VB.NET PDF Text Extract Library: extract text content from PDF
this advanced PDF Add-On, developers are able to extract target text content from source PDF document and save extracted text to other file formats through VB
adding text to pdf reader; adding text to pdf
19 
template [3]. In Template matching, the character itself is used as a “feature 
vector”. 
Template matching involves the use of a database of characters or templates. 
There exists a template for all possible input characters. For recognition to 
occur, the current input character is compared to each template to find either 
an exact match or the template with the closest representation of the input 
character. If I(x,y) is the input character, Tn(x,y) is the template n, then the 
matching function S(I,Tn) will return a value indicating how well template n 
matches the input character. Character recognition is achieved by identifying 
which Tn gives the best value of matching functions, S(I,Tn). The method can 
Figure 2.2 Workflow of Template Matching Algorithm 
C# PDF File & Page Process Library SDK for C#.net, ASP.NET, MVC
Document Protect. Password: Set File Permissions. Password: Open Document. Edit Highlight Text. Add Text. Add Text Box. Drawing Markups. PDF Print. Work with
add text boxes to pdf document; add text pdf professional
C# PDF Text Extract Library: extract text content from PDF file in
How to C#: Extract Text Content from PDF File. Add necessary references: RasterEdge.Imaging.Basic.dll. RasterEdge.Imaging.Basic.Codec.dll.
add text boxes to pdf; add text to pdf using preview
Chapter 2 
20 
only be successful if the input character can be stored templates are of the 
same or similar font [4]. 
The template matching algorithm implements the following steps: 
I. 
Firstly, the character image from the detected string is selected. 
II. 
After that, the image to the size of the first template is rescaled. 
III.  After rescale the image to the size of the first template(original) image, 
the matching metric is computed. 
IV.  Then the highest match  found is stored. If the image is not match 
repeat again the third step. 
V. 
The index of the best match is stored as the recognized character.  
The  value  of  the  data  was  entered  will  be  extracted  from  the  images, 
comprising letters. Each character is automatically selected and threshold. 
Extraction of the image of the character. The image is converted into 12*12 
bitmap. 
Bitmap is representd  by  12*12 matrixes  or by  144 vectors with 0 and 1 
coordinates. 
Figure 2.3 Bitmap Image of Character A 
C# PDF insert image Library: insert images into PDF in C#.net, ASP
using RasterEdge.Imaging.Basic; using RasterEdge.XDoc.PDF; Have a try with this sample C#.NET code to add an image to the first page of PDF file.
how to insert text box in pdf; how to add a text box to a pdf
VB.NET PDF insert image library: insert images into PDF in vb.net
try with this sample VB.NET code to add an image As String = Program.RootPath + "\\" 1.pdf" Dim doc New PDFDocument(inputFilePath) ' Get a text manager from
add text pdf acrobat; adding text to pdf document
Chapter 2 
21 
Template matching algorithm is also known as matrix matching or pattern 
matching algorithm.Template matching algorithm works best with typewritten 
text but does not work well when new fonts are encountered. It only works on 
fonts of which it has templates. 
 
Related work in the Template Matching Algorithm 
Faisal Mohammad et.al. [5] have presented pattern matching algorithm for 
typewritten and handwritten characters. The binary image is divided into 5 
tracks and 8 sectors. The track-sector matrix is then matched with existing 
template.  The  existing  template  consists  of  each  track-sector  intersection 
value, each track value and each sector value. If all these parameters are found 
to match with the template values then the resultant is the character identified. 
Mo  Wenying and  Ding  Zuchun [6]  have  proposed  an  improved  template 
matching algorithm which based on the weighted matching degree. After the 
completion of the pre-processing of input characters, the algorithm uses the 
moving  match  of  the  standard  character  template  with  respect  to  image 
character  template.  It  uses  a  method  of  weighted  matching  degree.  This 
algorithm avoids the influence of adherent noise and partial distortion, which 
greatly impacts the recognition rate of the character. 
Mr.  Danish  Nadeem  and  Miss.  Saleha  Rizvi  [7]  have  proposed 
typewritten/handwritten character recognition using template matching. The 
Figure 2.4 12×12 Matrix Representation of Character A 
VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
Also able to uncompress PDF file in VB.NET programs. Offer flexible and royalty-free developing library license for VB.NET programmers to compress PDF file.
add text pdf acrobat professional; add text to pdf in acrobat
C# PDF File Split Library: Split, seperate PDF into multiple files
page of your defined page number which starts from 0. For example, your original PDF file contains 4 pages. C# DLLs: Split PDF Document. Add necessary references
how to enter text into a pdf form; adding text to pdf online
Chapter 2 
22 
aim is to produce a system that classifies a given input as belonging to a 
certain class rather than to identify them uniquely, as every input pattern. The 
system performs character recognition by quantification of the character into a 
mathematical vector entity using the geometrical properties of the character 
image. Recognition rate of typewritten Standard English alphabets fonts is 
94.30%,  typewritten  Unknown  English  alphabets  fonts  is  88.02%  and 
handwritten English alphabets is 75.42%. 
Rachit Virendra Adhvaryu [8] has presented template matching algorithm for 
alphabets. The system prototype has its own scopes which are using Template 
Matching as the algorithm that applied to recognize the characters, characters 
to be tested are alphabet (A – Z), and grey-scale images were used with Times 
New Roman font type and recognizing the alphabet by comparing between 
two images. 
M. Ziaratban et.al. [9] have proposed an approach for character recognition 
termed as template matching. This technique extracts feature by searching the 
special templates in input images. For each template, the amount of matching 
is used as feature and position of the best matching in an image is found and 
saved [10]. 
2.2.2  Statistical Algorithm 
The purpose of the statistical  algorithms  is  to determine to which category 
the  given  pattern  belongs.  By  making  observations  and  measurement 
processes,    a  set  of  numbers  is  prepared,    which  is  used  to  prepare  a 
measurement vector [11].  Statistical algorithm uses the statistical decision 
functions and a set of optimality criteria which maximizes the probability of 
the observed pattern given the model of a certain class. 
Statistical algorihtms are mostly based on three major assumptions: 
I. 
Distribution of the feature set. 
Chapter 2 
23 
II. 
There are sufficient statistics available for each class. 
III.  Collection of images to extract a set of features which represents each 
distinct class of patterns. 
The measurements taken from n features of each word unit can be thought to 
represent an n-dimensional vector space.  
There are two approaches of statistical algorithm. 
I. 
Non-parametric Recognition 
In Non-parametric Recognition, a priori data or information is not available. 
II. 
Parametric Recognition 
Since a  priori data or information is available about  the characters in the 
training data, it is possible to obtain a parametric model for each character.  
2.2.2.1 Statistical Methods 
The major statistical methods applied in the character recognition field are K 
Nearest Neighbor, clustering Analysis, Hidden Markov Modeling etc. 
2.2.2.1.1 K-Nearest Neighbour Algorithm 
The k-Nearest Neighbors algorithm (k-NN) is a non-parametric method used 
for classification.  The input  consists  of  the k closest training  examples  in 
the feature space. In k-NN classification, the output is a class membership. An 
object is classified by a majority vote of its neighbors, with the object being 
assigned  to  the  class  most  common  among  its k nearest  neighbors  (k is  a 
positive integer, typically small). If k = 1, then the object is simply assigned to 
class of that single nearest neighbor [12]. The idea behind k-Nearest Neighbor 
algorithm is quite straightforward. To classify a new character, the system 
finds  the  k  nearest  neighbors  among  the  training  datasets,  and  uses  the 
categories of the k nearest neighbors to weight the category candidates [13]. 
Chapter 2 
24 
The k-NN algorithm can be described using the following equation: 
(
)
=
arg
max
k
Sim
Xj∈kNN
(
d
i
,
x
j
)
 y
(
 
x
j
,
c
k
 
Where, d
i
is a test character, x
j
is one of the neighbors in the training set, 
y(x
j
,c
k
{0, 1} indicates whether  x
j
belongs to class c
k
, Sim(d
i
,x
j
)  is the 
similarity function for d
i
. Above equation means the class with maximal sum 
of similarity will be the winner [13]. 
The performance of this algorithm greatly depends on two factors, that is, a 
suitable similarity function and an appropriate value for the parameter k. The 
similarity function is the Euclidean distance. It is given by below equation.  
(
,
 )
=  (
 

− 
 )
One of the basic requirements for this method to obtain good performance is 
the access to a very large database or labeled prototype but searching through 
the  whole  database  to  find  the  nearest  objects  to  a  test  image  is  time 
consuming, and has to be done for every character in a document. 
2.2.2.1.2 Clustering Analysis 
The goal of a clustering analysis is to divide a given set of data or objects into 
a cluster, which represents subsets or a group. The partition should have two 
properties.  Homogeneity  inside  clusters:  the  data,  which  belongs  to  one 
cluster, should be as similar as possible. Heterogeneity between the clusters: 
the data, which belongs to different clusters, should be as different as possible 
[14]. Thus, the characters with similar features are in one cluster. Thus, in 
recognition process, the cluster is identified first and then the actual character. 
Chapter 2 
25 
2.2.2.1.3 Hidden Markov Modeling 
A hidden markov model(HMM) is a statistical model in which the system 
being modeled is assumed to be a Markov process with unobserved state. The 
Hidden Markov Model is a finite set of states, each of which is associatd with 
a probability distribution. Transitions among the states are governed by a set 
of probabilities called transition probabilities. In a particular state an outcome 
or  observation  can  be  generated,  according  to  the  associated  probability 
distribution. It is only the outcome, not the state visible to an external observer 
and  therefore  states  are  “hidden”  to the  outside;  hence  the  name Hidden 
Markov Model [15]. 
A HMM can be represented by a Finite State Machine, which in turn can be 
represented by either a connected graph or a special form of connected graph 
called a trellis. Each node in this graph represents a state, where the signal 
being  modeled  has a  distinct  set  of  properties  and  each  edge  a  possible 
transition between two states at consecutive discrete time intervals [16]. An 
example of a trellis and graph of a 4 state fully connected HMM is shown in 
Figure 2.5. 
Figure 2.5 (a) Trellis Diagram (b) corresponding graph of 4 
Documents you may be interested
Documents you may be interested