how to view pdf file in asp.net using c# : Extract image from pdf c# Library application class asp.net html web page ajax 09_chapter%2020-part106

2
STUDY OF OPTICAL CHARACTER 
RECOGNITION ALGORITHMS AND TOOLS
Introduction 
Optical Character Recognition Algorithms 
Optical Character Recognition Tools 
Creation of Master Dataset for Characters and Digits 
Result Analysis of tools for Characters and Digits 
Summary of Characters and Digits for Evaluated Tools 
Recognition Rate Analysis 
References 
Extract image from pdf c# - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
how to extract pictures from pdf files; some pdf image extractor
Extract image from pdf c# - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract jpg pdf; pdf image extractor c#
Chapter 2 
17 
CHAPTER 2 
STUDY OF OPTICAL CHARACTER RECOGNITION 
ALGORITHMS AND TOOLS 
2.1  Introduction 
The handwritten character recognition system is classified as online system 
and offline system. 
Online Recogntion: Online handwriting recognition involves the automatic 
conversion of text as it is written on a special digitizer or PDA, where a sensor 
picks up the pen-tip movements as well as pen-up/pen-down switching. This 
kind  of  data  is  known  as  digital  ink  and  can  be  regarded  as  a  digital 
representation  of  handwriting.  The obtained  signal  is converted into  letter 
codes which are usable within computer and text-processing applications [1]. 
Offline Recognition: Offline recognition operates on pictures generated by an 
optical scanner. The data is two-dimensional and space-ordered which means 
that overlapping characters cannot be separated easily. Offline handwriting 
recognition involves the automatic conversion of text in an image into letter 
codes which are usable within computer and text-processing applications. The 
data  obtained  by  this  form  is  regarded  as  a  static  representation  of 
handwriting. Offline handwriting recognition  is comparatively  difficult,  as 
different people have different handwriting styles [2].  
Researcher has studied OCR Algorithms which are used for offline character 
recogntion. 
2.2  Optical Character Recognition Algorithms 
Researcher has studied following optical character recognition algorithms. 
2.2.1  Template Matching Algorithm 
2.2.2  Statistical Algorithm 
C# PDF Text Extract Library: extract text content from PDF file in
Ability to extract highlighted text out of PDF document. text extraction from PDF images and image files. Support extracting OCR text from PDF by working with
how to extract images from pdf; extract text from pdf image
C# PDF insert image Library: insert images into PDF in C#.net, ASP
C#.NET PDF SDK - Add Image to PDF Page in C#.NET. How to Insert & Add Image, Picture or Logo on PDF Page Using C#.NET. Add Image to PDF Page Using C#.NET.
extract image from pdf c#; extract photo from pdf
Chapter 2 
18 
2.2.3  Structural Algorithm 
2.2.4  Neural Network Algorithm 
2.2.5  Support Vector Machine 
2.2.6  Decision Tree Classifier 
2.2.1  Template Matching Algorithm 
Template matching is a system prototype that useful to recognize the character 
or alphabet by comparing two images. Template matching is the process of 
finding the location of sub image called a template inside an image. Once a 
number  of  corresponding  templates  is  found  their  centers  are  used  as 
corresponding  points  to  determine  the  registration  parameters.  Template 
matching  involves  determining  similarities  between  a  given  template  and 
windows  of  the  same  size  in  an  image  and  identifying  the  window  that 
produces the highest similarity measure. It works by comparing derived image 
features  of  the  image and template for each  possible displacement of the 
C# Create PDF from images Library to convert Jpeg, png images to
Best and professional C# image to PDF converter SDK for Visual Studio .NET. C#.NET Example: Convert One Image to PDF in Visual C# .NET Class.
how to extract text from pdf image file; extract pdf images
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
PDF Pages in C#.NET. Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others in C#.NET Program.
extract image from pdf online; extract image from pdf file
19 
template [3]. In Template matching, the character itself is used as a “feature 
vector”. 
Template matching involves the use of a database of characters or templates. 
There exists a template for all possible input characters. For recognition to 
occur, the current input character is compared to each template to find either 
an exact match or the template with the closest representation of the input 
character. If I(x,y) is the input character, Tn(x,y) is the template n, then the 
matching function S(I,Tn) will return a value indicating how well template n 
matches the input character. Character recognition is achieved by identifying 
which Tn gives the best value of matching functions, S(I,Tn). The method can 
Figure 2.2 Workflow of Template Matching Algorithm 
C# PDF Form Data Read Library: extract form data from PDF in C#.
PDF software, it should have functions for processing text, image as well retrieve field data from PDF and how to extract and get field data from PDF in C#
online pdf image extractor; extract images from pdf file
VB.NET PDF Text Extract Library: extract text content from PDF
provides text extraction from PDF images and image files. Add-On, developers are able to extract target text with tutorial for extracting text from PDF using VB
pdf extract images; extract text from image pdf file
Chapter 2 
20 
only be successful if the input character can be stored templates are of the 
same or similar font [4]. 
The template matching algorithm implements the following steps: 
I. 
Firstly, the character image from the detected string is selected. 
II. 
After that, the image to the size of the first template is rescaled. 
III.  After rescale the image to the size of the first template(original) image, 
the matching metric is computed. 
IV.  Then the highest match  found is stored. If the image is not match 
repeat again the third step. 
V. 
The index of the best match is stored as the recognized character.  
The  value  of  the  data  was  entered  will  be  extracted  from  the  images, 
comprising letters. Each character is automatically selected and threshold. 
Extraction of the image of the character. The image is converted into 12*12 
bitmap. 
Bitmap is representd  by  12*12 matrixes  or by  144 vectors with 0 and 1 
coordinates. 
Figure 2.3 Bitmap Image of Character A 
VB.NET PDF insert image library: insert images into PDF in vb.net
VB.NET PDF - Add Image to PDF Page in VB.NET. Insert Image to PDF Page Using VB. Add necessary references: RasterEdge.Imaging.Basic.dll.
extract photos pdf; pdf image extractor online
C# WPF PDF Viewer SDK to view, annotate, convert and print PDF in
Read: PDF Text Extract; C# Read: PDF Image Extract; C# Write: Insert text into PDF; C# Write: Add Image to PDF; C# Protect: Add Password
extract jpg from pdf; some pdf image extract
Chapter 2 
21 
Template matching algorithm is also known as matrix matching or pattern 
matching algorithm.Template matching algorithm works best with typewritten 
text but does not work well when new fonts are encountered. It only works on 
fonts of which it has templates. 
 
Related work in the Template Matching Algorithm 
Faisal Mohammad et.al. [5] have presented pattern matching algorithm for 
typewritten and handwritten characters. The binary image is divided into 5 
tracks and 8 sectors. The track-sector matrix is then matched with existing 
template.  The  existing  template  consists  of  each  track-sector  intersection 
value, each track value and each sector value. If all these parameters are found 
to match with the template values then the resultant is the character identified. 
Mo  Wenying and  Ding  Zuchun [6]  have  proposed  an  improved  template 
matching algorithm which based on the weighted matching degree. After the 
completion of the pre-processing of input characters, the algorithm uses the 
moving  match  of  the  standard  character  template  with  respect  to  image 
character  template.  It  uses  a  method  of  weighted  matching  degree.  This 
algorithm avoids the influence of adherent noise and partial distortion, which 
greatly impacts the recognition rate of the character. 
Mr.  Danish  Nadeem  and  Miss.  Saleha  Rizvi  [7]  have  proposed 
typewritten/handwritten character recognition using template matching. The 
Figure 2.4 12×12 Matrix Representation of Character A 
Chapter 2 
22 
aim is to produce a system that classifies a given input as belonging to a 
certain class rather than to identify them uniquely, as every input pattern. The 
system performs character recognition by quantification of the character into a 
mathematical vector entity using the geometrical properties of the character 
image. Recognition rate of typewritten Standard English alphabets fonts is 
94.30%,  typewritten  Unknown  English  alphabets  fonts  is  88.02%  and 
handwritten English alphabets is 75.42%. 
Rachit Virendra Adhvaryu [8] has presented template matching algorithm for 
alphabets. The system prototype has its own scopes which are using Template 
Matching as the algorithm that applied to recognize the characters, characters 
to be tested are alphabet (A – Z), and grey-scale images were used with Times 
New Roman font type and recognizing the alphabet by comparing between 
two images. 
M. Ziaratban et.al. [9] have proposed an approach for character recognition 
termed as template matching. This technique extracts feature by searching the 
special templates in input images. For each template, the amount of matching 
is used as feature and position of the best matching in an image is found and 
saved [10]. 
2.2.2  Statistical Algorithm 
The purpose of the statistical  algorithms  is  to determine to which category 
the  given  pattern  belongs.  By  making  observations  and  measurement 
processes,    a  set  of  numbers  is  prepared,    which  is  used  to  prepare  a 
measurement vector [11].  Statistical algorithm uses the statistical decision 
functions and a set of optimality criteria which maximizes the probability of 
the observed pattern given the model of a certain class. 
Statistical algorihtms are mostly based on three major assumptions: 
I. 
Distribution of the feature set. 
Chapter 2 
23 
II. 
There are sufficient statistics available for each class. 
III.  Collection of images to extract a set of features which represents each 
distinct class of patterns. 
The measurements taken from n features of each word unit can be thought to 
represent an n-dimensional vector space.  
There are two approaches of statistical algorithm. 
I. 
Non-parametric Recognition 
In Non-parametric Recognition, a priori data or information is not available. 
II. 
Parametric Recognition 
Since a  priori data or information is available about  the characters in the 
training data, it is possible to obtain a parametric model for each character.  
2.2.2.1 Statistical Methods 
The major statistical methods applied in the character recognition field are K 
Nearest Neighbor, clustering Analysis, Hidden Markov Modeling etc. 
2.2.2.1.1 K-Nearest Neighbour Algorithm 
The k-Nearest Neighbors algorithm (k-NN) is a non-parametric method used 
for classification.  The input  consists  of  the k closest training  examples  in 
the feature space. In k-NN classification, the output is a class membership. An 
object is classified by a majority vote of its neighbors, with the object being 
assigned  to  the  class  most  common  among  its k nearest  neighbors  (k is  a 
positive integer, typically small). If k = 1, then the object is simply assigned to 
class of that single nearest neighbor [12]. The idea behind k-Nearest Neighbor 
algorithm is quite straightforward. To classify a new character, the system 
finds  the  k  nearest  neighbors  among  the  training  datasets,  and  uses  the 
categories of the k nearest neighbors to weight the category candidates [13]. 
Chapter 2 
24 
The k-NN algorithm can be described using the following equation: 
(
)
=
arg
max
k
Sim
Xj∈kNN
(
d
i
,
x
j
)
 y
(
 
x
j
,
c
k
 
Where, d
i
is a test character, x
j
is one of the neighbors in the training set, 
y(x
j
,c
k
{0, 1} indicates whether  x
j
belongs to class c
k
, Sim(d
i
,x
j
)  is the 
similarity function for d
i
. Above equation means the class with maximal sum 
of similarity will be the winner [13]. 
The performance of this algorithm greatly depends on two factors, that is, a 
suitable similarity function and an appropriate value for the parameter k. The 
similarity function is the Euclidean distance. It is given by below equation.  
(
,
 )
=  (
 

− 
 )
One of the basic requirements for this method to obtain good performance is 
the access to a very large database or labeled prototype but searching through 
the  whole  database  to  find  the  nearest  objects  to  a  test  image  is  time 
consuming, and has to be done for every character in a document. 
2.2.2.1.2 Clustering Analysis 
The goal of a clustering analysis is to divide a given set of data or objects into 
a cluster, which represents subsets or a group. The partition should have two 
properties.  Homogeneity  inside  clusters:  the  data,  which  belongs  to  one 
cluster, should be as similar as possible. Heterogeneity between the clusters: 
the data, which belongs to different clusters, should be as different as possible 
[14]. Thus, the characters with similar features are in one cluster. Thus, in 
recognition process, the cluster is identified first and then the actual character. 
Chapter 2 
25 
2.2.2.1.3 Hidden Markov Modeling 
A hidden markov model(HMM) is a statistical model in which the system 
being modeled is assumed to be a Markov process with unobserved state. The 
Hidden Markov Model is a finite set of states, each of which is associatd with 
a probability distribution. Transitions among the states are governed by a set 
of probabilities called transition probabilities. In a particular state an outcome 
or  observation  can  be  generated,  according  to  the  associated  probability 
distribution. It is only the outcome, not the state visible to an external observer 
and  therefore  states  are  “hidden”  to the  outside;  hence  the  name Hidden 
Markov Model [15]. 
A HMM can be represented by a Finite State Machine, which in turn can be 
represented by either a connected graph or a special form of connected graph 
called a trellis. Each node in this graph represents a state, where the signal 
being  modeled  has a  distinct  set  of  properties  and  each  edge  a  possible 
transition between two states at consecutive discrete time intervals [16]. An 
example of a trellis and graph of a 4 state fully connected HMM is shown in 
Figure 2.5. 
Figure 2.5 (a) Trellis Diagram (b) corresponding graph of 4 
Documents you may be interested
Documents you may be interested