mvc display pdf in partial view : Extract images pdf application software utility azure winforms .net visual studio 6315iju030-part396

International Journal of UbiComp (IJU), Vol.6, No.3, July 2015 
DOI:10.5121/iju.2015.6303                                                                                                                            19 
PERFORMANCE COMPARISON OF            
OCR TOOLS 
Dr. S.Vijayarani
and Ms. A.Sakila
1
Assistant Professor, Department of Computer Science, School of Computer Science and 
Engineering, Bharathiar University, Coimbatore. 
2
M.Phil Research Scholar, Department of Computer Science, School of Computer 
Science and Engineering, Bharathiar University, Coimbatore. 
ABSTRACT:
Optical Character Recognition (OCR) is a technique, used to convert scanned image into editable text 
format. Many different types of Optical Character Recognition (OCR) tools are commercially available 
today; it is a useful and popular method for different types of applications. OCR can predict the accurate 
result  depends  on text  pre-processing  and segmentation algorithms.  Image quality is one of the most 
important factors that improve quality of recognition in performing OCR tools. Images can be processed 
independently (.png, .jpg, and .gif files) or in multi-page PDF documents (.pdf). The primary objective of 
this work is to provide the overview of various Optical Character Recognition (OCR) tools and analyses of 
their performance by applying the two factors of OCR tool performance i.e. accuracy and error rate. 
 
KEYWORDS:
Optical Character Recognition (OCR),Online OCR, Free Online OCR, OCR Convert, Convert image to 
text.net, Free OCR, i2OCR, Free OCR to Word Convert, Google Docs. 
1. INTRODUCTION 
Optical Character Recognition technology recognizes the text from the images automatically. It 
supports different types of image formats like JPG, PNG, BMP, GIF, TIFF and multi-page PDF 
files. OCR involves analysis of the captured or scanned images and then translate character 
images into character codes, so that it can be edited, searched, stored more efficiently, displayed 
on-line, and used in machine processes [3] . Scanned images can easily extract that text with the 
help of different OCR Tools. It works with images that almost consist of text in it [1]. The output 
of a tool is based on the type of input image. Achieving 100% accuracy is not possible, but it is 
better to have something rather than nothing [1]. To improve accuracy most of the OCR tools use 
dictionaries, recognizing individual characters then it try to recognize entire words that exist in 
the selected dictionary. Sometimes it is very difficult to extract text because different font size, 
style, symbols and dark background. If we are using high resolution documents the OCR tools 
will produce best results. Many OCR tools are available as of now, but only a few of them are 
open source and free [2].  Normally, all the OCR tools process has five important steps. They are 
preprocessing, segmentation, feature extraction, classification/recognition and post processing. 
This is depicted in Figure 1[18].  
Extract images pdf - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract image from pdf acrobat; extract images from pdf files
Extract images pdf - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
how to extract text from pdf image file; extract jpg from pdf
International Journal of UbiComp (IJU), Vol.6, No.3, July 2015 
20 
Figure 1. OCR Tools Process 
Input Image 
Input image is digitalized images like a scanned or captured text image. It may be of different 
formats, i.e. JPG, PNG, BMP, GIF, TIFF and multi-page PDF files. 
Preprocessing 
Preprocessing techniques are important and essential for OCR system for image handling. These 
techniques are used to add or remove noises from the images, maintaining the correct contrast of 
the image, background removal which contains any scenes or watermarks. These are applied into 
images which enhance the image quality. This step is essential for OCR systems [12]. 
Segmentation 
The accuracy of OCR system mainly depends on the segmentation algorithm being used. 
Segmentation extracts pages, lines, words and then finally into characters from the text document 
images [16]. Page segmentation separates graphics from text, a line segment is a part of a line that 
is bounded by two distinct end points and Word segmentation is the problem of dividing a string 
of written language into its component words [3]. Character segmentation separates characters 
from others [12]. 
Feature Extraction 
Feature Extraction stage analyzes a text segment and select a set of features that can be used to 
uniquely  identify  the  text  segment  [18].    This  stage  is  used  to  extract  the  most  relevant 
information from the text image which helps to recognize the characters in the text [14].   
Classification / recognition 
Optical character Recognition is a most significant application. The main objective of Optical 
Character Recognition (OCR) is to classify the optical patterns like alphanumeric and other 
characters. The OCR is required when the information should be readable to both human and 
machine [1]. Recognition has become essential for performing classification task [13]. 
C# PDF Text Extract Library: extract text content from PDF file in
Ability to extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
extract text from image pdf file; pdf image text extractor
VB.NET PDF Text Extract Library: extract text content from PDF
Extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
how to extract pictures from pdf files; extract photo from pdf
International Journal of UbiComp (IJU), Vol.6, No.3, July 2015 
21 
Post Processing 
The post processing stage is used to increase recognition. The goal of post processing is to detect 
and correct grammatical misspellings in the OCR output text after the input image has been 
scanned and completely processed. 
Output Text 
The result of the input images is displayed in the output text. 
2.  OCR TOOLS COMPARISON 
This paper compares eight different types of OCR tools; they are, 
1. Online OCR 
2. Free Online OCR 
3. OCR Convert 
4. Convert image to text.net 
5. Free OCR 
6. i2OCR 
7. Free OCR to Word Convert 
8. Google Docs 
The main goal of this work is to compare the performance these tools for finding the best OCR 
tool. In order to perform the analysis, we provide an input image and this input image are 
processed by these OCR tools and the output produced by these tools is considered for analysis. 
Each OCR tools have produced different results for the same input image. The sample input 
image (i.e. k-means clustering algorithm) given in Figure 2 is downloaded from google images 
[17] and this image is used for this comparative analysis. 
Figure 2 Input Image 
C# Create PDF from images Library to convert Jpeg, png images to
C#.NET Project DLLs for Conversion from Images to PDF in C#.NET Program. C# Example: Convert More than Two Type Images to PDF in C#.NET Application.
extract images from pdf online; extract images pdf
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
VB.NET: Extract All Images from PDF Document. This is an example that you can use it to extract all images from PDF document. ' Get page 3 from the document.
extract color image from pdf in c#; extract image from pdf file
International Journal of UbiComp (IJU), Vol.6, No.3, July 2015 
22 
2.1 
Online OCR 
OnlineOCR.net is free web-based Optical Character Recognition software (OCR) that allows, to 
convert scanned PDF documents (including multipage files), faxes, photographs or digital camera 
captured images (JPEG/JPG, BMP, PCX, PNG, GIF, ZIP file format) into editable and searchable 
electronic documents [4]. This tool has the capability to convert the text image in to text and this 
result  may  be  displayed  in  different  formats  like  Adobe  PDF  document,  Microsoft  Word 
document, Microsoft Excel document, RTF document and Plain Text. It supports 46 languages 
and has the ability to convert images to text format and its maximum input file size is 100 MB 
[4]. The sample input image conversion performed by Online OCR tool [4] is depicted in Figure 
2.1. 
Figure 2.1 Online OCR  
2.2 
Free Online OCR  
NewOCR.com is a free online OCR service that can analyze the text in any image file and 
converts the text in the image into text format. Input files supported by this tool are JPEG, JFIF, 
PNG, GIF, BMP, PBM, PGM, PPM and PCX. Compressed files supported by this tool are UNIX 
compress, bzip2, bzip and gzip. Multi page documents such as TIFF, PDF, DOCX, ODT files 
with images, multiple images in ZIP archive are also handled. After conversion the result has 
displayed in different formats, i.e. Plain text (TXT), Microsoft Word (DOC), and Adobe Acrobat 
(PDF). It supports 75 recognized languages and supports several font types. The advantage of 
Free Online OCR is, it has taken unlimited uploads. The resultant output [5]is illustrated Figure 
2.2.  
Figure 2.2 Free Online OCR  
C# PDF Convert to Images SDK: Convert PDF to png, gif images in C#
Professional .NET library and Visual C# source code for creating high resolution images from PDF in C#.NET class. Cut and paste any areas in PDF pages to images.
extract pdf images; extract jpg pdf
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
Page: Extract, Copy and Paste PDF Pages. Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others in C#.NET Program.
extract image from pdf online; extract text from pdf image
International Journal of UbiComp (IJU), Vol.6, No.3, July 2015 
23 
2.3 
OCR Convert 
OCR Convert is a free online OCR service, which provides the facility to convert the scanned 
image into text. It supports JPG, PNG, BMP, GIF, TIFF and multi-page PDF files and also 
support  low  resolution  images.  The  result  may  be  in  text  format  and  this  tool  supports 
simultaneous uploads and able to perform conversion process of files upto 5MB (aggregated). 
The output text result [6]is shown in Figure 2.3. 
Figure 2.3 OCR Convert
2.4 
Convert image to text.net 
Convert image to text.net tool is used to convert any scanned image into editable text file with the 
new software JiNa OCR image to text. This software is very easy to use, just to upload an image 
file and click on the button it converts directly into an open word document. The output formats 
are Adobe PDF document, Microsoft Word document, Microsoft Excel document, Docx, HTML 
and Text. The output result for convert images to text.net software [7] is shown figure 2.4. 
Figure 2.4 Convert image to text.net 
2.5 
Free OCR 
Free-OCR.com is a free online OCR (Optical Character Recognition) tool used to extract text 
from any image and convert these images into an editable text document. It takes a JPG, GIF, 
VB.NET Create PDF from images Library to convert Jpeg, png images
VB.NET Guide for Converting Raster Images to PDF File Using VB.NET Sample Code. VB.NET Example of More than Two Images to PDF Conversion. This VB.
extract photos from pdf; some pdf image extract
C# PDF Convert to Jpeg SDK: Convert PDF to JPEG images in C#.net
Following demo code will show how to convert all PDF pages to Jpeg images with C# .NET. // Load a PDF file. String inputFilePath
extract images from pdf; pdf extract images
International Journal of UbiComp (IJU), Vol.6, No.3, July 2015 
24 
TIFF BMP or PDF (only first page) file formats and supports 30 different languages. The only 
restriction of this tool is, the images must not be larger than 2MB. Output of the image [8] is 
illustrated in Figure 2.5 
Figure 2.5 Free OCR 
2.6 
i2OCR  
i2OCR is a free online Optical Character Recognition (OCR) which extracts text from images and 
it can be edited, formatted, indexed, searched, or translated. Input image file types are TIF, JPEG, 
PNG, BMP, GIF, PBM, PGM and PPM. It supports 60+ Recognition Languages, major Image 
Formats, Multi Column Document Analysis  and 100%  FREE  with Unlimited Uploads. The 
output result of the i2OCR [9] is given in Figure 2.6.  
Figure 2.6 i2OCR 
2.7 
Free OCR to word convert 
Free OCR to Word provides a new way of translating printed text to a digital file that can be 
modified or edited in a word processorThe OCR to Word program works with any of the 
popular image files of JPG, JPEG, PSD, PNG, GIF, TIFF, BMP and scanned image files, etc. All 
of these file types are equally easy for Free OCR to Word and in just a few clicks, we can able to 
get a fully editable and searchable files in MS Word or TXT[10]. The result is shown in Figure 
2.7. [10] 
International Journal of UbiComp (IJU), Vol.6, No.3, July 2015 
25 
Figure 2.7 Free OCR to word convert 
2.8 
Google Docs 
Upload an image file or a scanned PDF to Google Docs, it Converts text to Google Docs format 
and Google Docs will automatically perform OCR on the file before saving it to our account. If 
the OCR operation is successful, all the extracted text is stored as a new document otherwise 
Google Docs will store our original image without any modification. With Google Docs, we can 
perform OCR on images and PDFs as large as 2 MB, in the output format of Google docs are 
ODT, PDF, TXT, RTF, DOC and HTML. It supports 30 languages [11], the output text result 
[11] is represented in Figure 2.8. 
Figure 2.8 Google Docs
3.  COMPARATIVE ANALYSIS 
In  order  to  perform  the  comparative  analysis  of  the  OCR  tools,  this  paper  consider  two 
performance measures and they are conversion accuracy and error rate. Conversion accuracy is 
nothing but to identify whether all the alphabets, numbers and special symbols are converted 
International Journal of UbiComp (IJU), Vol.6, No.3, July 2015 
26 
accurately or not. Error rate helps to identify how much of alphabets, numbers and special 
symbols are not converted properly. The following tables 3.1 and 3.2 shows the Error rate of 
OCR tools.  
Table 3.1 Comparative Analysis of Online OCR, Free Online OCR, OCR Convert, Convert 
image to text.net 
S.
N
Original Text 
Online OCR 
Free Online 
OCR 
OCR Convert 
Convert Image 
to text.net 
M 
AI 
first 
Means 
Mmns 
r
0
(1)
,
r
0
(2)
,….
r
0
(M) 
41), 40, ..., 4m) 
r31 ‟. r32). r3")
r§,", r§,2).....r§;'”'
41), 42), 
...or
r
i
,1≤i≤N
rbiNiNN 
ri. IsisN
r,-
. I €isN
rb I 
i
-
<..A1
r
i
to D
r, to D, 
r, to D, 
r,- to D,» 
rito
Dj
r
0
(1)
4P 
r8)
1'87
rg)
φ(r
i
,r
0
(j)
) ≤
φ(r
i
,r
0
(j)
),1≤j,u≤
o(c,4ofr,4'1),lNJ, 
u M 
(Mn-18)) S 
(p(r,-
.r8‟)).l S j. 
u S M 
<p(r,».rX)) 
<<p(r,-
.r§{„l).l € j. 
11$ M 
49(rhe),
54)(rat 
u),1
j,
u<
Al 
D
Di 
Dj 
D,- 
Dj 
10 
1≤j≤M
1NjNM 
ISjSM 
I <j<M 
1.<..j4M 
11 
r
i
ЄD
j
r
0
(j)
=
/|D
j
= lea rilipil 
rieDPif)” = 
ZED, r;/lD,l
r,~eD‟,
-. 
rg) = 2,-
CD‟ r,
-
/|D,|
rie
=
EiED,
where IDJI 
12 
|D
j
ID, 
D,-
D,-
IDJI 
13 change 
chan e 
Table 3.2 Comparative Analysis of Free OCR, i2OCR, Google Docs. 
S.N
Original Text 
Free OCR 
i2OCR 
Google docs 
first 
ﬕrst
Means 
r
0
(1)
,
r
0
(2)
,….
r
0
(M) 
r8", r32’, 
...,rï¬
â€â€™
r3", r32‟. ....r§,„"‟
r3", r32‟. ....r§,„"‟
r
i
,1≤i≤N
r,~, l<:'<N
r,-. I <i<N 
r,-. I <i<N
International Journal of UbiComp (IJU), Vol.6, No.3, July 2015 
27 
r
i
to D
r, to D, 
r,- to D 
r,- to D, 
r
0
(1)
H87
r87
r87
φ(r
i
,r
0
(j)
) ≤
φ(r
i
,r
0
(j)
),1≤j,u≤
(p(riv'{P)<‘p(riv'
$u))vlgv u<M 
«p<r,.rx*><<p(r,-
.r:;">.I <1. as M 
«p<r,.rx*><<p(r,-.r:;">.I 
<1. as M
D
D,- 
D,- 
D,- 
10  
1≤j≤M
l<j<M 
I <j<M
I <j<M
11 
r
i
ЄD
j
r
0
(j)
=
/|D
j
r,eD1, 
rg) = Z,-
GD’ 
r,-/ID,-|
r,-eD»,-. 
If,” = Z,,_._,,, r,~/|D,|
r,-eD»,-. 
If,” = 
Z,,_._,,, r,~/|D,|
12 
|D
j
D]
D,-
D,
13 
change 
Free OCR to Word Convert has obtained the least place because this tool does not produce the 
accurate results for conversion of characters, symbols and equations. Hence, it is not included in 
the table. The sample output is given in Figure 2.7. 
4.  PERFORMANCE MEASURES 
The main function of the OCR tools is to convert the given input images into text documents. In 
order to compare the performance of the above mentioned OCR tools, the following strategies are 
applied.  
Strategy 1: To find the character accuracy (CA) and character error rate (CER) from the resultant 
text documents. i.e To verify whether an OCR tool has converted all the characters available in 
the input image correctly or not. For this the following formula is used. 
Character accuracy (CA) = (a/n) *100  
Character error rate = 100-CA.  
(where a=Total number of characters in the resultant text document  
n=Total number of characters in the input image) 
Strategy 2: To find the special symbols accuracy (SA) and special symbols error rate (SER) from 
the resultant text documents. i.e To verify whether an OCR tool has converted all the special 
symbols 
(Σ, φ, ψ, ≥, ≤,=,
+, *, -, /, ^,%, # |,
(n)
(n) 
,etc..
) available in the input image correctly or 
not. For this the following formula is used. 
Special Symbol accuracy (SA) = (b/m) *100  
Special Symbol Error Rate SER= 100-SA.  
(where b=Total number of special symbols in the resultant text document  
m=Total number of special symbols in the input image) 
International Journal of UbiComp (IJU), Vol.6, No.3, July 2015 
28 
Table 3 shows the Accuracy and Error rate of different OCR tools. First two columns displays 
character accuracy (CA) and character error rate (CER), third and fourth column provides special 
symbols  accuracy (SA) and special symbols error rate (SER).  
Table 3 Comparison between OCR tools 
Figure 4.1 Character accuracy and Error rate of 
the OCR tools 
Figure 4.2 Special Symbols accuracy and Error 
rate of the OCR tools
Figure 4.1 describes the overall character accuracy and error rate of the OCR tools. From this, it 
is observed the performance of OCR convert, Convert image to text.net, i2OCR and Google Docs 
are better than other tools. Figure 4.2 presents the overall Special symbols accuracy and error rate 
of the OCR tools. In this measure all the OCR tools have produced 0% accuracy and error rate for 
all these tools is 100% which shows no one tool has performed the process of converting the 
mathematical symbols in equations accurately.   
5.   CONCLUSION 
This  work has  analyzed the  performance of  eight  different  types of OCR  tools. From this 
analysis, we come to know that, the above mentioned OCR software tools cannot detect fonts and 
formats properly; it gives only plain text as output. Hence, it has proved that the existing OCR 
tools  produced  good  results for  converting  characters  from  the  text  images but  converting 
S.No 
OCR Tools 
Character 
Accuracy 
(CA) (%) 
Character 
Error Rate 
(CER) (%) 
Special 
Symbols 
Accuracy 
(EA) (%) 
Special Symbol 
Error Rate 
(SER)(%) 
Online OCR 
95.9 
4.10 
100 
Free Online OCR 
98.64 
1.36 
100 
OCR Convert 
100 
100 
Convert image to text.net 
100 
100 
Free OCR 
100 
100 
i2OCR 
100 
100 
Free  OCR  to  Word 
Convert 
23.29 
76.71 
100 
Google Docs 
100 
100 
Documents you may be interested
Documents you may be interested