Chapter 2 
66 
6. 
A2ia 
A2iA’s  OCR  software  recognizes  isolated  characters  by  distinguishing  the 
individual  shapes  and  sizes  within  each  character  classifier  –  identifying 
extracted such as curves, loops and lines- and organizing them in a logical and 
actionable  manner  according  to  the  user’s  information  management 
specification [109]. 
2.3.4  Other Web OCR Software 
There  are  also  other  web  OCR  software  available.  Researcher  has  studied 
following web OCR software. 
1. 
Google Docs 
2. 
ABBYY Fine Reader 
3. 
OCR Online 
4. 
Online OCR 
Above web OCR software are discussed in detail. 
1. 
Google Docs 
Google  Docs is  a  free, web-based office  suite offered  by Google within 
its Google Drive  service. It was formerly a storage service as well, but has 
since  been  replaced  by  Google  Drive. It  allows  users  to  create  and  edit 
documents  online  while  collaborating  with  other  users  live.  Google  Docs 
combines  the  features  of  Writely  and  Spreadsheets  with  a presentation 
program incorporating technology designed by Tonic Systems [110]. 
Data storage of files was introduced on January 12, 2010, with 1 GB of free 
space.  On April  24, 2012, Google launched  Google  Drive which  supplants 
Google Docs. Google Drive  incorporates the Google  Docs office suite into 
itself alongside providing improved storage functionality [110]. 
Pdf image extractor online - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
some pdf image extractor; extract image from pdf c#
Pdf image extractor online - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract image from pdf using; pdf extract images
Chapter 2 
67 
 
History 
Google  Docs  originated  from  two  separate  products,  Writely  and  Google 
Spreadsheets.  Writely  was  a web-based word  processor created  by  the 
software company Upstartle and launched in August 2005.It was written by 
Sam  Schillace  and  Steve  Newman  (both  of  whom  had  previously  worked 
on Full Write and Claris Home Page) and Claudia Carpenter. They were trying 
out  the  then  new  Ajax technology  and  the  "content  editable"  function  in 
browsers, and intrigued by the idea of making a simpler version of Microsoft 
Word online [110]. 
Spreadsheets,  launched  as  Google  Labs  Spreadsheets  on  June  6, 
2006, originated  from  the  acquisition  of  the  XL2Web  product  by 2Web 
Technologies. Writely's original features included a collaborative text editing 
suite and access  controls.  Menus,  keyboard shortcuts, and dialog boxes are 
similar  to  what  users  may  expect  in  a  desktop  word  processor  such 
as Microsoft Word or LibreOffice Writer [110]. 
On March 9, 2006, Google announced that it had acquired Upstartle. At the 
time of acquisition, Upstartle had four employees. Writely closed registration 
to its service until the move to Google servers was complete. In August 2006, 
Writely sent account invitations to everyone who had requested to be placed 
on a waiting list, and then became publicly available on August 23. Writely 
continued to maintain its own user system until September 19, 2006, when it 
was integrated with Google Accounts [110]. 
Writely  originally  ran  on Microsoft ASP.NET technology  which 
uses Microsoft  Windows.  Since  July  2006,  Writely  servers  appear  to  be 
running a Linux-based operating system [110]. 
Meanwhile, Google developed Google Spreadsheets using the technology it 
had acquired  from 2Web  Technologies in 2005  and launched  Google Labs 
VB.NET TIFF: TIFF Text Extractor SDK; Extract Text Content from
In this online tutorial, we will offer you information on Standalone VB.NET TIFF text extractor SDK that extracts control SDK into VB.NET image application by
how to extract images from pdf file; extract image from pdf
VB.NET PowerPoint: Extract & Collect PPT Slide(s) Using VB Sample
demo code using RasterEdge VB.NET PowerPoint extractor library toolkit. provide powerful & profession imaging controls, PDF document, image to pdf files and
pdf image extractor c#; extract image from pdf java
Chapter 2 
68 
Spreadsheets on June 6, 2006, as the first public component of what would 
eventually become  Google  Docs.  It  was  initially  made  available  to  only a 
limited number of users, on a first-come, first-served basis. The limited test 
was later replaced with a beta version available to all Google Account holders, 
around the same time as a press release was issued. In February 2007, Google 
Docs was made available to Google Apps users. 
Google Docs is Google's "software as a service" office suite. Documents can 
be  saved  to  a  user's  local  computer  in  a  variety  of  formats 
(ODF, HTML, PDF, RTF, Text, and  Office  Open  XML).  Documents  are 
automatically saved to Google's servers, and a revision history is automatically 
kept so past edits may be viewed. Documents can be tagged and archived for 
organizational purposes. The service is officially supported on recent versions 
of  the Firefox, Internet  Explorer, Safari and Chrome browsers  running  on 
Microsoft Windows, Apple OS X and Linux operating systems [110]. 
Google Docs is one of many cloud computing document-sharing services. The 
majority of document-sharing services require user fees. (Google Docs is free 
for individuals, but has fees for business starting at $5/month.) [110]. 
Google introduced add-ons for Google Docs and Sheets which allow users to 
use third-party applications installed from the add-on stores to get additional 
features within the main services [110]. 
There are no limits on the number of files that you can process in a day. You 
can  perform  OCR  on  image  and  PDF  files.  It  preserves  most  formatting. 
Documents,  spreadsheets,  presentations  can  be  created  with  Google  Docs, 
imported through the web interface, or sent via email. 
VB.NET Word: Extract Word Pages, DOCX Page Extraction SDK
this VB.NET Word page extractor add-on can be also used to merge / split Word file, add / delete Word page, sort Word page order or insert image into Word page
extract pdf images; extract images from pdf
VB.NET TIFF: TIFF to Text (TXT) Converter SDK; Convert TIFF to
NET developers to interpret and decode TIFF image file. But different from TIFF text extractor add-on powerful & profession imaging controls, PDF document, tiff
extract images pdf acrobat; how to extract text from pdf image file
Chapter 2 
69 
With Google Docs, you can perform OCR on images and PDFs as large as 2 
MB. For PDF files, they only look at the first 10 pages when searching for text 
to extract. Text in some languages may not be recognized and processed. 
 
How it Works? 
I. 
Open Google Drive at drive.google.com 
II. 
Select upload icon to upload any image or PDF file. 
III.  Click the setting icon in the top right and select upload settings. 
IV.  As shown in the Figure 2.28, select ‘Convert documents, presentations, 
spreadsheets, and drawings to the corresponding Google Docs format’ 
and  ‘Convert  text  from  PDF  and  image files  to Google documents’ 
options. 
V. 
Start upload - To perform OCR. 
If the OCR operation is successful, all the extracted text is stored as a new 
document  else  Google  Docs  will  store  your  original  image  without  any 
modification. 
Figure 2.28 Upload Settings of Google Docs 
C# Word: How to Extract Text from C# Word in .NET Project
you can rest assured because this Word text extractor preserves both to provide powerful & profession imaging controls, PDF document, image to pdf files and
some pdf image extractor; how to extract images from pdf file
Chapter 2 
70 
2. 
ABBYY Fine Reader 
ABBYY Fine Reader also provides online service. Fine Reader read text from 
image and PDF format and saves the extracted text in .DOC, .DOCX, .XLS, 
.XLSX, .PDF, .RTF, .TXT and .ODT formats.  
It supports maximum 30 MB file size. Fine Reader can convert multilingual 
document images to texts. You can choose up to 3 recognition languages for a 
multilingual  document.  Fine  Reader  can  convert  multi-page  document  and 
also  preserves  formatting.  Fine  Reader  can  export  your  converted  file  to 
Google Docs, Ever note and Drop Box. 
 
How it Works? 
I. 
Upload – Upload an image or PDF file. 
II. 
Select language and output format. 
III.  Recognize – To perform OCR. 
Figure 2.29 Screenshot of ABBYY Fine Reader Online 
Chapter 2 
71 
3. 
OCR Online 
OCR  Online  is  an  online  service  for  converting  PDF  and  image  file  into 
editable and searchable text format. OCR Online read text from JPG, TIFF, 
PNG, GIF and PDF format and saves the extracted text in TXT, PDF, RTF 
and DOC format.  
OCR Online has superior  multilingual support  and  is  capable  of processing 
documents in 153 languages providing prime quality for a single language or 
any  combination  of  the  languages  it  supports  [111].    It  can  rebuild  the 
structure and restore formatting of multi-page documents. OCR Online gives 
the facility of batch processing. You can upload a large number of files in one 
batch and it will output the results as one document. 
Only five pages are allowed to convert in a week. If you want to convert more 
than five pages a week, you have to pay for it. It supports maximum 10 MB 
file size.  
 
How it Works? 
I. 
Browse - Select an image or PDF file. 
II. 
Upload – upload an image or PDF file to perform OCR. 
Figure 2.30 Screenshot of OCR Online 
Chapter 2 
72 
4. 
Online OCR 
Online  OCR    is  a  free  web-based  Optical  Character  Recognition  software 
(OCR)  that  allows  you  to  convert  scanned  PDF  documents  (including 
multipage  files),  faxes,  photographs or digital camera  captured  images  into 
editable and searchable electronic documents including Adobe PDF, Microsoft 
Word, Microsoft Excel, Rtf, Html and Txt [112]. 
There are two modes in onlineOCR.net - Registered mode and Guest mode. 
Guest mode (without registration) allows you  to convert 15 pages per hour 
with file size up to 4 MB. 
Registration mode will give you access to additional features not available to 
guest  users:  recognition  large  images,  ZIP  archives  and  multipage  PDF, 
choose recognition languages; convert into editable formats and other settings 
[112]. Registration mode allows you to convert 25 pages. For converting more 
than 25 pages, extra capacity may be purchased. 
73 
 
How it Works? 
I. 
Select File – Select an image file. 
II. 
Output formats – Select output format. 
III.  Convert – Perform OCR. 
2.4  Creation of Master Dataset for Characters and Digits 
Researcher has created master dataset to analyze the performance of the above 
tools  for  handwritten  character  and  digit  recognition.  Researcher  has 
performed following steps. 
2.4.1  Handwritten Data Sample Collection 
Researcher  has  collected  handwritten  data  samples  for  English  capital 
characters A to Z and digits 0 to 9 from seven persons of different ages. Each 
character  and  digit  is  written  10  times  by  each  person.  Handwritten  data 
samples are collected in A4 size blank paper. There are total 9 datasheets, 4 
characters/digits are written 10 times on a single datasheet i.e. character A is 
written 5 times in 1st and 2nd row, character B in 3rd and 4th row, character C in 
5th  and 6th row and character D in 7th and 8th row so there are total 8 rows and 
5 columns in each datasheet. Each datasheet contains 40 characters/digits. 
Researcher has collected handwritten data samples from following persons. 
Person Name - Purna, CKKSir, Mayur, Manoj, Manjulaben, Mitul, Jhanvi 
Handwritten  data  samples  are  collected  for  capital  characters  in  following 
manner. 
A to Z - 70 samples of each character (Each character is written 10 time by 7 
persons) 
Handwritten data samples are collected for digit in following manner. 
0 to 9 – 70 samples of each digit (Each digit is written 10 times by 7 persons) 
Chapter 2 
74 
2.4.2  Digitization of the Handwritten Datasheet 
Character recognition tools require a scanned image as an input. To create an 
image file, handwritten datasheets are scanned using HP Deskjet 1510 scanner 
and saved in .jpg format. Figure 2.32 represents handwritten datasheet images 
of  all  capital  characters  and  digits.  Researcher  has  created  total  seven 
directories to store handwritten datasheet images of seven writers. Directories 
are named as per writer’s name. i.e. Purna. Handwritten datasheet of English 
capital characters and digits are stored in the following format.  
Writer’s name_Characters in that datasheet 
i.e. Purna_ABCD.jpg ……. Purna_7890.jpg 
Table 2.1 Naming Convention of an Handwritten Datasheets 
Naming 
Convention 
Meaning 
Purna_ABCD 
File contains handwritten data samples of Character A, B, C 
and D written 10 times by writer Purna. 
Purna_EFGH 
File contains handwritten data samples of Character E, F, G 
and H written 10 times by writer Purna. 
Purna_IJKL 
File contains handwritten data samples of Character I, J, K 
and L written 10 times by writer Purna. 
Purna_MNOP 
File contains handwritten data samples of Character M, N, 
O and P written 10 times by writer Purna. 
Purna_QRST 
File contains handwritten data samples of Character Q, R, S and 
T written 10 times by writer Purna. 
Purna_UVWX 
File contains handwritten data samples of Character U, V, W and 
X written 10 times by writer Purna. 
Purna_YZ12 
File contains handwritten data samples of Character Y and 
Z and digit 1 and 2 written 10 times by writer Purna. 
Purna_3456 
File contains handwritten data samples of digit 3, 4, 5 and 6 
written 10 times by writer Purna. 
Purna_7890 
File contains handwritten data samples of digit 7, 8, 9 and 0 
written 10 times by writer Purna. 
Chapter 2 
75 
Figure 2.32 Sample Handwritten Datasheets for Experimental Study (a) A B C 
D (b) E F G H (c) I J K L (d) M N O P (e) Q R S T(f) U V W X (g) Y Z 1 2 (h) 3 
(a
(b) 
(c) 
(e) 
(d
)
(f) 
(g) 
(h) 
(i) 
Documents you may be interested
Documents you may be interested