open pdf file c# : How to insert text into a pdf with acrobat application control tool html web page winforms online 09_chapter%2023-part262

Chapter 2 
46 
The  design  of a  decision  tree  classifier  can  be  decomposed  into  following 
tasks: 
I. 
The appropriate choice of tree structure. 
II. 
The choice of feature subsets to be used at each internal node. 
III.  The choice of the decision rule or strategy to be used at each internal 
node. 
 
Related Work in Decision Tree Classifier 
N. Shobha  Rani  and Smitha  Madhukar  [77]  have  proposed  a  decision  tree 
based  font  style/size  independent  Kannada  printed  character  recognition 
system. They have provided improved accuracy in recognizing the complex or 
overlapping characters and proved to be efficient by obtaining around 97% - 
99% of accuracy.  
Zhang Ping and Chen Lihui [78] have proposed a hybrid classification system 
with neural network and decision tree for handwritten numeral recognition.  
A. Amin and S. Singh [79] have proposed recognition of hand printed Chinese 
Characters  using  Decision  Tree.  The  proposed system  was  tested  with  900 
characters written by different writers from poor to acceptable quality and rate 
of recognition obtained was 84%. 
2.3  Optical Character Recognition Tools 
Optical  Character  Recognition  tools  are  used  to  convert  handwritten  or 
typewritten characters to machine editable form. OCR tools convert a scanned 
image or PDF file to text file. OCR tools are either front-end or backend tool 
for software. Today many types of OCR software available like: Web OCR 
(Online OCR), Desktop OCR etc. 
Web OCR  is also known as Online OCR. Web OCR will require that you 
upload  your  files  on the internet  to their  servers,  so  there  may  be  privacy 
How to insert text into a pdf with acrobat - insert text into PDF content in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
XDoc.PDF for .NET, providing C# demo code for inserting text to PDF file
adding text pdf file; add text to pdf without acrobat
How to insert text into a pdf with acrobat - VB.NET PDF insert text library: insert text into PDF content in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Providing Demo Code for Adding and Inserting Text to PDF File Page in VB.NET Program
add text field pdf; adding text field to pdf
Chapter 2 
47 
concerns as well as time/bandwidth concerns if your document is big. Most 
have limits to file size and count of pages to process daily/weekly that they 
will process  for  free;  for  bigger  jobs  they  require  to  buy  extra  processing 
power. On the flip side, many of these services are really good at the OCR 
itself [80].  
Desktop OCR is also known as Offline OCR. With Desktop OCR you don’t 
need to  worry  about  uploading  sensitive information  to  foreign  servers,  or 
whether your file will take too long to upload. Some desktop OCR programs 
generally  give  better  text  review  options,  and  some  have  scanning 
functionality integrated [80].  
Researcher has studied following tools and software. Among them some are 
open source and free. 
.NET PDF Document Viewing, Annotation, Conversion & Processing
Insert images into PDF. Edit, remove images from PDF. Redact text content, images, whole pages from PDF file. Add, insert PDF native annotations to PDF file.
how to enter text into a pdf form; adding text to a pdf in reader
C# PDF Converter Library SDK to convert PDF to other file formats
If you need to get text content from PDF file, this C# PDF to text conversion code It's easy to be integrated into your C# program and convert PDF to .txt
how to add text to pdf file with reader; how to add text to a pdf in acrobat
48 
2.3.1  Tesseract Tool 
Tesseract  is  free  software,  released  under  the Apache  License  and 
development has been sponsored by Google since 2006.Tesseract is one of the 
most accurate open source OCR engines currently available. 
 
History of Tesseract 
The  Tesseract  engine  was  originally  developed  as  proprietary  software 
at Hewlett  Packard labs  in Bristol,  England and  Greeley,  Colorado between 
1985 and 1994, with some more changes made in 1996 to port to Windows, 
and some  migration  from C to C++ in 1998.  A lot of  the  code  was  written 
in C, and then some more was written in C++. Since then all the code has been 
converted to at least compile with a C++ compiler. Very little work was done 
in  the  following  decade.  It  was  then  released  as  open  source  in  2005  by 
Hewlett Packard and the University of Nevada, Las Vegas (UNLV). Tesseract 
development has been sponsored by Google since 2006 [81]. 
 
Features 
Tesseract was in the top three OCR engines in terms of character accuracy in 
1995. It is available for Linux, Windows and Mac OS X [81].  
Tesseract up  to  and  including  version 2  could  only accept TIFF  images  of 
simple one column text as inputs. These early versions did not include layout 
analysis and so inputting multi-columned text, images, or equations produced 
 garbled  output.  Since  version  3.00  Tesseract  has  supported  output  text 
formatting, OCR positional information and page layout analysis. Support for 
 number  of  new  image  formats  was  added  using  the  Leptonica  library. 
Tesseract can detect whether text is moonscape or proportional [81]. 
The initial versions of Tesseract could only recognize English language text. 
Starting with version 2 Tesseract was able to process English, French, Italian, 
German, Spanish, Brazilian Portuguese and Dutch. Starting with version 3 it 
C# Word - Word Conversion in C#.NET
using other external third-party dependencies like Adobe Acrobat. Word SDK to convert Word document to PDF document may directly copy and paste it into your C#
how to insert text box in pdf; how to add text field to pdf form
C# powerpoint - PowerPoint Conversion & Rendering in C#.NET
using other external third-party dependencies like Adobe Acrobat. SDK to convert PowerPoint document to PDF document may directly copy and paste it into your C#
how to add text fields to a pdf; add text box in pdf document
Chapter 2 
49 
can recognize Arabic, English, Bulgarian, Catalan, Czech, Chinese (Simplified 
and  Traditional),  Danish,  German  (standard  and Fraktur script),  Greek, 
Finnish,  French,  Hebrew,  Hindi,  Croatian,  Hungarian,  Indonesian,  Italian, 
Japanese, Korean, Latvian, Lithuanian, Dutch, Norwegian, Polish, Portuguese, 
Romanian, Russian, Slovak (standard and Fraktur script), Slovenian, Spanish, 
Serbian, Swedish, Tagalog, Tamil, Thai, Turkish, Ukrainian and Vietnamese. 
Tesseract can be trained to work in other languages too [81].  
Tesseract  includes  the  English  training  data.  If  you  want  to  use  another 
language, download the appropriate training data, unpack it using 7-zip, and 
copy  the  .traineddata  file  into  the  'tessdata'  directory,  probably C:\Program 
Files\Tesseract OCR\tessdata. 
Tesseract's  output  will  be  very  poor  quality  if  the  input  images  are  not 
preprocessed to suit it: Images (especially screenshots) must be scaled up such 
that  the  text x-height is  at  least  20  pixels, any  rotation  or  skew  must  be 
corrected or no text will be recognized, low-frequency changes in brightness 
must be high-pass filtered, or Tesseract's binarization stage will destroy much 
of the  page, and  dark  borders  must  be  manually removed,  or  they will be 
misinterpreted as characters [81]. 
Tesseract does not come with a GUI and is instead run from the command-line 
interface [82]. Tesseract version 3.03 is released and available for use. 
2.3.1.1 Desktop OCR Software using Tesseract Tool 
Tesseract tool is used as a backend for Desktop OCR Software. Researcher 
has studied following Desktop OCR software of Tesseract Tool. 
1. 
Free OCR 
2. 
PDF OCR X 
3. 
YAGF 
4. 
GimageReader 
C# Windows Viewer - Image and Document Conversion & Rendering in
standard image and document in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat. Convert to PDF.
add text to pdf file online; how to add text fields to a pdf document
VB.NET PDF: How to Create Watermark on PDF Document within
imaging project; Use 100% managed VB.NET method to insert a watermark to PDF file; Follow the accurate VB.NET demo code to add text watermark content
adding text to a pdf form; how to input text in a pdf
Chapter 2 
50 
5. 
VietOCR 
6. 
OCRFeeder 
7. 
Lector 
8. 
Lime OCR 
Above software are used as frontend for Tesseract Tool. 
1. 
Free OCR 
Free OCR is a useful tool for scanning and extracting text from images and 
PDFs. Free OCR supports most image files and multi-page TIFF files. It can 
handle  PDF  formats  and  is  also  compatible  with  TWAIN  devices  like 
scanners. Free OCR is a complete scan OCR program [83].  
Figure 2.15 Screenshot of Free OCR Software 
C# Excel - Excel Conversion & Rendering in C#.NET
using other external third-party dependencies like Adobe Acrobat. SDK to convert Excel document to PDF document You may directly copy and paste it into your C#
add text to a pdf document; add text box to pdf
VB.NET PowerPoint: VB Code to Draw and Create Annotation on PPT
as a kind of compensation for limitations (other documents are compatible, including PDF, TIFF, MS Word VB.NET PPT: Insert and Customize Text Annotation on
add text pdf professional; add text to pdf
2. 
PDF OCR X 
PDF  OCR X is  a simple drag-and-drop utility for Mac OS X and Windows 
that converts PDFs and images into text documents or searchable PDF files. It 
uses advanced OCR (optical character recognition) technology to extract the 
text of the PDF even if that text is contained in an image. This is particularly 
useful for dealing with PDFs that were created via a Scan-to-PDF function in a 
scanner or photo copier [85]. It supports over 60 languages. It also supports 
batch processing. 
 
How it works? 
I. 
Select file - Select an image or PDF file.  
52 
II. 
Select OCR conversion settings. 
III.  Convert- Converts PDF or image to text or searchable PDF depending 
on your conversion settings. 
3. 
YAGF 
YAGF is  a graphical  interface  for  cuneiform and tesseract  text  recognition 
tools on the Linux  platform. With YAGF you  can scan images via  XSane, 
import  pages  from  PDF  documents,  perform  image  preprocessing  and 
recognize texts using cuneiform from a single command center. YAGF also 
makes it easy to scan and recognize several images sequentially [86]. 
It provides rotation and automatic skew correction facility.  User can manually 
define and adjust recognition regions. YAGF also provides some facilities for 
a multi-page recognition. 
4. 
gImageReader 
GImageReader reads text from images and PDFs. It can import images from 
disk, scanning devices, clipboard and screenshots. User can manually define 
and  adjust  recognition  regions.  It  supports  multipage  PDF  documents.  It 
Figure 2.17 Conversion Settings of PDF OCR X 
Chapter 2 
53 
supports Spellchecking for output text (if corresponding dictionary installed). 
It removes line breaks in output text [87]. 
5. 
VietOCR 
VietOCR,  available  in  Java  and  .NET  executable,  is  a  GUI  frontend  for 
Tesseract OCR engine. Both versions  support similar graphic user interface 
and  are capable  of recognizing  text  from  images of  common  formats. The 
program  can  also  function  as  a  console  application,  executing  from  the 
command line. Language data for Vietnamese and English is already bundled 
with  the  program.  Data  for  other  languages  can  be  downloaded 
from Tesseract website and should be placed into tessdata folder [88]. 
VietOCR runs on  multi-platform (Java version  only) i.e. Windows, Solaris, 
Linux/Unix, Mac OS X and Others. It extracts text from PDF, TIFF, JPEG, 
GIF, PNG, BMP  image  formats.  It supports  batch  processing and scanning 
facility. 
6. 
OCRFeeder 
OCRFeeder is a document layout analysis and optical character recognition 
system.   It  automatically  outlines  its  contents,  distinguish  between  what's 
graphics  and  text  and  perform  OCR  over  the  latter.  It  generates  multiple 
formats being its main one ODT [89]. 
It is a complete GTK graphical user interface that allows the users to correct 
any unrecognized characters, defined or correct bounding boxes, set paragraph 
styles, clean the input images, import PDFs, save and load the project, export 
everything to multiple formats, etc. [89]. 
7. 
Lector 
Lector is a graphical OCR solution for GNU/Linux based on Python, Qt4 and 
tesseract OCR. Lector lets you select areas on which you want to do OCR. 
Chapter 2 
54 
Then you can run tesseract-ocr simply clicking a button. The resulting text can 
be proofread, formatted and edited directly in Lector [90]. It supports rotation 
of images, spellchecking, text editing. It exports output to ODT (by default), 
TXT, HTML or PDF. 
8. 
Lime OCR 
Lime OCR is built with tessearact-ocr. Lime OCR was initially developed for 
internal  use  of  Lime  Consultants,  and  now  published  under  GNU  General 
Public License v3. Lime OCR is free, simple to use and currently supports 29 
languages,  and  supports all tesseract-ocr  trained data files  [91]. Lime  OCR 
supports over 50 types of images and PDF. It supports rotation and cropping. 
9. 
QTesseract 
QTesseract is a Graphical User Interface for the Tesseract OCR. The interface 
allows the user to load, recognize and save result. 
10.  SunnyPage 
SunnyPage OCR is a GUI frontend for Tesseract OCR engine with automatic 
adjustment of image brightness; image processing and PDF support [92]. 
2.3.1.2 Web OCR Software using Tesseract OCR 
Tesseract tool is also used as a backend for Web OCR Software. Researcher 
has studied following Web OCR software of Tesseract Tool. 
1. 
Free OCR 
2. 
I2OCR 
3. 
Custom OCR 
4. 
WeOCR 
Above web OCR software are frontend for Tesseract tool which are discussed 
here. 
Chapter 2 
55 
1. 
Free OCR 
Free-OCR is a free online OCR tool. It takes a JPG, GIF, TIFF, BMP or PDF 
(only first page). It can handle images with multi-column text and supports 
many languages. The images must not be larger than 2MB, no wider or higher 
than 5000 pixels and there is a limit of 10 images uploads per hour [93]. 
2. 
i2OCR 
I2OCR is an online service of OCR. I2OCR reads text from JPG, PNG, BMP, 
TIFF, PBM, PGM and PPM formats and convert it into text, word and PDF 
format.  
I2OCR enables you to upload an image file from a URL (web, cloud etc.). It 
supports 64 recognition languages. It analyzes the layout of the document and 
can extract text from multiple columns [94]. It gives facility to edit extracted 
text online using Google Docs or translated using Google or Bing translation 
service. I2OCR displays recognized text as well as input source image side by 
side  to  facilitate  reviewing  misrecognized  words.  I2OCR  cannot  read  text 
from PDF File. 
Figure 2.18 Screenshot of Free OCR 
Documents you may be interested
Documents you may be interested