how to view pdf file in asp.net using c# : Extract images from pdf files without using copy and paste SDK application service wpf windows web page dnn 09_chapter%2023-part109

Chapter 2 
46 
The  design  of a  decision  tree  classifier  can  be  decomposed  into  following 
tasks: 
I. 
The appropriate choice of tree structure. 
II. 
The choice of feature subsets to be used at each internal node. 
III.  The choice of the decision rule or strategy to be used at each internal 
node. 
 
Related Work in Decision Tree Classifier 
N. Shobha  Rani  and Smitha  Madhukar  [77]  have  proposed  a  decision  tree 
based  font  style/size  independent  Kannada  printed  character  recognition 
system. They have provided improved accuracy in recognizing the complex or 
overlapping characters and proved to be efficient by obtaining around 97% - 
99% of accuracy.  
Zhang Ping and Chen Lihui [78] have proposed a hybrid classification system 
with neural network and decision tree for handwritten numeral recognition.  
A. Amin and S. Singh [79] have proposed recognition of hand printed Chinese 
Characters  using  Decision  Tree.  The  proposed system  was  tested  with  900 
characters written by different writers from poor to acceptable quality and rate 
of recognition obtained was 84%. 
2.3  Optical Character Recognition Tools 
Optical  Character  Recognition  tools  are  used  to  convert  handwritten  or 
typewritten characters to machine editable form. OCR tools convert a scanned 
image or PDF file to text file. OCR tools are either front-end or backend tool 
for software. Today many types of OCR software available like: Web OCR 
(Online OCR), Desktop OCR etc. 
Web OCR  is also known as Online OCR. Web OCR will require that you 
upload  your  files  on the internet  to their  servers,  so  there  may  be  privacy 
Extract images from pdf files without using copy and paste - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract pdf images; how to extract images from pdf
Extract images from pdf files without using copy and paste - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract pictures from pdf; extract image from pdf file
Chapter 2 
47 
concerns as well as time/bandwidth concerns if your document is big. Most 
have limits to file size and count of pages to process daily/weekly that they 
will process  for  free;  for  bigger  jobs  they  require  to  buy  extra  processing 
power. On the flip side, many of these services are really good at the OCR 
itself [80].  
Desktop OCR is also known as Offline OCR. With Desktop OCR you don’t 
need to  worry  about  uploading  sensitive information  to  foreign  servers,  or 
whether your file will take too long to upload. Some desktop OCR programs 
generally  give  better  text  review  options,  and  some  have  scanning 
functionality integrated [80].  
Researcher has studied following tools and software. Among them some are 
open source and free. 
C# PDF File Merge Library: Merge, append PDF files in C#.net, ASP.
Combine scanned images to PDF, such as tiff functions can be implemented independently, without using any Adobe to easily merge and append PDF files with mature
extract text from image pdf file; how to extract pictures from pdf files
C# PDF Convert to Images SDK: Convert PDF to png, gif images in C#
Turn multipage PDF file into single image files respectively in .NET framework. Description: Convert all the PDF pages to target format images and output
online pdf image extractor; extract image from pdf online
48 
2.3.1  Tesseract Tool 
Tesseract  is  free  software,  released  under  the Apache  License  and 
development has been sponsored by Google since 2006.Tesseract is one of the 
most accurate open source OCR engines currently available. 
 
History of Tesseract 
The  Tesseract  engine  was  originally  developed  as  proprietary  software 
at Hewlett  Packard labs  in Bristol,  England and  Greeley,  Colorado between 
1985 and 1994, with some more changes made in 1996 to port to Windows, 
and some  migration  from C to C++ in 1998.  A lot of  the  code  was  written 
in C, and then some more was written in C++. Since then all the code has been 
converted to at least compile with a C++ compiler. Very little work was done 
in  the  following  decade.  It  was  then  released  as  open  source  in  2005  by 
Hewlett Packard and the University of Nevada, Las Vegas (UNLV). Tesseract 
development has been sponsored by Google since 2006 [81]. 
 
Features 
Tesseract was in the top three OCR engines in terms of character accuracy in 
1995. It is available for Linux, Windows and Mac OS X [81].  
Tesseract up  to  and  including  version 2  could  only accept TIFF  images  of 
simple one column text as inputs. These early versions did not include layout 
analysis and so inputting multi-columned text, images, or equations produced 
 garbled  output.  Since  version  3.00  Tesseract  has  supported  output  text 
formatting, OCR positional information and page layout analysis. Support for 
 number  of  new  image  formats  was  added  using  the  Leptonica  library. 
Tesseract can detect whether text is moonscape or proportional [81]. 
The initial versions of Tesseract could only recognize English language text. 
Starting with version 2 Tesseract was able to process English, French, Italian, 
German, Spanish, Brazilian Portuguese and Dutch. Starting with version 3 it 
VB.NET PDF Convert to Jpeg SDK: Convert PDF to JPEG images in vb.
& pages edit, C#.NET PDF pages extract, copy, paste, C#.NET can help developers convert standard PDF file to all the content (including both images and texts
some pdf image extractor; extract pdf images
VB.NET PDF File Split Library: Split, seperate PDF into multiple
Divide PDF file into multiple files by outputting PDF file size. Independent component for splitting PDF document in preview without using external PDF
extract images from pdf file; extract image from pdf file
Chapter 2 
49 
can recognize Arabic, English, Bulgarian, Catalan, Czech, Chinese (Simplified 
and  Traditional),  Danish,  German  (standard  and Fraktur script),  Greek, 
Finnish,  French,  Hebrew,  Hindi,  Croatian,  Hungarian,  Indonesian,  Italian, 
Japanese, Korean, Latvian, Lithuanian, Dutch, Norwegian, Polish, Portuguese, 
Romanian, Russian, Slovak (standard and Fraktur script), Slovenian, Spanish, 
Serbian, Swedish, Tagalog, Tamil, Thai, Turkish, Ukrainian and Vietnamese. 
Tesseract can be trained to work in other languages too [81].  
Tesseract  includes  the  English  training  data.  If  you  want  to  use  another 
language, download the appropriate training data, unpack it using 7-zip, and 
copy  the  .traineddata  file  into  the  'tessdata'  directory,  probably C:\Program 
Files\Tesseract OCR\tessdata. 
Tesseract's  output  will  be  very  poor  quality  if  the  input  images  are  not 
preprocessed to suit it: Images (especially screenshots) must be scaled up such 
that  the  text x-height is  at  least  20  pixels, any  rotation  or  skew  must  be 
corrected or no text will be recognized, low-frequency changes in brightness 
must be high-pass filtered, or Tesseract's binarization stage will destroy much 
of the  page, and  dark  borders  must  be  manually removed,  or  they will be 
misinterpreted as characters [81]. 
Tesseract does not come with a GUI and is instead run from the command-line 
interface [82]. Tesseract version 3.03 is released and available for use. 
2.3.1.1 Desktop OCR Software using Tesseract Tool 
Tesseract tool is used as a backend for Desktop OCR Software. Researcher 
has studied following Desktop OCR software of Tesseract Tool. 
1. 
Free OCR 
2. 
PDF OCR X 
3. 
YAGF 
4. 
GimageReader 
VB.NET PDF File Merge Library: Merge, append PDF files in vb.net
Merge two or several separate PDF files together and into one PDF VB.NET Components to combine various scanned images to PDF Merge PDF without size limitation.
extract photo from pdf; how to extract pictures from pdf files
C# PDF Convert to Word SDK: Convert PDF to Word library in C#.net
of target PDF document, keeps the elements (like images, tables and this situation, you need to convert PDF document to some easily editable files like Word
how to extract images from pdf file; extract image from pdf c#
Chapter 2 
50 
5. 
VietOCR 
6. 
OCRFeeder 
7. 
Lector 
8. 
Lime OCR 
Above software are used as frontend for Tesseract Tool. 
1. 
Free OCR 
Free OCR is a useful tool for scanning and extracting text from images and 
PDFs. Free OCR supports most image files and multi-page TIFF files. It can 
handle  PDF  formats  and  is  also  compatible  with  TWAIN  devices  like 
scanners. Free OCR is a complete scan OCR program [83].  
Figure 2.15 Screenshot of Free OCR Software 
VB.NET PDF Convert to Word SDK: Convert PDF to Word library in vb.
PDF pages can be converted to separate Word files within a PDF content by outputting its texts and images to Word In order to convert PDF document to Word file
pdf extract images; extract images from pdf files
C# Create PDF from Word Library to convert docx, doc to PDF in C#.
Easy to create searchable and scanned PDF files from Word. Free online Word to PDF converter without email. RasterEdge.XDoc.PDF.dll.
extract images pdf acrobat; pdf image extractor online
2. 
PDF OCR X 
PDF  OCR X is  a simple drag-and-drop utility for Mac OS X and Windows 
that converts PDFs and images into text documents or searchable PDF files. It 
uses advanced OCR (optical character recognition) technology to extract the 
text of the PDF even if that text is contained in an image. This is particularly 
useful for dealing with PDFs that were created via a Scan-to-PDF function in a 
scanner or photo copier [85]. It supports over 60 languages. It also supports 
batch processing. 
 
How it works? 
I. 
Select file - Select an image or PDF file.  
C# PDF insert image Library: insert images into PDF in C#.net, ASP
Create high resolution PDF file without image quality losing in ASP.NET application. Add multiple images to multipage PDF document in .NET WinForms.
pdf image extractor c#; extract image from pdf
C# Create PDF from PowerPoint Library to convert pptx, ppt to PDF
Easy to create searchable and scanned PDF files from PowerPoint. Free online PowerPoint to PDF converter without email. RasterEdge.XDoc.PDF.dll.
extract image from pdf acrobat; extract pdf pages to jpg
52 
II. 
Select OCR conversion settings. 
III.  Convert- Converts PDF or image to text or searchable PDF depending 
on your conversion settings. 
3. 
YAGF 
YAGF is  a graphical  interface  for  cuneiform and tesseract  text  recognition 
tools on the Linux  platform. With YAGF you  can scan images via  XSane, 
import  pages  from  PDF  documents,  perform  image  preprocessing  and 
recognize texts using cuneiform from a single command center. YAGF also 
makes it easy to scan and recognize several images sequentially [86]. 
It provides rotation and automatic skew correction facility.  User can manually 
define and adjust recognition regions. YAGF also provides some facilities for 
a multi-page recognition. 
4. 
gImageReader 
GImageReader reads text from images and PDFs. It can import images from 
disk, scanning devices, clipboard and screenshots. User can manually define 
and  adjust  recognition  regions.  It  supports  multipage  PDF  documents.  It 
Figure 2.17 Conversion Settings of PDF OCR X 
Chapter 2 
53 
supports Spellchecking for output text (if corresponding dictionary installed). 
It removes line breaks in output text [87]. 
5. 
VietOCR 
VietOCR,  available  in  Java  and  .NET  executable,  is  a  GUI  frontend  for 
Tesseract OCR engine. Both versions  support similar graphic user interface 
and  are capable  of recognizing  text  from  images of  common  formats. The 
program  can  also  function  as  a  console  application,  executing  from  the 
command line. Language data for Vietnamese and English is already bundled 
with  the  program.  Data  for  other  languages  can  be  downloaded 
from Tesseract website and should be placed into tessdata folder [88]. 
VietOCR runs on  multi-platform (Java version  only) i.e. Windows, Solaris, 
Linux/Unix, Mac OS X and Others. It extracts text from PDF, TIFF, JPEG, 
GIF, PNG, BMP  image  formats.  It supports  batch  processing and scanning 
facility. 
6. 
OCRFeeder 
OCRFeeder is a document layout analysis and optical character recognition 
system.   It  automatically  outlines  its  contents,  distinguish  between  what's 
graphics  and  text  and  perform  OCR  over  the  latter.  It  generates  multiple 
formats being its main one ODT [89]. 
It is a complete GTK graphical user interface that allows the users to correct 
any unrecognized characters, defined or correct bounding boxes, set paragraph 
styles, clean the input images, import PDFs, save and load the project, export 
everything to multiple formats, etc. [89]. 
7. 
Lector 
Lector is a graphical OCR solution for GNU/Linux based on Python, Qt4 and 
tesseract OCR. Lector lets you select areas on which you want to do OCR. 
Chapter 2 
54 
Then you can run tesseract-ocr simply clicking a button. The resulting text can 
be proofread, formatted and edited directly in Lector [90]. It supports rotation 
of images, spellchecking, text editing. It exports output to ODT (by default), 
TXT, HTML or PDF. 
8. 
Lime OCR 
Lime OCR is built with tessearact-ocr. Lime OCR was initially developed for 
internal  use  of  Lime  Consultants,  and  now  published  under  GNU  General 
Public License v3. Lime OCR is free, simple to use and currently supports 29 
languages,  and  supports all tesseract-ocr  trained data files  [91]. Lime  OCR 
supports over 50 types of images and PDF. It supports rotation and cropping. 
9. 
QTesseract 
QTesseract is a Graphical User Interface for the Tesseract OCR. The interface 
allows the user to load, recognize and save result. 
10.  SunnyPage 
SunnyPage OCR is a GUI frontend for Tesseract OCR engine with automatic 
adjustment of image brightness; image processing and PDF support [92]. 
2.3.1.2 Web OCR Software using Tesseract OCR 
Tesseract tool is also used as a backend for Web OCR Software. Researcher 
has studied following Web OCR software of Tesseract Tool. 
1. 
Free OCR 
2. 
I2OCR 
3. 
Custom OCR 
4. 
WeOCR 
Above web OCR software are frontend for Tesseract tool which are discussed 
here. 
Chapter 2 
55 
1. 
Free OCR 
Free-OCR is a free online OCR tool. It takes a JPG, GIF, TIFF, BMP or PDF 
(only first page). It can handle images with multi-column text and supports 
many languages. The images must not be larger than 2MB, no wider or higher 
than 5000 pixels and there is a limit of 10 images uploads per hour [93]. 
2. 
i2OCR 
I2OCR is an online service of OCR. I2OCR reads text from JPG, PNG, BMP, 
TIFF, PBM, PGM and PPM formats and convert it into text, word and PDF 
format.  
I2OCR enables you to upload an image file from a URL (web, cloud etc.). It 
supports 64 recognition languages. It analyzes the layout of the document and 
can extract text from multiple columns [94]. It gives facility to edit extracted 
text online using Google Docs or translated using Google or Bing translation 
service. I2OCR displays recognized text as well as input source image side by 
side  to  facilitate  reviewing  misrecognized  words.  I2OCR  cannot  read  text 
from PDF File. 
Figure 2.18 Screenshot of Free OCR 
Documents you may be interested
Documents you may be interested