test-3 
22 
test-all 
59 
228 
Table 4 Number of pages used in datasets for training and testing for antiqua based documents. 
Dataset name 
Number of training pages 
Number of test pages 
test-na 
28 
108 
test-oe 
10 
test-zr 
28 
test-all 
38 
148 
The testing phase was conducted in two variants: cleaned test and real data test. In the first 
case test pages were transformed to so called cleaned versions. This was done in the same 
manner as for Tesseract training described in Section 2.1. The second case concerns original 
page scans containing much more noise. There are few reasons why such an approach was 
proposed. As this evaluation refers to characters and words recognition quality, it shouldn’t be 
biased by additional factors like noise and complicated layout. Moreover, in many cases it may 
be difficult to evaluate OCR results against the ground truth, as reading order may be disturbed 
or not well defined, thereby decreasing the observed recognition quality. Finally, as both sets, 
cleaned and real data, refer to the same pages, it is possible to compare a recognition quality 
between cleaned and real life data, and hence observe how it decreases when layout gets more 
complicated and noise appears. 
3.1.1 Ground truth preprocessing 
In  order  to  compare  OCR  engine  output  and  expected  ground  truth,  the  latest  had  to  be 
transformed into comparable form of a plain text file. This was achieved by XmlToTxt CLI tool: 
The following options are required:     --xml  
Usage: pl.psnc.synat.a12.aletheia.XmlToTxt [options] 
Options: 
--help         print this help 
--tabu         file name of a text file containing list of noise word's 
ids 
--tabu-types   list of TextRegion types to omit during processing 
Default: [] 
*     --xml          file name of a page xml input
that reads given XML 
file and outputs plain text to the application’s standard output. With tabu 
and tabu-types switches, one can filter out noise words and text regions by passing their id or 
type respectively. Please refer to Section 2.1 for more details regarding ground truth and text 
filtering. 
Conversion  tool  was  used  for  two  groups  of  test  pages.  In  case  of  cleaned  pages, filtering 
options  were  set  conforming to  the cleaning  process. In case of real pages, no filtering  was 
applied. 
Generated plain text is ordered according to reading order defined in the ground truth. However, 
IMPACT ground truth does not define complete order for all text regions (e.g. for page numbers 
Pdf to tiff file converter - application control tool:C# PDF Convert to Tiff SDK: Convert PDF to tiff images in C#.net, ASP.NET MVC, Ajax, WinForms, WPF
Online C# Tutorial for How to Convert PDF File to Tiff Image File
www.rasteredge.com
Pdf to tiff file converter - application control tool:VB.NET PDF Convert to Tiff SDK: Convert PDF to tiff images in vb.net, ASP.NET MVC, Ajax, WinForms, WPF
Free VB.NET Guide to Render and Convert PDF Document to TIFF
www.rasteredge.com
or marginalia). In such cases, XmlToTxt tool generates text according to internally defined rules. 
The  text  regions  ordering  issue  is  important  as  the  verification  step  compares  OCR  engine 
output  and  ground  truth  basing  on  the  plain  text.  As  both  OCR  engines  and  ground  truth 
transforming tool may differently align parallel text regions, the overall recognition quality score 
is biased. This issue was eliminated in case of cleaned pages dataset, that contain simplified 
layout and hence well defined reading order, but appears in case of the real pages dataset. 
During ground truth XML files preprocessing few problems were encountered. 
1.  Characters encodings used in texts differ on different levels of ground truth. For example 
on glyphs level, character is encoded using combining macron, whereas on the level of 
words,  the  same character is encoded as a  single  unicode  point. Moreover,  in  some 
situations, the same glyph is represented by different characters on different levels. In 
such cases the ground truth data was manually corrected and single unicode point was 
used. 
2.  XmlToTxt  tool  provides  an  option  to  exclude  words  from  processed text  basing  on  a 
provided list of word’s identifiers. This requires that data is iterated on the words level, 
but there is no word order defined in the PAGE XML file. Currently, words are processed 
according  to  text  equivalent  from  the  text  line  level.  However,  this  cannot  be  fully 
automated as the same word may appear more than once in a single text line, or even 
may not be found due to different characters encoding or replacements (compare with a 
previous issue). In such cases, manual correction must be involved. 
3.1.2 Evaluation criteria 
The evaluation process was performed using the IMPACT developed tools and resources. The 
National Centre of Scientific Research "DEMOKRITOS" (NCSR) has provided a set of tools for 
OCR evaluation. The criteria of the evaluation of these tools were described in details in one of 
the IMPACT project deliverables: D-OC3.1 EVALUATION METRICS AND SCENARIOS. 
In scope of this report the investigated criteria was OCR accuracy both on character and word 
level. The calculation of the OCR accuracy was performed using the evaluation tools provided 
by the NCSR IMPACT project partner. The following command has been executed for each of 
the file under evaluation tests: 
OCREval.exe a - IN_GT_FILE IN_OCR_RES OUT_CHAR_RES OUT_WORD_RES OUT_RES_SUMMARY, where 
IN_GT_FILE - input file - ground truth file
IN_OCR_RES - input file - results file produced by evaluated OCR engine 
OUT_CHAR_RES - output file - results on a character level (txt file) 
OUT_WORD_RES - output file - results on a word level (txt file) 
OUT_RES_SUMMARY - output file - xml results file of OCR evaluation 
The results of the evaluation on particular page level has been summarised in order to obtain 
the overall OCR accuracy on particular experiment level (e.g. for particular document where 
multiple pages has been evaluated). The overall accuracy for particular experiment was an 
effect of the following equation: 
application control tool:Online Convert PDF file to Tiff. Best free online PDF Tif
Online PDF to Tiff Converter. Download Free Trial. Convert a PDF File to Tiff. Just upload your file by clicking on the blue button
www.rasteredge.com
application control tool:C#: How to Use SDK to Convert Document and Image Using XDoc.
Sample Code. Here's a snippet of sample code for converting Tiff to PDF file using XDoc.Converter for .NET in C# .NET program. Six
www.rasteredge.com
where n  is  the  number  of  evaluated  files, c
i
is  the  number  of  correctly  recognised 
characters/words in  particular page and a
i
is  the number of all characters/words in  particular 
page.  
3.2. OCR recognition accuracy results 
OCR results for FineReader are presented on Table 5, OCR results for Tesseract are presented 
on  Table  6.  Both  tables  have  the  same  structure.  Each  row  in  the  table  represents  one 
experiment performed on particular dataset (e.g. document) level using particular OCR engine 
trained with a defined number of pages. The table is composed of the following columns: 
Document  -  document  that  was  the  subject  of  the  training  and OCR,  it  refers to the 
dataset name mentioned in section 3.1. 
Type  of  document  -  the  type  of  font  used  in  the  document.  There  are  two  possible 
values: “gothic” 
- for gothic (fraktur) 
documents and “antiqua” for antiqua documents. 
Number of trained pages - number of pages from the document that were used to train 
OCR engine. If the number is equal to 0 it means that no training was performed. 
Character level OCR accuracy - accuracy of the OCR engine recognition on a character 
level, calculated as follows:  
where e is the number of character errors (total for insertions, substitutions and 
deletions), and c is the number of all characters in the document. 
The  character  level  OCR  accuracy  is  divided  into  two  sub-columns: 
cleaned
for 
preprocessed pages and 
“original”
for original pages. Please refer to the section 3.1 for 
details on distinction between 
cleaned
and 
original
Word level OCR accuracy  - accuracy  of the OCR engine recognition  on a word level, 
calculated as follows:  
where e is the number of word errors, and w is the number of all words in the 
document. 
The  word  level  OCR  accuracy  is  divided  into  two  sub-columns: 
cleaned
for 
preprocessed pages and 
“original”
for original pages. Please refer to the section 3.1 for 
details on distinction between 
cleaned
and 
original
The FineReader and Tesseract results were generated in an incremental manner. It means that 
during the training the OCR process was executed after each trained page. As a result for each 
dataset that was processed it was possible to obtain several OCR results which correspond to 
application control tool:C# PDF Convert: How to Convert Tiff Image to PDF File
from MS Office Excel, Word, and PPT, our .NET document converter SDK is also capable of transforming and converting Tiff image file to PDF file in C#
www.rasteredge.com
application control tool:XDoc.Converter for .NET, Support Documents and Images Conversion
converter SDK supports various commonly used document and image file formats, including Microsoft Office (2003 and 2007) Word, Excel, PowerPoint, PDF, Tiff,
www.rasteredge.com
particular number of trained pages. This experiment has been performed to get an overview on 
how the increase of the training data influences the recognition rate of the OCR engine.  
Table 5. OCR recognition accuracy results 
FineReader  
Document 
Type of 
document 
Number of 
trained pages 
Character level OCR accuracy 
Word level OCR accuracy 
original 
cleaned 
original 
cleaned 
test-na 
antiqua 
81,72% 
81,73% 
57,98% 
55,85% 
test-na 
antiqua 
81,63% 
83,16% 
57,80% 
58,27% 
test-na 
antiqua 
15 
82,89% 
86,59% 
60,35% 
64,83% 
test-na 
antiqua 
22 
83,15% 
86,63% 
60,69% 
64,84% 
test-na 
antiqua 
28 
83,08% 
86,97% 
60,42% 
65,43% 
test-oe 
antiqua 
61,95% 
79,63% 
42,46% 
52,67% 
test-oe 
antiqua 
68,05% 
88,01% 
53,89% 
66,74% 
test-oe 
antiqua 
68,82% 
88,86% 
55,26% 
68,64% 
test-oe 
antiqua 
69,18% 
89,14% 
55,54% 
68,81% 
test-oe 
antiqua 
69,57% 
89,47% 
56,28% 
69,26% 
test-oe 
antiqua 
69,40% 
89,69% 
55,83% 
69,92% 
test-zr 
antiqua 
75,65% 
85,91% 
67,11% 
66,91% 
test-zr 
antiqua 
78,91% 
89,07% 
74,01% 
73,46% 
test-zr 
antiqua 
79,00% 
89,52% 
74,30% 
74,49% 
test-zr 
antiqua 
79,30% 
89,86% 
74,99% 
75,45% 
test-zr 
antiqua 
79,68% 
90,13% 
76,17% 
76,23% 
test-zr 
antiqua 
79,90% 
90,32% 
76,41% 
76,70% 
test-zr 
antiqua 
79,97% 
90,46% 
76,53% 
77,07% 
test-zr 
antiqua 
80,15% 
90,90% 
77,31% 
78,05% 
test-14 
gothic 
47,86% 
48,79% 
14,63% 
15,50% 
test-14 
gothic 
82,37% 
84,96% 
54,54% 
58,22% 
test-16 
gothic 
48,04% 
48,93% 
14,21% 
14,77% 
test-16 
gothic 
73,25% 
81,86% 
40,11% 
51,74% 
test-19 
gothic 
43,26% 
38,77% 
11,50% 
9,58% 
test-19 
gothic 
52,07% 
47,91% 
19,12% 
17,85% 
test-19 
gothic 
52,65% 
50,90% 
21,01% 
21,64% 
test-19 
gothic 
52,90% 
73,96% 
20,82% 
37,20% 
test-19 
gothic 
52,79% 
73,98% 
20,74% 
36,99% 
test-21 
gothic 
51,78% 
52,84% 
12,70% 
13,05% 
test-21 
gothic 
78,22% 
81,26% 
41,96% 
45,50% 
test-21 
gothic 
79,59% 
82,78% 
44,71% 
47,84% 
test-21 
gothic 
80,11% 
83,31% 
43,80% 
48,98% 
test-21 
gothic 
80,48% 
83,78% 
44,42% 
49,99% 
test-22 
gothic 
49,85% 
54,15% 
17,89% 
19,56% 
application control tool:C# Create PDF from Tiff Library to convert tif images to PDF in C#
Support to combine multiple page tiffs into one PDF file. Support SharePoint. Selection of turning tiff into searchable PDF or scanned PDF. Online
www.rasteredge.com
application control tool:C# PDF File Split Library: Split, seperate PDF into multiple files
Application. Best and professional adobe PDF file splitting SDK for Visual Studio .NET. outputOps); Divide PDF File into Two Using C#.
www.rasteredge.com
test-22 
gothic 
59,94% 
62,40% 
28,84% 
31,73% 
test-22 
gothic 
62,16% 
64,79% 
30,56% 
33,88% 
test-22 
gothic 
62,51% 
65,02% 
31,48% 
34,26% 
test-22 
gothic 
74,87% 
79,23% 
48,90% 
55,98% 
test-22 
gothic 
74,61% 
79,17% 
48,61% 
55,79% 
test-22 
gothic 
77,28% 
81,41% 
52,82% 
59,65% 
test-22 
gothic 
78,18% 
82,03% 
54,47% 
61,10% 
test-22 
gothic 
79,32% 
82,26% 
57,11% 
61,74% 
test-22 
gothic 
79,23% 
82,51% 
56,86% 
62,15% 
test-3 
gothic 
53,91% 
54,77% 
16,45% 
17,16% 
test-3 
gothic 
78,77% 
79,87% 
46,70% 
48,20% 
test-3 
gothic 
81,77% 
82,71% 
51,21% 
53,11% 
test-3 
gothic 
82,87% 
83,68% 
53,30% 
55,01% 
test-3 
gothic 
83,34% 
84,41% 
53,57% 
56,08% 
test-3 
gothic 
83,70% 
85,10% 
54,31% 
57,40% 
test-3 
gothic 
84,01% 
85,11% 
54,95% 
57,17% 
The results for FineReader are depicted on four charts below. Each chart has on its Y axis the 
recognition rate expressed in %. X axis represents the number of trained pages. Chart 1 and 
chart  2  represent  results  for  the  antiqua  documents  and  chart  3  and  chart  4  for  the gothic 
documents. All these charts represent tests performed on original types of pages. 
Chart 1. Character level OCR accuracy in the context of the training data size (antiqua documents)
0
10
20
30
40
50
60
70
80
90
0
5
10
15
20
25
30
recognition accuracy (%)
number of trained pages
test-na
test-oe
test-zr
application control tool:VB.NET PDF File Split Library: Split, seperate PDF into multiple
Professional VB.NET PDF file splitting SDK for Visual Studio and .NET framework 2.0. Split PDF file into two or multiple files in ASP.NET webpage online.
www.rasteredge.com
application control tool:RasterEdge XDoc.Tiff for .NET - SDK for Tiff Document Imaging
Convert Word, Excel, PowerPoint to Tiff. Convert PDF to Tiff. Convert Jpeg Images to Tiff. Tiff File Process. Create, Load, and Save Tiff File.
www.rasteredge.com
Chart 2. Word level OCR accuracy in the context of the training data size (antiqua documents) 
Chart 3. Character level OCR accuracy in the context of the training data size (gothic documents) 
Chart 4. Word level OCR accuracy in the context of the training data size (gothic documents) 
In general all the results indicate that with the increase of the training data the OCR results are 
getting  better.  Results for particular documents  show that  after  the  second  trained  page the 
OCR results increases considerably. Additional pages increase the results on a smaller scale, 
and can even slightly decrease the recognition rate. The decrease is probably an effect of noise 
introduction  (too  many  representations  of  particular  character).  The  recognition  rate  for  the 
antiqua  documents  is  approx.  80%  on  character  level  and  more  than  60%  on  word  level. 
Although the results are not very good it proves that with the use of small number of training 
data  the  OCR  results  can  be  considerably  improved  and  used  at  least  for  the  purposes  of 
search. 
The “test
-
oe” has given very bad results due to the  bad quality  images and physical 
degradation of the original document. On the other hand “test
-
zr” has given a very good results, 
because after only two pages being trained it was possible to reach almost 80% of character 
recognition and over 70% of word recognition rate.  
Although the recognition rate for the antiqua documents has been considerably increased after 
the  training  process,  the  recognition  rate  of  the  gothic  documents  has  been  improved  even 
more. The initial recognition rate (no training) of the gothic documents oscillates around 40-50% 
for the character level and 10-20% for the word level. After the training process the recognition 
rate has been dramatically improved and reaches 80% for the character level and 60% for the 
word level recognition in the best case scenarios. 
Table 6. OCR recognition accuracy results 
Tesseract 
Documen
Type of 
document 
Number of 
trained pages 
Character level OCR 
accuracy 
Word level OCR accuracy 
original 
cleaned 
original 
cleaned 
test-all 
antiqua 
38  49,23% 
76,06% 
29,77% 
43,10% 
test-na 
antiqua 
72,01% 
83,56% 
44,99% 
57,42% 
test-na 
antiqua 
15  62,92% 
80,94% 
35,90% 
47,07% 
test-na 
antiqua 
22 
64,69% 
81,91% 
39,52% 
51,51% 
test-na 
antiqua 
28  69,39% 
84,82% 
42,52% 
55,00% 
test-oe 
antiqua 
37,09% 
72,41% 
39,61% 
57,40% 
test-oe 
antiqua 
 40,24% 
74,35% 
42,29% 
60,64% 
test-oe 
antiqua 
38,66% 
74,86% 
40,21% 
61,19% 
test-oe 
antiqua 
 36,36% 
74,39% 
39,38% 
59,82% 
test-oe 
antiqua 
75,21% 
86,52% 
61,19% 
70,28% 
test-zr 
antiqua 
 47,77% 
82,31% 
52,93% 
61,09% 
test-zr 
antiqua 
50,20% 
83,82% 
56,62% 
64,69% 
test-zr 
antiqua 
 48,74% 
84,46% 
56,87% 
63,96% 
test-zr 
antiqua 
48,96% 
85,23% 
60,16% 
68,33% 
test-zr 
antiqua 
 46,86% 
82,27% 
51,63% 
58,92% 
test-zr 
antiqua 
47,78% 
80,94% 
56,52% 
64,85% 
test-zr 
antiqua 
 39,38% 
78,32% 
52,72% 
60,67% 
test-14 
gothic 
70,62% 
85,95% 
49,88% 
59,78% 
test-16 
gothic 
 66,65% 
87,26% 
42,19% 
60,22% 
test-19 
gothic 
62,73% 
73,13% 
34,66% 
36,68% 
test-19 
gothic 
 65,72% 
75,59% 
37,45% 
40,11% 
test-19 
gothic 
70,26% 
79,87% 
40,13% 
44,46% 
test-19 
gothic 
 71,00% 
80,65% 
41,17% 
45,63% 
test-21 
gothic 
84,27% 
92,08% 
59,44% 
67,83% 
test-21 
gothic 
 84,92% 
92,22% 
57,98% 
65,99% 
test-21 
gothic 
81,80% 
89,33% 
53,91% 
61,06% 
test-21 
gothic 
 83,91% 
91,71% 
59,01% 
66,00% 
test-22 
gothic 
34,99% 
55,53% 
12,19% 
19,67% 
test-22 
gothic 
 59,59% 
77,97% 
32,34% 
49,78% 
test-22 
gothic 
63,28% 
80,75% 
40,58% 
58,27% 
test-22 
gothic 
 64,76% 
81,50% 
43,20% 
60,04% 
test-22 
gothic 
63,23% 
80,15% 
37,28% 
51,86% 
test-22 
gothic 
 64,99% 
82,35% 
44,54% 
63,10% 
test-22 
gothic 
60,26% 
78,71% 
37,35% 
53,92% 
test-22 
gothic 
 57,28% 
77,88% 
33,99% 
51,83% 
test-22 
gothic 
60,17% 
86,94% 
39,01% 
63,24% 
test-3 
gothic 
 79,43% 
86,62% 
53,67% 
59,12% 
test-3 
gothic 
79,76% 
86,80% 
54,40% 
59,57% 
test-3 
gothic 
 77,55% 
84,46% 
45,17% 
49,84% 
test-3 
gothic 
77,09% 
84,21% 
48,52% 
53,53% 
test-3 
gothic 
 77,86% 
85,68% 
50,78% 
57,42% 
test-3 
gothic 
77,30% 
86,13% 
50,24% 
57,54% 
test-all 
gothic 
59  54,27% 
72,43% 
30,77% 
39,24% 
Tesseract results have been calculated not only on particular document level, but also on a level 
of all documents of particular type. It means that during the test phase it was possible to obtain 
the  results  for  the  overall  recognition  rate  on  antiqua  documents  and  gothic  documents 
separately. The results (test-all for gothic and antiqua) indicate that the overall training process 
for Tesseract OCR engine has not  been  successful. The recognition rate of approx. 50%  on 
character level and approx. 30% on word level cannot be considered as valuable resource. The 
reason  is  most  probably  related to  the  various  document  layout, font type  and  noise. These 
characteristics  highly  influence  the  Tesseract  recognition  rate  which  results  in  poor  quality 
output.  
On the other hand the recognition rate on particular document level is promising, as it oscillates 
around  70%  on  character  level  and  50%  on  word  level.  As  mentioned  before,  the  crucial 
element which highly decreases the recognition rate is poor layout analysis and noise reduction 
of the Tesseract engine. 
Incremental training results for Tesseract are depicted on four charts below. Each chart has on 
its Y axis the recognition rate expressed in %. X axis represents the number of trained pages. 
Chart 5 and chart 6 represent results for the antiqua documents and chart 7 and chart 8 for the 
gothic documents. All these charts represent tests performed on original types of pages. 
Chart 5. Character level OCR accuracy in the context of the training data size (antiqua documents) 
Chart 6. Word level OCR accuracy in the context of the training data size (antiqua documents) 
Chart 7. Character level OCR accuracy in the context of the training data size (gothic documents) 
Chart 8. Word level OCR accuracy in the context of the training data size (gothic documents) 
The incremental results for Tesseract show, that although usually the subsequent trained pages 
increase the accuracy,  they can  also introduce  noise.  In  most cases after  approximately  3
rd
trained page the accuracy decreases (noise introduction). Then the remaining pages increase 
the accuracy, but the accuracy does not get much better than after 2
nd
trained page or can even 
remain  worse.  This  is  most  probably  due  to  the  poor  Tesseract  noise  handling  and  layout 
analysis.  With  the  growth  of  training  patterns  Tesseract  starts  to  recognise  noise  as  false 
positives  characters.  So  with  more  different  patterns  coming  from  more  pages,  Tesseract 
recognises more false positives and reduces the accuracy (e.g. in case of test-zr). 
3.3 Comparison of Tesseract and FineReader recognition accuracy  
In  order  to  compare  the  Tesseract  and  FineReader  OCR  engines  several  tests  has  been 
performed. All these tests has been individually analysed in the scope of particular OCR engine. 
The results of particular tests with all the details related to these results has been described in 
section 3.2. For the purposes of the comparison the overall results on particular document level 
has been presented on table 7. Each row in the table represents one experiment performed on 
particular document level using both FineReader and Tesseract OCR engines, trained with the 
same pages. The table is composed of the following columns: 
Document  -  document  that  was  the  subject  of  the  training  and OCR,  it  refers  to  the 
dataset name mentioned in section 3.1. 
Type  of  document  -  the  type  of  font  used  in  the  document.  There  are  two  possible 
values: “gothic” 
- for gothic (fraktur) 
documents and “antiqua” for antiqua documents. 
Type of pages - the type of pages that were OCRed. Two options are possible: 
cleaned
and 
original
. Please refer to the section 3.1 for details on distinction between these two 
possible values. 
Number of trained pages - number of pages from the document that were used to train 
OCR engines. 
Character level OCR accuracy - accuracy of the OCR engine recognition on a character 
level, calculated as follows:  
Documents you may be interested
Documents you may be interested