.net c# pdf viewer : Add pdf together SDK control API .net web page html sharepoint kichuk0-part58

Diana Kichuk
59
portal: Libraries and the Academy, Vol. 15, No. 1 (2015), pp. 59–91. 
Copyright © 2015 by Johns Hopkins University Press, Baltimore, MD 21218.
Loose, Falling Characters and 
Sentences: The Persistence of 
the OCR Problem in Digital 
Repository E-Books 
Diana Kichuk
abstract: The electronic conversion of scanned image files to readable text using optical character 
recognition (OCR) software and the subsequent migration of raw OCR text to e-book text file 
formats are key remediation or media conversion technologies used in digital repository e-book 
production. Despite real progress, the OCR problem of reliability and accuracy in OCR-derived 
e-book text and metadata persists. This paper examines a selection of digitized e-books in several 
prominent digital repositories and discusses the impact of OCR technology on e-book text file 
formats, metadata, and the online reading experience. 
Introduction
I
n their seminal monograph Remediation: Understanding New Media, media theorists Jay 
David Bolter and Richard Grusin proposed that new media incorporate old media.
1
They called this media appropriation or refashioning remediation. In this sense, 
digitization remediates print books as electronic books (e-books, also known as ebooks). 
Remediation is not neutral; digitization engenders profound material, presentation, and 
meaning changes.
2
The electronic conversion of scanned page image files to readable text 
using optical character recognition (OCR) software and the subsequent migration of the 
OCR text to alternate text file formats are key remediation technologies used in digitized 
e-book production. Musing about the future of knowledge in an electronic world back 
in 1993, Geoffrey Nunberg pictured “somebody holding all the books in the library by 
their spines and shaking them until the sentences fall out loose in space.”
Nunberg’s 
graphic description could as well describe the process of decomposition inherent in 
digitized e-book production, especially its OCR and text file derivation phases. Raw or 
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Add pdf together - Merge, append PDF files in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Provide C# Demo Codes for Merging and Appending PDF Document
pdf merge; attach pdf to mail merge in word
Add pdf together - VB.NET PDF File Merge Library: Merge, append PDF files in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Guide and Sample Codes to Merge PDF Documents in .NET Project
merge pdf online; acrobat combine pdf files
Loose, Falling Characters and Sentences
60
uncorrected OCR text appears to capture the falling, loose sentences Nunberg so vividly 
imagined. Automatically corrected or handcrafted text files may reduce the number of 
errors in raw OCR text to a degree; however, automatic correction has only qualified 
success, and handcrafted correction by humans is not widely practiced. The high cost 
of the latter, using paid labor and traditional 
proofreading and copyediting practices, would 
be prohibitive. Too often, producers launch raw 
OCR as an e-book in text format as is, or after 
only a superficial electronic correction stage. 
Recent examples of collaborative “cloud” proof-
ing in mass digitization projects, such as the 
Australian Newspaper Digitisation Program, 
incorporate human intervention that improves 
accuracy.
4
Depending on the lengths to which 
digitization projects will go to remediate print 
as an e-book or e-text, little may remain of its 
original design, typography, layout, coherence, or aesthetic value. Digitization strips 
the print book of its form and materiality, and relaunches it in a new material instance, 
more or less recognizable and readable. Calling the stripped version, especially in text 
format, a print book equivalent is misleading at best. It may not even succeed as a fair 
reproduction, being unrecognizable as what it purports to be—an electronic copy or 
surrogate of a print book.
The proliferation of e-books in digital repositories appears to support the notion that 
the general reader and libraries have enthusiastically adopted digitized e-books, espe-
cially the open access (OA) e-books that dominate digital repositories.
5
Sigfrid Steinberg 
observed that “conservatism as to the presentation of reading matter” has always been 
a basic characteristic of the reading public.
6
This conservatism appears to be entirely 
absent or barely evident in the modern general reader of digitized e-books. While schol-
ars and serious readers may question the accuracy 
and quality of digitized e-books, the general reader 
seems less concerned, considering the high e-book 
download statistics in digital repositories. Some 
repositories give fair warning of quality issues. 
Project Gutenberg, for example, posts a caveat emp-
tor clause in its license, stating that despite its best 
efforts, there are quality concerns—“The medium 
on which they may be stored, may contain ‘Defects,’ 
such as, but not limited to, incomplete, inaccurate 
or corrupt data, transcription errors, a copyright or 
other intellectual property infringement . . .”
7
Is accuracy no longer a major reader expecta-
tion? Even scholars may access the most unreliable 
digital repositories seeking hard-to-find titles, for data mining, and because of a plain 
fascination with a new cultural and technological information object. This willful blind-
ness to the OCR problem of reliability and accuracy suppresses a sense of urgency to 
Depending on the lengths to 
which digitization projects 
will go to remediate print as 
an e-book or e-text, little may 
remain of its original design, 
typography, layout, coherence, 
or aesthetic value.
It is vitally important for 
the preservation of our 
print cultural heritage to 
ensure the quality of the 
digital objects hosted in 
digital repositories and to 
urge producers to build a 
better e-book.
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
C# PowerPoint - Merge PowerPoint Documents in C#.NET
together according to its loading sequence, and then saved and output as a single PowerPoint with user-defined location. C# DLLs: Merge PowerPoint Files. Add
scan multiple pages into one pdf; .net merge pdf files
C# Word - Merge Word Documents in C#.NET
and appended together according to its loading sequence, and then saved and output as a single Word with user-defined location. C# DLLs: Merge Word File. Add
pdf merge comments; batch combine pdf
Diana Kichuk
61
remedy the problem. It is vitally important for the preservation of our print cultural 
heritage to ensure the quality of the digital objects hosted in digital repositories and to 
urge producers to build a better e-book. This article examines the impact of OCR technol-
ogy on digitized e-books in digital repositories. It focuses on e-book text file formats and 
metadata, and the online reading experience. Although most of the discussion is about 
OA e-books, commercial e-books may often share similar accuracy and quality issues.
Methods
To avoid confusion, I would like to clarify my interpretation of several terms used in 
this article. Electronic book, or preferentially e-book, refers to any digitized text accessible 
through a digital repository or archive. E-book quality may range from error-filled to 
high-fidelity surrogate. Digitized e-book refers to an online version of a print book, rather 
than a born-digital e-book. Digitized e-books are compiled from keyed transcriptions, 
scanned page images, or a combination of scanned images and automatically derived 
text using OCR technology. Digital repository refers to a digital library or preservation 
archive, which preserves, hosts, or links to digital objects, which may be limited to a 
single medium such as e-books and e-texts, or potentially a broad range of digitized or 
born-digital media, such as photographs and maps. Repositories may deliver digitized 
e-books in a variety of compilations, ranging from a primitive downloadable file stack, 
downloadable file or files, to streaming e-book. OA e-book refers broadly to an e-book 
that is freely accessible and free to share. License terms, such as in the Internet Archive 
(IA), Project Gutenberg (PG), or Creative Commons licenses, may restrict reuse. Digital 
repositories may include both OA and copyrighted e-books. When a publisher harvests 
an e-book in the public domain, repurposes it, and offers it for sale, it is not OA since it 
is not freely accessible.
A long-standing interest in digital repository e-book production led to this closer 
examination of a crucial and problematic part of the production process: text file formats 
derived using OCR. I examined OA digitized e-books hosted in five prominent digital 
repositories—the Internet Archive (IA), Project Gutenberg (PG), HathiTrust Digital 
Library, Google Books, and the Digital Public Library of America (DPLA) (see Table 1). 
IA’s Text Archive was the primary e-book collection examined. E-books in other digital 
repositories were examined in part because of the repository’s close association with IA 
(for example, IA ingests PG e-books, and Brewster Kahle, digital librarian and founder of 
IA, is on the steering committee of the DPLA), and to confirm the existence of similar 
OCR problems across prominent digital repositories. 
I examined how digital repositories presented e-books, including technical and 
descriptive metadata, and e-book image and text file formats. E-book file formats in 
common currency were generally available across the repositories examined (see Table 
2 for a summary of the image and text file formats examined). I focused especially on 
metadata and text files derived using OCR technology, either automatically published 
without correction as raw OCR text, or corrected and refashioned to varying degrees. 
I examined e-books in the IA Text Archives’ subcollections: American Libraries, Cana-
dian Libraries, Universal Library, Community Texts, and Project Gutenberg. IA further 
subdivides most of these subcollections. For example, the collections of institutional 
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
VB.NET Word: How to Process MS Word in VB.NET Library in .NET
MSWordDocx.dll", which, when used together with other online tutorial on how to add & insert one powerful & profession imaging controls, PDF document, image to
combine pdf; reader combine pdf pages
C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net
some other PDF tools convert PDF to text by a method loses the original PDF document layout and all the paragraphs are joining together, our C# PDF to text
combine pdf files; pdf split and merge
Loose, Falling Characters and Sentences
62
Table 1. 
Brief profiles of selected digital repositories: Internet Archive, Project Gutenberg, HathiTrust, Google Books 
and the Digital Public Library of America
                                                       Internet                                       Project                                       HathiTrust                                       Google                                       Digital Pubic 
                                                    Archive (IA)                        Gutenberg (PG)                                     (HT)                                         Books (GB)                                      Library of 
                              America
DPLA)
Date founded 
1996 
1971 [1980s] 
2008 
2002 
2013
Host country 
United States  
United States  
United States  
United States  
United States 
Collection scope 
Books / texts;  
Books / texts 
Books / texts;  
Books / texts 
Books / texts;  
images, audio  
images, audio 
images, audio 
video; software;  
video; software 
video; artifacts 
TV; Web pages
E-books / texts  
6,302,736+  
46,184+ 
Total: 11,253,926+ 
Total: 20,000,000+  
Total: 3,395,915+
OA: 2,547,542+  
OA: not known  
OA: not known  
Access 
Open and  
Open access 
Open and 
Open and 
Open and 
restricted  
restricted access 
restricted access 
restricted access 
access (limited  
to a program  
for the disabled)
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
VB.NET PDF Text Search Library: search text inside PDF file in vb.
Our VB.NET PDF Document Add-On enables you to search for text in target PDF document by For example, you can locate the searched text together with methods
acrobat combine pdf; add pdf together
C# Image: How to Draw Text on Images within Rasteredge .NET Image
txt" to the new project folder, together with .NET short but useful C# code example to add text and powerful & profession imaging controls, PDF document, tiff
append pdf; merge pdf files
Diana Kichuk
63
Collection host 
Yes 
Yes 
Yes 
Yes 
 Metadata only, 
with links 
to content in 
provider’s 
repository 
Copyright 
Public domain, 
Public domain 
Public domain, 
Public domain, 
Public domain,
Creative Commons  
and Creative 
Creative Commons 
Creative Commons 
Creative 
license, and in  
Commons 
license, and in 
license, and in 
Commons 
copyright (limited  
license 
copyright 
copyright 
license, and 
to a program for  
in copyright 
the disabled) 
Nonprofit 
Yes 
Yes 
Yes 
No 
Yes 
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
C# TIFF: TIFF Editor SDK to Read & Manipulate TIFF File Using C#.
files to Tiff, like Word, Excel, PowerPoint, PDF, and images. Enable to add XImage.OCR for .NET into C# C#.NET application by using barcode reader SDK together.
c# pdf merge; break pdf file into multiple files
C# Excel - Merge Excel Documents in C#.NET
and appended together according to its loading sequence, and then saved and output as a single Excel with user-defined location. C# DLLs: Merge Excel Files. Add
build pdf from multiple files; acrobat merge pdf files
Loose, Falling Characters and Sentences
64
partners in the American and Canadian Libraries subcollections are separately brows-
able and searchable. I selected several e-books from each of at least three prominent 
partner repositories (a different set was used for each of several investigative sessions), 
to confirm that IA partner repositories generally use raw OCR to derive text file formats. 
I examined the five “Most Downloaded Items Last Week” listed in each IA subcollec-
tion. I also selected e-books featured under the headers “Spotlight Item” and “Recently 
Reviewed Items.” In total, I examined at least fifty works in IA alone.
I examined a smaller set of e-books in the other repositories to confirm that text file 
formats derived from raw OCR are common across digital repositories and not just in 
IA. I used Alice’s Adventures in Wonderland as a test case across the repositories because 
of its familiarity and broad availability. I searched a few titles across repositories for 
comparisons. However, I encountered some e-books serendipitously. In general, most of 
the e-books examined can be assumed to be popular works (high downloads, featured 
e-books, or both) and widely distributed (often in more than one repository). 
Not all of the repositories discussed include downloadable e-book text files derived 
from OCR. Most of the e-books in IA’s PG subcollection and PG’s repository are tran-
scriptions or are corrected and handcrafted OCR-derived text files. HathiTrust and DPLA 
do not host e-books in downloadable text file formats. HathiTrust search results expose 
only a snippet of the searchable OCR text layer of its hosted e-books in image format, 
and DPLA hosts metadata exclusively. However, DPLA metadata link to e-books hosted 
in partner repositories that include text files derived from OCR.
This is only a preliminary investigation. It highlights the need for the completion 
of a systematic review by the digital repository community prior to the development 
of a new digitized e-book standard, especially for metadata and text file formats. Given 
the complexity of the e-book pro-
duction process, the large e-book 
repository collections, and the 
high frequency of text file formats 
derived from raw OCR, it was 
only feasible to examine a small 
number of e-books (approxi-
mately seventy-five) in an attempt 
to describe the persistence of the 
OCR problem in prominent digi-
tal repositories. The small number 
of e-books provided abundant evidence, suggesting the likelihood of widespread and 
endemic problems related to text accuracy. 
What Is an E-Book?
Oxford University Press’s free online dictionary Oxford Dictionaries defines an e-book 
as “an electronic version of a printed book which can be read on a computer or a specifi-
cally designed handheld device.”
8
Although it does not reflect the growing presence of 
born-digital e-books, this limited definition does capture a generalized understanding 
of what an e-book is—an electronic version of a book. It reveals little of the multifaceted 
This is only a preliminary investigation. It 
highlights the need for the completion of 
a systematic review by the digital reposi-
tory community prior to the development 
of a new digitized e-book standard, espe-
cially for metadata and text file formats.
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Diana Kichuk
65
Table 2.
Image and tet file formats in selected e-book repositories: Internet 
Archive, Project Gutengerg, HathiTrust, Google Books, and Digital 
Public Library of America
File                       Internet               Project                 HathiTrust                 Google                 Digital Pubic 
format                   Archive             Gutenberg                                                      Books                    Library of 
type                                   America
I. Image 
DjVu 
PDF 
PDF 
PDF 
PDF
JPEG 
(searchable) 
PDF 
PDF
PDF 
(searchable) (searchable)
PDF  
(searchable) 
II. Text 
ASCII 
ASCII (default Embedded 
ASCII 
Embedded
DAISY 
format) 
OCR layer 
OCR layer
EPUB 
EPUB 
only; text 
only; text
HTML 
HTML 
files not 
files not
MOBI  
MOBI (labeled available 
available 
(labeled  
“Kindle”) 
“Kindle”) 
Plucker 
QiOO Mobile 
Image file format          Name                                        Description
DjVu Format 
Pronounced “déjà vu” 
A digital document format using 
advanced compression technology to 
produce very high-resolution images 
in relatively small files. IA migrates 
JPEG scanned images to DjVu for easier 
downloading (.djv, .djvu)
JPEG 
Joint Photographic Experts  A common file format for 
Group 
images on the Web; uses “lossy” 
compression, resulting in loss of image 
quality the more the file size is reduced 
(.jpg, .jpeg)
PDF 
Portable Document Format  A proprietary (Adobe Systems) format 
that captures text or text and graphics as 
an image; may include a searchable OCR 
text layer (.pdf)
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Loose, Falling Characters and Sentences
66
Image file format                            Name                                        Description
PDF (searchable) 
Portable Document 
A PDF file with a searchable   
Format (searchable) 
text layer derived from OCR 
technology (.pdf) 
ASCII 
American Standard Code 
Plain ‘vanilla’ text file format;  
for Information Interchange labelled ‘Full Text’ in the 
Internet Archive. (.txt)
DAISY 
Digital Accessible 
A digital talking book (DTB)   
Information System 
collection of files for the blind   
and physically disabled
EPUB 
Electronic Publication 
A widely accepted open e-book file 
format standard developed by the 
International Digital Publishing Forum; 
text only or text and embedded image 
files (.epub)
HTML 
HyperText 
Uses a standardized markup   
Markup Language 
language to determine the  
presentation and layout of content on 
the Web; text only or text and embedded 
image files (.html, .htm)
MOBI 
Mobipocket 
A mobile device standard; readable on 
a Kindle; misleadingly labeled “Kindle” 
in IA and PG; text only or text and 
embedded image files (.mobi)
Plucker 
Plucker 
A mobile device standard (.pdb)
QiOO Mobile 
QiOO  
A mobile device proprietary standard 
viewable on older mobile phones (Java 
required); text only (.jar)
Table 2. Continued.
complexity of e-books and their production or delivery, and the impact of remediation. 
Paul Conway refers to digital repository objects and e-books as visual and textual sur-
rogates, something that stands in for, or takes the place of something else.”
Conway’s 
use of the term surrogate elevates the status of e-books to an ideal of similitude and 
trustworthiness, although he is careful to admit that individual e-books may not achieve 
the ideal. He suggests that surrogates bear the indelible “traces of production processes, 
in the form of undetected or uncorrected error.”
10
The indelible traces of OCR, as a 
production process, are evident in the errors found in digitized e-book textual content.
Digital repository standards and their application can vary dramatically from project 
to project, and even from digital object to object. Although digital repositories continually 
refer to their text collections, such as IA’s Text Archive, as “book collections,” many of 
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Diana Kichuk
67
their digitized e-books are not books at all. Many are fragments, pamphlets, even jour-
nal articles or book chapters. For example, closer examination of the work The Problem 
with Being Born Again Is . . . —by an “author” identified as “(SI) Failed”—
11
in IA Text 
Archive’s Community Text collec-
tion appears to be part or all of a 
scholarly article. However, after 
consulting its metadata and page 
scans, and conducting several 
Internet and database searches, I 
could not authenticate this appar-
ent article fragment portrayed as 
a book. In some cases, digitized e-
books are little more than uncom-
pressed page image file stacks. In 
IA, for example, the Cantorion Sheet Music Collection is a nonsequential image file stack 
without an obvious title page, table of contents, or index,
12
making it difficult or almost 
impossible to navigate or search. The problem is, to quote an IA reviewer of this work, 
“finding anything in particular without having to look at everything.”
13
A digitized e-book may be incomplete or inaccurate. What is missing may seem 
minor: a front and back cover, for example. Nevertheless, what is a print book’s digital 
surrogate without its covers? More worrisome are major gaps and errors—missing 
images; missing parts of text or whole pages of text absent due to human or machine 
error in the digitization and e-book compilation process; unaccounted-for blank pages; 
and more.
14
Handcrafted transcriptions are also liable to have errors, even multiple and 
egregious errors. OCR processes account for many small and large remediation trans-
formations. OCR can, for example, alter content when its internal dictionaries cannot 
“read” the page image text and convert it into meaningless gibberish, or can transform 
the page presentation into a bland unstructured monotony, removing headers, spacing, 
bolding, italics, indentations, and much of the readability of the page. 
Both the term e-book and the e-book itself continue to evolve rapidly. Eileen Gardiner 
and Ronald Musto, in their book chapter in the Oxford Companion to the Book, suggest 
that it may be more useful to consider 
an e-book as a single manifestation of 
book as “cultural practice.”
15
In other 
words, an e-book is better understood 
as “book as event” rather than “book 
as object.” It is in this dynamic sense 
that I, too, have come to understand 
the current illusive and disorienting 
state of digitized e-books. Since this 
inquiry is not a systematic review 
of digitized e-books, it cannot be 
conclusive; nonetheless, I regard the 
frequency of disorienting transformations resulting from OCR technology as significant 
and a reflection of an alarmingly casual indifference to accuracy and authenticity. The 
Although digital repositories continually 
refer to their text collections, such as IA’s 
Text Archive, as “book collections,” many 
of their digitized e-books are not books 
at all. Many are fragments, pamphlets, 
even journal articles or book chapters.
The overabundance of examples of 
remarkable transformations and 
metadata errors in my small sample 
makes it difficult for me to have con-
fidence in the widespread existence of 
high-quality e-books in text format in 
the digital repositories examined.
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Loose, Falling Characters and Sentences
68
overabundance of examples of remarkable transformations and metadata errors in my 
small sample makes it difficult for me to have confidence in the widespread existence 
of high-quality e-books in text format in the digital repositories examined. A title in IA 
Text Archive’s American Libraries collection, What to Draw and How to Draw It, illustrates 
the mischief OCR can do. Amazon harvested it from IA and recompiled it as a Kindle 
e-book. The result is a bizarre e-book artifact that splices together IA’s OCR text with 
page image scans. Conveniently, Amazon displays its creativity in an e-book preview, 
exposing both IA’s original error-filled OCR text and its own commercial harvesting 
process gone awry.
16
Even an ideal conversion from print to online, from one repository to another, 
or from one format to another transforms the “book” decisively. The content may be 
identical, even in its errors, but access, layout, and context may be distinctly different 
and may impede readability. Another vivid example of Conway’s “traces of production 
procedures” shows up in a version of Pride and Prejudice in the IA Text Archive harvested 
from PG. PG’s original PDF format is a readable,
sequentially paged copy.
17
However, 
IA’s harvested version is not. IA has inexplicably recompiled the PDF file into sequential 
“pages” of two columns, each a separate nonsequential page. Thus, page 16 appears 
adjacent to page 1 on one “page,” and so on.
18
Trustworthy E-Books
IA has always intended its collections for a broad spectrum of readers—“for researchers, 
historians, scholars, people with disabilities, and the general public.”
19
PG, on the other 
hand, targets the “general reader,” not the scholar. Even so, PG claims its e-books are 
high-quality, authoritative, and correct. “We carry high quality ebooks: all our ebooks 
were previously published by bona fide publishers. We digitized and diligently proofed 
them with the help of thousands of volunteers.”
20
However, Michael Hart’s often-quoted 
statement that PG does not deal in authoritative editions undermines PG’s claims—“We 
do not write for the reader who cares whether a certain phrase in Shakespeare has a ‘:’ 
or a ‘;’ between its clauses. We put our sights on a goal to release e-texts that are 99.9% 
accurate in the eyes of the general reader.” While initially targeting popular literature, 
Hart later appeared to relent, promising to include scholarly texts in the future.
21 
Twenty 
years later, PG’s Web site retains his original statement and makes no overt claim to 
include scholarly content. 
In An Investigation into Free Ebooks, a 2004 report commissioned by the E-Books 
Working Group of Jisc (formerly the Joint Information Systems Committee), the authors 
recognized the importance of the growing number of academic digital repositories. How-
ever, they are dismissive of nonacademic repositories, judging them a variety of “vanity 
publishing,” “built by enthusiasts.” The authors belittle such repositories for their lack 
of quality control and professional standards, and conclude that they provide “little that 
can be used or trusted.” The report cites PG as a well-known member of this category 
and concludes, “The policy of creating non-specific editions aimed at the general reader 
makes the use of PG texts unreliable to the serious arts and humanities scholar,” and 
consequently few PG titles “are of use in teaching and research.” The report goes on to 
decry what it views as even more serious—by harvesting PG e-books, third-party digital 
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Documents you may be interested
Documents you may be interested