adobe pdf reader c# : Build pdf from multiple files Library SDK API .net asp.net html sharepoint kichuk2-part60

Diana Kichuk
79
wreck: a mish-mash wrapped in a muddle wrapped in a mess.”
54
Scholars and serious 
readers alike r 
“115 hits for Greta Garbo and 325 for Woody Allen in books said to date from before they 
were born” is an example of his most unsettling findings.
55 
It appears that Google Books 
reacted to Nunberg’s stinging criticisms with a series of one-off corrections instead of 
overhauling its metadata standards. A recent search for “Greta Garbo” in Google Books 
for this paper found at least ten results listed under its “19th century” filter. One result, 
from Terry White’s National Cyclopaedia of American Biography, with a publication date 
of “1898,” refers to Garbo and her 1930s films!
56
The absence of metadata quality controls leads to current as well as future textual 
and provenance confusion. A case in point are the descriptive metadata of a work entitled 
A Connecticut Yankee in King Arthur’s Court Illustrated ePub in IA.
57
The title page scan 
is from a copy of Mark Twain’s 1889 publication, A Connecticut Yankee in King Arthur’s 
Court, illustrated by Daniel Carter Beard. IA’s metadata are confusing. They name a 
“Daniel C. Beard” as the “Book contributor,” suggesting that the volunteer contributor 
has appropriated the original illustrator’s name as his or her anonymous IA volunteer 
screen name.
58 
To confuse matters further, the “Description” field includes an extensive 
personal note written in the first person. Who is this “I” writing the note? The unsuspect-
ing reader will assume it is the volunteer contributor, “Daniel C. Beard”—a fictitious 
persona muddying historical and bibliographic fact. Meanwhile, the “Description” field 
also names “Dan Beard” as the illustrator of the work’s 221 illustrations. The metadata 
do not clarify the relationship between Dan Beard, the “illustrator,” Daniel C. Beard, the 
“contributor,” and Daniel Carter Beard, the original illustrator of Twain’s novel. This 
ambiguity and bibliographic runaround beg many questions about the uses and abuses of 
an author or illustrator’s work, the integrity of digitized e-books and their bibliographic 
metadata, and the ethics of appropriation. That Twain’s work is out of copyright does 
not change the seriousness of these concerns. IA is not transparent about the extent of 
its appropriation and metadata distortion, and disingenuously presents this e-book as 
an authentic copy of Twain’s publication. 
What is real, what is fictitious, and who is who and what is what are difficult to 
ascertain without good metadata. If IA does indeed continue “forever” (as it claims it 
will) and its metadata remain unchanged, then a volunteer contributor named Daniel 
C. Beard (possibly active in 2011—but there is 
no contribution date) and the e-book’s “illustra-
tor,” named Dan Beard (not to be confused with 
Daniel Carter Beard, the original illustrator, who 
died in 1941) will also continue on the books 
forever. The posted Creative Commons license 
advises there are no copyright restrictions on 
the print book but concedes that the author may 
have some moral rights, while offering no warranties about the e-book itself. What is 
lost in all this is Twain’s authentic “unitary book”—A Connecticut Yankee in King Arthur’s 
Court, originally published in 1889. Roger Chartier describes a unitary book as “a book 
in which the connections between the material object, the work (in the sense of a spe-
cific work or of a series of works), and the author were finally established.”
59
This loss 
What is real, what is fictitious, 
and who is who and what is 
what are difficult to ascertain 
without good metadata.
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Build pdf from multiple files - Merge, append PDF files in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Provide C# Demo Codes for Merging and Appending PDF Document
pdf split and merge; add pdf pages together
Build pdf from multiple files - VB.NET PDF File Merge Library: Merge, append PDF files in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Guide and Sample Codes to Merge PDF Documents in .NET Project
reader combine pdf pages; split pdf into multiple files
Loose, Falling Characters and Sentences
80
haunts remediated book production. Are we witnessing an “accepted destruction,” the 
term Chartier uses to describe a “world without memory, without museums, without 
libraries,” portrayed in Jorge Luis Borges’s fable “Utopia of a Tired Man,” from his 1975 
collection The Book of Sand.
60
Third-Party Harvesting of OCR Text Files
There are unintended consequences of automatic metadata population. One of the most 
concerning is the migration of errors through digitized e-book harvesting. For example, 
the apparent text fragment mentioned earlier, The Problem with Being Born Again Is . . .
in IA’s Community Text collection.
61
How this fragment passed copyright scrutiny is a 
mystery. The automatically derived “author” is “(SI) Failed,” a computer error code. It 
would be laughable, if it were not so serious. Third-party digitized e-book providers, 
such as Barnes & Noble, have automatically harvested this fragment and launched it 
across the Internet, with the “author” variously parsed as “SI Failed” or just “Failed.” 
Not only is the fragment’s identity lost, but also this gross negligence has spawned a 
digital artifact with a transcendent Internet life of its own.
Discussion
Do We Have to Put Up with the Noise?
Five years after Nunberg’s critique of Google Books metadata, little has changed; the 
metadata follies he lamented are still very much with us. Some digital repository metadata 
are still “a mess.” Google Books reacted at the time by correcting the individual errors 
Nunberg reported, but this was not what he wanted. He wanted the digital repository 
to produce high-quality, trustworthy metadata systematically and not just cosmetic one-
offs. A flurry of corrections in response to a critical article is not a convincing long-term 
correction strategy. The only acceptable solution is the careful and sustained application 
of high metadata standards and best practices. However, as discussed, metadata are only 
one type of evidence of the OCR problem. Equally important is the OCR-ed text. Some 
may say that our digital quality and fidelity expectations must change; that we set them 
too high. To Peter Shillingsburg’s question to a conference speaker, “Who will vouch 
for the accuracy of the texts reproduced on these hard drives?” the speaker retorted 
cynically—“We all have to learn to put up with some noise.”
62
Or do we?
Distributed Proofreaders and Crowdsourcing
To raise accuracy rates, some mass digitization projects have introduced human proof-
readers into their e-book production strategy. However, paid proofreading may not be 
sustainable due to its cost. An early innovator, combining rigorous proofreading and 
unpaid volunteerism, is PG’s affiliate, the Distrib-
uted Proofreaders (DP) project. Founded in 2000, DP 
is a pioneer of crowdsourcing. By January 2008, it 
had 52,000 volunteers. Today, most new PG e-books 
pass through DP scrutiny, and as a result, PG hosts 
some of the finest OA digitized e-books available 
in text format. 
. . . PG hosts some of the 
finest OA digitized e-books 
available in text format.
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
C# Create PDF from images Library to convert Jpeg, png images to
Component for combining multiple image formats into one or multiple PDF file in C#.NET. This example shows how to build a PDF document with three image files
how to combine pdf files; .net merge pdf files
VB.NET Create PDF from images Library to convert Jpeg, png images
Turn multiple image formats into one or multiple PDF file. NET example shows how to build a PDF document with three image files (BMP, JPEG and PNG).
pdf mail merge plug in; combine pdf files
Diana Kichuk
81
DP is an ingenious paradigm for proofreading massive amounts of online text. It has 
enhanced PG’s quality control efforts, expanded its pool of volunteers, and accelerated 
its e-book production capacity. Individual members of DP’s global army of volunteer 
proofreaders select an e-book from a daily page availability roster and systematically 
work through it. Proofreaders view a divided screen with the scanned image above and 
the editable transcription or OCR text below. Each page undergoes at least three rounds 
of proofreading and correction by a different set of proofreaders. A different DP opera-
tor administers each round. The distribution of work in easily completed page units or 
“pieces,” resembling piecework, permits several volunteers to proofread an e-book at 
the same time, increasing efficiency. Multiple rounds of collaborative proofing and cor-
rection ensure a high level of accuracy on the principle that “many eyes are better than 
one.” To expand its influence over quality even further, DP currently recommends that 
volunteers leave even the OCR production to DP from the outset. 
It is instructive to derive an analogy between collaborative book production efforts 
such as the DP project and distributed computing (DC) systems. The latter are comprised 
of independent computer hardware nodes, connected through distribution middleware 
to a communications network, working cooperatively toward a common computing 
goal. Users perceive DC systems as integrated, rather than segmented or fragmented.
63
DC systems are reconfigurable and very mobile or agile. They reflect two sage produc-
tion principles. First, “many hands make light work”—when a task is broken down into 
constituent segments, computers (or people in the case of e-book production) can work 
on a task at the same time more efficiently. Second, “the whole is greater than the sum of 
its parts”—when multiple computers (or people) work together, more can be achieved 
than if a computer (or person) works alone. A good example of the latter is humans 
working cooperatively to lift a heavy stone that no one person could lift alone.
64 
The DP 
project is a piecemeal, distributed operation and a systematic attempt to control quality 
and accuracy. It enables collaborative editing using multiple, redundant proofreading 
segments to achieve a high accuracy rate. Its volunteer participation is random, unregu-
lated, mobile, and highly effective at proofing available scanned or transcription pages 
launched by yet another set of randomly active volunteers and operators. The result is 
a much higher accuracy rate than a single volunteer or automated correction system is 
able to accomplish routinely.
OCR and the Remediated Book
In some not-too-distant future, at least theoretically, mass digitization projects will have 
digitized the great backlog of out-of-copyright books at least once. Digitization efforts 
will then switch attention to the far fewer numbers of books that fall out of copyright 
annually. Once digitized, how likely will a repository re-digitize a copy of a work or 
digitize other copies? Cost alone is a deterrent. Since the late 1980s, there are more and 
more born-digital titles published, and OCR plays no role in their production. It is 
already foreseeable that repositories will become engaged primarily in massive digital 
repository curation instead of new mass digitization projects. 
In the meantime, mass digitization projects are still very much with us. Their e-
books in text format routinely suffer from a range of OCR ill effects that limit their 
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
C# Create PDF from CSV to convert csv files to PDF in C#.net, ASP.
file to one PDF or splitting to multiple PDF documents. dlls, Right click the project -> Properties -> Build -> Platform target how to convert CSV to PDF document
add pdf together; build pdf from multiple files
C# PDF Convert to Images SDK: Convert PDF to png, gif images in C#
conversions from PDF document to multiple image forms dlls, Right click the project -> Properties -> Build -> Platform target C# Sample Code for PDF to Png in C#
acrobat combine pdf files; best pdf merger
Loose, Falling Characters and Sentences
82
value as findable, readable, or authentic copies of the works they purport to represent. 
The briefest encounter with digital repositories illustrates that the OCR problem is a 
vivid and present one. Remedial efforts 
by commercial publishers, academic 
institutions, volunteers, and initiatives 
such as the impressive DP project help 
ameliorate OCR’s negative impact, but 
they cannot eliminate it. 
Commercial e-books may demon-
strate greater consistency and higher 
production values in response to market 
pressures than OA e-books; however, 
their production is not immune to the OCR problem. Frequently the problem migrates 
from the OA to the commercial sphere, when a publisher harvests OA e-books, then sells 
their retooled product. In his Forbes Magazine technology blog, Tim Worstall reported an 
example of unacceptable error levels in a commercial in-copyright e-book:
The book I’ve been reading, Foucault’s Pendulum, has many typos . . . This is marketed 
and published as a 2007 edition of the 1988 book by Mariner, an imprint of Houghton 
Mifflin . . . Anyone who has ever used OCR software knows that the process is far from 
perfect and always demands a serious attention to detail in the copy editing phase.65 
Worstall’s comments refer to a Kindle edition compiled from OCR text. Too much reli-
ance on automated processes, without a human corrective phase, such as copyediting 
or proofing, is producing a generation of poor-quality OA and commercial e-books in 
text formats, many of them intended for mobile devices.
E-Books Are Transformative
Mass digitization projects extract the content of a print book as if its content were separable 
from its material form and deposit the content into multiple electronic containers—image 
or text file instantiations of an e-book presented to the reader as “the same as” its print 
exemplar. The proliferation and popular-
ity of digital repositories seem to support 
this conviction that content is separable 
from format and that the resulting change, 
though significant, is at least acceptable to 
readers. However, Shillingsburg observes, 
“Copied texts are always different lexically, 
visually, and materially from their originals 
and . . . such differences have their effects 
on meaning and understanding.”
66
Even the 
most successful OCR application profound-
ly transforms the print book lexically and 
presentationally. A digitized e-book in PDF format with an embedded searchable OCR 
text layer, or in text file format derived from OCR, may represent an even more profound 
. . . e-books in text format routinely 
suffer from a range of OCR ill effects 
that limit their value as findable, 
readable, or authentic copies of the 
works they purport to represent. 
The proliferation and popular-
ity of digital repositories seem to 
support this conviction that con-
tent is separable from format and 
that the resulting change, though 
significant, is at least acceptable to 
readers.
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
C# Create PDF from Tiff Library to convert tif images to PDF in C#
image with single page or multiple pages is Right click the project -> Properties -> Build -> Platform target a quick evaluation of our XDoc.PDF file conversion
add two pdf files together; acrobat combine pdf
C# Create PDF from OpenOffice to convert odt, odp files to PDF in
control able to batch convert multiple OpenOffice documents to Right click the project -> Properties -> Build -> Platform target Code to Convert ODT to PDF in C#
pdf merge documents; break pdf file into multiple files
Diana Kichuk
83
change to the meaning of the original book content. Even the best raw OCR text files are 
generally readable only with good will and patience and only by forfeiting the immersive 
reading experience. Inevitably, even automatically corrected OCR-ed books “go rogue” 
in undecipherable words, unreadable pas-
sages, and muddled page layouts. To Roger 
Chartier, remediation is not neutral and 
format change has a profound impact on 
meaning. He opposes the view that “there 
is an equivalence between media and that 
a text is still the same regardless of its form: 
printed, microfilmed, or digital.”
67
OCR 
compounds the primary transformation of 
remediation from print to online by adding 
a distorting layer of inaccuracy and confusion. High-quality digital surrogates in image 
file format may serve many of the same functions as traditional print facsimiles, such as 
enabling access to more or less authentic images of a book’s typography or marginalia. 
However, an e-book in text file format (for example, EPUB) has a potentially tenuous 
relation to the original print book. At what point, especially for an e-book in text file 
format, does it become a completely new work, and of questionable value? 
What Is the Use of Publishing Raw OCR Text?
In theory, OCR is a brilliant process for automatically deriving text from digitized print 
page images and making the content searchable, minable, republishable, and readable 
online. There is something thrilling about scrolling through the page images of a digi-
tized copy of Alice’s Adventures in Wonderland on your desktop. Its text and illustrations 
are endlessly fascinating and available. However, after attempting and failing to read it 
in Full Text file format, the question arises whether the OCR-derived text has real value 
as a format intended for reading—unless, of 
course, your intent is to handcraft a corrected 
copy of your own or for distribution. Perhaps 
such unedited text files are mislabeled. Instead of 
“Full Text,” is something like “RAW text” more 
descriptive and more likely to illicit appropriate 
expectations? It would signal the file’s unedited 
status, and its potential usefulness for searching 
or as a base for crafting an e-book, but not for reading in the traditional sense.
68
Most 
readers do not want to undertake the role of proofreader and publisher prior to sitting 
down to read. In the absence of an effective correction phase, including human copy-
editing, why do we continue to refer to OCR text files as reading material? While OCR 
renders the page images searchable, a vital asset for research, the search results may be 
hit or miss. Although imperfect search capability may seem a vast improvement over 
no search at all, accurate search is more desirable, and even mandatory. How can you 
conduct a meaningful or exhaustive search using inaccurate textual content? In an ideal 
world, search results derived from raw OCR would come with the caveat that they are 
not reliable. A search reliability factor would be a useful indicator. 
Inevitably, even automatically 
corrected OCR-ed books “go 
rogue” in undecipherable words, 
unreadable passages, and mud-
dled page layouts. 
Most readers do not want to 
undertake the role of proof-
reader and publisher prior to 
sitting down to read.
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
C# Create PDF from Text to convert txt files to PDF in C#.net, ASP
plain text to PDF text with multiple fonts, sizes Right click the project -> Properties -> Build -> Platform target can convert text file to PDF document using
best pdf combiner; pdf merge files
VB.NET TIFF: Use VB.NET Class to Create TIFF File Mobile Viewer in
able to view and process their TIFF files in iPhone mobile application, but also make multiple annotations on & profession imaging controls, PDF document, tiff
merge pdf files; reader merge pdf
Loose, Falling Characters and Sentences
84
Besides enabling flawed searches, what other benefits does raw OCR have? There is 
a potential for volunteers or commercial publishers willing to spend the time and money 
to correct the OCR text and redistribute or sell it. However, is there a more targeted way 
to distribute raw OCR text for this purpose and avoid the current pan-distribution of 
e-books in text file format that are not reliably readable or authentic? As noted earlier 
in the example of Foucault’s Pendulum, commercial enterprises can also fail badly in 
producing e-books in text file format. Although they have more resources and more 
money than the OA community does, they can, and do, produce unacceptable digital 
text objects. The potential to repurpose and republish may be a reasonable justification 
for routinely distributing flawed raw OCR text files. In this case, the repository’s textual 
content becomes a vast digital sandbox where volunteers or commercial enterprises alike 
can venture to improve and relaunch flawed works as authoritative texts one day. Is 
this a modern-day version of a utopian public good? However, to suggest this overtly 
would undermine the persistent message that all digitized e-book formats offered in 
digital repositories are equally valuable and authentic. 
The time and money spent on launching flawed e-books in text format is enormous. 
Publishing raw or poorly corrected OCR text takes valuable institutional and personal 
resources, attention, and reading-time away from readers deserving better e-books. 
Dumping flawed OCR derived e-books and metadata prematurely into digital reposi-
tories is contributing to a bibliographic 
catastrophe of potentially mythic pro-
portions. Perhaps more worrisome, 
the appearance of normalization of the 
OCR problem may lull academic and re-
pository communities into complacency 
and impede its satisfactory resolution. 
Digital repositories need to halt the 
practice of launching flawed e-books in 
text format prematurely. This is not to 
say that digital surrogates must be identical to their print exemplars. Identity may even 
be a practical impossibility. However, lexically “true” or “fair” copies, with negligible 
human or automatic errors, are necessary and worthwhile.
Solving the OCR Problem
Both scholars and citizens depend on the reliability and accuracy of online content. Shil-
lingsburg views the problem of reliability of information on the Web as “crucial to the 
effective implementation of a democratized world of scholarship and its documentary 
source materials.”
69
Scholars recognized the OCR problem of quality assurance from 
the start. The Distributed Proofreaders project is an example of an early OA community 
initiative to address e-book quality for the public good. There are impressive examples 
of scholars and commercial publishers working together to find solutions. The work 
of digital humanities scholars with ProQuest’s Early English Books Online (EEBO) and 
Gale-Cengage Learning’s Eighteenth Century Books Online (ECCO) in eMOP, mentioned 
earlier, is a model for scholar-publisher collaboration to resolve the OCR problem. The 
Publishing raw or poorly corrected 
OCR text takes valuable institutional 
and personal resources, attention, 
and reading-time away from readers 
deserving better e-books. 
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
C# Create PDF from RTF to convert csv files to PDF in C#.net, ASP.
library which able to batch convert multiple RTF files Right click the project -> Properties -> Build -> Platform target way of converting RTF to PDF document.
apple merge pdf; add pdf files together reader
Diana Kichuk
85
goal of eMOP is to make early modern texts more accessible and to accurately preserve 
the literary cultural heritage created in the hand-press period of printing (roughly 
1475–1800). The fact that the publishers digitized many of these works from microform 
images of poor quality, especially in EEBO, complicates the special challenge that works 
of this period present for OCR conversion. The eMOP undertaking is developing in-
novative OCR, transcription, and preservation technologies and infrastructures, as well 
as innovative crowdsourcing tools and operations to resolve the attendant problems of 
creating reliable, reusable, and minable texts. In a press release announcing its Mellon 
Foundation funding, an eMOP spokesperson stated, “By creating a database of early 
modern fonts, training the software that mechanically types page images (OCR) to read 
those typefaces, and creating crowdsourced correction tools, eMOP promises to improve 
the quality of digital surrogates for early modern texts.”
70
The eMOP undertaking will 
work with over 300,000 EEBO and ECCO documents, making them available as OA 
text through a combination of cutting-edge machine-typing (OCR) and crowdsourcing, 
for reading and data mining. It has already reached several milestones, including an 
expanded uptake of the crowdsourcing editing tool, TypeWright. The continuing Austra-
lian Newspaper Digitisation Program (ANDP), an early crowdsourcing project, inspired 
TypeWright. ANDP’s searchable text production process starts with the enhancement 
of image files to ensure the best possible OCR outcome. It then subjects the raw OCR 
text to a mechanical correction process using a “confusion matrix” and language model-
ing to detect and correct OCR errors automatically. Finally, it uses moderated manual 
intervention, enlisting the Australian public in a crowdsourcing experiment, to bring 
text accuracy to its highest possible level.
These large, well-funded projects have a limited scope and the advantage of access 
to experts and the latest technology. Whether their production strategies to mitigate the 
OCR problem will soon, or ever, be widely available for use by smaller, less well-funded 
projects is still in doubt. Funding for digitization projects is always precarious. The Eu-
ropean Union, for example, recently cut the budget of the Connecting Europe Facility 
responsible for the vast digital project Europeana—from 9 billion to 1 billion euros. With 
the future of Europeana in doubt, we are conscious that all similar digital projects are 
vulnerable and efforts to resolve the OCR problem are consequently in doubt as well. 
As for the lone volunteer with a book in hand and ready to digitize—advanced OCR 
correction solutions seem beyond reach. The future of “dirty OCR” is still bright.
What Is to Be Done?
As early as 2004, a report to Jisc confirmed that OA digitized e-books represent a serious 
problem for arts and humanities scholars “not of quantity, but of quality.”
71
Admittedly, 
digitized e-book quality has generally improved since those early days, and academic 
digitization projects currently adopt higher standards. Pioneer digital repositories, such 
as IA, are producing more consistent and improved e-books than when they started, 
especially since IA established its own scanning service and the resulting closer collabo-
ration with academic and research institutions, which have a firmer grip on digitization 
standards and best practices. However, questions about quality linger. The stakes are 
high. Readability, metadata, and search outcomes are highly dependent on text quality. 
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Loose, Falling Characters and Sentences
86
Currently DPLA includes only selected high-quality IA titles, but if IA becomes, as is 
proposed, a full collection node for the DPLA initiative,
72 
then questions about qual-
ity, including accuracy, bibliographic integrity, and metadata completeness, all factors 
dependent on OCR, are arguably more 
urgent than ever. 
The current e-book distribution 
model focuses on matching access with 
user needs such as: hardware and soft-
ware, mobility, image or text preference, 
search functionality, and download file 
size. Although still not widely applied, 
TRAC and other standards certify the trustworthiness of a repository’s infrastructure and 
procedures. What is missing from this trustworthiness equation are indicators that iden-
tify the quality or trustworthiness of the text and metadata content, preferably accessible 
before a user launches 
an e-book. As a start, 
accurate and complete 
descriptive and techni-
cal metadata and other 
indicators such as de-
scriptive tags and file 
names would help us-
ers assess the trustwor-
thiness of e-books in 
both image and text file manifestations. The Validating Quality in Large Scale Digitization 
project mentioned earlier conducted preliminary investigations into the identification 
and measurement of the trustworthiness of textual content. To date, the participants 
have reported few details of this aspect of the project, giving some indication of the 
difficulty of the task.
73
The systematic upgrade of existing descriptive and technical metadata would go a 
long way to instill trust in e-book quality, including author and title, as well as edition 
clarification, and third-party digitizer or source repository identification. For example, 
indicators that signal an e-book rescan, re-OCR, or re-ingest can alert a user of a potential, 
often beneficial, change of trustworthiness status. Another easy change would alter text 
file names to reflect quality in addition to hardware and software utility as they do now. 
For example, a name such as RAW OCR, mentioned earlier, applied to a raw OCR text 
file is unequivocal, while Full Text is ambiguous. Another indicator with a big impact 
would describe correction status, for example, OCR automatic correction, or individual 
or crowdsourced proofreading. 
Developing better OCR technology is only part of the solution to resolve trust issues 
for the digitized e-book. There are limits to the improvability of OCR technology and 
its application on its own to produce virtually error-free text files. Technology-human 
collaborations have a greater potential for success. The eMOP undertaking uses human 
proofreaders to reduce error rates to negligible levels. By optimizing OCR and automatic 
correction technology, and using crowdsourcing, eMOP succeeds in making its project 
Pioneer digital repositories, such as 
IA, are producing more consistent 
and improved e-books than when 
they started . . .
As a start, accurate and complete descriptive and 
technical metadata and other indicators such as 
descriptive tags and file names would help users 
assess the trustworthiness of e-books in both im-
age and text file manifestations. 
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Diana Kichuk
87
both efficient and cost-effective. However, eMOP also reveals the enormity and high 
cost of the task of achieving trustworthiness for even a limited corpus. There may be 
no magical-technological way to capture 
the illusive analog nature of the beast 
that digital repositories aim to preserve, 
manipulate, control, and provide access 
to—the printed book. There is no easy way 
to avoid the sheer volume of hard work, 
time, and money needed for the task of 
creating and maintaining trustworthy 
digitized e-books, or the preservation of 
the print corpus that they remediate.
Diana Kichuk is librarian emerita at the University of Saskatchewan Library in Saskatoon, 
Canada. She may be reached by e-mail at: diana.kichuk@usask.ca.
Notes
1. Jay David Bolter and Richard Grusin, Remediation: Understanding New Media (Cambridge, 
MA: MIT Press, 2000), 44–50.
2. Diana Kichuk applies remediation to electronic resources in her article “Metamorphosis: 
Remediation in Early English Books Online (EEBO),” Literary and Linguistic Computing 22, 3 
(2007): 297–300.
3. Geoffrey Nunberg, “The Places of Books in the Age of Electronic Reproduction,” 
Representations 42 (Spring, 1993): 2.
4. Rose Holley, Many Hands Make Light Work: Public Collaborative OCR Text Correction in 
Australian Historic Newspapers (National Library of Australia, March, 2009), accessed 
August 9, 2013, http://www.nla.gov.au/content/many-hands-make-light-work-public-
collaborative-ocr-text-correction-in-australian-historic.
5. See Robert Darnton, “A Library Without Walls,” New York Review of Books, NYR Blog 
(October 4, 2010), accessed July 17, 2014, http://www.nybooks.com/blogs/nyrblog/2010/
oct/04/library–without–walls/. Darnton proposed a National Digital Library in this 
seminal piece. He was instrumental in the founding of the Digital Public Library of 
America (DPLA) launched in 2013 with the overwhelming support and cooperation of 
library and other culture communities in the United States. 
6. Sigfrid H. Steinberg, Five Hundred Years of Printing (Harmondsworth, U.K.: Penguin Books, 
1961), 28.
7. Project Gutenberg, The Project Gutenberg License (2012), accessed April 26, 2013, http://
www.gutenberg.org/wiki/Gutenberg:The_Project_Gutenberg_License.
8. Oxford University Press, Oxford Dictionaries, accessed May 31, 2013, http://
oxforddictionaries.com/definition/english/e––book?q=e–book.
9. Paul Conway, “Digital Transformations and the Archival Nature of Surrogates,” Archival 
Science (online version: April 20, 2014).
10. Ibid.
11. (SI) Failed, The Problem with Being Born Again Is . . . (n.d.), Internet Archive (IA) edition, 
accessed May 31, 2013, http://archive.org/details/TheProblemWithBeingBornAgainIs.
12. Cantorion Sheet Music Collection (n.d.), Internet Archive edition, accessed May 31, 2013, 
http://archive.org/details/Cantorion_sheet_music_collection.
13. Ibid. See April 14, 2011, review by “beeb” in record for Cantorion Sheet Music Collection.
There is no easy way to avoid 
the sheer volume of hard work, 
time, and money needed for the 
task of creating and maintaining 
trustworthy digitized e-books
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Loose, Falling Characters and Sentences
88
14. The Google Books preview version of Peter Shillingsburg’s From Gutenberg to 
Google, cited later in this paper, is a good example. Chapter 1 launches immediately 
after the image of the cover page. The front matter and the Introduction, pp. 
1–10, are missing. It does not observe the gap, although it notes page gaps 
elsewhere in the preview. Accessed May 31, 2013, http://books.google.ca/
books?id=rd57F8IjyF0C&printsec=frontcover#v=onepage&q&f=false.
15. Eileen Gardiner and Ronald G. Musto, “The Electronic Book,” in The Oxford Companion 
to the Book, ed. Michael F. Suarez and H. R. Woudhuysen (Oxford: Oxford University Press, 
2010), 271–84, reprinted with permission in the Wall Street Journal, March 4, 2010, accessed 
August 3, 2013, http://online.wsj.com/article/SB100014240527487041872045751021104263
33220.html?mod=googlenews_wsj.
16. E. G. Lutz, What to Draw and How to Draw It (New York: Dodd, Mead, 1913), IA edition, 
accessed August 5, 2014, https://archive.org/details/whattodrawhowtod00lutz; E. G. 
Lutz, What to Draw and How to Draw It (1913), Kindle edition, accessed August 5, 2014, 
http://www.amazon.com/What–draw–Edwin–George–Lutz/dp/1179652533 [follow Look 
Inside link]. 
17. Jane Austen, Pride and Prejudice (n.d.), Project Gutenberg edition, accessed August 3, 2013, 
http://www.gutenberg.org/ebooks/1342.
18. Austen, Pride and Prejudice (n.d.), IA edition, accessed August 1, 2014, https://archive.org/
details/prideandprejudic01342gut.
19. About the Internet Archive, IA, accessed April 26, 2013, http://archive.org/about/.
20. Project Gutenberg, The Project Gutenberg License.
21. Michael Hart, “The History and Philosophy of Project Gutenberg,” 1992, Project Gutenberg, 
accessed April 26, 2013, http://www.gutenberg.org/wiki/Gutenberg:The_History_and_
Philosophy_of_Project_Gutenberg_by_Michael_Hart.
22. Ylva Berglund, Alan Morrison, Rowan Wilson, and Martin Wynne, An Investigation into Free 
Ebooks, Joint Information Systems (JISC) E-Books Working Group, March 2004, accessed 
April 26, 2013, http://ota.ahds.ac.uk/documents/ebooks/report/FreeEbooks.html.
23. DPLA, The Digital Public Library of America (n.d.), April 26, 2013, http://dp.la/info/wp-
content/uploads/2011/08/DPLA_PressKit_About-the-Digital-Public-Library-of-America_
version-w-fact-box1.pdf.
24. Search strategy: http://dp.la/search?q=alice%27s+adventures+in+wonderland.
25. Center for Research Libraries (CRL), Global Resources Network, Certification Report on 
the HathiTrust Digital Repository March 2011, accessed August 11, 2014, http://www.crl.
edu/sites/default/files/attachments/pages/CRL%20HathiTrust%202011.pdf; CRL, 
Global Resources Network, TRAC and TDR Checklists (2007), accessed August 12, 2014, 
http://www.crl.edu/archiving–preservation/digital–archives/metrics–assessing–and–
certifying–0.
26. Research Libraries Group (RLG), Trusted Digital Repositories: Attributes and Responsibilities, 
An RLG–OCLC [Online Computer Library Center] Report (2002), accessed August 11, 
2014, http://www.oclc.org/content/dam/research/activities/trustedrep/repositories.
pdf?urlm=161690. 
27. CRL, Global Resources Network, Certification Report on the HathiTrust Digital Repository
HathiTrust Digital Library, HathiTrust Trustworthy Repository Audit and Certification (TRAC), 
accessed August 11, 2014, http://www.hathitrust.org/trac; CRL, Global Resources 
Network, TRAC and TDR Checklists.
28. Paul Conway, “Measuring Content Quality in a Preservation Repository: HathiTrust and 
Large-Scale Book Digitization,” Proceedings of 7th International Conference on Preservation of 
Digital Objects, iPres 2010, September 19–24, 2010, Vienna, Austria, 95–102, accessed August 
11, 2014, http://deepblue.lib.umich.edu/bitstream/handle/2027.42/85227/C06%20
Conway%20Measuring%20Content%20Quality%20iPres%202010.pdf?sequence=1. 
29. CRL, Global Resources Network, Certification and Assessment, accessed August 13, 2014, 
http://www.crl.edu/archiving–preservation/digital–archives/certification–and–
assessment–digital–repositories.
This mss. is peer reviewed, copyedited and accepted for publication, portal 15.1.
Documents you may be interested
Documents you may be interested