Digitization Best Practices for Text 
This document sets forth guidelines for digitizing text. Topics covered include: image quality, 
file formats, optical character recognition, text encoding, storage, and access. Examples of text 
content in CARLI Digital Collections, a sample workflow, and links to scanning and digitization 
guides and vendor services are provided as appendices. 
This guide was created by the CARLI Digital Collections Users’ Group (DCUG).  
For questions about this document, please contact CARLI at
Text materials may include printed matter such as books, magazines, and newspapers, or 
handwritten or typed original manuscripts, letters, notes, or other documents. For the purposes of 
this document, “text” refers to any manifestation of words that have been affixed to a physical 
carrier, paper or otherwise. 
Depending on the purpose of the collection, different approaches to digitizing text content may 
be used. In some cases, libraries may only be interested in the information that the text conveys, 
and the medium of expression is irrelevant. However, in most collections, it is desirable not only 
to create a digital representation of the information within the text content itself, but also the 
visual aspects of the text, such as type, formatting, layout, or paper quality. Text is also often 
accompanied by image content such as line drawings, photographs, graphic illustrations, 
manuscripts, music scores, blueprints, plans, etc. 
Due to this dual nature, the digitization of texts is very similar to the digitization of image 
content. To facilitate full-text searching or indexing of the actual text content, additional steps 
must be taken so that the text can be rendered machine-readable. Text materials also have a 
further complication in that they are often made up of many pages (as in the case of a book) or 
may have multiple articles on a single page (such as a newspaper). Decisions must be made as to 
what unit constitutes a “work”—a single page? an individual article? an entire issue or 
volume?—and the digitization process should be carried out accordingly. 
The sections below provide guidance on the processes of creating digital images, producing 
machine-readable texts, and combining the two components into a single digital object. Libraries 
will need to determine which approaches are most appropriate, based on the nature of the project 
and the importance of the materials being digitized. 
Pdf print protection - C# PDF Password Library: add, remove, edit PDF file password in, ASP.NET, MVC, WinForms, WPF
Help to Improve the Security of Your PDF Document by Setting Password
pdf password reset; password pdf
Pdf print protection - VB.NET PDF Password Library: add, remove, edit PDF file password in, ASP.NET, MVC, WinForms, WPF
Help to Improve the Security of Your PDF Document by Setting Password
add copy protection pdf; password protected pdf
CARLI Digital Collections Users’ Group  Links revised: 09/23/2014 
Creating Digital Images 
In the most basic approach, the physical media to which the text is affixed is scanned to create a 
digital image that reproduces the content of the work. While the digitized facsimile conveys all 
of the visual information contained in a text, a digital image does not allow the text to be indexed 
and searched; additional steps must be taken to provide this functionality. 
Digital Image Basics 
A digital image is a two-dimensional array of small square regions known as pixels. For each 
pixel, the digital image file contains numeric values about color and brightness. There are three 
basic types of digital images: bitonal, grayscale, and color. In the case of a bitonal (monochrome) 
image, each pixel is either black or white – there is no gradation. Grayscale images typically 
contain values in the range from 0 to 255 where 0 represents black, 255 represents white, and 
values in between represent shades of gray. A color image can be represented by a two-
dimensional array of Red, Green and Blue triples, where 0 indicates that none of that primary 
color is present in that pixel and 255 indicates a maximum amount of that primary color. 
Bit-depth refers to the amount of detail that is used to make the measurements of color and 
brightness. (It can be thought of as the number of marks on a ruler.) A higher bit depth indicates 
a greater level of detail that is captured about the image. Most digital images are 8-bit, 16-bit, or 
The size and resolution of digital image files is measured in pixels per inch (ppi, also commonly 
referred to as dpi—dots per inch). The higher the ppi the greater the resolution and detail that 
will be captured. 
Scanning Basics 
Due to the wide varieties of scanners and scanning software available, a comprehensive 
discussion of best practices for scanner operation is not possible in this guide. “The Art of 
Scanning” by Paul Royster ( provides a solid 
introduction to scanning and image editing techniques for text-based and image-based digital 
Scanners generally offer three different modes of image capture, which correspond to the three 
types of digital images: black-and-white, grayscale, and color. 
•  Black-and-White (aka bitonal or monochrome): One bit per pixel representing black 
or white. This mode is best suited to high-contrast documents such as printed black-and-
white text, line art, or illustrations. 
•  Grayscale: Multiple bits per pixel representing shades of gray. Grayscale is best suited to 
older documents with poor legibility or diffuse characters (e.g. carbon copies,  
VB.NET PDF Library SDK to view, edit, convert, process PDF file
Support adding protection features to PDF file by adding password, digital signatures and redaction feature. PDF Document Protection.
convert password protected pdf to excel online; acrobat password protect pdf
C# HTML5 Viewer: Load, View, Convert, Annotate and Edit Excel
HTML5 Viewer for C# .NET, users can convert Excel to PDF document, export Excel to HTML file and create multi-page tiff file from Excel. Excel Protection.
break pdf password online; pdf open password
CARLI Digital Collections Users’ Group  Links revised: 09/23/2014 
•  Thermofax/Verifax, etc.), handwritten documents, items with low inherent contrast 
between the text and background, stained or faded materials, and works with halftone 
illustrations or photographs accompanying the text. 
•  Color: Multiple bits per pixel representing color. Color scanning is best suited to 
materials containing color information, such as an illuminated manuscript or other 
documents where the color and texture of the paper is an important part of the work. 
Scanning in color will produce the largest file sizes (in terms of bytes), grayscale the second 
largest, and bitonal the smallest. Libraries should choose the mode that best suits the material. If 
there is no advantage to scanning in grayscale or color, then bitonal mode is acceptable assuming 
there is no significant loss of information. Master copies can also be created in color or grayscale 
and then converted to bitonal for access images. 
Creating Images 
For each object or page being scanned or photographed, a high-resolution master or archival file 
should be created. From that master file, lower-resolution derivative files will be created that are 
better suited to be delivered and viewed online or compiled into a file containing all the pages of 
a work. 
The chart below describes the differences between master images and two types of derivative 
files: an access image and a thumbnail image. 
Master Image 
Access Image 
Thumbnail Image 
• Represents as closely as 
possible the information 
contained in the original 
• Uncompressed, or 
lossless compression 
• Unedited 
• Serves as long term 
source for derivative files 
and print reproductions 
• Can serve as surrogate 
for the original 
• High quality 
• Large file size 
• Stored in TIFF file format 
• Used in place of master 
image for general web 
• Generally fits within 
viewing area of average 
• Reasonable file size for 
fast download time; does 
not require a fast network 
• Acceptable quality for 
general research 
• Compressed for speed of 
• Usually stored in JPEG or 
JPEG2000 file format 
• A very small image 
usually presented with the 
bibliographic record 
• Designed to display 
quickly online; allows user 
to determine whether they 
want to view access image 
• Usually stored in GIF or 
JPEG file formats  
• Not always suitable for 
images consisting 
primarily of text, musical 
scores, etc.; user cannot 
tell what content is at so 
small a scale 
from Western States Digital Standards Group, Digital Imaging Working Group, Digital Imaging Best Practices,, January 2003.
C# HTML5 Viewer: Load, View, Convert, Annotate and Edit PDF
PDF Conversion. • In HTML5 Viewer File Tab, various buttons are give for print or output PDF documents to other common file formarts. PDF Protection.
convert password protected pdf to normal pdf online; pdf user password
VB.NET PDF: Basic SDK Concept of XDoc.PDF
Class: PDFImageHandler. Class: PDFImage. Document Protect. You may add PDF document protection functionality into your VB.NET program.
convert protected pdf to word online; create copy protected pdf
CARLI Digital Collections Users’ Group  Links revised: 09/23/2014 
Master Images 
The digital master image represents, as accurately as possible, the visual information in the 
original object. This image’s primary function is to serve as a long-term archival record, as well 
as a source for derivative files and printed materials. A high-quality master image eliminates the 
need to re-digitize, and therefore re-handle, the same potentially fragile physical materials again 
in the future. A master image should also support the production of a printed page facsimile that 
is a legible and faithful stand-in for the original when printed at the same size. 
Some general guidelines for creating digital master files: 
•  Each library should develop specific guidelines for the size and resolution of digital 
master files based on individual collection needs and requirements. 
•  When scanning text documents, the scanning resolution may need to be adjusted 
according to the size of text in the document. Documents with smaller printed text may 
require higher resolutions and bit depths than documents containing large typefaces (see 
“Recommendations” below). A higher resolution may offer increased accuracy for 
Optical Character Recognition (OCR) processing. 
•  Scanned master images should not be edited for any specific output or use, and should be 
saved as large TIFF files with lossless or no compression. 
•  Where possible, scanning guidelines for the creation of digital master files should follow 
the specifications outlined in the Federal Agencies Digitization Initiative (FADGI) - Still 
Image Working Group’s Technical Guidelines for Digitizing Cultural Heritage Materials: 
Creation of Raster Image Master Files 
•  CARLI member libraries using CONTENTdm should not upload full resolution TIFF 
files to the CARLI server as a file-storage solution. Archival image file storage is the 
responsibility of each contributing institution and must be managed locally. The 
CONTENTdm Project Client can automatically convert TIFF files into JPEG2000 or 
JPEG display images. (see “Derivative Images: Access Images” below). 
Specific recommendations for size, resolution, and file format are provided below. 
C# HTML5 PDF Viewer SDK to view, annotate, create and convert PDF
C#.NET: Edit PDF Password in ASP.NET. RaterEdge HTML5 PDF Editor also provides C#.NET users secure solutions for PDF document protection.
create password protected pdf online; convert password protected pdf to normal pdf
How to C#: Basic SDK Concept of XDoc.PDF for .NET
Class: PDFImageHandler. Class: PDFImage. Document Protect. You may add PDF document protection functionality into your C# program.
change password on pdf; pdf password remover online
CARLI Digital Collections Users’ Group  Links revised: 09/23/2014 
Derivative Images 
Derivative files are used for editing and enhancement, conversion to different formats, and 
presentation or transmission over networks. In the case of text works that comprise more than 
one page, derivative images can be compiled into a single file that represents the entire work. 
Derivative images can be created using image editing applications such as Adobe Photoshop, 
GIMP (a freely available open-source image editing program), or Microsoft Office Picture 
Editor. Some applications, like Adobe Acrobat, can automatically downsize images when 
compiling a file made up of multiple page images, eliminating the need to create derivative 
copies by hand. 
Access Images 
Access images represent the version of the image that users viewing the digital items online will 
interact with. Access images should be of sufficient size and resolution to allow for detailed 
study, but not so large that they take too long to load in the browser. Access images may also be 
edited to improve the viewing experience for the user, through such processes as cropping, 
straightening, color correction, sharpening, or descreening. These edits can be made using image 
editing software such as Adobe Photoshop or GIMP. 
In the case of collections using CONTENTdm, the software can also be configured to 
automatically generate access images from the master file. The default settings of the 
CONTENTdm Project Client convert imported TIFFs files to either JPEG2000 or JPEG for 
(Note when using CARLI’s installation of CONTENTdm: importing large file formats, like 
TIFFs, will make upload times longer and will not address an institution’s need to store an 
archival master. Archival image file storage is the responsibility of each contributing institution 
and must be managed locally.) 
Thumbnail Images  
Thumbnail images are small, low-resolution versions of the content—usually displayed in the 
search results view of online digital collections—that give the user a preview of the larger image. 
Most digital asset management systems will automatically generate a thumbnail image for each 
item loaded into the software.  
C# WinForms Viewer: Load, View, Convert, Annotate and Edit PDF
PDF signature functionality for copyright protection. PDF Version. Draw PDF markups. PDF Protection. • Sign PDF document with signature. • Erase PDF text.
add password to pdf; add password to pdf file with reader
How to C#: Quick to Start Using XDoc.PDF for .NET
quickly complete PDF document creating and loading, PDF document conversion, PDF content redaction, PDF document annotation, PDF document protection and more
add password to pdf online; create password protected pdf from word
CARLI Digital Collections Users’ Group  Links revised: 09/23/2014 
File Format 
Pixel Array and Resolution 
Bit depth 
TIFF (.tif) 
300 ppi for black-and-white text; 
600 ppi for grayscale or color 
materials, or materials with finely 
printed text 
1-bit bitonal 
mode, 8-bit 
grayscale, or 24-
bit color 
JPEG (.jpg) or 
72 – 200 ppi 
1-bit bitonal, 8-
bit grayscale, or 
24-bit color 
Based on Federal Agencies Digitization Initiative (FADGI) - Still Image Working Group’s Technical Guidelines for 
Digitizing Cultural Heritage Materials: Creation of Raster Image Master Files 
File Naming Conventions 
Each digital object in a collection should be assigned a unique identifier.  Unique identifiers 
should follow a consistent naming format to ensure ongoing identification and retrieval of digital 
files. Guidelines for file names will vary by collection and will be based on local needs and 
specifications.  Each library should develop specific file naming conventions based on individual 
collection needs and local requirements. 
Machine-Readable Text 
Machine-readable text results from either a scanning and conversion process (OCR) performed 
on textual materials or from manually transcribing or re-keying text with word processing 
software to produce some form of machine-readable text file that can be indexed and searched, 
offering users better access to the intellectual content of the work. 
Text-based materials may be handled in various ways.  Methods will depend on factors such as 
library resources, quality of the original materials, software requirements, and end user needs. 
CARLI Digital Collections Users’ Group  Links revised: 09/23/2014 
Digital Text Basics 
Digital representations of text are based on the concept of character encoding, which is the 
assignment of a numeric code for each character in a given repertoire to a sequence of bit 
patterns in order to facilitate the transmission and storage of text in digital form. The character 
encoding used in a file will determine the type of characters that can be represented in the file. 
Currently, 8-bit Unicode Transformation Format (UTF-8), is the generally accepted standard for 
digital texts. UTF-8 encoding can accommodate not only Latin-based language characters, but 
also Greek, Cyrillic, Hebrew, Arabic, and much more.  For these reasons, it is recommended that 
all textual documents be encoded as UTF-8. 
Most computer programs can save text-based documents (plain text files, XML, or HTML) as a 
UTF-8 encoded document. Additionally, some document formats, such as XML and HTML, 
provide a way to explicitly declare the file as UTF-8 encoded within the markup, which a parser 
can then use to interpret the rest of the document.  In XML, this can be seen easily in the first 
line of the file, where the type of file is declared (XML) and so is its encoding (UTF-8). Before 
saving a text file, check the software’s save options to make sure that UTF-8 encoding is being 
Optical Character Recognition (OCR) 
OCR is the process of electronically translating a scanned bitmapped image of text material into 
machine-readable text. A computer program “reads” the character content within the image and 
creates a digital version of the text, usually in a separate file. This allows the text to be searched 
and indexed, or used in other processes such as data mining or machine translation. 
The accuracy of the OCR process depends on a number of factors, including the quality of the 
image being scanned, the language that the text is written in, and the type of font used in 
printing. Poor quality images where the text is not clearly contrasted with the background, text in 
non-European foreign languages (or non-Latin character sets), and text rendered in serif fonts 
can all decrease the accuracy of the resulting text file. At this time, hand-printed manuscripts are 
extremely difficult for OCR software to interpret, and those written in cursive are basically 
impossible. However, with a clear typeset image, an accuracy of 80%-90% may be achieved 
through the use of readily available and relatively inexpensive software. 
The advantage of OCR is that it eliminates the need for costly, time-consuming transcription. For 
most libraries transcription may not be an option, and so even an inaccurate rendering as 
produced by OCR is still an advantage over having no digital representation of the text at all. 
OCR routines can also be set up as part of the digitization workflow and do not require a 
significant time investment. For documents where the accuracy of the machine-readable text is of 
primary importance, the OCR-produced text can be manually corrected. 
CARLI Digital Collections Users’ Group  Links revised: 09/23/2014 
Software Options 
Libraries using the CARLI installation of CONTENTdm have the option of purchasing the 
CONTENTdm OCR Extension. This extension can be used to generate a searchable full-text 
transcription as files are being imported into the CONTENTdm Project Client. The resulting text 
is then stored as the value of a metadata field in the item record. The OCR Extension is not 
necessary; the same results can be achieved with transcript files created using standalone OCR 
software. Other OCR software applications include Adobe Acrobat, ABBYY FineReader, and 
OmniPage. (Disclaimer: The preceding references to specific applications do not necessarily 
constitute or imply endorsement or recommendation by CARLI.) 
Text that is difficult to read or that cannot be reliably OCR’d, especially handwritten 
manuscripts, should be considered for transcription. However, transcription presents its own 
problems—it can be labor intensive and cost prohibitive—so libraries will need to make a 
decision as to when the importance of providing full-text searching of the content makes the time 
investment worthwhile. 
In CONTENTdm, the unformatted transcribed text from an image can be entered as the value of 
a metadata field in the item record, making it full-text searchable. 
Text Encoding & Markup Languages 
Transcribed text can also be encoded with markup languages, such as XML or XHTML, to 
provide a digital representation of the semantic and physical document structure. Text encoding 
provides a machine-readable means of denoting structural text elements such as italics, bold 
type, line breaks, stanzas, paragraphs, page breaks, chapters, etc. Semantic elements of the text, 
such as geographical locations or personal names, can also be marked. 
The most widely used standard for encoding text-based cultural materials is an XML-based 
schema developed by the Text Encoding Initiative (TEI). The TEI Guidelines for Electronic Text 
Encoding and Interchange “define and document a markup language for representing the 
structural, renditional, and conceptual features of texts,” with a focus on primary source 
materials for research and analysis.  
Like transcription, text encoding requires a significant investment of resources, and encoded 
texts require specialized systems and applications to parse, process, index, and display the 
content in any meaningful way. Currently, CONTENTdm does not provide any special 
functionality for encoded texts; therefore it is not recommended that libraries pursue this effort if 
they will be using CONTENTdm to collect and provide access to text-based materials. 
CARLI Digital Collections Users’ Group  Links revised: 09/23/2014 
Combining Multiple Files into a Single Digital Object 
As discussed previously, text materials often consist of many pages that collectively comprise a 
work. Therefore, a digital facsimile of such a work must include a way to compile many separate 
scans and images into a single file that maintains the order and structure of the original object. A 
plethora of digital formats can provide this functionality, including Adobe PDF, DjVu, and ePub. 
CONTENTdm also has its own format, called a “compound object.” A compound object is two 
or more individual files bound together with an XML structure. CONTENTdm includes several 
compound object types. The “document” and “monograph” types support a sequential structure 
that mimics the paginated nature of text objects, however, the “monograph” type also supports a 
hierarchical structure, akin to the chapters of a book. CONTENTdm can also be configured to 
automatically create compound objects from a single Adobe PDF file imported into a collection. 
(If the PDF file is full-text searchable, the text content will also be imported into CONTENTdm.) 
CARLI Digital Collections Users’ Group  Links revised: 09/23/2014 
Appendix A. Examples of Text Content in CONTENTdm Collections 
American Journeys: Eyewitness Accounts of Early American Exploration and Settlement 
Wisconsin Historical Society 
Arabic Papyrus, Parchment, and Paper Collection 
University of Utah 
Claremont Coptic Encyclopedia 
Claremont University Consortium 
Florence Nightingale Letters Collection 
University of Illinois at Chicago 
The Free Soil Banner 
Indianapolis Marion County Public Library 
John Muir Correspondence 
University of the Pacific 
Pamphlet and Textual Documents Collection 
University of Washington Libraries 
Wesleyana Yearbooks 
Illinois Wesleyan University 
Documents you may be interested
Documents you may be interested