Guidelines for Digital Newspaper Preservation Readiness 37 
Section 7. Additional Consi
the current copyright law that would grant libraries and archives the legal rights to make multiple copies 
of digital content for preservation purposes. In April 2013, the House Judiciary Committee announced 
plans  to  hold  a  series  of  comprehensive  hearings to  determine  how  the  current  U.S.  Copyright  Act 
should be amended for the digital age. As of January 2014, these hearings have begun, focusing on the 
Fair Use Doctrine.
7.3. Distribution vs. Back Up 
Differentiating between creating back-ups and engaging in preservation is crucial. Backup systems are 
for the most part non-intelligent and will merely produce a limited set of direct copies of assigned data - 
regardless  of  its  sustainability  or  integrity.  Many  backup  systems  have  the  built-in  tendency  for 
overwriting older healthy copies of data with more recent (including corroded) bits, particularly if data is 
not being monitored proactively by a curator. Backup systems may instill a false sense of protection and 
security (i.e., let the machines handle it). Most backup systems do not keep multiple copies of data in 
sync with one another in any audited sense. Backup systems often are maintained in close proximity to 
master copies and by the same staff members; making it plausible that one catastrophic event or human 
act of malice or error could destroy or corrupt all copies. 
Digital news curation - like other digital content curation - demands attention to content risks. Sound 
practice recommends providing for at least three copies of data that do not share a similar set of natural 
or man-made threats. There are distributed digital preservation (DDP) systems that perform replication 
across a  limited  geographic distance  -  for  example  one institution,  with  replications  at multiple  sites 
within the  same  city or  neighboring  locale  or region  (e.g., University of North  Texas and their  Coda 
Repository);  DDP  systems  that  support  three  replications  of  data  across  a  large  nation  (e.g., 
Chronopolis); as well as DDP systems that provide for up to seven replications of data across multiple 
continents (e.g. MetaArchive Cooperative). These are just a few examples, and ones that have explicitly 
benchmarked  their  systems  for  preserving  digital  newspaper  data  as  part  of  the  Chronicles  in 
Preservation Project. It is worth noting that each of these three systems have also worked together to 
replicate  each others’  digital collections to demonstrate  the importance of  replicating  content across 
multiple heterogeneous storage infrastructures. 
7.4. Change Management 
Even  the  most  carefully  curated  collections  experience  change  for  a  variety  of  reasons,  and  those 
changes  can  impact  the  preservation  outlook  for  the  collection.  For  example,  after  a  preservation 
package has been created, ingested into a preservation repository, and stored, a curator may need to 
add or change a file to that package, particularly if it is a meaningful body of content (i.e., a collection, 
not just a batch of unrelated files). Perhaps a file will need to be re-digitized and re-incorporated into 
the preserved  collection  or  a metadata record or  OCR file will need correction. Such changes  can be 
significant and may impact the preservation package. 
House Judiciary  ommittee, “The Scope of Fair Use,” January 2014, available at:
Guidelines for Digital Newspaper Preservation Readiness 38 
Section 7. Additional Considerations
Prior to moving content into preservation storage, institutions should grapple with the implications of 
file changes and how to document and store changed files within a preservation repository and its given 
workflows. In some cases this may mean that the file name is ascribed (manually or by the system) with 
a new creation date or an incremented version count. In other cases there may be simple non-numerical 
renaming conventions that can be ascribed to indicate the change. Relationships (inter-linkages), and/or 
inheritances of any previously assigned metadata also need to be considered. 
As  a  first  step,  institutions  must  decide  whether  updated  files  will  simply  replace  any  previously 
collected  and stored file.  If so,  a new file may  not require the  ascription of  any change  information. 
However,  the  issue  of  information  loss  and  irretrievability  in  such  over-writing  should  be  weighed 
carefully. Growth of collections is also important when it comes to change management - particularly 
when working with external preservation partners. Such on-going exchanges of new and/or refreshed 
data needs to be well coordinated, synchronized, and documented across all the partners (metadata can 
sometimes help with this but other documents may also play a role). Whatever the situation, a reliable, 
consistent, and clearly communicated policy and practice should be the goal. Creation or modified-since 
date information (YYYY_MM_DD or YYYYMMDD) is one of the easiest solutions and has already been 
particularly useful (and fairly standard) when it comes to distinguishing digital newspaper content - it 
also has some use value for indicating changes (as already mentioned above). 
7.5. Preservation Monitoring 
Once  content  has  been  packaged  for  long-term  preservation  (see Section 6. Packaging Digital 
Newspapers  for  Preservation) and moved into archival storage/workflows, there are a number of 
package elements that need to be monitored at key intervals. For example, an audit schedule should be 
established to ensure regular per-file fixity and to make fixity comparisons across any replicated copies 
of files (see the section above on Distribution vs. Back Up). Institutions must determine what role they 
will play in this ongoing monitoring of content, including whether they are willing to outsource these 
tasks  to external groups  (e.g.,  preservation  service  providers)  and  what  reports/documentation they 
expect to review. There are a number of questions to consider, including the following: 
  What  is  the supported  policy/practice  for  repairing  a  corrupted  file  and  is  this  handled  in  a 
traceable and authorized manner? 
  Who has permissions to access, manage and if necessary update preservation copies of digital 
newspaper data in approved ways? 
  What types of  network  analysis,  security measures,  and system redundancies  are  in place to 
guard against disasters, unwarranted intrusions, and general accidents? 
  How are incidents logged and reported? 
Institutions that do not have direct control over their preservation storage environments should make 
sure that service providers  that  they  are partnering  with provide an appropriate degree  of reporting 
and/or assurances around these and other sorts of monitoring concerns. 
Guidelines for Digital Newspaper Preservation Readiness 39 
Section 7. Additional Considerations
The Reference Model for an Open Archival Information System (OAIS)
and the ISO 16363:2012 Audit 
and certification of trustworthy digital repositories
set forth a broad range of monitoring factors and 
approaches  that  should  be  in  place  and  accounted  for.  However,  as  stressed  throughout 
these Guidelines,  these  standards  and  metrics  can  be  followed  and  implemented  in  measured  and 
incremental fashions. At this admittedly early stage in the formation of the digital preservation field, all 
efforts  to  preserve  digital  newspapers  (and  any  other  digital  content)  should  be  pursued  with  the 
understanding that digital preservation is quickly evolving.  More than any full-blown implementation of 
standards, the most important task for memory institutions is to stay vigilant and avoid falling prey to 
the  “out-of-sight,  out-of-mind”  mentality  that  can  so  easily  come  with  this  digital  terrain.  Take 
responsibility, maintain control, ask questions always, and demand information if need be. 
7.6. Recovering Digital Newspapers from Preservation 
The  Guidelines  have  emphasized,  particularly  in Section 2. Organizing Digital Newspapers for 
Preservation and  Section 6.  Packaging  Digital  Newspapers  for  Preservation) that the time and work 
associated  with  recovery  depends  largely  upon  the  work  an  institution  does  to  logically  structure, 
document and package its digital newspaper collections. Loss or corruption scenarios may involve one or 
a small number of files or they may involve whole collections. The institution as a data provider needs to 
know  how  and  where  to  turn  to  issue  a  request  for  any  preserved  copies  of  data  -  be  that  in 
coordination with local archival management or an external preservation service provider. There may be 
specific request channels and protocols that need to be observed and followed. The institutional owner 
of the data should have all the necessary identifying information as it corresponds to the data stored so 
that proper identifications and timely retrievals can take place. 
Though  the Reference  Model  for  an  Open  Archival  Information  System  (OAIS) primarily  refers  to  this 
stage of activity in terms of Access and Dissemination Information Packages (DIPs) as they relate to end-
user access requests, the information can be helpful for understanding requests for data from an archive 
as a bounded and segregated activity that should occur using resources not necessarily shared by those 
reserved for archival management. In other words there should be server/storage resources assigned 
for  copying  AIPs  or  objects  within  AIPs  to  in  order to  facilitate  a  retrieval  of  this  data for  recovery 
purposes - this might be an FTP enabled server, an external hard drive, or some other portable media for 
shipping/delivery purposes. Negotiating this media and delivery mechanism is important prior to facing 
an actual recovery scenario because it can determine what sorts of support needs to be in place at the 
receiving institution. 
The institutional owner of this digital newspaper content should include within a DIP everything it needs 
to verify the correctness of the file(s) and their bit integrity. These Guidelines have consistently aimed to 
SDS, “Reference Model for an Open Archival Information System (OAIS) – Magenta  ook,” available at:
SDS, “ISO 16363:2012 Audit and certification of trustworthy digital repositories – Magenta  ook,” available 
Guidelines for Digital Newspaper Preservation Readiness 40 
Section 7. Additional Considerations
facilitate  this  objective  by  advocating  for  various  documentary  and  metadata  approaches  that  can 
disclose  filenames  and  their  linkages  to  metadata  and  checksum  information.  In  the  event  of  a  full 
collection recovery, if metadata has been properly stored along with both the collection files and any 
unique identifiers (UIDs) that the local repository system uses to reintegrate collection content, this set 
of activities should be less cumbersome. The owning institution should ideally test such recoveries as 
part of its initial archival storage efforts to ensure a seamless integration between archival management 
and recovery.  
Guidelines for Digital Newspaper Preservation Readiness 41 
Below are the tools and resources referenced in the Guidelines. 
Active Paper - Olive Software, “Active Paper Archive,” available at:
Adobe Image Processor - Adobe Systems Incorporated, “Image Processor Script,” available at:
.  Adobe’s 
software requires a paid license, but it is widely used for bulk image format migrations. 
ALCTS - Association for Library  ollections & Technical Services, “Newspaper IG,” available at:
ArchivalWare - “Libraries,” available at:
ARK -  alifornia Digital Library, “ARK (Archival Resource Key) Identifiers,” available at:
Automator - Apple, “Mac  asics: Automator,” available at:
Bagger - Library of  ongress, “ agger,” available at:
BagIt - Descriptions of the BagIt specification are available at:
bagit-python - Library of  ongress, “bagit-python,” available at:
Bulk Rename Utility – “ ulk Rename Utility Homepage,” available at:
Chronicles in Preservation - MetaArchive  ooperative, “ hronicles in Preservation,” available at:
code4lib -  ode4Lib, “Homepage,” available at:
cron -, “Scheduling tasks,” available at:
CSS - W3 , “ ascading Style Sheets,” available at:
CSV - Wikipedia, “ omma-separate values,” available at:
Guidelines for Digital Newspaper Preservation Readiness 42 
digipres -   American Library Association, “digipres- Digital Preservation,” available at:
digital-curation - Google Groups, “Digital  uration-Google Groups,” available at:!forum/digital-curation
DROID - UK National Archives, “Droid,” available at:
DSpace - “DSpace Homepage,” available at:
Dublin Core - Dublin  ore Metadata Initiative, “D MI Home,” available at:
Exiftool - Phil Harvey, “Exiftool,” available at:
FADGI - Federal Agencies Digitization Guidelines Initiative, “Digitization Guidelines,” available at:
Fair Use Doctrine - House Judiciary  ommittee, “The Scope of Fair Use,” January 2014, available at:
FCLA  Description  Service  -  Florida  enter  for  Library  Automation,  “Description  Service,” available  at: 
Fedora - “Fedora Repository,” available at:
find -, “find,” available at:
Finder - Apple, “Mac OS X: Finder  asics,” available at:
file -, “file,” available at:
File Explorer - Microsoft, “How to work with files and folders,” available at:
File Format Wiki - Archiveteam, “Archiveteam File Format Wiki,” available at:
File naming - Recommendations from the State Archives of North  arolina, “Digital Records Policies & 
Guidelines: Filenaming,” available at:
FITS - Harvard University Library Office for Information Systems, “File Information Tool Set,” available at:
Fixity - AVPreserve, “Fixity,” available at:
GPRename - “GPRename,” available at:
Guidelines for Digital Newspaper Preservation Readiness 43 
Handles -  orporation for National Research Initiatives, “Handle System,” available at:
hashdeep - Jesse Kornblum, “md5deep and hashdeep,” available at:
Heritrix - Internet Archive, “Heretrix,” available at:
HTML - W3 , “HTML,” available at:
IFLA - International Federation of Library Associations, “Newspapers Section,” available at:
IIPC - IIP , “Web Archiving,” available at:
ImageMagick - ImageMagick Studio LL , “ImageMagick,” available at:
ISO 8601 - A description of the rationale and usage of the international date standard is available at:
ISO 14721 - Consultative Committee for Space Data Systems, CCSDS 650.0-M-2: Reference Model for an 
Open Archival Information System (OAIS): Magenta Book, June 2012, available at:
ISO 16363 - International Organization for Standardization, ISO 16363:2012: Space data and information 
transfer systems -- Audit and certification of trustworthy digital repositories, February 2012, available at:
JavaScript - Mozilla Developer Network, “JavaScript,” available at:
JHOVE2 - “JHOVE2,” available at:
JPEG2000 - Joint Photographic Experts Group, “JPEG2000,” available at:
Levels of Preservation - Library of  ongress, “NDSA Levels of Preservation,” available at:
locate -, “locate,” available at:
ls -, “ls,” available at:
Md5 - A description of the md5 algorithm is available at:
md5sum -, “Md5sum,” available at:
Guidelines for Digital Newspaper Preservation Readiness 44 
Metadata Extraction Tool - National Library of New Zealand, “Metadata Extraction Tool,” available at:
METS - Library of  ongress, “Metadata Encoding Transmission Standard (METS),” available at:
METS-ALTO - Library of  ongress, “National Digital Newspaper Program: Digitizing Microfilm and Optical 
haracter Recognition,” December 2012, available at:
MIX - Library of  ongress, “Metadata for Images in XML Standard,” available at:
MODS - Library of  ongress, “Metadata Object Description Schema,” available at: -, “Mv,” available at:
Name Assigning Authority Numbers - For a list of current Name Assigning Authority Numbers see, 
alifornia Digital Library, “Registered Name Assigning Authority Numbers,” available at:
Newslib - “Homepage,” available at:
Nautilus - The GNOME Project, “Nautilus,” available at:
NDNP Technical Guidelines - Library of  ongress, “The National Digital Newspaper Program (NDNP) 
Technical Guidelines for Applicants,” August 2012, available at:
NDSA - Library of  ongress, “National Digital Stewardship Alliance Homepage,” available at:
NOID -  alifornia Digital Library, “NOID: Nice Opaque Identifier (Minter and Name Resolver)” available 
ODF - OASIS, “OpenDocument Format,” available at:
PDF - AIIM Standards Wiki, “PDF,” available at:
PDF/A - AIIM Standards Wiki, “PDF/A,” available at:
PREMIS - Library of  ongress, “Preservation Metadata: Implementation Strategies (PREMIS),” available 
PRONOM - UK National Archives, “PRONOM Technical Registry,” available at:
Guidelines for Digital Newspaper Preservation Readiness 45 
SAA - Society of American Archivists, “Homepage,” available at:
Section 108 Study Group - US Government, “Section 108 Study Group,” available at:
sed -, “Sed,” available at:
SFTP - A description of the SSH File Transfer Protocol (SFTP) and its differences with both SSH and FTP 
are available at:
sha-1 - A description of the sha-1 algorithm is available at:
Sha-256 - A description of the sha-2 algorithm, of which sha-256 is a part, is available at:
sha1sum -, “Sha1sum,” available at:
Shell Scripts - Linux, “Writing Shell Scripts,” available at:
Sustainability of Formats - Library of  ongress, “Library of  ongress Sustainability of Formats,” available 
tar -, “Tar,” available at:
Task Scheduler - Microsoft, “Schedule a task,” available at:
TIFF - Adobe Systems Incorporated, “TIFF,” available at:
Tika - Apache Software Foundation, “Apache Tika,” available at: Apache Tika 
has a number of use cases – see here:
TRAC -  enter for Research Libraries, “Trustworthy Repositories Audit &  ertification:  riteria & 
hecklist,” February 2007, available at:
UDFR -  alifornia Digital Library, “Unified Digital Format Registry (UDFR),” available at:
US Copyright Act - US Government, “ opyright Law of the United States,” available at:
WARC -  ibliothèque nationale de France, “The WAR  File Format (ISO 28500) - Information, 
Maintenance, Drafts,” available at:
Guidelines for Digital Newspaper Preservation Readiness 46 
Xena - National Archives of Australia, “Xena – Digital Preservation Software,” available at:
XHTML - W3 , “W3  XHTML2 Working Group Home Page,” available at:
XML - W3 , “XML 1.0,” available at:
