Guidelines for Digital Newspaper Preservation Readiness viii 
About the Guidelines
Trends Towards Incremental 
Approaches 
The  Guidelines  are  not  alone  in  seeking  to 
address  the  need  for  preservation  spectrums. 
The  National  Digital  Stewardship  Alliance 
(NDSA)  is  a  U.S.-based,  member-driven 
association  that  seeks  to  establish,  maintain, 
and  advance  the  capacity  to  preserve  our 
nation's  digital  resources  for  the  benefit  of 
present  and  future  generations.
22
NDSA 
coordinates  working  groups  that  include 
curators  from  both  public  and  private 
organizations  who  seek  to  advance  digital 
preservation  for  both  their  own  organizations 
and for the community at large. 
Under the auspices of the NDSA, the Innovation 
Working  Group  has  established  a  spectrum-
based  approach  termed  the  Levels  of 
Preservation.
23
In  2014,  the  Levels  of  Preservation  are  at 
version one, and are described as: 
[A] tiered set of recommendations for how 
organizations  should  begin  to  build  or 
enhance their digital preservation activities. 
 work  in  progress  by  the  NDSA,  it  is 
intended to  be a  relatively easy-to-use set 
of  guidelines useful  not only for  those just 
beginning  to  think  about  preserving  their 
digital  assets,  but  also  for  institutions 
planning  the  next  steps  in enhancing their 
existing  digital  preservation  systems  and 
22
Library of  ongress, “National Digital Stewardship 
Alliance Homepage,” available at: 
http://www.digitalpreservation.gov/ndsa/
.  
23
Library of  ongress, “NDSA Levels of 
Preservation,” available at: 
http://www.digitalpreservation.gov/ndsa/activities/l
evels.html
 
workflows.…The  guidelines  are  organized 
into  five  functional  areas  that  are  at  the 
heart  of  digital  preservation  systems: 
storage  and  geographic  location,  file  fixity 
and  data  integrity,  information  security, 
metadata, and file formats. 
There is a growing recognition in the field that 
building  institutional  capacity  in  digital 
preservation and curation may be best achieved 
through  manageable  and  incremental 
approaches. 
The  Guidelines  for  Digital  Newspaper 
Preservation Readiness do not seek to apply the 
NDSA  Levels  of  Preservation  to  newspaper 
content  directly,  but  these  “Levels”  are 
consistent  with  our  “spectrum”  approach  and 
are  an  important  resource  for  institutions 
embarking  upon  (or  refining  existing) 
preservation pathways. 
How to Use the Guidelines 
Two  points  must  be  addressed  up  front 
regarding the purpose of the Guidelines. 
First, the authors understand that typically, this 
type  of  documentation  begins  with  selection, 
acquisition,  and/or  creation.  The Guidelines do 
not,  because  they  are  intended  for  curators 
who already  have  collections  that  need 
preservation  attention. We  want  to encourage 
institutions  to  dive  in  and  begin  actively 
pursuing  preservation  today  with  existing,  at-
risk  content.  We  do  not,  however,  ignore 
selection, acquisition, and/or creation as critical 
components  of  lifecycle  management.  We 
address  them  at  the  end,  rather  than  the 
beginning, of the Guidelines. There, we provide 
brief recommendations for concrete steps that 
newspaper stewards may take to integrate and 
incorporate preservation readiness as they  
Convert pdf to powerpoint with - control Library system:C# Create PDF from PowerPoint Library to convert pptx, ppt to PDF in C#.net, ASP.NET MVC, WinForms, WPF
Online C# Tutorial for Creating PDF from Microsoft PowerPoint Presentation
www.rasteredge.com
Convert pdf to powerpoint with - control Library system:VB.NET Create PDF from PowerPoint Library to convert pptx, ppt to PDF in vb.net, ASP.NET MVC, WinForms, WPF
VB.NET Tutorial for Export PDF file from Microsoft Office PowerPoint
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness ix 
About the Guidelines
continue  to  create  and  acquire  digital 
newspapers.  We  point  outward  to  other, 
deeper  resources  regarding  the  field's  current 
practices in each area - in particular, the mature 
digitization  standards  and  specifications  for 
newspapers  (see Section 7.1. Additional 
Considerations: Creation & Acquisition). 
We  also  highlight  a  key  acquisition/creation 
pathway  that  is  still  emerging  -  that  of  born-
digital  newspaper  collection  capture  and 
management.  We  describe  some  of  the  steps 
we  believe  memory  organizations  should  be 
taking to ensure the survival of this content and 
point  to  future  research  that  groups  such  the 
Center  for  Research  Libraries,  the  National 
Digital  Stewardship  Alliance,  and  Educopia 
Institute are undertaking in this area. 
Secondly,  the  Guidelines  focus  primarily  on 
preservation,  not  access.  The  Guidelines 
intentionally  separate  these  two  functions, 
though  its  authors  acknowledge  the  deep 
connections between them. What we preserve, 
we  always  should  preserve  so  that  it  may  be 
used someday by someone. With that emphasis 
established,  the  Guidelines  aim  first  to  break 
“preservation” down  into a manageable set  of 
modular preservation readiness activities. Given 
adequate  resources,  an  institution  could  use 
these  in  a  sequential  fashion  to  produce  a 
preservation  program.  In  that  way  the 
Guidelines  can  be  engaged  as  a  roadmap  to 
structure  an  institution’s  digital  newspaper 
curation activities from day one through to final 
packaging  for  long-term  preservation  (in  OAIS 
terms, the creation of a Submission Information 
Package). A Roadmap Checklist is included with 
Reference: NDSA Levels of Preservation 
The goal of the NDSA Levels of Preservation is to provide a basic tool for helping organizations manage 
and mitigate digital preservation risks. 
The Levels make use of a matrix that plots standard digital preservation activities such as storage, file 
fixity, information  security,  metadata,  and  file formats  within  each  of four  Levels. The Levels walk an 
institution forward through 1) Protecting Your Data; 2) Knowing Your Data; 3) Monitoring Your Data; and 
4) Repairing Your Data.  
An example of how the Levels work for metadata is below: 
Level One 
(Protect Your 
Data) 
Level Two 
(Know Your Data) 
Level Three 
(Monitor Your 
Data) 
Level Four 
(Repair Your Data) 
Metadata 
-Inventory of 
content /storage 
locations 
-Offsite backup of 
inventory 
-Store standard 
administrative 
and 
transformative 
metadata 
-Log events 
-Store standard 
technical & 
descriptive 
metadata 
-Store standard 
preservation 
metadata 
Learn more at: http://www.digitalpreservation.gov/ndsa/activities/levels.html
control Library system:Online Convert PowerPoint to PDF file. Best free online export
Download Free Trial. Convert a PPTX/PPT File to PDF. Then just wait until the conversion from Powerpoint to PDF is complete and download the file.
www.rasteredge.com
control Library system:C# PDF Convert to Jpeg SDK: Convert PDF to JPEG images in C#.net
C# PDF - Convert PDF to JPEG in C#.NET. C#.NET PDF to JPEG Converting & Conversion Control. Convert PDF to JPEG Using C#.NET. Add necessary references:
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness x 
About the Guidelines
the  Guidelines  on  page  xi  for  just  such 
approaches. 
From top-to-bottom the Guidelines address the 
following preservation readiness activities: 
  Inventorying  Digital  Newspapers  for 
Preservation 
  Organizing  Digital  Newspapers  for 
Preservation 
  Format  Management  for  Digital 
Newspapers 
  Metadata  Packaging  for  Digital 
Newspapers 
  Checksum  Management  for  Digital 
Newspapers 
  Packaging  Digital  Newspapers  for 
Preservation 
However,  the  Guidelines  are  also  written  with 
the full understanding that comprehensive and 
sweeping actions are often beyond the capacity 
of  institutions  that  curate  digital  newspaper 
content.  For  that  reason,  each  spotlighted 
preservation readiness activity  is given its own 
section or module. Each module explains a core 
facet  of  digital  preservation,  unpacks  its 
rationale,  demonstrates how  it  can be  applied 
to  newspapers,  and  provides  an  overview  of 
tools and methodologies. 
In  addition,  because  digital  newspapers  span 
both  digitized  and  born-digital  forms, 
the Guidelines attempt to call attention to how 
each  of  the  preservation  readiness  activities 
may need to be tailored to address the unique 
needs of each form. In the foreground of each 
section  is  the  broader  set  of  “managed 
activities” that define digital preservation. 
Where possible we have included  case  studies 
and  examples  to  demonstrate  how  a  real 
institution  has  engaged  a  particular  readiness 
activity. These case studies celebrate successes, 
but also highlight challenges and share insights 
into  decision-making  around  a  preservation 
readiness  activity  given  the  institution’s 
available (and often limited) resources. 
Finally,  and  most  importantly,  each 
preservation  readiness  section  includes  a  sub-
section that situates the activity in the context 
of  the  suggested  spectrum  of essential  and 
optimal  practices.  This  sub-section  will  help 
institutions understand where they land on this 
spectrum, and advise how best to proceed with 
the  recommended  practices,  tools,  and 
methodologies. It is important for curators and 
collection managers to share some of the more 
technical  elements  that  are  discussed  in  the 
Guidelines  with  their  technical  staff  members 
and consultants, who may help to expand upon 
some of the tools and implementations that are 
suggested herein. 
The Guidelines conclude with a brief section on 
Additional  Considerations that cover the 
following topics: 
  Creation & Acquisition 
  Preservation Partners & Permissions 
  Distribution vs. Backups 
  Change Management 
  Preservation Monitoring 
  Recovering  Digital  Newspapers  from 
Preservation 
We  have  listed  all  tools  and  resources 
recommended  in  the  Guidelines  in  the 
Reference section at the end. All of the 
recommended  tools,  with  only  one  or  two 
exceptions,  are  free  and  open  source. 
control Library system:VB.NET PDF Convert to Jpeg SDK: Convert PDF to JPEG images in vb.
Convert PDF to Image; Convert Word to PDF; Convert Excel to PDF; Convert PowerPoint to PDF; Convert Image to PDF; Convert Jpeg to PDF;
www.rasteredge.com
control Library system:VB.NET PDF Convert to HTML SDK: Convert PDF to html files in vb.
Convert PDF to HTML. |. Home ›› XDoc.PDF ›› VB.NET PDF: PDF to HTML. Convert PDF to HTML in VB.NET Demo Code. Add necessary references:
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness xi 
Roadmap Checklist
Roadmap Checklist 
Essential Readiness 
Optimal Readiness 
Inventorying 
Hold Inventory Planning Meeting 
Hold Inventory Planning Meeting 
Identify Collection File Locations 
Establish an Inventory Workstation 
Create Simple Inventory Document 
Identify Collection File Locations 
Record Basic Collection Information 
Create or Use Existing Inventory Instrument 
Date Stamp & Version Inventory 
Record Extensive Collection Information 
Create Checksums and UIDs(see below) 
Date Stamp & Version Inventory 
Organizing 
Analyze Current File/Folder Conventions 
Analyze Current File/Folder Conventions 
Test GUI Tools for Changing File/Folder Names 
Test CLI Tools for Changing File/Folder Names 
Apply New Conventions  
Apply New Conventions 
Quality Check Modifications 
Quality Check Modifications 
Format Management 
Identify File Format 
Identify File Formats 
Record File Formats in Inventory (see above) 
Store Batch Outputs and Update Inventory 
Document Acceptable Format Policies 
Consult Format Registries 
Test Normalization/Migration 
Document Acceptable Format Policies 
Normalize/Migrate Formats per Policy 
Test Normalization/Migration 
Normalize/Migrate Formats per Policy 
Metadata Packaging 
Identify Metadata File Locations 
Identify Metadata File Locations 
Record Metadata-to-Object Linkages 
Record Metadata-to-Object Linkages 
Export/Package Metadata Records 
Export/Package Metadata Records 
Store Metadata with Collection Files 
Normalize and Consolidate Metadata to XML 
Create Preservation Metadata 
Store Metadata with Collection Files 
Checksum Management 
Create Per-File Checksums with BagIt 
Create Per-File Checksums 
Routinely Audit w/ Stored Checksums with BagIt 
Backup Checksums and Update Inventory 
Routinely Audit w/ Stored Checksums 
Packaging 
Document Location of Preservation Copies 
Implement METS and/or PREMIS 
Document Preferred Recovery Media/Methods 
Assign Unique IDs (UIDs) and Updating Inventory 
Document Recovery Process 
Use UIDs with METS and/or PREMIS 
Document Access Copy Reproductions 
Package Collection 
Store Documents with Collection Files 
Package Collections together 
Package Collection 
Package Collections together 
control Library system:C# powerpoint - Convert PowerPoint to PDF in C#.NET
C# PowerPoint - Convert PowerPoint to PDF in C#.NET. C# Demo: Convert PowerPoint to PDF Document. Add references: RasterEdge.Imaging.Basic.dll.
www.rasteredge.com
control Library system:C# PDF Convert to HTML SDK: Convert PDF to html files in C#.net
Convert PDF to HTML. |. C#.NET PDF SDK - Convert PDF to HTML in C#.NET. How to Use C# .NET XDoc.PDF SDK to Convert PDF to HTML Webpage in C# .NET Program.
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness 1 
Section 1. Inventorying Digital Newspapers for Preservation
Section 1. Inventorying Digital Newspapers for 
Preservation 
Rationale
Identifying what digital newspaper content an institution possesses is the first step in understanding its 
current  and  future  preservation  needs.  Digital  newspapers  are  created  and  acquired  by  institutions 
under a diverse array of circumstances, over wide spans of time, and often under the care of multiple 
managers. For that reason, an institution’s digital newspaper collections and corresponding content files 
may reside on a range of different storage media (external hard drives, CDs, disk arrays, tape systems, 
etc.) and in multiple locations. 
Identifying  the  amount  (number  of  files  and  sizes),  type(s),  and  location(s)  of  an institution’s  digital 
newspaper collections is a critical first step in preparing those collections for long-term preservation and 
archival management. An inventory can help curators not only determine where content  resides,  but 
what  sorts  of  information  may  be  needed  to  ensure  its  sustainability  over  time  (e.g.,  format 
identification, checksums, digital object identifiers, etc). 
Sound Practices 
Producing  a  digital  newspaper  inventory  is  a 
multi-stage  process  that  helps  an  institution 
establish what newspaper content it holds and 
where  that  content  resides.  Good  inventories 
range  from  general  to  detailed,  depending  on 
the  needs,  goals,  and  resources  of  an 
institution. 
An  institution’s  digital  newspaper  inventory 
may  be  created  and  maintained  as  a  text 
document, spreadsheet, or  database. It should 
be  easy  to  use,  available  to  curators  and 
technologists,  scalable  for  future  growth,  and 
updated  regularly.  It  should  also  explicitly 
record a “last updated” date. 
A basic inventory describes characteristics of an 
institution’s  full  range  of  newspaper  files, 
including  title,  content  type,  format,  size, 
associations  (title/issue  and  page/article 
information), and file location. A more detailed 
inventory might also include information about 
creation  date,  copyright/permissions,  software 
needed  to  render  objects,  checksums,  and 
digital object identifiers. 
Tools
The  inventory  may  be maintained  as  a  simple 
text  document,  spreadsheet,  or  database 
depending  on  the  institution’s  needs  and 
abilities. There are various platform-specific file 
managers such  as  Nautilus
24
for Linux, Finder
25
for  Mac,  or  File  Explorer
26
for  Windows,  to 
name just a few, which can be helpful for those 
less familiar with command-line approaches. 
24
The GNOME Project, “Nautilus,” available at: 
https://wiki.gnome.org/action/show/Apps/Nautilus
.  
25
Apple, “Mac OS X: Finder  asics,” available at: 
http://support.apple.com/kb/VI209
.  
26
Microsoft, “How to work with files and folders,” 
available at: http://windows.microsoft.com/en-
us/windows-8/files-folders-windows-explorer
.  
control Library system:VB.NET PDF Convert to Word SDK: Convert PDF to Word library in vb.
VB.NET PDF - Convert PDF to MS Office Word in VB.NET. VB.NET Tutorial for How to Convert PDF to Word (.docx) Document in VB.NET. Best
www.rasteredge.com
control Library system:VB.NET PDF Convert to Tiff SDK: Convert PDF to tiff images in vb.
VB.NET PDF - Convert PDF to TIFF Using VB in VB.NET. Free VB.NET Guide to Render and Convert PDF Document to TIFF in Visual Basic Class.
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness 2 
Section 1. Inventorying Digital Newspapers for Preservation
For  those  with  more  technical  experience, 
command-line programs can provide a powerful 
pathway  to  begin  inventorying  digital 
newspaper  collections.  For  example,  a  local 
technical staff member or system administrator 
may  use  basic  Unix  file  commands  (e.g., ls
27
find
28
,  locate
29
,  and file
30
)  combined  with  shell 
scripts
31
to analyze a directory listing of files and 
output the information in a tabular format that 
can  be  modified  in  a  spreadsheet  (e.g.,  TXT, 
TSV, or CSV). The various output files can then 
be  combined  and  organized  in  report 
documents as needed by a curator. 
Readiness Spectrum
A digital  newspaper inventory may be basic or 
detailed,  and  typically,  the  level  of  detail 
recorded  in  an  inventory  reflects  the  level  of 
preservation  an  institution  supports.  As  an 
institution matures in its lifecycle management 
processes, its inventory may likewise mature to 
include additional information. 
No  particular  preservation  readiness  step  - 
including  the  inventory  creation  -  happens  in 
isolation.  Instead,  institutions  will  circle  back 
around  to  update  their  inventories  as  other 
27
LinuxQuestions.org, “ls,” available at: 
http://wiki.linuxquestions.org/wiki/Ls
.  
28
LinuxQuestions.org, “find,” available at: 
http://wiki.linuxquestions.org/wiki/Find
.  
29
LinuxQuestions.org, “locate,” available at: 
http://wiki.linuxquestions.org/wiki/Locate
.  
30
LinuxQuestions.org, “file,” available at: 
http://wiki.linuxquestions.org/wiki/File_%28comma
nd%29
 
31
Linux ommand.org, “Writing Shell Scripts,” 
available at: 
http://linuxcommand.org/lc3_writing_shell_scripts.p
hp
.  
preservation  readiness  activities  occur.  To this 
end, institutions at early stages of preservation 
planning should produce inventory instruments 
that will scale up over time to include additional 
categories  of  information.  Institutions  should 
also  think  carefully  about  categories  of 
information that are likely to change, including 
file location (e.g., as an institution upgrades its 
storage media) and file type (e.g., if migrations 
or normalization occur). 
At the lower end of the preservation readiness 
spectrum,  an institution might  start small,  but 
build  a  strong  foundation  for  future  work. 
Simply  establishing  a  flexible  inventory 
document  and  identifying  and  recording 
information  about all  of  an  institution’s digital 
newspaper  collections  at  a  basic  level  (e.g., 
collection  file  names,  file  sizes,  file  locations, 
and file types) is an important beginning. Some 
institutions  will  accomplish  this  work  without 
systems  experience,  either  through  manual 
entry or  very  basic  systems  report generation. 
At the higher end of the preservation readiness 
spectrum,  an  institution  likely  will  use 
automated  mechanisms  to  gather  this 
information,  plan  for  the  inclusion  of  future 
collections,  and  record  additional  information 
(e.g., checksums and digital object identifiers). 
Essential Readiness
An institution should consider the inventorying 
process as an ongoing activity that will require 
institutional  planning,  clearly  assigned  roles, 
coordination  between  curators  and  technical 
staff  (where  applicable),  and  on-going  analysis 
and quality control. 
A key first step for institutions of all types and 
sizes is to begin a planning phase. For very small 
institutions and/or collections, one person may 
undertake this planning step alone. Larger  
Guidelines for Digital Newspaper Preservation Readiness 3 
Section 1. Inventorying Digital Newspapers for Preservation
institutions  likely  will  need  to  arrange  a 
planning  meeting that  assembles the  range  of 
digital  newspaper  curators  and  stakeholders 
across the institution. The goal of this planning 
is  to  gather  and  share  information  about  the 
range  of  current  and  legacy  content  and  the 
processes that  impact  the  acquisition  and 
storage of digital newspaper content over time. 
Even though an institution may face short-term 
barriers to inventory  creation  (e.g., a  shortage 
of  in-house  technical  expertise),  a  collection 
curator at almost any institution should be able 
to  complete  the  following  essential  tasks  in 
preservation readiness. 
1.  Identify  the  institution’s  digital 
newspaper collections 
2.  Produce a text document, spreadsheet, 
or database inventory document within 
which information about the collections 
may be recorded 
3.  Document  basic  information  including 
newspaper  titles,  file  counts,  file 
locations  (i.e.,  storage  media),  and file 
names.  This  may  be  accomplished 
manually if  necessary with the  help  of 
various  file  manager  programs  like 
those mentioned previously in the Tools 
(e.g., Nautilus for Linux, Finder for Mac, 
or File Explorer for Windows, etc.) 
4.  Date  stamp  and  record  the  version  of 
the inventory document 
This  essential  stage  of  the  inventory  process 
gives  a  curator the  opportunity  to experiment 
with  inventory  applications  and  formats  that 
can  later  extend  to  accommodate  the  fuller 
range  of  information  elements  desired  and 
enable the  necessary  access  to  and  update  of 
data over time.  
Optimal Readiness 
Institutions  with  more time,  technical  staffing, 
and  support resources can  invest  more deeply 
in  this  crucial  first  stage  of  preservation 
readiness.  Compiling  a  thorough  and  well-
organized  inventory  of  the  institution’s  digital 
newspaper assets will serve the institution well 
throughout  the subsequent/overlapping stages 
of preservation readiness. 
Institutions  with  technical  resources  and 
distributed collections would be well advised to 
establish a reliable workstation that can provide 
 centralized  channel  to  all  existing  digital 
newspaper  data  within  the  institution.  For 
collections  not  currently  maintained  on 
spinning  disc,  this  workstation  can  serve  as  a 
staging  apparatus  and  a  curation  workbench 
(e.g., collections maintained  on  CD  or external 
hard drive might be temporarily staged on the 
workstation to gather  information to  populate 
the  inventory  and  perform  other  preservation 
readiness activities). This workstation can serve 
as an ongoing conduit for gathering information 
Reference: Inventory Readiness Checklist 
1.  Complete file count and sizes (MB/GB/TB/PB) 
2.  Complete list of associated title/issue folders and page/article files (with metadata and OCR) 
3.  File location paths (if not included in the above) 
4.  File format extensions (MIME types) 
5.  Checksums and hash-functions (if available) 
6.  Digital object identifiers and identifier schemes used (if available and/or deemed useful) 
Guidelines for Digital Newspaper Preservation Readiness 4 
Section 1. Inventorying Digital Newspapers for Preservation
and  producing  systems-based  reports  of  the 
newspaper collections and files. 
If designated staff have the proper permissions 
and  authority  to  perform  checksum  creation 
and  to mint object  identifiers,  these tasks may 
be completed  during the  inventorying process. 
Please  see Section 5. Checksum Management 
for  Digital  Newspapers for more details 
regarding  file  fixity  checksum  creation  and 
management. Section 6. Packaging Digital 
Newspapers  for  Preservation discusses the 
importance and use of object identifiers. 
An optimal level  inventory  would  include  all 
those  elements  mentioned  above  under 
Essential  Readiness but would also provide a 
more  exhaustive  overview  of  the  collections, 
including: 
1.  Changes  that  have  taken  place  over 
time  to  collection  files  (i.e., 
normalization, migration, etc) 
2.  File  format  types  and  the  applications 
and  software  platforms  that  created 
them 
3.  File  fixity  information  (if  created)  as 
well  as  the  hash-function  algorithms 
used to create  them  (e.g.,  md5,  sha-1, 
sha-256, etc.) 
4.  Digital object identifiers that have been 
assigned (e.g., ARKs, Handles, etc.) 
For institutions at mature stages of preservation 
readiness,  much  of  this  information  may 
already  be  available  in  various  locations  and 
could  be  retrieved  and  incorporated  into  a 
consolidated  inventory.  For  institutions  that 
have not yet engaged with deeper preservation 
readiness  activities,  this  information  will  flow 
out  of  some  of  the  additional  activities 
mentioned in later sections - namely Section 3. 
Format  Management  for  Digital  Newspapers
Section  4.  Metadata  Packaging  for  Digital 
Newspapers, and  Section  5.  Checksum 
Management for Digital Newspapers - and can 
be consolidated at that time. 
Getting Started
The  California  Digital  Library  (CDL)  has  a  well-
cited example of what is called a Digital Assets 
Submission  Inventory.  This  sample  inventory 
document  is  a  resource  that  can  serve  as  a 
template  for  institutions  seeking  a  simple 
means to build out an inventory. Among other 
things  it  seeks  to guide  the  institution  toward 
identifying  file  types,  file  sizes,  number  of 
objects, types of metadata, and types of storage 
media  related  to  a  collection  or  set  of 
collections. 
The 
document 
is 
available 
at:  
www.cdlib.org/services/dsc/contribute/docs/su
bmission.inventory.rtf
Institutions  seeking  to  inventory  their  digital 
newspapers  can  adapt  these  simple  tables  to 
more accurately record information in-line with 
the suggestions recommended above. 
Guidelines for Digital Newspaper Preservation Readiness 5 
Section 2. Organizing Digital Newspapers for Preservation
Section 2. Organizing Digital Newspapers for 
Preservation 
Rationale 
Organizing digital newspaper content is a process through which an institution assesses, documents, and 
sometimes refines its file naming and folder usage conventions. 
As  mentioned  in  the  previous  section,  an  institution’s  newspaper  content  is  often  created  and/or 
acquired by a range of players and over a long span of time. Different collections within an institution’s 
holdings may conform to different file-naming conventions and folder conventions. Documenting these 
conventions clearly and/or normalizing these disparate collections by applying a unified schema enables 
future curators (and users) to retrieve, validate, and if necessary, reconstitute these collections in the 
future.  As  such,  organizing  digital  newspapers  is  an  important  step  in  the  preservation  readiness 
process. 
This process of organizing digital newspaper content builds upon and may go hand-in-hand concurrently 
with  the  Inventorying  work  described  in  the  previous  section  as  well  as  some  of  the  additional 
preservation readiness activities covered later in the Guidelines, specifically: 
  Inventorying the amount and location of digital newspaper content an institution is managing; 
  Identifying the range of file formats and performing any necessary normalizations or migrations; 
  Exporting and consolidating metadata for all collection(s); and 
  Producing checksum manifests for this content. 
Sound Practices 
Sound  practices  for  organizing  digital  news 
content primarily include the following: 
  Rectifying  any  file-naming  conventions 
that  put  content  at  risk  of  non-
renderability; 
  Documenting  effectively  the  range  of 
file  and  folder  naming  practices  and 
conventions  represented  in  an 
institution’s collections; and 
  Storing  this  documentation  with  the 
content it describes. 
Even  institutions  with  low  resources  and 
disparate  practices  will  be  able  to  provide  a 
brief summary of each digital news collection’s 
internal  conventions  that  can  help  future 
curators and users understand each collection’s 
structure  for  future  use  and  renderability. 
Institutions with higher resource levels may also 
analyze  and  streamline  their  conventions  and 
practices across digital newspaper collections. 
The  goal  is  to  arrive  at  a  documented  and 
uniform approach  (or small  set of approaches) 
with  clearly  designated  use-cases  (e.g.  one 
approach  for legacy digitized content,  another 
for  recent  digitization  efforts,  and  a  third  for 
born-digital  content)  that  contains  clear 
guidelines for file naming and folder/sub-folder 
usage.  Collection  managers  should  coordinate 
with their technical staff members (or those of 
Guidelines for Digital Newspaper Preservation Readiness 6 
Section 2. Organizing Digital Newspapers for Preservation
any  external  repository  service  provider) 
throughout  any  remediation  and  convention-
setting  process  so  that  any  change  to  existing 
conventions is understood and accounted for in 
the repository  software environments used for 
access and/or preservation purposes. 
Tools 
Applying and enforcing  a set of uniform folder 
and  file-naming  conventions  can  be  a  time-
consuming  endeavor  if  approached  on  a 
manual,  per-file  basis.  There  are  some  tools 
that  can  be  used  to  batch  rename  and  even 
relocate digital files. The best approach to take 
with these tools is to start with a cleanly copied 
representative  subset  of  the  overall  data  to 
which you would  like to apply  such  tools. This 
will  require  setting  aside  a  workspace  where 
the  tools  can be  installed  and  where  the data 
can be copied to for testing purposes. 
Examples  of  file-naming  and  re-locating  tools 
include: 
  Unix commands (e.g., mv
32
and sed
33
  GPRename
34
  Bulk Rename Utility
35
  Automator
36
32
LinuxQuestions.org, “Mv,” available at: 
http://wiki.linuxquestions.org/wiki/Mv
 
33
LinuxQuestions.org, “Sed,” available at: 
http://wiki.linuxquestions.org/wiki/Sed
34
GPrename, “GPRename,” available at: 
http://gprename.sourceforge.net/
.  
35
ulk Rename Utility, “ ulk Rename Utility 
Homepage,” available at: 
http://www.bulkrenameutility.co.uk/Main_Intro.ph
p
  
36
Apple, “Mac  asics: Automator,” available at: 
http://support.apple.com/kb/ht2488
.  
Unix-based systems (including Mac OS X) come 
equipped with simple programs such as mv and 
sed that can be used to begin the organization 
process.
37
These  programs  can  be  used  as 
standalones or in conjunction with various shell 
scripts to both batch rename and relocate files. 
A number of renaming tools with graphical user 
interfaces  exist  for  most  major  operating 
systems. Among these, GPRename for Linux and 
Bulk Rename Utility  for  Windows offer  a good 
range  of  features  such  as  using  regular 
expressions  to  find  portions  of  a  file  name  to 
replace,  appending  date  information,  and 
adding  sequential  numbers  to  files. Automator 
for Mac OS X has a graphical user interface, and 
despite  some  workflow  limitations,  can  also 
assist with batch file renaming.  
Readiness Spectrum 
Organizing digital  newspaper  content  can  vary 
across  a  wide  spectrum  of  practice  while  still 
fulfilling  the  basic  goal  of  providing  future 
curators  with  the  information  they  need  to 
understand  the  structure  of  each  digital 
newspaper  collection.  This  facilitates  the 
curator’s ability to preserve and render content 
reliably over time. 
At the lower end of the preservation readiness 
spectrum,  an  institution  may  focus  upon  four 
core tasks: 
  Identifying problems in file names  that 
could compromise those files in the future; 
  Using  basic  systems  tools  to  perform 
batch renaming of these files  (starting in a 
test-bed environment!); 
37
Note that there can be differences in syntax 
between GNU and BSD distributions. Mac OS X ships 
with BSD. 
Documents you may be interested
Documents you may be interested