Guidelines for Digital Newspaper Preservation Readiness 7 
Section 2. Organizing Digital Newspapers for Preservation
   Documenting  institutional  conventions 
in a text document to help future curators 
understand the collection logic; and 
  Updating the  digital news  inventory to 
reflect all changes. 
At the higher end of the preservation readiness 
spectrum, institutions may also streamline file-
naming and  folder usage practices into one or 
more 
well-documented 
and 
unified 
convention(s).  Institutions  may  then use batch 
tools  to  remediate  content  according  to  their 
chosen  convention(s).  After  completing  this 
remediation  work,  institutions  should  always 
update their inventories. 
Organizing  digital  news  content  ultimately 
makes collections intelligible and recoverable in 
the short and near term. With that in mind, the 
goal  of  this  activity  is  to  refine  and 
communicate  collection  structures,  file 
identifications,  and  other relationships  so that 
curators and preservation partners can care for 
these  collections.  There  are  both  machine-
based  and  human-based  approaches  that  can 
be  taken  across  the  readiness  spectrum  to 
achieve these goals. 
Essential Readiness 
As  described  above,  organizing  collections  for 
preservation  should  begin  with  an  analysis  of 
file-naming conventions. 
File-naming conventions for digital newspapers 
should  follow  established  good  practices 
(documented  below),  including  attending  to 
those  specific  to  digital  news  content. 
Examining  and  adjusting  filenames  prior  to 
preservation action is imperative because many 
repository systems (both preservation-oriented 
and  access-oriented)  may  refuse  to  handle 
content  that  does  not  conform  to  standard 
practices. At  best,  in  these  cases  the  files will 
not  render  properly.  At  worst,  poorly  named 
files  will  not  be  able  to  be  ingested  into  and 
preserved in a repository at all. 
Case Study: File Naming Conventions 
Below are some real-world examples of  file  name conventions that do a  good  job of providing  title, 
issue, date and other unique id encodings. They include examples from both digitized and born-digital 
newspaper collections. They are just examples not standards. 
Digitized Newspaper Examples (PDF, TIF, and JP2) 
  051-AAR-1873-09-24-001-SINGLE.pdf (title code/date) 
  DCC_19601125-19600101_DLH_217.tif (title code/dates) 
  bcheights_20040406_0001.jp2 (title code/date) 
Born-Digital Newspaper Examples (e-print and web) 
  an970607.pdf (title code/date) 
  morning_725_5977.html (Morning Ed/7:25am/May 9, 1977) 
Born-digital e-prints and web files often use the same filenames and extensions for both preservation 
and  access  copies.  Make  sure  changes  to  preservation  copies  adhere  to  their  current  access  copy 
filename conventions. 
How to change pdf to powerpoint slides - software application cloud:C# Create PDF from PowerPoint Library to convert pptx, ppt to PDF in C#.net, ASP.NET MVC, WinForms, WPF
Online C# Tutorial for Creating PDF from Microsoft PowerPoint Presentation
www.rasteredge.com
How to change pdf to powerpoint slides - software application cloud:VB.NET Create PDF from PowerPoint Library to convert pptx, ppt to PDF in vb.net, ASP.NET MVC, WinForms, WPF
VB.NET Tutorial for Export PDF file from Microsoft Office PowerPoint
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness 8 
Section 2. Organizing Digital Newspapers for Preservation
General good naming practices include:
38
  Avoiding the use of special characters in 
a file name. \ / : * ? “ < > | [ ] & $ ,; 
  Using underscores instead of periods or 
spaces; 
  Avoiding lengthy names; 
  Including  all  necessary  descriptive 
information  independent  of  where  it  is 
stored; 
  Including  dates  and  formatting  them 
according  to  international  standards 
(YYYY_MM_DD or YYYYMMDD);
39
and 
  Including  a  version  number  on 
documents  to  more  easily  manage  drafts 
and revisions. 
Good  practices  for  applying  consistent  folder 
and  file  naming  conventions  to  digital 
newspaper content more specifically include:
40
  Retaining  any  repository  system-
defined  folder  naming  conventions  if 
supplied - this can  be helpful for restoring 
collections to those systems at a later date; 
  Following  a  simple  title,  year,  volume, 
issue,  month,  day  schema  for  folder  and 
sub-folder conventions; 
38
State Archives of North  arolina, “Digital Records 
Policies & Guidelines: Filenaming,” available at: 
http://www.ncdcr.gov/archives/ForGovernment/Dig
italRecords/DigitalRecordsPoliciesandGuidelines.asp
x#filenaming
.  
39
A description of the rationale and usage of the 
international date standard is available at: 
http://en.wikipedia.org/wiki/ISO_8601
40
Examples of file and folder naming conventions for 
digital newspapers being provided are derived from 
analyses of digital newspaper collections as provided 
by the Chronicles in Preservation (2011-2014) 
project partners (http://metaarchive.org/neh
).  
  Identifying the title in the file name; 
  Including the  year,  month, and  date of 
the issue publication in the file name; 
  Including  the  page  or  article  sequence 
number in the file name when appropriate; 
  Including the corresponding newspaper 
section name where helpful; and 
  Including the correct file extension with 
each file (e.g., TXT, PDF, TIF, JP2, etc.). 
Depending  upon  the  number  of  digital  news 
files  an institution is  managing and how many 
of  these  are  problematic,  rectifying  filename 
problems may be  done “by hand”  (on  a  small 
scale)  or  through  the  use  of  software  tools. 
Such tools as those mentioned above allow for 
batch  renaming  of  files,  so  that  if  there  is  a 
regular  problem  (e.g.,  a  space  or  special 
character that needs to be replaced collection-
wide),  this  can  be  dealt  with  simultaneously 
across  a  large  number  of  files.  Be  sure  to 
thoroughly test tools and batch processing prior 
to implementation. Wherever possible, create a 
copy  of  each  collection  that  needs  attention 
and  work  with  those  copies  to  ensure  that 
accidental damage is not done  to  the  originals 
as these file-name problems are corrected. 
This renaming process, including the tools used, 
should be documented and this documentation 
should  be  included  with  the  collection  upon 
packaging  (see Section 6. Packaging Digital 
Newspapers for Preservation). 
After an institution addresses potential gaps in 
its  file-naming  conventions,  it  can  begin 
analyzing and documenting its overall collection 
structures,  including  folder  and  sub-folder 
usage.  For  institutions  with  limited  resources, 
this  may  simply  mean  creating  a  text-based 
document  that  explains  the  collection 
structures as they currently exist and what data 
software application cloud:C# PowerPoint - How to Process PowerPoint
Microsoft PowerPoint Document Processing Control in Visual C#.NET of RasterEdge .NET Imaging SDK is a reliable and professional PowerPoint slides/pages editing
www.rasteredge.com
software application cloud:VB.NET PowerPoint: Sort and Reorder PowerPoint Slides by Using VB.
4 2 3 1 5" or change a certain image, clip art or screenshot to PowerPoint document slide provide powerful & profession imaging controls, PDF document, image
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness 9 
Section
2. Organizing Digital Newspapers for Preservation
elements, such as unique identifiers, are vital to 
preserving the file relationships. 
Optimal Readiness 
For  institutions  with  more  resources,  devising 
and  implementing a meaningful, consistent set 
of  folder/sub-folder relationships  and  schemas 
across  all  digital  news  collections  will improve 
the preservation outlook of these collections. 
The degree of work involved depends upon an 
institution’s practices-to-date. In some cases an 
institution may only need to review and refine 
its existing collection structures. In other cases, 
an institution may need to reorganize its digital 
news  content  entirely  according  to  a  newly 
designed  set  of  consistent  folder  and  file-
naming  conventions.  The  above  Case  Studies 
are  some  examples  of  how  institutions  with 
extensive  experience  in  managing  digital 
newspaper  collections  have  organized  their 
collections. Institutions  are also encouraged to 
reference  the  NDNP  Technical  Guidelines  as 
mentioned in the Introduction .
41
41
Library of  ongress, “The National Digital 
Newspaper Program (NDNP) Technical Guidelines for 
Applicants,” August 2012, available at: 
Once a set of uniform collection structures and 
file-naming conventions have been established, 
curators and technical staff can  work together 
toward  implementation.  This  process  should 
always begin by experimenting with copies of a 
sub-set  of  the  collection  and  the  batch 
renaming and/or relocating tools that are most 
appropriate  for  the  institution’s  needs.  Once 
the  remediation  process  is  tested  thoroughly, 
implementation can begin, again ideally using a 
copy of  the  content  rather  than  the  originals. 
Remediation  work,  including  the  tools  used, 
should be documented and this documentation 
should  be  packaged  with  the  collection  (see 
Section  6.  Packaging  Digital  Newspapers  for 
Preservation). 
Caution: BagIt  is  discussed  later  in Section 5. 
Checksum Management for Digital Newspapers
It should  be  noted that  if  you  have  previously 
placed your data into bags, moving or renaming 
the files will invalidate the bag manifest. If this 
is  the  case  it  is  advisable  either  to  rebag  the 
data  or  to  make  any  organization  changes 
before placing your data into bags. 
http://www.loc.gov/ndnp/guidelines/NDNP_201315
TechNotes.pdf
 
Case Study: Boston College 
Below is an example (not a standard) of a digital newspaper collection organization scheme as deployed 
by Boston College.  
bcheights................................................................................(collection title folder) 
|---2004.................................................................................(annual volume folder) 
|---04..............................................................................(monthly volume folder) 
|---06........................................................................(daily issue folder) 
|---bcheights_20040406.pdf 
|---bcheights_20040406_0001.jp2 
|---bcheights_20040406_0001.xml 
software application cloud:VB.NET PowerPoint: Process & Manipulate PPT (.pptx) Slide(s)
If you want to change the order of current library SDK, this VB.NET PowerPoint processing control powerful & profession imaging controls, PDF document, image
www.rasteredge.com
software application cloud:VB.NET PowerPoint: Use PowerPoint SDK to Create, Load and Save PPT
Besides, users also can get the precise PowerPoint slides count as soon as the PowerPoint document has been loaded by using the page number getting method.
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness 10 
Section 3. Format Management for Digital 
Newspapers
Section 3. Format Management for Digital Newspapers 
Rationale 
For more than a decade, newspapers have been digitized by an array of different institutions (libraries, 
commercial  vendors,  etc.)  according to  a variety  of  image, document  and  text  output specifications. 
During  this  same  timeframe,  institutions  have  been  acquiring  “born-digital”  newspaper  content, 
including both e-prints (often through the File Transfer Protocol (FTP) or hard drive exchanges from a 
publisher to a library) and web-based files (often “harvested” using web-capture tools like Heritrix
42
or 
obtained via FTP exchanges). The resulting digital newspaper files come in a variety of flavors, including 
those  typical  for  digitized  newspapers  (e.g.,  TIFF,
43
PDF/A,
44
JPEG2000,
45
XML,
46
etc.)  and  for “born-
digital”  newspaper  contents  (e.g.,  PDF,
47
various  image,  audio  and  multimedia  formats  HTML,
48
XHTML,
49
CSS,
50
JavaScript,
51
etc). 
42
Internet Archive, “Heretrix,” available at: https://webarchive.jira.com/wiki/display/Heritrix/Heritrix
.  
43
Adobe Systems Incorporated, “TIFF,” available at: http://partners.adobe.com/public/developer/tiff/index.html
.  
44
AIIM Standards Wiki, “PDF/A,” available at: http://pdf.editme.com/PDFA
.  
45
Joint Photographic Experts Group, “JPEG2000,” available at: http://www.jpeg.org/jpeg2000/index.html
.  
46
W3 , “XML 1.0,” available at: http://www.w3.org/TR/REC-xml/
.  
47
AIIM Standards Wiki, “PDF,” available at: http://pdf.editme.com/PDFREF
.  
48
W3 , “HTML,” available at: http://www.w3.org/html/
.  
49
W3 , “W3  XHTML2 Working Group Home Page,” available at: http://www.w3.org/MarkUp/
.  
50
W3 , “ ascading Style Sheets,” available at: http://www.w3.org/Style/CSS/
.  
51
Mozilla Developer Network, “JavaScript,” available at: https://developer.mozilla.org/en-
US/docs/Web/JavaScript
.  
Sound Practices 
In  order  to  ensure  the  longevity  of  digital 
newspaper content, an institution must identify 
what  file  formats  it  manages,  , validate these 
files  according  to  their  specifications,  and 
normalize and/or migrate these  files according 
to  the  institution’s  policy  decisions.  The 
processes  of  validation,  normalization,  and 
migration  of  newspaper  files  are  used  by 
institutions  to  ensure  that  newspaper  content 
can be effectively rendered over time. 
Identifying  file  formats  is  a  first  step  in 
understanding  what  file  types  an  institution  is 
managing.  As  described  previously,  recording 
this information in an inventory (see Section 1. 
Inventorying 
Digital 
Newspapers 
for 
Preservation) will help an institution track a 
range of file format complexities it will need to 
software application cloud:VB.NET PowerPoint: Extract & Collect PPT Slide(s) Using VB Sample
want to combine these extracted slides into a please read this VB.NET PowerPoint slide processing powerful & profession imaging controls, PDF document, image
www.rasteredge.com
software application cloud:VB.NET PowerPoint: Merge and Split PowerPoint Document(s) with PPT
of the split PPT document will contain slides/pages 1-4 code in VB.NET to finish PowerPoint document splitting If you want to see more PDF processing functions
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness 11 
Section 3. Format Management for Digital Newspapers
address  over  time  (including  format 
obsolescence and format changes). 
Format  validation,  briefly defined, is  a  process 
by  which  an  institution  assesses  the 
conformance of a file to its format specification 
(e.g.,  that  a  PDF  follows  the  internal  content, 
layout,  and  structure  rules  of  the  PDF 
specification)  and  checks  that  a  file  will  be 
rendered dependably by the programs designed 
for  that  format.  Validating  files  allows  an 
institution to catch and address errors (files that 
do not behave as they should). 
Normalization  is  the  process  of  converting 
numerous,  diverse  files  from  their  native 
formats  into  a  smaller  number  of  more  open, 
preservation-oriented  formats,  typically  upon 
deposit  or  ingest  (e.g.,  migrating  articles 
transcribed  through  OCR
52
from  Olive’s  PrXML 
to METS-ALTO). Migration more  generally may 
be employed to ensure that the content of a file 
type  that  is  facing  obsolescence  can  be 
rendered  into  a  new  format  (proprietary  or 
open). 
The  library/archive  communities  have  reached 
consensus  regarding  well-understood  high-
quality open archival formats for image-related 
collections like digital newspapers, namely TIFF, 
PDF/A,  and  to  some  degree  even  JPEG2000 
(lossless  or  lossy  compression  image  format). 
The  same  cannot  always  be  said  for OCR and 
other  article-level  transcriptions,  but  curators 
and  vendors  typically  aim  to  produce  XML-
based  formats  that  have  forward-migration 
pathways.  Born-digital  news  (e-prints)  may  be 
52
Library of  ongress, “National Digital Newspaper 
Program: Digitizing Microfilm and Optical Character 
Recognition,” December 2012, available at: 
http://www.loc.gov/ndnp/guidelines/digitizing.html
.   
contained  in  various  legacy  PDF  and  HTML 
versions,  and  web-based  content  (including 
social media content) may include a wide range 
of  file  formats,  depending  upon  the  particular 
born-digital newspaper. 
Once  an  institution  possesses  a  clear 
understanding of the range of different formats 
it  hosts,  it  may  determine  that  files  need 
normalization  or  migration  attention.  The 
decision to normalize or migrate formats should 
be thoroughly evaluated. Consultation with one 
or more format registries is a first step - this can 
help  an  institution  to  identify  potential 
migration  pathways  to  more  suitable  formats. 
The  institution  can  then  familiarize  itself  with 
various  tools  that  can  perform  necessary 
transformations. 
We note that normalization and migration  are 
still fraught topics in the library/archive realm, 
with passionate advocates both for and against 
employing  these  practices.  We  also  note  that 
format registries and migration tools are still in 
early  stages  of  development,  and  should  be 
used only after thorough consideration; it does 
not hurt to  cross-reference  these  registries.  In 
addition,  format  migration  does  not  require, 
nor  should  it  imply,  that  a  content  curator 
should dispose of the original or current format. 
It is  advisable to continue preserving  both the 
original  and  successor  formats  for  as  long  as 
resources permit. 
Tools 
Content curators need lightweight tools to help 
them determine the full  range of  different  file 
formats  that  comprise  their  digital  newspaper 
collections  and  assess  whether  these  file 
formats  are  valid  according  to  their 
specifications.  It  should  be  noted  that  format 
identification and validation tools are limited in 
software application cloud:VB.NET PowerPoint: Complete PowerPoint Document Conversion in VB.
contains PowerPoint documentation features and all PPT slides. to render and convert target PowerPoint document to or document formats, such as PDF, BMP, TIFF
www.rasteredge.com
software application cloud:VB.NET PowerPoint: Convert & Render PPT into PDF Document
Using this VB.NET PowerPoint to PDF converting demo code below, you can easily convert all slides of source PowerPoint document into a multi-page PDF file.
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness 12 
Section 3. Format Management for Digital Newspapers
the  types  of formats  that  they can  reasonably 
identify  and  validate  -  in  some  cases  multiple 
tools may  be needed to validate  outputs for a 
single  collection.  Some  format  identification 
and validation tools can also produce technical 
metadata (more on this in Section 3. Metadata 
Packaging for Digital Newspapers). 
Helpful  format  identification  and  validation 
tools include: 
  Apache Tika
53
  Digital Record and Object identification 
(DROID)
54
  JHOVE2
55
  Unix find
56
and file
57
commands 
  File Information Tool Set (FITS)
58
Normalization  and  migration  decisions  are 
ultimately  policy  decisions.  There  is no  “right” 
answer  regarding  whether  or  not  these 
53
Apache Software Foundation, “Apache Tika,” 
available at: https://tika.apache.org/
. Apache Tika 
has a number of use cases. Libraries are just recently 
starting to benchmark its usage for performing file 
format identification – see here:  
http://www.openplanetsfoundation.org/blogs/2013-
05-20-apache-tika-file-mime-type-identification-and-
importance-metadata
.  
54
UK National Archives, “Droid,” available at: 
http://digital-preservation.github.io/droid/
.  
55
“JHOVE2,” available at: 
https://bitbucket.org/jhove2/main/wiki/Home
56
LinuxQuestions.org, “Find,” available at: 
http://wiki.linuxquestions.org/wiki/Find
.  
57
LinuxQuestions.org, “File,” available at: 
http://wiki.linuxquestions.org/wiki/File_%28comma
nd%29
 
58
Harvard University Library Office for Information 
Systems, “File Information Tool Set,” available at: 
http://project.iq.harvard.edu/fits
.  
activities  are  necessary  or  advisable  for  a 
particular institution. In order to establish local 
policy,  an  institution  should  consider  the 
following: 
  Level of need: Does the institution have 
obsolete digital newspaper formats? 
  The viability of the institution’s current 
digital newspaper formats. 
  The  range  of  the  institution’s  current 
formats: Is it so broad that the institution’s 
ability  to  keep  track  of  viability  is 
compromised? 
  Resource  levels:  Is  it  feasible  for  the 
institution  to  test  and  run  any  format 
management tool? 
If  normalization  and/or  migration  are 
undertaken, the tools an institution uses should 
be thoroughly tested prior to implementation. 
Helpful format registries include: 
  Archiveteam File Format Wiki
59
  Library  of  Congress  Sustainability  of 
Formats
60
  PRONOM
61
  Unified  Digital  Formats  Registry 
(UDFR)
62
59
Archiveteam, “Archiveteam File Format Wiki,” 
available at: http://fileformats.archiveteam.org/
.  
60
Library of Congress, “Library of  ongress 
Sustainability of Formats,” available at: 
http://www.digitalpreservation.gov/formats/
.  
61
UK National Archives, “PRONOM Technical 
Registry,” available at: 
http://www.nationalarchives.gov.uk/PRONOM/Defa
ult.aspx
.  
62
alifornia Digital Library, “Unified Digital Format 
Registry (UDFR),” available at: http://udfr.cdlib.org/
.  
software application cloud:VB.NET PowerPoint: Add Image to PowerPoint Document Slide/Page
in Jpeg form, and users can change it to add, insert or delete any certain PowerPoint slide without powerful & profession imaging controls, PDF document, tiff
www.rasteredge.com
software application cloud:C# PowerPoint: C# Guide to Add, Insert and Delete PPT Slide(s)
file and it includes all slides and properties to view detailed guide for each PowerPoint slide processing & profession imaging controls, PDF document, tiff
www.rasteredge.com
Guidelines for Digital Newspaper Preservation Readiness 13 
Section 3. Format Management for Digital Newspapers
Helpful  format  normalization  and  migration 
tools include: 
  Adobe Image Processor
63
  ImageMagick
64
  Xena
65
Readiness Spectrum 
The complexities involved in managing formats 
for digital newspapers will vary depending upon 
two main factors: 
  The  range  of  formats  an  institution 
holds 
  The  institution’s  decisions  regarding 
normalization and migration activities 
Institutions  with  consistent  digital  newspaper 
collections  that  include  a  small  number  of 
formats  will  find  preservation  readiness  work 
easier  than  institutions  with  inconsistent 
collections  that  cover  a  wider  spectrum  of 
formats. And institutions that do not engage in 
format  migration/normalization  activities 
(whether  due  to  resource  or  policy-based 
decisions)  will  find  format  management  less 
time/resource  intensive,  at  least  in  the  short 
term. 
Initial  management steps  vary little  across the 
broad  readiness  spectrum.  Almost  any 
63
Adobe Systems Incorporated, “Image Processor 
Script,” available at: 
http://tv.adobe.com/watch/understanding-adobe-
photoshop-cs6/image-processor-script/
.  Adobe’s 
software requires a paid license, but it is widely used 
for bulk image format migrations. 
64
ImageMagick Studio LL , “ImageMagick,” available 
at: http://www.imagemagick.org/
.  
65
National Archives of Australia, “Xena – Digital 
Preservation Software,” available at: 
http://xena.sourceforge.net/
.  
institution  will  be  able  to  complete  the 
following tasks: 
  Identify  and  document  its  digital 
newspaper  file  formats  using  tools 
like DROID,  which  has  a  graphical  user 
interface (GUI) and links to PRONOM 
  Evaluate  and  make  determinations 
about sustainability issues presented by the 
various  identified  formats  (using the 
Archiveteam  File  Format  Wiki,  UDFR, 
PRONOM,  and/or  the Library  of  Congress 
Sustainability of Formats website) 
  Establish 
policies 
regarding 
normalization and migration 
  Normalize  or migrate files  deemed  “at 
risk”  (e.g.,  using  tools  like  Adobe  Image 
Processor, ImageMagick, or Xena) 
More advanced institutions may: 
  Identify,  validate  and  normalize/ 
migrate  formats  by  using  command-line 
oriented tools such as Apache Tika, JHOVE2, 
FITS,  Unix  programs  like  the  find  and  file 
commands (or their  corollaries in other OS 
environments)  combined  with  shell  scripts 
and ImageMagick. 
The essential and optimal steps are described in 
more detail below. 
Essential Readiness 
Institutions  with  limited  resources  can  fulfill 
the essential steps in preservation readiness by 
documenting  the  formats  they  are  managing 
and  the  potential  sustainability  issues 
associated with these formats. If the institution 
is managing reliable formats (i.e.,  formats that 
are not obsolete or in danger of obsolescence in 
the near-term), a regular process of re-checking 
and carefully documenting the file formats in its 
collections can suffice for a basic preservation  
Guidelines for Digital Newspaper Preservation Readiness 14 
Section 3. Format Management for Digital Newspapers
readiness  step  in  the  short  term.  If  the 
institution identifies obsolescence issues for any 
of  the  formats  it  manages, however, it  should 
strongly consider migrating the at-risk files to a 
stable file format (remember that this does not 
need  to  lead  to  removing  support  for  the 
original format). 
File  identification  is  the  first  step  in  format 
management, and there are a number of ways 
to  fulfill  this  step.  One  lightweight  way  an 
institution  with  limited  time  or  modest 
technical  skills  may  accumulate  basic 
knowledge about its file formats is to work with 
a technical staff person or system administrator 
to install  a tool like DROID that has a graphical 
user  interface  (GUI)  and  has  direct  links 
to PRONOM, one of the longer-standing format 
registries.  Once the institution understands the 
format  types  it  holds and their associated  risk 
factors,  the institution may  make  policy-based 
decisions  regarding  what  normalizing  and 
migration  activities  it  must  take  and  what 
staffing/resources  will  be  required  or 
partnerships  it  will  need  to  form  in  order  to 
accomplish this further work. Xena (see above) 
is a well-documented format normalization tool 
that  also  has  a  GUI  that  should  be  relatively 
easy for an institution to begin working with.  
Optimal Readiness 
An  institution  with  more  time,  expertise,  and 
resources to expend should pursue a multi-step 
workflow  to  identify  and  address  problematic 
formats in its collections. 
Institutions  with  more technical  staffing might 
prefer  to  use  more  advanced  command-line 
approaches.  Unix  programs  such  as 
the find and file commands  (or  similar  tools  in 
other OS environments) can be used in concert 
with  a  shell  script  to  create  a  per-file  list  of 
MIME type values at a top-level or sub-directory 
level. This list can then be exported to a tabular 
format  (e.g.,  TXT,  TSV,  or  CSV)  for  further 
analysis and format tracking. The institution can 
store  this  output  file  and/or  any  derivations 
(e.g.,  XLS,  TXT,  DOCX,  PDF,  etc.)  in  a  sub-
folder(s) along with the corresponding directory 
of  analyzed  files.  Ideally,  the  directory  name 
and date should be included in the filename(s) 
of this file(s). If files are added to the collection 
over time, the commands can be re-run, and a 
new set of  outputs stored.  Tools, such as FITS, 
go  a  step  further  to  not  only  identify  file 
formats  but validate their conformance  to the 
format. They can also provide report outputs in 
several  tabular  formats  such  as  those 
mentioned above, as well as in XML. 
Case Study: Boston College 
Boston College has digitized several of its campus newspapers in accordance with the National Digital 
Newspaper Technical  Guidelines.  This  has  provided  Boston  College  with  several  high-quality  archival 
page scans in both TIFF and JPEG2000 formats. 
To conserve storage space Boston College has opted to prioritize its JPEG2000 images as preservation 
masters (TIFFs can be quite large). This retains the legibility of text and graphics. Due to the amount of 
white  space  they  included,  the  images  were  eligible  for  some  small  amount  of  compression.  While 
JPEG2000 is not as widely adopted as TIFF, Boston College believes this will change and the format still 
satisfies the criteria for being non-proprietary and open source. 
Boston College has also tested the conversion from JPEG2000 back to TIFF with satisfying results. 
Guidelines for Digital Newspaper Preservation Readiness 15 
Section 3. Format Management for Digital Newspapers
Once  the  institution  has  this  basic  knowledge 
about the file formats it manages, it can explore 
and  experiment  with  some  of  the  nascent 
format registries to determine any sustainability 
issues  that  these  formats  may  present  (e.g., 
obsolescence,  lack  of  open  standards, 
backwards  compatibility  issues,  etc.).  An 
institution can conduct this research using the 
Archiveteam File Format Wiki, UDFR, PRONOM, 
and/or the Library of Congress Sustainability of 
Formats website.  For  example,  an  institution’s 
analysis  of  its  file  formats  may  reveal  several 
born-digital  newspaper  files  in  the  HTML 
2.0 format.  With  this  information,  the 
institution  could  then  turn  to  the  UDFR  and 
perform a search on HTML 2.0 and return a full 
format  profile,  identify  its  successor  format 
versions  (in  this  case HTML  3.2,  4.0,  and 
XHTML),  the  applications  that  were  able  to 
output  files  into  this  format,  and  the 
applications that can successfully render HTML 
2.0 documents. 
This  institution  can  then  set  up  a  test-bed 
environment  for  experimenting  with migration 
and  normalization  tools  like ImageMagick  or 
Xena.  Using  subset  copies  of  its  born-digital 
newspaper  content  the  institution  could 
experiment  with  Xena’s  in-built  features  for 
converting this legacy HTML content into valid 
XHTML. 
Once the format risk factors and the migration 
pathways  are  both  known  and  thoroughly 
tested,  the  institution  can  make  a  policy 
decision  regarding  normalization  and/or 
migration  for  files  stored  in  this  format. 
Depending upon the policy, the institution may 
choose to normalize, migrate, and/or continue 
to store its current format types. 
Downloading, installing, and testing the various 
utilities and tools mentioned above will require 
work by technical staff, curators, or consultants 
with command-line experience. Structuring and 
66
This was accomplished using a script program 
known as bag-describe developed in the Chronicles 
in Preservation program. It invokes the FCLA Format 
Description Service to generate PREMIS technical 
metadata for all objects contained within a Bag. That 
script is documented and available at: 
https://github.com/MetaArchive/bag-describe
. The 
hosted service is available at: 
http://description.fcla.edu/
Case Study: Virginia Tech 
Virginia Tech has been a leader in working with publishers of born-digital newspapers to archive those 
publishers’ PDFs and web files. 
To better manage and preserve the born-digital web files under its care, Virginia Tech migrated early 
versions of this HTML content to the more recent HTML 4.0. Though this was a significant undertaking it 
enabled Virginia Tech to apply better consistency and reliability for the rendering of this unique content. 
Through its participation in the NEH-funded Chronicles in Preservation project, Virginia Tech was also 
given  the  opportunity  to  apply  leading  format  identification  and  validation  tools  such  as DROID, 
JHOVE2, and FITS.  These  tools  were  especially  helpful  for  characterizing  its  early  versions  of  PDF 
content. 
In  addition,  the  Chronicles  in  Preservation  project  enabled  Virginia  Tech  to  make  use  of  the FCLA 
Description Service
66
to generate technical metadata for its born-digital file formats. 
Guidelines for Digital Newspaper Preservation Readiness 16 
Section 3. Format Managem
ent for Digital Newspapers
making  sense  of  the  outputs  from  such  tools 
will also require some investment of time (and 
patience). 
Finally, performing format migrations requires a 
larger  resource  investment  than  other  format 
management steps. To  perform migrations, an 
institution should ideally set aside a workstation 
with adequate space, processing capability, and 
configurations  for  a  proper  test-bed 
environment.  The  institution  will  need  to 
determine and test the proper migration tools, 
a task that will necessarily involve both curators 
and  staff  with  experience  in  installing  and 
configuring  open-source  software.  The 
institution  should run  sample  conversions  and 
perform  manual  quality  checks  prior  to  any 
batch migrations,  and  all  migrations  should be 
deployed in accordance with institutional policy 
documentation. 
Coordination 
between 
technicians  and  curators  will  be  needed 
throughout the migration process. 
Documents you may be interested
Documents you may be interested