Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
D4.1 Recommendations for 
metadata and data formats for 
online availability and long-term 
preservation 
Succeed 
16/01/2014
Abstract 
This deliverable was prepared as part of the WP4 of the Succeed project. The objective of 
WP4 is to support the EC in the scope of activities identified in the Digital Agenda for 
Europe, by recommending a set of guidelines, formats, standards and licenses for 
digitization activities, both in terms of data and tools. The aim is to facilitate the 
implementation of digitization activities in the European institutions, by making the 
necessary tools and resources more interoperable, easily accessible and usable. This 
report provides a set of recommendations on formats and standards for digitization 
related activities, especially in the context of text/printed materials with focus on online 
delivery of digital objects and long-term preservation.   
Pdf metadata editor - add, remove, update PDF metadata in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata
remove pdf metadata online; metadata in pdf documents
Pdf metadata editor - VB.NET PDF metadata library: add, remove, update PDF metadata in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Enable VB.NET Users to Read, Write, Edit, Delete and Update PDF Document Metadata
pdf xmp metadata editor; c# read pdf metadata
C# HTML5 PDF Viewer SDK to view, annotate, create and convert PDF
An advanced PDF editor enable C# users to edit PDF text, image and pages in Visual Studio .NET project. Use HTML5 PDF Editor to Edit PDF Document in ASP.NET.
pdf metadata online; adding metadata to pdf files
C# TIFF: TIFF Metadata Editor, How to Write & Read TIFF Metadata
C# TIFF - Edit TIFF Metadata in C#.NET. Allow Users to Read and Edit Metadata Stored in Tiff Image in C#.NET Application. How to Get TIFF XMP Metadata in C#.NET.
extract pdf metadata; remove metadata from pdf file
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 4/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Table of Contents 
1.  Introduction........................................................................................................................ 6 
2.  Existing recommendations................................................................................................ 7 
2.1  IMPACT project recommendations ........................................................................... 7 
2.2  JISC Digital Media Guidelines.................................................................................. 7 
2.3  Recommendations of the Bibliothèque nationale de France ................................... 8 
2.4  New York State Archives – Imaging Production Guidelines ................................. 10 
2.5  The NARA Technical Guidelines for Digitizing Archival Materials for Electronic 
Access ....................................................................................................................................11 
2.6  NISO Framework of Guidance for Building Good Digital Collections ................. 12 
2.7  California Digital Library Guidelines for Digital Objects and File Format 
Recommendations ............................................................................................................... 13 
2.8  DFG-Praxisregeln “Digitalisierung” [DFG guidelines on digitization] ................ 15 
2.9  The Getty Research Institute online resources ...................................................... 16 
2.10 
Universal Photographic Digital Imaging Guidelines ......................................... 16 
2.11 
Federal Agencies Digitization Initiative Guidelines .......................................... 17 
2.12 
Technical Guidelines for Digital Cultural Content Creation Programmes 
(MINERVA project).............................................................................................................. 19 
2.13 
The National Digital Newspaper Program - Technical Guidelines for 
Applicants ............................................................................................................................ 21 
2.14 
Images for web delivery – standards, image capture standards, metadata for 
images created by the National Library of Australia....................................................... 22 
2.15 
University of Virginia Library – community digitization guidelines ............... 23 
2.16 
Image Specifications and Functional Requirements for Citation Capture 
(PubMed Central Back Issue Scanning Project)............................................................... 24 
2.17 
Picture Queensland Image Digitisation Manual 2007....................................... 25 
2.18 
Summary of existing recommendations .............................................................. 27 
3.  Related work – ongoing and emerging activities .......................................................... 31 
3.1  Semantic technologies .............................................................................................. 31 
Digitised Manuscripts To Europeana............................................................................. 31 
Europeana Data Model and Functional Requirements for Bibliographic Records .... 33 
Linked Heritage project .................................................................................................. 34 
3.2  OCR and linguistic resources .................................................................................. 35 
Analysed Layout and Text Object (ALTO) ..................................................................... 35 
Page Analysis and Ground-Truth Elements (PAGE) .................................................... 37 
Europeana Newspapers project ...................................................................................... 41 
Text Encoding Initiative .................................................................................................. 42 
Lexical Markup Framework ........................................................................................... 44 
The Open Language Archives Community .................................................................... 45 
Medieval Unicode Font Initiative................................................................................... 46 
3.3  Relevant ERICs......................................................................................................... 47 
Digital Research Infrastructure for the Arts and Humanities (DARIAH) ................. 47 
Common Language Resources and Technology Infrastructure (CLARIN) ................. 48 
VB.NET PDF- HTML5 PDF Viewer for VB.NET Project
ASP.NET PDF Viewer; VB.NET: ASP.NET PDF Editor; VB.NET to PDF. Image: Remove Image from PDF Page. Image Link: Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
add metadata to pdf; embed metadata in pdf
C# PDF Library SDK to view, edit, convert, process PDF file for C#
HTML5 PDF Editor enable users to edit PDF text, image, page, password and so on. C#.NET: WPF PDF Viewer & Editor. C#.NET: Edit PDF Metadata.
remove pdf metadata; edit pdf metadata acrobat
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 5/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
3.4  Application packaging .............................................................................................. 48 
3.5  Summary of ongoing and emerging activities ........................................................ 50 
4.  Succeed survey on formats and standards .................................................................... 52 
4.1  Purpose and scope..................................................................................................... 52 
4.2  Methodology .............................................................................................................. 52 
4.3  Analysis of results .................................................................................................... 53 
5.  Succeed recommendations .............................................................................................. 66 
5.1  Long-term preservation............................................................................................ 67 
5.2  Online delivery.......................................................................................................... 72 
5.3  Advanced and supporting technologies................................................................... 74 
6.  Summary .......................................................................................................................... 76 
Bibliography ............................................................................................................................ 79 
Glossary of acronyms.............................................................................................................. 80 
Attachement A. Succeed survey questionnaire .................................................................... 84 
C# TIFF: TIFF Editor SDK to Read & Manipulate TIFF File Using C#.
1. Extract text from Tiff file. 2. Render text to text, PDF, or Word file. Tiff Metadata Editing in C#. Our .NET Tiff SDK supports editing Tiff file metadata.
batch update pdf metadata; pdf metadata
How to C#: Basic SDK Concept of XDoc.PDF for .NET
XDoc.PDF for .NET supports editing PDF document metadata, like Title, Subject, Author, Creator, Producer, Keywords, Created Date, and Last Modified Date.
read pdf metadata java; view pdf metadata
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 6/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
1.  INTRODUCTION 
This report provides a set of recommendations on formats and standards related to 
digitization  activities,  especially  in  the  context  of  text/printed  materials.  The 
recommendations were identified based on existing recommendations, ongoing and 
emerging activities as well as an analysis of a dedicated survey conducted among 
digitization practitioners from various institutions across the world, including museums, 
libraries and archives. The aim of this report is to provide a set of recommendations, 
which are aligned with best practices of the most active digitization practitioners, 
especially those coming from Europe. The report also points out recommendations 
related to emerging standards and approaches as well as best practices, which are not 
entirely identified in the current digitization related activities. 
This  report  is  composed  of  four  main  parts,  including  a  summary  of  existing 
recommendations, a summary of related ongoing and emerging activities, an analysis of 
the conducted survey and a set of Succeed project recommendations. Section 2 (existing 
recommendations) is intended to provide an overview of formats, standards and practices 
already applied in the digitization-related field. Each item described in this section has 
been supplemented with a summary table, providing the most valuable information to be 
considered when elaborating Succeed project recommendations. Altogether 17 existing 
recommendations or practices have been analyzed. Section 3 (ongoing and emerging 
activities) provides an overview of ongoing and emerging activities, which are the most 
interesting in the context of digitization. Described items include recent projects, 
innovative solutions and good practices that can contribute to Succeed recommendations, 
by showing mature and new approaches implemented or being implemented. Topics 
covered by this section include semantic technologies, OCR and linguistic resources, 
activities of relevant European Research Infrastructures as well as tools packaging. 
Section 4 provides a set of Succeed project recommendations, including those related to 
long-term  preservation,  online  delivery  of  information  as  well  as  advanced  and 
supporting technologies that can be used to improve and innovate digitization. Finally, 
the last section of this document is a summary and provides a concise view on Succeed 
recommendations, including overview tables and conclusions. 
It is important to note that authors of this report assume that readers have basic 
knowledge  of  digitization-related  concepts,  such  as  metadata  types  (descriptive, 
structural, administrative), file types (master files, production files, delivery files), OCR, 
etc. 
This report has been prepared in the framework of Succeed project, which is supported 
by the European Union under FP7-ICT and coordinated by Universidad de Alicante.  
C# PDF File Compress Library: Compress reduce PDF size in C#.net
Comments, forms and multimedia. Document and metadata. All object data. Detect and merge image fragments. Flatten visible layers. C#.NET DLLs: Compress PDF Document
pdf metadata extract; pdf metadata reader
C# PDF Convert to HTML SDK: Convert PDF to html files in C#.net
Convert PDF to HTML. |. C#.NET PDF SDK - Convert PDF to HTML in C#.NET. How to Use C# .NET XDoc.PDF SDK to Convert PDF to HTML Webpage in C# .NET Program.
pdf xmp metadata viewer; pdf metadata viewer online
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 7/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
2.  EXISTING RECOMMENDATIONS 
This section summarizes existing recommendations and practices, which are related to 
digitization. Investigated aspects include metadata and data formats for online delivery 
and long-term archival of printed/text materials. For each item described in this section 
a summary table is provided. Such a table indicates the most important formats and 
standards that are recommended by described item. The idea of this section is to provide 
an overview of existing recommendations and practices, which can be taken into 
considerations during elaboration of Succeed project recommendations. The last section 
of this chapter provides statistics of all items described in this section. None of the items 
described in this section is older than 2004. 
2.1 IMPACT project recommendations   
The  IMPACT project provides recommendations
2
on creation and management of 
metadata and images, including considerations related to image file formats. Therefore 
in case of metadata, specific formats and standards have been identified as candidates 
for  use,  while  in  case  of  file  formats  each  candidate  has  also  most  important 
characteristics  described.  Table  1  presents  a  summary  of  the  IMPACT  project 
recommendations.  The  recommendations were prepared in the framework of  the 
IMPACT project (years 2008-2012). 
Table 1 Summary of IMPACT project recommendations 
File Formats 
Master files 
TIFF, JPEG2000, PNG 
Delivery files 
JPEG, JPEG2000, PNG, GIF 
Metadata formats 
Descriptive 
MARC, MODS, Dublin Core, EAD, TEI header 
Structural 
METS, MPEG-21 DIDL, OAI-ORE, TEI (textual content) 
Administrative 
textMD, NISO Z39.87 (MIX), PREMIS, NLNZ Preservation Metadata, LMER 
Other formats 
OCR output 
ALTO 
Linguistic 
resources 
Tools packaging 
Other 
2.2 JISC Digital Media Guidelines 
The JISC Digital Media Guidelines
3
provide an overview of factors that should be 
considered before choosing a file format, and suggest suitable file formats for specific 
applications. They also provide a comprehensive look at the various metadata standards 
2
http://www.digitisation.eu/fileadmin/user_upload/240/docbook/media/795a62a4-913d-ef04-1db7-
3ac7ca3b28c0.pdf  
3
http://www.jiscdigitalmedia.ac.uk/guide/basic-guidelines-for-image-capture-and-optimisation   
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 8/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
choices available to the developer of multimedia collections, and the principles behind 
using them. This summary is based on the sections related to choosing a file format for 
digital still images and metadata standards and interoperability. Table 2 presents a 
summary of the guidelines. 
Table 2 Summary of JISC Digital Media Guidelines 
File Formats 
Master files 
DNG, TIFF, PNG, possibly PSD 
Delivery files 
JPEG, PNG, GIF, JPEG2000 
Metadata formats 
Descriptive 
MODS, Dublin Core 
Structural 
CMS, MPEG-21 DIDL, MPEG-21 for video 
Administrative 
METS Rights, MPEG RDD, PREMIS 
Other formats 
OCR output 
Linguistic 
resources 
Tools packaging 
Other 
PSD is marked as a possible master file format. This is understood as an alternative to 
choosing whether to archive before or after optimization. The idea is to use the 'layers' 
features of Photoshop and save the image as a PSD file. This proprietary file format 
allows both the original image (un-optimized) and any optimization to be stored within 
the same file. The PSD file is however a proprietary format and its use should therefore 
be approached with great care. 
2.3 Recommendations of the Bibliothèque nationale de France 
The guidelines have been prepared by the Digitization Service of the Bibliothèque 
nationale de France (BnF). The current revision of the document is from November 8th 
2013. The purpose of this publication is to document all requirements for image capture, 
metadata identification, OCR and ebook production, for the materials scanned as part of 
the BnF digitization programs. These guidelines and requirements are intended for 
service providers, institutions (libraries, archive centers) and others actors of cultural 
data  digitization.  The  guidelines  are  relevant  for  manuscripts,  books,  graphic 
illustrations, artwork, maps, plans, photographs, objects and artifacts. Table 3 presents 
a summary of the guidelines. 
Table 3 Summary of National Library of France recommendations 
File Formats 
Master files 
TIFF, JPEG2000 (2014) 
Delivery files 
Textual content: HTML, PDF with text layer, TXT; Still images: JPEG, 
JPEG2000 
Metadata formats 
Descriptive 
Proprietary format, METS (2014) 
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 9/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Structural 
Proprietary format, METS (2014) 
Administrative 
Proprietary format, METS (2014) 
Other formats 
OCR output 
ALTO, PDF with text layer, TXT, TEI (navigation tables) 
Linguistic 
resources 
Tools packaging 
Other 
ePub 
These guidelines (“référentiels” in French) are organized as several separate documents 
related to various tasks and themes: image digitization, text conversion, metadata 
identification, file delivery, etc. Important aspects in these themes are described below. 
Image digitization 
The guidelines suggest using an Adobe RGB ICC 98 color profile. All documents should 
be digitized using 24-bit depth except newspapers (8-bit greyscale). Seven resolutions are 
specified for different use cases, but the more common are 400 dpi and 600 dpi. TIFF V6 
(monopage,  uncompressed)  is  used  as  the  raster  image  format  for master  files. 
JPEG2000 will be introduced in 2014 as the standard format for master files. The 
guidelines are available for opaque documents and transparent documents. 
Text conversion (OCR) 
The OCR guidelines focus on different tasks, including rules for OCR processing of 
documentary  heritage  (segmentation/structuring,  recognition  quality  of  textual 
contents), rules for implementing the ALTO format, quality control applied by the BNF 
QC team on contents produced (automatic control, visual inspection). A flavor of the 
ALTO LoC format is used, called “ALTO-prod”
4
Text conversion (navigation table) 
The navigation tables are used in the digital library website. They help readers to access 
to the digital content. The table guidelines focus on different tasks, including rules for 
page  conversion  of  tables  of  contents  and  index  in  legacy  documents,  rules  for 
structuration and transcription of these tables, rules of disqualification and simplifying 
of these tables, quality control applied by the BnF on the tables produced. The format for 
representing these navigation tables is an in-house XML format called “tdmNum”. It‟s a 
XML schema based on TEI P4. 
Text conversion (ePub) 
The ePub guidelines focus on different tasks, including rules for converting legacy 
documents  into  digital  book  (editorial  choices,  technical  requirements,  etc.), 
requirements for the correction of the textual content, catalog metadata to be embedded 
in the ePub metadata, mechanisms used to improve accessibility (e.g. ePub 3 logical 
structuration), technical characteristics expected, technical and visual inspections 
4
http://bibnum.bnf.fr/alto_prod/documentation/alto_prod.html   
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 10/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
performed by the BNF QC team. The ePub version described in the guidelines is ePub 
3.0. The ePub version used in production is ePub 2.01. 
Metadata 
The metadata guidelines focus on different tasks, including rules for identification and 
description of heritage documents to create digital copies, rules for creating the lookup 
table physical document/digital document, rules for entering production data (types and 
levels of operations, dates, actors involved, hardware and software used, results found), 
rules for entering comments and captions. The format for representing these descriptive 
metadata is an in-house XML format called “refNum” (a METS flavor). METS will be 
introduced in 2014 in substitution of refNum. 
Files delivery 
The guidelines describe the architecture of the digital document package: folder names, 
hierarchy, etc. The package is a .zip archive, a .tar archive, or a zipped .tar archive. The 
formats for all the delivery files types are described in the other guidelines. 
Diffusion formats 
The guidelines don‟t suggest any specific format: the files are produced in-house (PDF, 
TXT,  JPEG  and  JPEG2000). The only exception concerns the ebooks production, 
described in the ePub guidelines. 
2.4 New York State Archives – Imaging Production  Guidelines 
The document
5
lists the minimal standards for producing and inspecting digital images 
of records. Table 4 presents a summary of the guidelines. The guidelines were published 
in 2008. 
Table 4 Summary of New York State Archives - Imaging Production Guidelines 
File Formats 
Master files 
TIFF 
Delivery files 
TIFF, JPEG, JPEG2000, PDF/A 
Metadata formats 
Descriptive 
Structural 
Administrative 
Other formats 
OCR output 
ASCII, Unicode, XML 
Linguistic 
resources 
Tools packaging 
Other 
5
http://www.archives.nysed.gov/a/records/mr_erecords_imgguides.pdf   
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 11/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Master images should be at minimum 200dpi, for greyscale 8-bit depth, for color 16-36-
bit depth. The images should be uncompressed. Backup images can be compressed using 
latest ITU standard compression. If delivery files need to be different from the master 
files then other formats and compressions are allowed. In case of compression, one 
should maintain uncompressed record copies to ensure easy accessibility to the image 
over time. Delivery files can be compressed using non-proprietary, lossless compression 
algorithms. They should be scaled so most documents fit within the typical computer 
screen or window for the given application. For instance, a particular application may 
require documents be scaled to half their size or less to comfortably fit a screen. 
All images cannot have proprietary headers. Image orientation should be upright 
(portrait or landscape orientation should be maintained). 
2.5 The NARA Technical Guidelines for Digitizing Archival Materials for Electronic 
Access 
The U.S. National Archives and Records Administration (NARA) Technical Guidelines 
for Digitizing Archival Materials for Electronic Access
6
define approaches for creating 
digital surrogates for facilitating access and reproduction; they are not considered 
appropriate for preservation reformatting to create surrogates that will replace original 
records. The Technical Guidelines presented here are based on the procedures used by 
the Digital Imaging Lab of NARA‟s Special Media Preservation Laboratory for digitizing 
archival records and the creation of production master image files, and are a revision of 
the 1998 “NARA Guidelines for Digitizing Archival Materials for Electronic Access”, 
which describes the imaging approach used for NARA‟s pilot Electronic Access Project. 
The Technical Guidelines are intended to be informative, and not intended to be 
prescriptive. They provide a technical foundation for digitization activities, and a range 
of options for various technical aspects of digitization, primarily relating to image 
capture. Table 5 presents a summary of NARA guidelines. The guidelines were published 
in June 2004. 
Table 5 Summary of NARA technical guidelines 
File Formats 
Master files 
TIFF 
Delivery files 
JPEG, JPEG2000, GIF, PDF 
Metadata formats 
Descriptive 
Dublin Core, MARC 
Structural 
METS 
Administrative 
Other formats 
OCR output 
Linguistic 
resources 
6
http://www.archives.gov/preservation/technical/guidelines.pdf   
Documents you may be interested
Documents you may be interested