download pdf c# : View pdf metadata control application utility azure html web page visual studio Succeed_600555_WP4_D4.1_RecommendationsOnFormatsAndStandards_v1.13-part109

Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 32/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Pundit, the semantic annotation tool developed by Italian SME Net7 as part of the 
DM2E project and other EC-funded projects, won the LODLAM (Linked Open Data in 
Galleries, Libraries, Archives and Museums) challenge in June 2013. 
Principles 
Linked Data is the paradigm that drives the whole DM2E infrastructure. The DM2E 
model reflects this by explicitly defining classes for datasets and published data 
resources. This way, the meta-level of resource descriptions becomes a first-class member 
of the data model and can be used for annotations and provenance tracking. 
The specification document
17
describes the DM2E data model in its first operational 
version. It extends DM2E v0.2 of the DM2E project and is the current specialization of 
the Europeana Data Model (EDM) made by DM2E. The DM2E Model reuses as many 
existing properties and classes from other ontologies as possible. 
DM2E enables organizations to link sections of text to each other or to other Linked 
Data resources on the Internet such as DBPedia, Freebase and Geonames. In case a text 
document comes with a microstructure including sub-entities identified by URIs such 
structures can be used transparently – or else a highlighting function will be available 
that would as well enable the highlighting of image areas. 
Use cases 
Pundit developed by the DM2E project partners, is a semantic annotation tool for Digital 
Humanities that enables scholars to annotate digitized manuscripts and is already being 
used to annotate the digitized manuscripts being made available to the project. 
In March 2013, 5000 pages of Wittgenstein Archive were introduced into Pundit and a 
group of scholars is now doing humanities research with this tool. This pilot has been a 
great way to collect feedback from a scholarly community and further develop Pundit to 
the needs of humanities researchers. At present an international group of scholars is 
using Pundit to annotate Wittgenstein‟s work as part of a DM2E research experiment 
called the Wittgenstein Incubator. 
Finally, August saw the publication of a paper written by Alois Pilcher of the University 
of  Bergen  and  leader  of  the  Wittgenstein  Incubator  initiative,  which  will  see 
Wittgenstein scholars work with digitized Wittgenstein manuscripts held at Bergen. The 
paper entitled “Sharing and debating Wittgenstein by using an ontology” was published 
in the journal of Literary and Linguistic Computing and draws heavily on the research 
and work related to the DM2E project. 
Moreover, University Library Johann Christian Senckenberg in Frankfurt will provide a 
set of medieval manuscripts using DM2E model. Adding these collections to Europeana 
via the DM2E project will result in richer metadata that can greatly improve the 
research possibilities for humanities scholars.  
17
http://dm2e.eu/document/#DM2EModelSpecification   
View pdf metadata - add, remove, update PDF metadata in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata
pdf xmp metadata editor; rename pdf files from metadata
View pdf metadata - VB.NET PDF metadata library: add, remove, update PDF metadata in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Enable VB.NET Users to Read, Write, Edit, Delete and Update PDF Document Metadata
pdf metadata viewer; add metadata to pdf programmatically
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 33/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Advantages and drawbacks 
Advantages include the following: 
Adding the new collections to Europeana via DM2E will result in richer metadata 
that can greatly improve the possibilities for humanities scholars for research 
Pundit will make it easier for libraries, archives and museums to provide data on 
their collections to Europeana and avoid the time-consuming (and sometime 
inaccurate) job of mapping the various data formats of third-party archives to 
Europeana's overarching classification system 
Drawbacks include the following: 
The software Pundit is currently in testing phase in several institutions 
An open issue of consistency check and update to the newest EDM version 
As a content provider, the content you deliver to DM2E will be integrated into the 
Europeana platform at the end of the project. For this reason, the digital objects 
made available by the institution (facsimiles, full-text transcriptions, etc.) need to 
be licensed in accordance with Europeana requirements 
Europeana Data Model and Functional  Requirements for Bibliographic  Records 
Overview 
The EDM – FRBRoo Application Profile Task Force (EFAP-TF) was launched in response 
to a recommendation from Europeana V1.0, a project which had the core task of 
transforming the Europeana prototype into an operational service. This recommendation 
asked for an application profile that would allow a better representation of the FRBR 
group 1 entities: work, expression, manifestation and item.  
The Final Report on EDM – FRBRoo Application Profile Task Force
18
identifies two 
important motivations for understanding its findings: 
The application profile is not a prescriptive framework for producing new object 
representation metadata within Europeana, it is not a set of cataloguing rules – 
instead it is strictly limited to the mapping of existing source data to a specialized 
EDM framework. 
The intention is to create buy-in from two communities – the Europeana 
community and the FRBRoo community – in order to make the connection of the 
two worlds as seamless as possible. This motivation had some influence on the 
composition of the Task Force in that there is a conscious effort to include people 
from the FRBRoo context. 
Principles 
The measurements of success for the Task Force are considered to be the timely 
deliverable of: 
Combined model in terms of properties and classes 
18
http://pro.europeana.eu/documents/468623/1760978/TaskfoApplication+Profile+EDM-FRBRoo   
VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
View PDF in WPF. Annotate PDF in WPF. Export PDF in to PDF. Image: Remove Image from PDF Page. Image Link: Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
batch pdf metadata editor; batch update pdf metadata
VB.NET PDF Library SDK to view, edit, convert, process PDF file
Offer professional PDF document metadata editing APIs, using which VB.NET developers can redact, delete, view and save PDF metadata. PDF Document Protection.
view pdf metadata in explorer; analyze pdf metadata
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 34/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Principles for modelling and mapping rules 
The deliverable will be used by those who model derivative relations in the Europeana 
Data Model. The final report delivers combined models in terms of properties and classes 
of EDM and FRBRoo supported by three example data samples provided by the Task 
Force. 
Linked Heritage project 
Overview 
Linked Heritage
19
is an EU co-funded project that aims to extend and enrich the 
metadata holdings of the Europeana digital library. The project builds on the earlier 
Athena project
20
and runs from April 2011 until 30th September of 2013. The project had 
tackled a number of tasks, including the coordination of terminologies, standards and 
technologies used, linking of cultural heritage data into the semantic web, training, and 
the ingestion of assets into the Europeana collection itself. 
The Linked Heritage consortium, continuing the work of the earlier ATHENA and 
MINERVA
21
projects, has developed a well understood and tested standard method for 
aggregating  cultural  heritage  data  for  preservation,  standards  development  and 
experimentation, and contribution to Europeana. 
It is important to note that the main items highlighted in Linked Heritage were about 
web semantic, linked data and the state of the art in cultural metadata models (in 
particular their interoperability across libraries, museums, archives, publishers, content 
industries, and the Europeana models). 
This project is as a first investigation to determine the precise extent of progress in 
practical semantic interoperability between the whole cultural heritage and commercial 
sectors. 
Standards for use in linked heritage 
Based on the survey conducted by the project it was decided to use LIDO as the primary 
metadata  standard  for  aggregation  within  the  Linked  Heritage  project.  LIDO 
(Lightweight Information Describing Objects) is the result of a collaborative effort of 
international  stakeholders in the museum sector to create a common solution for 
contributing cultural heritage content to portals and other repositories of aggregated 
resources, as well as exposing, sharing and connecting data on the web. 
Further criteria for the selection LIDO cover: 
Being built upon previous work, and the large experience of international 
stakeholders in the museum documentation area, LIDO gained a widespread 
19
http://www.linkedheritage.org/   
20
http://www.athenaeurope.org/   
21
http://www.minervaeurope.org/   
C# PDF Library SDK to view, edit, convert, process PDF file for C#
RasterEdge WPF PDF Viewer provides C# users abilities to view, annotate, convert and create PDF in WPF application. C#.NET: Edit PDF Metadata.
delete metadata from pdf; remove metadata from pdf file
VB.NET PDF - View PDF with WPF PDF Viewer for VB.NET
View PDF in WPF. Annotate PDF in WPF. Export PDF in to PDF. Image: Remove Image from PDF Page. Image Link: Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
adding metadata to pdf; bulk edit pdf metadata
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 35/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
adoption in a very short amount of time. It has established a large user base and 
support within the CIDOC
22
community. 
LIDO‟ s interoperability has been proved with metadata used by the different 
content providers, as well as interoperability with both Europeana‟ s ESE and 
EDM standards. 
The technical implementation of LIDO in the metadata interoperability services 
(MINT
23
) that will be used in the Linked Heritage project, were developed during 
the ATHENA project. The solution has proved successful already for the ingestion 
of large amounts of data into Europeana. 
The schema design process for LIDO v1.0 took into account from the beginning 
the requirements for implementing the linked data concept, and in particular 
persistent identification so it is a suitable choice for integration with linked data 
technologies. 
For the library domain there seems to be no established ingestion workflow beyond 
Dublin Core / ESE data. Therefore since an important goal of the Linked Heritage 
project is the enrichment of Europeana, e.g. through the provision of as rich metadata as 
available, it will be examined what the library community is planning for future 
ingestion into Europeana, and a mapping template will be provided for transforming 
data from MARC variants used by providers in the Linked Heritage project, into LIDO.
3.2  OCR and linguistic  resources  
Preserving and providing OCR results enables a lot of new opportunities for a broad 
range of users, especially in the context of digital humanities. Additional information 
kept together with OCR results, such as linguistic resources, makes these possibilities 
even much greater. The following subsections  provide an overview of the related 
standards and formats. 
Analysed Layout and Text Object (ALTO) 
Overview 
ALTO was initially developed by the METAe European project group for use with the 
Library of Congress' Metadata Encoding and Transmission Schema (METS). While 
METS excels in describing the structure of objects, a schema related to the content and 
layout information of each piece of the object was missing.  
CCS (Content Conversion Specialists GmbH) maintained the ALTO standard until  
August 2009, when the Library of Congress (LC) Network Development and MARC 
Standards Office became the official maintenance agency for the ALTO XML Schema. 
The ALTO Board thus oversees maintenance of the ALTO XML Schema and helps foster 
usage in the digital library community. 
22
http://cidoc.icom.museum  
23
http://mint.image.ece.ntua.gr/redmine/projects/mint/wiki   
C# WPF PDF Viewer SDK to view PDF document in C#.NET
WPF Viewer & Editor. WPF: View PDF. WPF: Annotate PDF. WPF: Export PDF. Bookmark: Edit Bookmark. Metadata: Edit, Delete Metadata. Watermark: Add Watermark to PDF
c# read pdf metadata; add metadata to pdf
How to C#: Modify Image Metadata (tag)
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET VB.NET How-to, VB.NET PDF, VB.NET Word, VB VB.NET Barcode Read, VB.NET Barcode Generator, view less.
edit pdf metadata online; remove metadata from pdf online
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 36/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Principles 
ALTO stores layout information and OCR recognized text of pages of any kind of printed 
documents like books, journals and newspapers. ALTO can detail technical metadata for 
describing the layout and content of physical resources (text, illustrations, graphics). 
ALTO describes a content page with different views: 
The Description section helps to describe some general settings and information 
of the ALTO file (measurement units, file name, etc.), and the production process 
itself (processing steps, software used, dates and actors, etc.) 
The Layout section contains what‟s on the page. A page is divided into several 
regions (print space; left, right, top and bottom margins). For each region, all 
objects are listed which have been detected inside: text blocks, illustrations, 
graphical elements, composed blocks. Each object previously identified is defined 
by generic attributes: width, height, text content (for the String element). 
Besides, the reading order of all the elements can be managed.   
Each ALTO file may also contain a style section where different styles (for 
paragraphs and fonts) are listed.  
Use cases 
ALTO is one of the most common formats used by libraries for converting text from 
images. It‟s used both to deliver digitized contents and to preserve these contents.  
In a delivery perspective, the ability of ALTO to store the text content coordinates in a 
page allows the overlay of image and text (multilayer PDF) and highlight search words 
in a query.  
Figure 7 Multilayer PDF (left) and Web digital library (right) with plain text search 
C# TIFF: TIFF Metadata Editor, How to Write & Read TIFF Metadata
C#.NET. Allow Users to Read and Edit Metadata Stored in Tiff Image in C#.NET Application. C# Overview - View and Edit TIFF Metadata.
read pdf metadata; search pdf metadata
VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
Document and metadata. All object data. File attachment. Flatten visible layers. VB.NET Demo Code to Optimize An Exist PDF File in Visual C#.NET Project.
edit multiple pdf metadata; clean pdf metadata
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 37/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
It most commonly serves as an extension schema used within the METS administrative 
metadata section, in order to preserve patrimonial contents. However, ALTO instances 
can also exist as a standalone document used independently of METS. 
Advantages and drawbacks 
ALTO takes benefits of the XML world:  
XML is readable and understandable, even by novices, and no more difficult to 
code than HTML.  
ALTO schema is quite simple, and therefore, ALTO contents are easily 
understandable. 
XML is completely interoperable: any application that can process XML can use 
your information, regardless of platform. 
ALTO contents can be distributed between libraries, they are interoperable, etc. 
XML contents are transformable: ALTO contents can be transformable into 
simple text files, HTML pages, etc. 
ALTO also inherits disadvantages of XML:  
Each XML language needs adequate processing applications to display, transform 
contents, etc.  
ALTO needs specific tools (e.g. an ALTO file can‟t be displayed in a web browser) 
XML is extendable: ALTO XML schema can be hacked locally (e.g. ALTO BnF)    
Besides, ALTO has shown some other limitations: 
Physical description: the layout region types supported by ALTO are limited. One 
may want to be more precise: maths content, music score, etc. 
Logical description: ALTO format captures the layout and the full text of OCRed 
pages. But one may want to mark the logical structure of documents. This can be 
done with a container format like METS in association with ALTO (to capture the 
intellectual structure of the document), and/or with logical labelling of structural 
elements in ALTO (page numbers, margin note, etc.) 
These limitations will be addressed by the next version of the ALTO format, which is 
planned to be published in January 2014.
Page Analysis and Ground-Truth  Elements (PAGE) 
Overview 
Page Analysis and Ground-Truth Elements (PAGE) is a format framework related to 
production and evaluation of Optical Character Recognition and Document Image 
Analysis results. One of the main design goals was to enable “a highly detailed and 
accurate description of any information which can be derived from a given document 
image“ (S. Pletschacher, 2010) overcoming limitations of existing formats (like ALTO) 
and allowing its use in applications requiring a very precise content representation (such 
as performance evaluation). PAGE is based on a number of XML-Schemas which specify 
a root structure and individual sub-formats. All Schemas are maintained by the PRImA 
Research Lab and are publicly available at http://schema.primaresearch.org/PAGE/. 
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 38/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
There are numerous software tools which support PAGE natively and it is the format of 
choice of various (large scale) reference datasets in the digital library and document 
analysis research community. 
Structure and sub-formats 
The PAGE format framework specifies a root structure to link more specific sub-formats 
(called gts – ground truth and storage) related to individual processing steps in a 
document recognition workflow (see Figure 8). 
PAGE root
(XML)
PAGE gts
(XML)
PAGE gts
(XML)
PAGE gts
(XML)
Figure 8: General PAGE structure (S. Pletschacher, 2010) 
There are currently four sub-formats for Binarisation, Deskew, Dewarping, and Page 
Content. Page Content is by far the most widely used PAGE sub-format and therefore 
often referred to as PAGE format (although PAGE is the whole framework). It allows for 
a very accurate description of layout elements (regions with precise polygonal outlines), 
text (Unicode encoded), reading order (including groups of ordered and/or unordered 
objects), and layers (objects on different levels - like stamps on top of text regions). Text 
regions can be further structured into lines, words and glyphs (each allowing for full 
Unicode text) and may be assigned labels such as heading, paragraph, caption, page 
number etc. Other types of regions are image, line drawing, graphic, table, chart, 
separator, maths, noise and frame. Depending on the region type there are further sub-
types describing the function (like stamp, handwritten annotation etc.) as well as 
detailed  metadata  (such  as  language,  script,  font,  reading  direction,  text  color, 
background color).  
Besides the content- and processing-related sub-formats there are also formats foreseen 
for storing results and settings (profiles defining penalties and error weights) related to 
performance evaluation. 
Tools and support 
PAGE is supported by a number of tools, which are actively being developed and 
maintained by the PRImA Research Lab (www.primaresearch.org/tools). The most 
prominent example is Aletheia, a comprehensive ground truth production solution. 
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 39/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Figure 9: Aletheia – a comprehensive ground truth production tool natively supporting PAGE 
Other tools include quality assurance, performance evaluation for layout analysis and 
OCR,  OCR  exporters  (e.g.  from  FineReader  Engine  and  Tesseract)  and  format 
converters, interactive viewers (SVG) for embedding in web-based digital libraries and 
repositories, as well as APIs (C++ and Java) in order to support developers implementing 
PAGE in third party software. 
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 40/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Figure 10: Layout Evaluation Tool – natively supporting PAGE 
Usage 
PAGE (Page Content) is used as the main ground truth format in several datasets and 
related  large  scale  evaluation  activities.  The  IMPACT  Image  and  Ground Truth 
Repository (now maintained by the Impact Centre of Competence
24
) is probably the 
biggest of its kind with close to 50,000 manually created high-quality ground truth files 
(including detailed region outlines, layout information, full Unicode-encoded text – to the 
level of ligatures and special characters, and reading order) of historical documents. 
Another example is the PRImA Layout Analysis Dataset for contemporary documents
25
Besides existing datasets, PAGE is also being used in currently ongoing digitisation 
activities  and  research  projects  (for  instance  Europeana  Newspapers
26
 eMOP
27
24
http://www.digitisation.eu/ 
25
http://dataset.primaresearch.org/ 
26
http://www.europeana-newspapers.eu/ 
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 41/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
tranScriptorium
28
). PAGE has also a long standing tradition as the format of the ICDAR 
(International Conference on Document Analysis and Recognition) page segmentation 
competitions (A. Antonacopoulos, 2013). 
Europeana Newspapers project  
Overview 
Europeana Newspapers
29
is an EU ICT-PSP project with the main goal to make available 
18  million  pages  of  digitized  European  newspapers  via  a  shared  service  of 
Europeana/The European Library (TEL). The project is creating full-text for 10 million 
pages of digitized newspapers from 12 libraries across Europe, and also developing an 
interface to allow for cross searching of over 18 million newspaper pages. 
Principles 
Within Europeana Newspapers, a metadata profile that can serve as best practice for an 
information package of refined digital newspapers is being developed. A main design 
consideration was to provide a format that allows for human readability and machine-
readability at the same time.  One of the challenges lies in the fact that for the first time 
Europeana will not only gather metadata, but actually receive information packages 
containing metadata, images and full-text. Therefore it was important to design an 
information package that provides an effective and simple solution so that the needs of 
Europeana can be served in an optimal way. 
The  suggested  information  package  shall  conform  to  the  OAIS
30
(Open Archival 
Information  System)  standard  and  will  be  implemented  as  a  METS
31
(Metadata 
Encoding and Transmission Standard) container. Data stemming from OCR (Optical 
Character Recognition) processes will be stored within ALTO
32
(Analyzed Layout and 
Textual Object) files. The working name for our information package is therefore 
ENMAP which stands for: Europeana Newspaper METS ALTO Profile. 
ENMAP  has  been  discussed  at  several  occasions  by  the  Europeana  Newspaper 
consortium. External expertise was gathered, e.g. METS profiles from the British 
Library and the Australian National Library were studied and evaluated for their 
usability within the project. ENMAP is intended to provide a simple but effective 
encoding for all newspapers that are refined within the Europeana Newspaper Project 
(ENP).  A first (internal) release of ENMAP took place in September 2012, followed by an 
internal feedback cycle. The first public release (towards the end of 2013) will provide 
the suggestion for an SIP (Submission Information Package) for Europeana that shall 
27
http://idhmc.tamu.edu/emop/ 
28
http://transcriptorium.eu/ 
29
http://www.europeana-newspapers.eu/ 
30
31
32
Documents you may be interested
Documents you may be interested