download pdf c# : Online pdf metadata viewer application Library tool html .net web page online Succeed_600555_WP4_D4.1_RecommendationsOnFormatsAndStandards_v1.15-part111

Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 52/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Particular operating systems have their own packaging techniques and tools for creating 
such packages are available and ready to use. Also cloud technologies increase their 
presence in digitization field, therefore packaging formats and standards are also 
important aspect to investigate in this context. 
4.  SUCCEED SURVEY ON FORMATS AND STANDARDS 
In order to provide an overview of the digitization-related standards and formats used by 
cultural heritage institutions across Europe it was decided to develop and conduct an 
online survey. The following sections elaborate on the purpose and scope of the survey, 
methodology as well as results analysis. 
4.1 Purpose and scope 
The purpose of the survey was to gather information about current practices from 
various cultural heritage institutions in the context of text digitization. The overview of 
the results was an input material for Succeed project recommendations. It was assumed 
that participating institutions are active players in the context of digitization, which 
means that they execute digitization related activities, such as digitization projects, 
digital library maintenance or data preservation. 
The survey itself consists of 30 questions divided into 5 sections. The sections are focused 
on: 
General information such as contact information, institution type, etc. 
Long-term preservation aspects including questions related to used metadata and 
data formats as well as experience in preservation and digitisation. 
Online delivery of digital assets, including metadata and data formats with OCR 
aspects in mind. 
Emerging standards, formats and approaches to discover innovative activities in 
the context of OCR and digitisation workflow enhancement. 
Standards  related  to digitisation tools including questions related to used 
operating systems and tools packaging. 
The survey questionnaire is available in the  The original survey filled in by respondents is 
available at: http://bit.ly/succeed_wp4
4.2 Methodology 
The survey was prepared in form of an online questionnaire. The questionnaire has been 
prepared in a series of consultations with Succeed project partners, based on their 
experience with digitization, including tools, content creation, preservation, analysis and 
online delivery. There were two types of questions:  
Option questions – a question consisting of several options to mark (one or many), 
including an “Other” option to provide a response, which does not appear on the 
options list. 
Online pdf metadata viewer - add, remove, update PDF metadata in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata
rename pdf files from metadata; edit pdf metadata online
Online pdf metadata viewer - VB.NET PDF metadata library: add, remove, update PDF metadata in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Enable VB.NET Users to Read, Write, Edit, Delete and Update PDF Document Metadata
pdf xmp metadata viewer; analyze pdf metadata
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 53/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Open questions – question consisting of an input field where respondent can 
answer with free text. 
The option questions were used when there was a set of most probable options to be 
pointed by respondents. An example is a question about master files where TIFF format 
is one of the options. Open questions were used in cases where there is no clear answer 
to the question, e.g. preferences in the context of tools packaging. 
It was decided to create an online survey to reach a wider community and simplify the 
procedure of answering to the survey. For efficient and successful dissemination of the 
survey a list of dissemination channels has been created. It was composed of two main 
parts: 
List of institutions to directly ask to fill in the survey – it includes 31 institutions 
to which Succeed partners have direct contacts and can with high probability 
obtain answers to the survey. 
Other dissemination channels, such as mailing lists, blogs, etc. – a list of 15 
channels (hundreds of institutions) to which information about the survey should 
be sent. 
Each item from those two lists has an indication of responsible partner. It means that 
indicated partner was responsible for dissemination of the Succeed survey via this 
particular channel. Dissemination activities were done in two rounds, each of them 
lasted for approximately one week. In each round all partners from Succeed project were 
asked to disseminate information about the survey to the channels they were assigned. 
First round of dissemination gave approx. 60 responses. The second dissemination round 
increased the number of responses by approx. 20. The final number of responses is 86 
and those answers were further analyzed.  
4.3 Analysis of results 
Survey analysis is divided into several sections, each presenting different topics of 
investigation.  It  is  important  to  mention  that  for  many questions in the survey 
respondents could give more than one answer (e.g. more than one master file format 
could be indicated), therefore sums (or percentages) of responses related to particular 
options in a certain questions can be higher that the number of responses (or higher than 
100%). 
Overview 
Altogether 86 respondents from different countries across the world have filled in the 
survey. The respondents were from various institutions, including libraries, archives, 
museums,  research institutes and companies. The  respondents were mostly from 
Europe, but there were also responses from North America, South America, Africa, Asia 
and Oceania. Figure 12 presents the percentage of the respondents coming from different 
continents  across  world.  The other series includes international and institutions 
identified with less than 100% accuracy (e.g. wrong e-mail provided). 
VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
read pdf metadata online; pdf metadata online
C# HTML5 PDF Viewer SDK to view PDF document online in C#.NET
Create PDF Online. Convert PDF Online. WPF PDF Viewer. View Image to PDF. Image: Remove Image from PDF Page. Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
preview edit pdf metadata; clean pdf metadata
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 54/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Figure 12 Respondents of the survey divided by continent 
Europe itself has been covered quite well both in terms of number of responses (70) as 
well  as  geographical  coverage  (see  Figure  13)  in terms of countries  from which 
institutions provided feedback. 
Europe 
81% 
North America 
7% 
Other 
5% 
Africa 
4% 
Asia 
1% 
Oceania 
1% 
South America 
1% 
Europe
North America
Other
Africa
Asia
Oceania
South America
VB.NET PDF - WPF PDF Viewer for VB.NET Program
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
endnote pdf metadata; google search pdf metadata
VB.NET PDF - Create PDF Online with VB.NET HTML5 PDF Viewer
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
pdf metadata reader; extract pdf metadata
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 55/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Figure 13 European countries covered by the survey (green marked areas indicate European 
countries from which institutions participated in the survey) 
Long-term preservation 
The long-term preservation section of the survey investigated file and metadata formats 
used for preservation. The responses were also analyzed in the context of preservation 
experience and digitization experience. Preservation experience has been divided into 
four groups: 
Very large – in case of institutions that have already preserved more than 
1 000 000 of digital pages 
Large – in case of institutions that have already preserved less than 1 000 000 
pages but more than 100 000 pages 
Medium – in case of institutions that have already preserved less than 100 000 
pages but more than 10 000 pages 
Small – in case of institutions that have already preserved less than 10 000 pages 
And digitization experience has been divided into five groups: 
Very large – in case of institutions that in the last 5 years digitise per year more 
than 250 000 pages 
C# HTML5 PDF Viewer SDK to create PDF document from other file
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
view pdf metadata; edit pdf metadata
C# HTML5 PDF Viewer SDK to view, annotate, create and convert PDF
This online HTML5 PDF document viewer library component offers reliable and excellent functionalities. C#.NET users and developers
pdf metadata editor; remove metadata from pdf acrobat
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 56/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Large – in case of institutions that in the last 5 years digitise per year more than 
100 000 but less than 250 000 pages 
Medium – in case of institutions that in the last 5 years digitise per year more 
than 10 000 but less than 100 000 pages 
Small – in case of institutions that in the last 5 years digitise per year more than 
1 000 but less than 10 000 pages 
Very small – in case of institutions that in the last 5 years digitise per year less 
than 1 000 pages 
Master file formats analysis (see Figure 14) indicates that TIFF format is the most 
popular across all respondents, getting almost 90% of indications. There is no other 
format that is equally popular. All other indications gain less than 25%. From the other 
master formats PDF and JPEG2000 are the options to consider in the context of still 
images. Although JPEG has been indicated as well by 23% of respondents it does not 
seems  to  be  a  good  option  to  consider  due  to  its  lossy  compression.  Technical 
characteristics for the master files were indicated in the context of used master file 
format. The most common format is TIFF, and its characteristics are as follows:  
DPI: at least 300, depending on the document type. It has been noted several 
times that quality index
45
should be at the level of 8 (excellent quality in the 
context of letters size in the document) 
Colour depth: at least 24-bit for colour images and 8-bit for greyscale images 
Compression:  Most  of  the  respondents use uncompressed images (64%), if 
compression is used then LZW is mostly used 
In case of JPEG2000 the most common compression filter is 5-3 reversible. 
Figure 14 Master file formats used in the context of long term preservation 
45
http://www.clir.org/pubs/abstract//reports/pub53   
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
TIFF
JPEG
PDF
JPEG2000
RAW
JFIF
ePUB or
MOBI
PDF/A
C# WPF PDF Viewer SDK to view, annotate, convert and print PDF in
Create PDF Online. Convert PDF Online. WPF PDF Viewer. View Image to PDF. Image: Remove Image from PDF Page. Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
embed metadata in pdf; extract pdf metadata
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
zonal information, metadata, and so on. Extract image from PDF free in .NET framework application with trial SDK components for .NET. Online source codes for
remove pdf metadata online; metadata in pdf documents
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 57/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
The usage of master file formats in the context of institutions preservation experience is 
presented on the Figure 15. Four most popular formats have been analyzed in this chart. 
There are no strict dependencies, except that in case of TIFF it is visible that the larger 
the institution the more probable it will use TIFF as the master file. PDF and JPEG 
usage is to some extent converged, while JPEG2000 is not really commonly used. 
Figure 15 Usage of master file formats in the context of institution’s  preservation experience 
Usage of master files in the context of digitization experience (see Figure 16) shows that 
again, with higher institutions experience comes higher probability that the institution 
will use TIFF as a master file.   
Figure 16 Usage of master file formats in the context of institution’s  digitisation experience 
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Very large
Large
Medium
Small
TIFF
PDF
JPEG
JPEG2000
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Very large
Large
Medium
Small
Very small
TIFF
PDF
JPEG
JPEG2000
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 58/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
In the context of metadata formats there is a large number of indicated options (see 
Figure 17). The most popular formats for descriptive metadata include Dublin Core, 
MARC and MODS. For the preservation metadata it is most common to use PREMIS, 
while for the structural metadata it is usually METS. Technical metadata are usually 
encoded using NISO Z39-87 data dictionary.  
Figure 17 Metadata formats used in the context of long term preservation 
When preserving OCR results (see Figure 18) the most common approach is to store PDF 
file (51%). There are also practices related to storing OCR results using XML with 
coordinates (28%) and plain text (27%).  
Figure 18 File formats used in preservation of OCR results 
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
PDF
XML with
coordinates
information (e.g.
ALTO)
Plain text
XML with
structural
information (e.g.
TEI)
DjVu
Other
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 59/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
From the analysis of the responses of the question about online availability of master 
files, it is visible, that the majority of institutions (more than 70%) do not want to make 
their master files available online (see Figure 19). Within this group only 9% cannot 
make  them  available  due  to  the  copyright  issues.  Nevertheless,  almost  30%  of 
respondents would make their collections of master files available.  
Figure 19 Willingness to make the master files available online 
Online delivery of digital objects 
The online delivery section of the survey investigated file and metadata formats as well 
as OCR results format used to provide online access to delivery files. 
In case of delivery file formats the most popular are PDF (76%) and JPEG (70%). The 
other formats include DjVu (very popular in Poland), JPEG2000 and PNG. See Figure 20 
for a summary or responses. 
9,30% 
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Yes
No
Copyright
Policy
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 60/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Figure 20 File formats used to provide online access to digital objects 
Metadata formats provided online are available mostly in Dublin Core format (almost 
70%). There is a strong user group providing metadata using Europeana Data Model 
(more than 20%) and Europeana Semantic Elements (more than 10%). It is therefore 
visible that Europeana is an important service for content providers, because it is 
especially supported by more than 30% of respondents. It is supported despite the fact, 
that Europeana can integrate with services having only Dublin Core support. Please see 
Figure 21 for a summary. 
Figure 21 Metadata formats provided for the online users or aggregation services 
Access to OCR is usually provided via integrating it with delivery file, e.g. PDF with text 
layer  or  an  image  with  highlighted  text.  Nevertheless,  still  more  than  25%  of 
respondents do not provide OCR results at all. The summary of responses is available on 
Figure 22. 
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0%
10%
20%
30%
40%
50%
60%
70%
80%
Dublin Core
Metadata
Element Set
Europeana
Data Model
None
Europeana
Semantic
Elements
DCMI
Metadata
Terms
FRBRoo
JSON-LD
Other
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 61/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Figure 22 Approach for providing full text search and access to OCR 
Emerging standards, formats and approaches 
This  section  of  the  survey  investigated  Linked  Open  Data  usages  among  the 
respondents, as well as usage of other advanced technologies to enhance digital content. 
This part of the survey investigated also OCR evaluation methods and linguistic 
resources  formats  to  get  a  general  understanding  of  advances  and  innovative 
technologies being currently in use by cultural heritage institutions. 
The usage of Linked Open Data (LOD) to provide digital content is largely limited (see 
Figure 23). More than 66% of respondents do not provide digital content with the use of 
LOD paradigm in mind. If used then RDFa and SPARQL are pointed as semantic 
technologies used to give access to digital content. The usage of semantic technologies is 
more visible in institutions with larger experience (number of pages online).  
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Full Text search
embedded into
viewer (e.g.
PDF)
Full Text search
with keyword
highlighting on
image
Full Text search
with OCR text
displayed
I do not provide
OCR results
online
Full Text
available as
download
Other
Documents you may be interested
Documents you may be interested