how to download pdf file in c# windows application : Online pdf metadata viewer SDK application API wpf html azure sharepoint Succeed_600555_WP4_D4.1_RecommendationsOnFormatsAndStandards_v1.16-part112

Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 62/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Figure 23 Usage of Linked Open Data to provide digital content 
The usage of persistent identifiers for digital objects is presented on the Figure 24. The 
OAI Identifies is the most common selection, while Handle System and DOI are the 
second one.  
Figure 24 Usage of persistent identifiers for digital objects 
The advanced technologies were indicated by a very small group of respondents – 
approx. 6% (for a summary see Figure 25). In this group the following technologies have 
been indicated:  
Named Entities Recognition Engine 
Geolocation 
OCR correction 
Automatic translation 
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
I do not provide content
using Linked Data
RDFa
SPARQL
Other
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
OAI Identifier
Handle System
DOI
ORCID
None
Online pdf metadata viewer - add, remove, update PDF metadata in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata
pdf remove metadata; view pdf metadata
Online pdf metadata viewer - VB.NET PDF metadata library: add, remove, update PDF metadata in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Enable VB.NET Users to Read, Write, Edit, Delete and Update PDF Document Metadata
search pdf metadata; batch pdf metadata editor
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 63/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Figure 25 Usage of advanced technologies to enhance/enrich digital content 
Similarly to advanced technologies, the usage of formats to store linguistic resources is 
very limited (see Figure 26). The formats indicated by respondents who store linguistic 
resources include TEI, CMDI and LMF. 
Figure 26 Usage of formats to store linguistic resources 
In case of OCR evaluation two aspects have been investigated, namely OCR text 
recognition and OCR layout recognition. The results are similar in both cases (please see 
Figure 27 and Figure 28).  Most of respondents (approx. 60%) do not check the quality, 
and if yes the evaluation is either based on OCR engine statistics or dedicated evaluation 
activities. Quality checks are more popular in the context of text recognition (41% of 
respondents do it) than in the context of layout recognition (34% of respondents do it). 
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
None
Named Entities
Recognition
Engine
Geolocation
OCR correction
Automatic
translation
Other
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
I do not store
linguistic resources
TEI
CMDI
LMF
Other / None
VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
clean pdf metadata; bulk edit pdf metadata
C# HTML5 PDF Viewer SDK to view PDF document online in C#.NET
Create PDF Online. Convert PDF Online. WPF PDF Viewer. View Image to PDF. Image: Remove Image from PDF Page. Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
change pdf metadata creation date; pdf xmp metadata
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 64/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Figure 27 Usage of evaluation methods for OCR results 
Figure 28 Usage of OCR evaluation methods for layout recognition 
Standards in digitisation related tools 
Tools play a critical role in digitization activities. Tools provide functionality to organize 
work, perform conversions, execute OCR, etc. The standards in digitization related tools 
section investigated working environment of the responding institutions. 
The Operating System (OS) is a key component in the software infrastructure. The 
majority (87%) of respondents indicated MS Windows as the working OS. Linux systems 
on the other hand are used by almost 50% of respondents. Each of Unix and MacOS 
systems is used by approx. 10% of respondents. A summary is available on Figure 29. 
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
No checking
Based on OCR engine
statistics
Dedicated evaluation
activities
Other
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
No checking
Based on OCR engine
statistics
Dedicated evaluation
activities
Other
VB.NET PDF - WPF PDF Viewer for VB.NET Program
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
pdf metadata online; rename pdf files from metadata
VB.NET PDF - Create PDF Online with VB.NET HTML5 PDF Viewer
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
pdf metadata editor online; endnote pdf metadata
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 65/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
Figure 29 Usage of Operating Systems at cultural heritage institutions 
Digitization workflow management systems are not largely popular among respondents 
(see  Figure  30).  Almost  55%  of  respondents  do  not  use  digitization  workflow 
management system at all. There is no most popular system among the respondents, as 
the “Other” option has been indicated by most of those using such a system. Indicated 
systems include docWorks, dLab (used mostly in Poland) and Goobi (used mostly in 
Germany). 
Figure 30 Usage of digitisation workflow management systems 
The situation is different (in comparison to digitization workflow management system) 
when it comes to digital library system for online delivery of digital objects. There is a 
wide range of systems which make it possible to provide digital content online, including 
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
MS Windows
Linux
Unix
MacOS
Other
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
I do not use
digitisation
workflow
management
system
docWorks
dLab
Goobi
Other
C# HTML5 PDF Viewer SDK to create PDF document from other file
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
preview edit pdf metadata; edit multiple pdf metadata
C# HTML5 PDF Viewer SDK to view, annotate, create and convert PDF
This online HTML5 PDF document viewer library component offers reliable and excellent functionalities. C#.NET users and developers
pdf metadata editor; read pdf metadata java
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 66/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
those very popular in particular countries (like dLibra
46
system in Poland), and those 
used worldwide (like DSpace or EPrints). From the summary (see Figure 31) it is visible 
that all of respondents use such a system, but most of them use other than listed on the 
Figure 31. 
Figure 31 Usage of digital library systems  for online delivery of digital objects 
5.  SUCCEED RECOMMENDATIONS 
This section provides a set of recommendations for enhanced interoperability and 
preservation of the text/printed materials. The aim of these recommendations is to help 
stakeholders (research groups, companies and cultural heritage organizations) to select a 
particular  format  or  standard  for  their  digitization-related  activities.  The 
recommendations  are  divided  into  3  parts,  each  focused  on  a  specific aspect of 
digitization activities: 
Long-term preservation – this part covers formats and standards related to 
master files, metadata and OCR results. 
Online delivery – this part covers formats and standards related to delivery files, 
descriptive metadata, OCR results and identifiers. 
Advanced and supporting technologies – this part covers guidelines for semantic 
technologies, linguistic resources and tools packaging. 
The above division is dictated by practical reasons – if particular institution performs 
digitization for preservation activities, then attention should be put on the long term 
preservation part. If the institution wants to perform digitization for access, then online 
delivery  part  should  be  of  interest.  If  the institution does both (digitization for 
preservation and access) then long term preservation and online delivery parts should be 
46
http://dingo.psnc.pl/dlibra  
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
80,00%
90,00%
100,00%
dLibra
DSpace
DigiTool Greenstone Fedora
a
Goobi
EPrints
Other
C# WPF PDF Viewer SDK to view, annotate, convert and print PDF in
Create PDF Online. Convert PDF Online. WPF PDF Viewer. View Image to PDF. Image: Remove Image from PDF Page. Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
batch pdf metadata; modify pdf metadata
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
zonal information, metadata, and so on. Extract image from PDF free in .NET framework application with trial SDK components for .NET. Online source codes for
pdf metadata viewer; remove pdf metadata
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 67/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
investigated. Finally, if there is a vision of using new and advanced technologies to 
enhance the digitization workflow, then part related to advanced and supporting 
technologies is relevant for considerations.  
Each particular aspect discussed in this section can have several recommended and 
alternative items (e.g. formats or standards). For instance, “Master file format – textual 
documents” part has TEI and PDF/A as recommended formats and UTF-8 encoded plain 
text as an alternative. It means that TEI and PDF/A are equally applicable and can be 
selected based on specific preferences or experience of particular institution. It also 
means that UTF-8 has some limitations which caused it to be an alternative, but not the 
first selection. Nevertheless if the institution does not have appropriate resources to 
create PDF/A or TEI documents (e.g. no appropriate software or lack of staff) or have 
other reason for not using the recommended items (e.g. policy), then the alternative 
format is proposed and can be considered as good. In discussed example UTF-8 is an 
alternative format and it will in most cases require a lot less effort to create. But even if 
an institution decides to use an alternative format, it should look for opportunities to 
move to the recommended one, as it is the most appropriate way of dealing with 
particular digitization aspect. 
5.1 Long-term  preservation 
This part of recommendations covers formats for master files, descriptive metadata, 
structural metadata, administrative metadata and OCR results. The reason for selecting 
particular format as a recommended one is strongly connected with its sustainability 
factors
47
, especially disclosure and adoption. 
Master file format – still images 
Recommended: TIFF 
Alternative: JPEG2000 (JP2) 
For preservation of still images the recommended format is TIFF. It is the most popular 
format both in the context of existing recommendations (94% of them indicate TIFF) and 
Succeed  survey  results  (87% of respondents indicated TIFF). The format is well 
documented and has strong support in software related to scanning, OCR, manipulation 
and conversion. The recommended characteristics of the TIFF format are presented on 
the Table 19. 
Table 19 Summary of recommended characteristics for the TIFF format 
Characteristic 
Recommendation 
Spatial resolution 
At least 300dpi. The final resolution should depend on the document 
type. The goal is to have all important characteristics of the document 
clearly visible. Quality Index
48
can be helpful when calculating final 
47
http://www.digitalpreservation.gov/formats/sustain/sustain.shtml   
48
http://www.clir.org/pubs/abstract//reports/pub53   
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 68/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
resolution. 
Colour depth 
24-bit for colour images, 8-bit for greyscale 
Compression 
Uncompressed or LZW compression 
Version 
6.0 
Byte order 
Little endian 
Colour profile 
ICC-based
49
Number of pages  
1 per file (monopage TIFF) 
The alternative master file format is JPEG2000 Part 1 (Core) – JP2. The format is quite 
popular  in  existing  recommendations  (53%),  but  not  so  much  in  use  in  current 
digitization activities (14% of respondents of the Succeed survey use it for master files). 
It seems that in terms of format usage JPEG2000 looks like an emerging format rather 
than  a  well-established  one.  The  format  is  well  documented,  but  is  also  quite 
complicated. It has the capability to act both as a master file and delivery file, therefore 
it is especially interesting to consider for production master files. Unfortunately 
JPEG2000 does not have wide support in terms of software, although there are ongoing 
activities that develop tools supporting JPEG2000 in various ways (e.g. OpenJPEG
50
Jpylyzer
51
, IIIF
52
). Because of these current limitations it has been identified as an 
alternative format.  
Master file format – textual documents 
Recommended: TEI, PDF/A 
Alternative: UTF-8 encoded plain text 
For preservation of documents available in textual form we recommend using of TEI or 
PDF/A.  
TEI is focused on texts representation, including various characteristics like structural 
or  conceptual.  The  format  is  very  flexible  which  can  be  both  advantage  and 
disadvantage. Fortunately there are multiple customizations of TEI, including TEI Lite 
for the elements sufficient for simple documents. TEI Lite is the most widely used TEI 
customization. TEI is popular in digital humanities, which also indicates it as a good 
option for preservation of texts. More information on TEI can be found in section 0. 
PDF/A is an ISO standard dedicated for archiving various types of documents in digital 
form. The format is relatively new therefore it is not widely indicated as a master file 
format, neither by existing recommendations nor by current practices gathered by 
Succeed survey. Nevertheless it is based on PDF, which is very popular and also used for 
master file by 23% of survey respondents. Therefore it is reasonable at least for those 
who already use it to move from regular PDF to PDF/A. It is very important to 
49
ICC stands for International Color Consortium 
50
http://www.openjpeg.org/   
51
https://github.com/openplanets/jpylyzer  
52
http://iiif.io/  
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 69/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
distinguish PDF/A from the PDF format. PDF/A is an archival format, which is based on 
PDF, but introduces specific restrictions/requirements to ensure appropriate visual 
representation of the document and other characteristics. For example it requires fonts 
to be embedded in the document, ICC-color based profiles and disallows encryption. 
There  are  three  consecutive  versions  of  the  PDF/A  format,  each  having several 
conformance levels. The conformance levels include
53
Level B – ensures appropriate visual appearance of the document. This level has 
been introduced in the PDF/A-1 version. 
Level A – builds on level B, but in addition requires structured information about 
the document. This level has been introduced in the PDF/A-1 version. 
Level U – ensures that the text in the document can be extracted and 
appropriately interpreted. This level has been introduced in the PDF/A-2 version. 
Also consecutive versions of the format added new capabilities to the format. The most 
important aspects of each version are: 
PDF/A-1 – introduces restrictions related to fonts, colors, etc. 
PDF/A-2 – introduces possibility to have different layers in the document, allows 
JPEG2000 compression and attachments to the document. 
PDF/A-3 – makes the attachments mechanism more flexible. 
None of the versions is obsolete therefore all of them can be used for archiving purposes. 
They simply provide different set of features, which can be used, and different sets of 
conformance levels. 
An alternative format for text representation is Unicode plain text file (encoded with 
UTF-8). The reason for it to be alternative is lack of support for structural information, 
as the file simply represents stream of characters. We recommend using UTF-8 encoding 
as it is compatible with ASCII and is able to encode various diacritics. It is also 
worthwhile to use normalized forms
54
of UTF-8 to store text files. 
In case of historical documents, especially those with special characters not currently 
available in the Unicode standard, we recommend using MUFI specification (code points). 
Such an approach will minimize the risk of code point collisions between textual 
resources coming from different digitization projects or software tools. It is also likely for 
MUFI characters to be incorporated into the Unicode itself (e.g. 152 of MUFI characters 
were added to the Unicode 5.1). For details on MUFI please see section 0. 
Descriptive metadata format 
Recommended: DCMES (Dublin Core), MODS 
Alternative: MARC21 
53
http://www.pdflib.com/knowledge-base/pdfa/   
54
http://en.wikipedia.org/wiki/Unicode_normalization   
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 70/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
The most popular descriptive metadata format is Dublin Core (the full name is Dublin 
Core Metadata Element abbreviated as DCMES), which is globally recognized ISO 
standard.  71%  of  existing  recommendations  and  59%  of  survey  respondents has 
indicated it as the main format for descriptive metadata in the context of long-term 
preservation. It is a simple and easy to use XML-based format. The simplicity of DCMES 
is an advantage and disadvantage at the same time. It is good because thanks to 
simplicity many institutions can easily use it. It is bad because the meaning of particular 
elements in the standard is not strict, which may cause various misunderstandings. If 
more detailed description is needed Dublin Core Metadata Initiative Terms (DCTerms) 
can be used, as those include all the elements from DCMES, and add additional ones, 
which allow for more precise description.  
MODS format is quite popular with relatively high adaptation in the user community 
(16% of respondends use it for preservation, 47% of existing recommendations indicate it as a good 
option). MODS is based on XML, it can contain a richer description than Dublin Core, 
and is also based on MARC21 (though is not able to carry full MARC21 records), 
therefore can be easily created from existing MARC21 records. 
MARC21 was also indicated in existing recommendations and survey. Nevertheless it is 
not highly recommended as it has several issues with interoperability. It has a specific 
encoding scheme for transportation purposes (MARC21 communication format), but it is 
not simple, it is not self-descriptive and definitely it is not human-readable. Additional 
complication is the possibility to encode MARC21 records using different encodings. It 
may cause additional issues, as for instance the offsets indicated in MARC21 leader 
(header) depend on characters and not bytes (and some characters can occupy more than 
one byte – depending on the encoding). It means that encoding needs to be know 
beforehand (before processing) and it is not available in the file itself. Because of these 
reasons the MARC21 format is proposed as alternative. 
Structural metadata format 
Recommended: METS 
For structural metadata the only option is METS format. In practice there is no real 
alternative for the format. It is already used by 36% of survey respondents and it is 
indicated by existing recommendations in 59% of cases. It is an XML-based open 
standard, simple to apply and supporting various specific formats, including MODS, 
ALTO, TextMD, MIX and PREMIS (which are all recommended by Succeed project) . It is 
therefore the best option (and in practice the only one) to be used for structural metadata 
for long-term preservation. 
Administrative metadata format 
Recommended: PREMIS, MIX, TextMD 
Reccomendations for metadata and data formats for 
online availability and long-term preservation, version 
1.1, 16/01/2014 
Page 71/97 
Succeed is supported by the European Union under FP7-ICT and coordinated by Universidad de Alicante. 
In case of administrative metadata existing recommendations and survey respondents 
indicate PREMIS for preservation and MIX or NISO Z39-87 for technical metadata of 
still images. TextMD is recommended as a technical metadata format for textual 
documents. 
MIX is and XML-based format and the most popular implementation of the NISO Z39-87 
standard. It can be also easily integrated with METS. It is therefore recommended for 
storing technical metadata about still images. PREMIS is in fact the only format used in 
practice to store preservation metadata. 41% of existing recommendations and 22% of 
survey respondents has indicated it. PREMIS can be also easily integrated with METS 
format, as it is XML-based. It is actively developed (currently the Editorial Board works 
towards version 3.0) and has its own PREMIS ontology for information exposure over 
semantic technologies. TextMD is not widely used by institutions from the survey. It is 
also not largely pointed by existing recommendations. If fact no indications are given for 
technical metadata of textual documents. This is why it seems to be a reasonable option 
to  use  a  format,  which  is  already  well-integrated  with  structural  metadata 
recommendations or preservation recommendations. TextMD is such a format – it is 
XML-based format and can be easily used in METS format as well as in PREMIS. It is 
also supported by characterization tools (e.g. JHOVE
55
). 
OCR results format 
Recommended: ALTO, PAGE 
Alternative: UTF-8 encoded plain text 
ALTO format has been indicated by 29% of existing recommendations. It is a format, 
which was developed to extend METS in order to provide both information about 
coordinates (ALTO format) as well as structural information (METS). The benefits and 
disadvantages of ALTO have been pointed in section 0. The main advantages include 
interoperability, readability (XML-based) and simplicity. The main disadvantages are 
related to limited number of supported region types and lack of support for capturing 
logical structure (this needs to be done by format container like METS). The ALTO 
format exports are also supported by some of the commercial OCR engines and is also a 
selection for ongoing initiatives (e.g. Europeana Newspapers project). 
One of the main design goals of the PAGE format was to enable detailed and accurate 
description of any information which can be derived from a given document image, by 
overcoming  limitations  of  existing  formats  (like ALTO)  and  allowing  its  use  in 
applications requiring a very precise content representation (such as performance 
evaluation). The PAGE format does not have wide range of users, but it gains more and 
more attention, as it is used in such initiatives and projects like IMPACT Centre of 
Comptence
56
, eMOP
57
, Europeana Newspapers
58
or Transcriptorium
59
55
http://sourceforge.net/projects/jhove/   
56
http://www.digitisation.eu/  
Documents you may be interested
Documents you may be interested