pdf free library c# : Extracting data from pdf to excel Library control class asp.net azure wpf ajax PDFA-in-a-Nutshell_1b5-part1821

Many current file formats allow the storage 
of metadata. Metadata is data passed for a 
document over and above the actual work-
ing data. 周is might include technical in-
formation (for example, a digital camera 
saves additional information called EXIF 
data for each image file, including the ex-
posure, aperture, and focus). In addition, 
users can add descriptions to files later on, 
such  as  keywords  or  copyright  notices. 
IPTC metadata, primarily used by profes-
sional photographers, has been around for 
Many programs allow metadata on a file 
to be viewed or even changed in the ‘Prop-
erties’ area. 周is normally includes core 
information such as the title of the docu-
ment, the author, and the program used to 
create it. 
Metadata provides useful information 
that can simplify the organization of large 
numbers of digital documents, either in 
database solutions or using search func-
tions. Metadata is particularly important 
for archiving, since it can provide infor-
mation on a person or place depicted in an 
image, the author of a document, and any 
copyright restrictions.
PDF/A and metadata 
Many issues relating to the use of meta-
data  when  creating  valid  PDF/A  docu-
ments are le晴 to the decision of the user. 
However, the following directives apply:
■■One metadata field is mandatory: 周e 
PDF/A  identifier.  周is  identifier  is  nor-
mally automatically written to the relevant 
field in its correct form by the PDF/A con-
verter used to create the PDF/A document 
in question.
■■All metadata attached to a PDF file 
must exist in a certain form and must be 
encoded in an XMP-compliant manner. 
Although PDF/A only stipulates a single 
mandatory field, it makes sense to make 
the most of the possibilities of XMP to en-
able  efficient  archiving  and  powerful 
search and sorting functions. 
What is XMP?
Metadata is another topic where standards 
are important. 周is type of data cannot be 
used effectively if every single user or user 
group develops their own system for cre-
ating and managing additional informa-
tion. In the case of metadata systems that 
already exist in parallel, a reliable method 
for converting one to the other must be 
provided at the very least.
To  promote  the  standardization  of 
metadata systems, Adobe Systems is now 
using  the  Extensible Metadata Platform 
(XMP). XMP is a procedure that acts as a 
kind of bracket that pulls together estab-
lished metadata formats such as IPTC and 
EXIF.  Acrobat  Professional  and  Adobe 
Reader  are  two  of  the  applications that 
display  XMP  metadata; Acrobat  Profes-
sional also allows it to be edited. Other 
manufacturers also use XMP – the tech-
nology is not limited to Adobe.
Viewing and editing PDF metadata in Acrobat
Metadata can be viewed at the following 
menu path: ‘File’ → ‘Properties’. 周e ‘De-
XMP uses the RDF to embed 
meta  information  in  binary 
data. RDF stands for Resource 
Description Framework and is 
a formal language for staging 
metadata on the Internet.
To promote the  use of XMP, 
Adobe provides the XMP speci-
fication and a software devel-
oper kit under an Open Source 
license for use by all.
Internet:  www.adobe.com/
Analog metadata: Metadata also occurs in 
the analog world in the form of informa-
tion such as imprints and mastheads for 
books and journals. 
in a Nutshell
PDF/A applications in everyday life
Extracting data from pdf to excel - extract form data from PDF in C#.net, ASP.NET, MVC, Ajax, WPF
Help to Read and Extract Field Data from PDF with a Convenient C# Solution
export pdf form data to excel spreadsheet; extract data from pdf form fields
Extracting data from pdf to excel - VB.NET PDF Form Data Read library: extract form data from PDF in vb.net, ASP.NET, MVC, Ajax, WPF
Convenient VB.NET Solution to Read and Extract Field Data from PDF
pdf data extractor; pdf data extraction open source
scription’ tab contains fields that specify 
the title (which does not have to be the 
same as  the  file name), author,  subject, 
and keywords (freely definable). 周e ‘Title’ 
field is normally filled with the file name 
of the original file. 周e other fields can 
contain metadata from the original file if 
the user gave them XMP-compliant data 
and as long as the PDF is not being created 
using the Distiller. Programs in the Adobe 
Creative Suite pass on XMP metadata to 
PDF documents that are created using the 
Export  function.  周e  extent  to  which 
metadata can be transferred from Word or 
Excel files to the corresponding PDFs de-
pends on factors including the program 
version being used.
Clicking the ‘Additional Metadata...’ but-
ton displays a whole range of further cate-
gories including options for copyright in-
formation, personal processing notes, and 
additional  descriptions.  Other  programs 
than Acrobat (such as Adobe Bridge) and 
products  and  solutions  offered  by  other 
suppliers are recommended for the mass 
allocation of metadata in PDFs.  
Additional Metadata...: This section con-
tains additional fields for XMP-based 
metadata. These fields can be filled in for 
the PDF but may already contain entries 
that were adopted from the metadata in 
the source document.
Document Properties: There are four basic 
metadata fields on the initial screen of this 
area: Title (this field is usually prefilled on 
the basis of the source document), Author, 
Subject, and Keywords. Note the ‘Addition-
al Metadata...’ button. It calls the dialog 
box shown below.
PDF/A applications in everyday life
in a Nutshell 
C# PDF Text Extract Library: extract text content from PDF file in
Free online source code for extracting text from adobe PDF document in C#.NET class. Enable extracting PDF text to another PDF file, TXT and SVG formats.
extract pdf data into excel; how to save filled out pdf form in reader
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
C# programming sample for extracting all images from PDF. // Open a document. C# programming sample for extracting all images from a specific PDF page.
how to fill in a pdf form in reader; sign pdf form reader
Accessibility refers to the concept of pro-
viding technical aids that make it easier for 
people with disabilities to participate fully 
in everyday life. Examples of successful ac-
cessibility measures include wheelchair ac-
cess to the metro and buttons with braille 
lettering in elevators. In today’s informa-
tion society, it is important to ensure that 
nobody is prevented from accessing public 
information simply because he or she has a 
physical disability. Access to the increasing 
amount of digital information must also be 
ensured for members of the public who are 
visually impaired or have restricted motor 
PDF has a range of useful functions for 
enabling the accessibility of content: 周e 
free Adobe Reader can read text out loud. 
Magnification and contrast options enable 
text to be read by readers who have im-
paired vision. 
Structured: PDF/A-1a-compliant documents and 
accessible PDFs
Accessible PDFs and PDF/A-1a-compliant 
documents have many things in common, 
and it is perfectly possible to create files 
that  are  both.  Both  PDF/A-1a-compliant 
documents and accessible PDFs require a 
structure with well-defined content.
周is structure is realized by means of 
‘tagged PDF’. 周e tags used give each PDF 
element additional information on content, 
position, and type. 
Tags also define the order of content, 
which is particularly important in the case 
of  pages  with  multi-column  layouts.  In 
Accessibility feature: Adobe Reader can 
read PDF files out loud – including form 
fields. However, operating systems only 
deliver English ‘voices’ – for other lan-
guages, such as German, digital voices 
must be purchased at additional cost.
Jens Goetzke – PixelQuelle.de
in a Nutshell
PDF/A applications in everyday life
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
VB.NET PDF - PDF File Pages Extraction Guide. Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc. Free PDF document
export pdf form data to excel; extract data from pdf file to excel
VB.NET PDF Text Extract Library: extract text content from PDF
Enable extracting PDF text to another PDF file, and other formats such as TXT and SVG form. OCR text from scanned PDF by working with XImage.OCR SDK.
save data in pdf form reader; extract data out of pdf file
addition, tags can be used to distinguish 
between content and additional elements 
such as headers and footers or other back-
ground elements that do not directly be-
long to the content. Tags are also helpful 
for graphics  and  images on  PDF  pages. 
How do screen readers deal with images? 
If the creator has given the image ‘alter-
nate  text’ that  explains  the  subject,  the 
user is told not only that there is a graphic 
at the relevant point in the text but also 
that the graphic displays a guitar, for ex-
It is relatively easy to generate a PDF/A 
document from an accessible PDF and vice 
versa. Note that the conversion to PDF/A 
takes place at the very end of this process. 
Once a valid PDF/A file has been created, it 
cannot be changed – otherwise, it loses its 
compliance status.
Advantages of accessible PDFs
周anks to tagged PDF, there are tangible 
advantages of accessible PDF files. Struc-
tured PDF files are easier to reuse than tra-
ditional documents. 周is means that reli-
able results can be obtained when convert-
ing formats (for example, PDF to HTML, 
TXT, or RTF). 
In the case of PDF documents that are to 
be displayed on the small screens provided 
by mobile devices such as handhelds and 
cellular phones, the reflow function enables 
better readability. 周is text function can 
only be carried out without errors if tagged 
PDF is used.  
Tagged PDF in Acrobat: Structured PDFs 
specify the exact sequence of their content. 
In the case of multi-column layouts, it 
might be impossible for software to auto-
matically determine the order of the con-
tent. The authors of documents must spec-
ify this sequence.
Tags: Each element in a tagged PDF file has a tag that contains in-
formation on its type, position, and content. These tags are used to 
define the exact structure of the document.
PDF/A applications in everyday life
in a Nutshell 
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
Sample for extracting all images from PDF in VB.NET program. Sample for extracting an image from a specific position on PDF in VB.NET program.
exporting pdf data to excel; extract data from pdf form to excel
How to C#: Basic SDK Concept of XDoc.PDF for .NET
And PDF file text processing like text writing, extracting, searching, etc., are to load a PDF document from file or query data and save the PDF document.
online form pdf output; extract data from pdf into excel
Accessible PDFs also permit safe full-text 
indexing and searching, since there are no 
ambiguities in the text flow.
Creating an accessible PDF file from Word
周is  example  uses  Word  2003  and  the 
PDFMaker.  周e PDFMaker also accesses 
Acrobat 8 PDF settings. 周e following steps 
must be observed to obtain a successful re-
■■To ensure accessibility, a language must 
be defined for the Word document. 周is 
setting is made under ‘Tools’ → ‘Languages’ 
in the menu. However, PDFMaker does not 
always transfer this information to the PDF 
■■周e text in the Word document should 
be structured using styles (such as ‘Head-
ing’, ‘Body Text’, and ‘List Bullet’. 
■■Multi-column layouts must be defined 
using the ‘Format’ → ‘Columns...’ function, 
and not using the tab key.
■■周e ‘Web’ tab reached by clicking the 
‘Format Picture’ context-menu command 
must be used to give graphics and images 
alternate texts in Word. 周ese image de-
scriptions are transferred to the PDF docu-
ment by PDFMaker during the creation of 
the PDF.
Formatting pictures in Word: Right-clicking opens the ‘Format Pic-
ture’ dialog. Alternative text can be entered on the ‘Web’ tab. 
Reflow: PDFs can also be displayed com-
fortably on mobile devices following the 
successful ‘reflowing’ of content that is en-
abled by tagged PDF.
Automatically meaningful 
Neither accessible PDF nor PDF/A-1a can enable a check 
of the tagged PDF to make sure that the structures of a 
document are meaningful or correct. Both types of 
check can only determine whether structural informa-
tion exists in the specifications of the PDF file – not 
whether  any  structural  information  found  makes 
For this reason, the standard stipulates that structural 
information may not be added automatically later on. It 
must be imported during the creation of the PDF or 
added manually afterwards. 
The automatic creation of structures might be possible 
without causing problems for very simple PDF files. 
However, if a user uses an automated process to recon-
struct a structure, he or she must make sure that the 
process is validated.
in a Nutshell
PDF/A applications in everyday life
VB.NET PDF: Basic SDK Concept of XDoc.PDF
And PDF file text processing like text writing, extracting, searching, etc., are to load a PDF document from file or query data and save the PDF document.
extract data from pdf forms; exporting data from pdf to excel
C# PDF insert text Library: insert text into PDF content in C#.net
functions to PDF document imaging application, such as inserting text to PDF, deleting text from PDF, searching text in PDF, extracting text from PDF, and so on
how to save a pdf form in reader; extract data from pdf file
■■周e user then selects the ‘Change Con-
version Settings’ command from the ‘Ado-
be PDF’ Word menu. On the ‘Settings’ tab, 
the user can activate the PDF/A-1a check-
box or select one of two PDF/A-1b settings 
from a pulldown menu. 周e ‘Enable ad-
vanced tagging’ option in the ‘Word’ area 
is  active  by  default  and  ensures  that 
PDF/A-1b files meet the tagged PDF re-
■■Choosing ‘Convert to Adobe PDF’ from 
the ‘Adobe PDF’ menu now causes the PDF-
Maker to create a PDF/A-1a/ or PDF/A1b-
compliant file that also meets the require-
ments for an accessible PDF file.
Adjustments in Acrobat Professional:
In some circumstances, certain 
additional steps may need to be 
taken in Acrobat Professional:
■■周e file is modified in line 
with accessibility requirements. 
周e user may need to set the lan-
guage in the ‘Advanced’ area of 
the  ‘Document  Properties’ 
screen so that screenreader so晴-
ware  functions  correctly  with 
the document.
■■周e Acrobat ‘Advanced’ menu 
contains further accessibility op-
tions. 周e user should carry out 
the ‘Full Check’ function. If there 
are  accessibility  problems  with 
the file being checked, Acrobat 
informs  the  user  and proposes 
ways of repairing them.
■■周e ‘TouchUp Reading Or-
der...’ function can be used if re-
pairs to the structure and alter-
nate image text are required.
■■Once the PDF document has 
successfully passed the accessibili-
ty check, it can be validated in Ac-
robat’s Preflight tool to make sure 
that it is suitable for conversion to 
PDF/A. It can then be converted. 
周e PDF/A conversion/validation 
is always the very last step. 
Accessibility options: This illustration 
shows the location of tools for accessible 
PDF in Acrobat Professional.
Last step: Finally, the PDF file is converted 
to PDF/A or tested to see whether it con-
forms to the standard.
…or chooses one of the two PDF/A-1b variants for RGB and CMYK from the menu. In 
the case of PDF/A-1b, the ‘Enable advanced tagging’ checkbox must be selected in the 
‘Word’ section to allow the generation of accessible PDF files.
Accessibility and PDF/A: The user either selects the PDFMaker PDF/A-1a checkbox on 
the ‘Settings’ tab...
PDF/A applications in everyday life
in a Nutshell 
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
NET application. Online C# source code for extracting, copying and pasting PDF pages in C#.NET console class. Support .NET WinForms
make pdf form editable in reader; extracting data from pdf forms
Interactive PDF files
Interactive elements significantly enhance 
the functional scope and usage possibili-
ties of PDF documents.  Interactive ele-
ments  create  connections  –  whether in 
the  form  of  navigation  between  docu-
ments or interaction between companies 
and clients or public authorities and citi-
PDF  documents  can  be  given  hyper-
links, comments, and form elements. But 
to what extent are these interactive func-
tions compatible with PDF/A? 周e PDF/A 
standard  stipulates  that  files  may  only 
contain future-proof elements that do not 
impede clarity. 
Comments and annotations
PDF/A aims to make all of the content in 
PDF  files  reproducible  and  permanently 
accessible. 周is includes comments. 周ey 
may not be hidden or set as ‘non-printing’. 
However, if a user wants to give a PDF file 
permanent comments – that is, he or she 
wishes to retain the comments in the PDF/A 
file – this is technically possible. It is not 
difficult to define a comment as a note in 
Acrobat  and  generate a valid PDF/A  file 
from the document in question. 
Sticky Note in a PDF/A file: As a rule, com-
ments are permitted in PDF/A-compliant 
files. However, multimedia comment types 
such as audio comments are prohibited. 
Users must be especially careful with col-
ors and transparency when using graphi-
cal annotations.
in a Nutshell
PDF/A applications in everyday life
Since note icons and input masks work 
with RGB, the PDF/A file in question must 
have an RGB output intent such as ‘sRGB’.
周ere are also comment types that are 
not permitted. It is easy to understand why 
text edit comments are prohibited. If such 
annotations exist, it is to be assumed that a 
text correction that should have been made 
has actually been overlooked. Care should 
also  be  taken  with  comments  that  use 
transparency to mark a document. 周is in-
cludes  the  Highlight  Text  Tool  and  the 
stamps  delivered  with Acrobat,  e.g. ‘Ap-
What can be done if these types of com-
ment are important and need to be trans-
ferred to the PDF/A file being created? 周e 
Acrobat Preflight tool provides a solution. 
If you carry out corrections to flatten com-
ments and transparencies before carrying 
out a PDF/A conversion, the visual nature 
of the comments is retained but the com-
ment functionality is completely lost. For 
example, following flattening in the Pre-
flight tool stamp notes can no longer be 
opened by double-clicking on them.
Hyperlinks are comments
It might be surprising, but from a technical 
point  of  view  hyperlinks  are  also  com-
ments. 周ey may not be retained in their 
original form if PDF/A-compliance is to be 
achieved – instead, they must be flattened. 
If a user attempts to convert a PDF file that 
contains links into a PDF/A file, the system 
issues two error messages per hyperlink: 
‘Annotation has no Flags entry’ and ‘Anno-
tation not set to print’. 
周e Preflight correction profiles ‘Remove 
all  annotations’  and  ‘Flatten  comments’ 
can be useful here. In this case, the result of 
both procedures is the same. Once the links 
have been discarded, Preflight can usually 
convert the PDF file into a PDF/A file with-
out any difficulty. 
Not all comments are suitable for PDF/A: 
Unsuitable annotations include text edit 
annotations and annotations with trans-
Hyperlinks are comments: The illustration 
below shows that this PDF/A conversion 
cannot be carried out in Preflight because 
of links in the document.
Removing or flattening annotations: Preflight corrections can re-
move or flatten comments. In the latter case, the annotations are 
still visible but they lose their typical comment features.
PDF/A applications in everyday life
in a Nutshell 
周e  PDF/A  standard  does  not  prohibit 
forms as such, but there are form field types 
that work  with  actions, and actions can 
prevent PDF files from being suitable for 
long-term archiving. Problems are to be ex-
pected in the following cases:
■■Actions of the type ‘Submit a Form’, 
‘Import Form Data’, and ‘Reset a Form’ are 
prohibited. 周is is  understandable,  since 
these actions change document content. 
■■Additional actions are not permitted 
because they too can change content.
■■JavaScript actions are prohibited be-
cause they endanger the reproducibility of 
the actual state of a file.
An attempt to convert  a form PDF  to a 
PDF/A-1b-compliant document might give 
the result shown in the illustration below. 
Such a result is caused by critical events in-
cluding ‘Reset Form’ and the ‘Send’ but-
As is shown by the Preflight result in the 
illustration, problems with non-embedded 
fonts have also occurred in this example. 
周is is not so easy to solve at a later stage 
(for more information, see below). In addi-
tion,  the  tool  sometimes  reports  ‘De-
viceRGB’ colors (device-dependent colors) 
that result from the colored background of 
form fields. (Acrobat Professional only pro-
vides device-dependent RGB for setting up 
form  fields  and  buttons.)  What  can  be 
■■First, actions and JavaScript must be re-
moved from the source form. 周is causes 
certain restrictions in functionality. 
■■If the device-dependent RGB colors are 
not to prevent compliance with the PDF/A 
standard, the user has to select ‘sRGB’ as 
the output intent for the conversion. 周e 
trimmed down, pre-treated form PDF can 
then be converted to PDF/A-1b. However, 
If  forms  use  interactive  ele-
ments, it is not usually possible 
to depict them in a 1:1 manner 
in PDF/A. PDF/A-compliance is 
easiest to achieve for simple 
PDF forms with no calculation 
or  validation  functions,  re-
ports, and so on.
Forms and PDF/A: It is not form fields 
themselves that cause problems when 
converting files to PDF/A – it is certain 
actions and JavaScript used in form fields. 
Problems can also occur with fonts and 
Device-dependent: DeviceRGB requires ‘sRGB’ as the output intent.
in a Nutshell
PDF/A applications in everyday life
an alternative solution must be found for 
non-embedded fonts in form fields.
Embedding fonts for PDF/A forms
Many current tools do not enable the em-
bedding of fonts in PDF form fields. How-
ever, these fonts must be contained within 
the PDF  file in order  to achieve PDF/A-
周e Acrobat Preflight tool cannot embed 
fonts in form fields. Following a failed at-
tempt to convert a document containing 
them into a PDF/A document, the tool is-
sues the following error message: ‘Font not 
周ere is now a tool that can carry out this 
task – the Acrobat pdfaPilot plug-in from cal-
las so晴ware. Among many other correction 
functions, it allows form PDF files to be con-
verted into PDF/A-compliant documents. For 
the process to work, all of the fonts required 
for the PDF document being converted must 
be available and accessible on the computer. 
In addition to the function for embedding 
fonts, pdfaPilot also solves many of the com-
mon color problems that occur in forms. 
Preflight: The conversion of the form to 
PDF/A cannot be carried out because the 
tool is unable to embed the required fonts 
in the file.
PDF/A form: pdfaPilot can create valid 
PDF/A forms with embedded fonts.
Access to fonts: All used fonts must be 
available on the computer being used for 
the conversion in order for font embedding 
to be successful.
PDF/A applications in everyday life
in a Nutshell 
Documents you may be interested
Documents you may be interested