how to display pdf file in picturebox in c# : Get text from pdf image software Library dll windows .net winforms web forms file_formats_in-house_preservation1-part464

File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
3
2.1.2 OpenDocument Text (.odt) 
OpenDocument Text is another preservation-quality format in which word processing document may be retained long-term. OpenDocument 
Text is similar in structure to the .docx format used by Microsoft
®
Office. OpenDocument Text is an open, non-proprietary format associated 
with many word processing applications, including OpenOffice. Most word processing applications can save and convert files to the 
OpenDocument Text format.
5
Most word processing applications can save and convert files to the OpenDocument Text format, including Microsoft
®
Office 2010. 
5
See also OASIS Open Document Format for Office Applications (OpenDocument) TC, https://www.oasis-open.org/committees/tc_home.php?wg_abbrev=office 
(accessed 9/7/2012). 
Get text from pdf image - extract text content from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Feel Free to Extract Text from PDF Page, Page Region or the Whole PDF File
extract pdf text to excel; copy highlighted text from pdf
Get text from pdf image - VB.NET PDF Text Extract Library: extract text content from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
How to Extract Text from PDF with VB.NET Sample Codes in .NET Application
extract text from pdf to word; cut text from pdf document
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
4
OpenDocument Text is a sub-type of the OpenDocument Format (ODF), an open source file format for spreadsheets, charts, presentations, 
and word processing documents. Originally created by Sun Microsystems, the current standards were developed by the Organization for the 
Advancement of Structured Information Standards (OASIS) Open Document Format for Office Applications committee.  The format is based 
on the XML format used by the OpenOffice.org office suite. The format is also published (in one of its version 1.0 manifestations) as ISO/IED 
international standard 26300:2006. See also 2.4.1 OpenDocument Spreadsheet (.ods) and 2.10.1 OpenDocument Presentation (.odp)
In almost all cases, an OpenDocument Text ´fileµ with the .odt extension is actually a package of several files that have been compressed into 
a single ZIP file package that carries the .odt extension rather than the .zip extension. Within the zipped package are several separate files 
that represent the content of the document, its styling, metadata, settings, and a manifest of the zip package files. Although rare, an 
OpenDocument Text file can also be a single, flat XML file, in which case the associated file extension is usually .xml or .fodt. 
TIP: You can see the internal structure of your OpenDocument Text (.odt) files if you change the extension from .odt 
to .zip, and then unzip the file. BE CAREFUL TO TRY THIS ONLY WITH TEST FILES, NOT PRESERVATION MASTER COPIES. 
2.1.3 Special Note on Google Docs™ 
Google Docs™ is a cloud-based document editing service offered by Google™. Word processing documents may be created on Google 
Docs™ and exported in various formats, including Microsoft
®
Word 97-2003 (.doc), OpenDocument Text (.odt), PDF (.pdf), zipped webpage 
(.zip), and others. The recommendations described in this document apply to all documents, regardless of whether they were created using 
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
C# users are able to extract image from PDF document page and get image information for indexing and accessing. C# Project: DLLs for PDF Image Extraction.
extract text from pdf file using java; export text from pdf
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
RsterEdge XDoc PDF SDK for .NET, VB.NET users are able to extract image from PDF page or file and specified region on PDF page, then get image information for
cut text pdf; c# extract pdf text
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
5
Google Docs™. The State Archives of North Carolina recommends that documents be exported from Google Docs™ as OpenDocument 
Format (.odt). Alternatively, documents can be exported as standard PDF files and then converted to PDF/A. 
Documents created in Google Docs™ should be exported for long-term preservation as OpenDocument Format (.odt). 
Alternatively, documents can be exported as standard PDF files and then converted to PDF/A. 
2.2 Plain Text Documents 
Plain text files are those that contain US-ASCII or Unicode UTF-8 text without styling or structural markup. These are files commonly created with 
Notepad on Windows
®
operating systems, TextEdit on Mac
®
OS X
®
systems, and Vi text editor on Unix. Numerous other applicants are also used to 
create and edit these files. Technically speaking, while XML, HTML, XHTML, SGML, and many other documents are also plain text documents 
C# PDF insert text Library: insert text into PDF content in C#.net
String inputFilePath = Program.RootPath + "\\" 1.pdf"; PDFDocument doc = new PDFDocument(inputFilePath); // get a text manager from the document object
extract text from pdf file; edit pdf replace text
C#: Use OCR SDK Library to Get Image and Document Text
In addition to raster image files, text extraction from PDF is also supported by our OCR toolkit. For instance, you may get text content from whole PDF file
cut and paste pdf text; extract text from pdf online
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
6
(typically Unicode UTF-8 encoded), these types of files utilize special markup languages to apply structural and styling rules to the documents’ 
content. Because of their unique nature, such documents are classified for the purposes of these guidelines as ´Structural markup text documentsµ (see 
2.3 Structural Markup Text Documents).   
2.2.1 Plain Text (.txt) US-ASCII or UTF-8 encoding 
The data in plain text files is typically encoded in either US-ASCII or Unicode UTF-8 encodings. US-ASCII (American Standard Code for 
Information Interchange) defines 256 characters where each character is defined using an 8-bit byte. It is the most common encoding for 
English-language plain text documents. Unicode UTF-8 has a much broader set of characters, allowing for the use of non-Roman scripts 
(Arabic, Chinese, and Thai, for instance). Its first 128 characters are those used by US-ASCII, making Unicode UTF-8 backwards compatible 
with US-ASCII and making all US-ASCII text valid Unicode UTF-8 as well. Unicode UTF-8 has become the standard encoding for Web 
documents, including email.  
Example plain text file, opened in Notepad. See also comma-separated and tab-
delimited files (below), which are types of plain text files designed especially to hold 
data. 
C# PDF Annotate Library: Draw, edit PDF annotation, markups in C#.
box to PDF and edit font size and color in text box field using RasterEdge.XDoc.PDF; Note: When you get the error "Could not load file or assembly 'RasterEdge
copy text from pdf to word with formatting; delete text from pdf preview
VB.NET PDF Annotate Library: Draw, edit PDF annotation, markups in
NET image annotating features, provides developers with a great .NET solution to annotate .pdf file with both text & graphics. From this page, you will get a
extract highlighted text from pdf; copy text from pdf
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
7
2.2.2 Comma-separated file (.csv) US-ASCII or UTF-8 encoding 
Comma-separated files are plain text files that store tabular data. Like files with the .txt extension, they are usually encoded in either US-
ASCII or Unicode UTF-8. They are distinguished by the fact that they contain values separated by commas and line breaks, so that 
spreadsheet and database applications (like Microsoft
®
Excel
®
and Access
®
) can easily open and interpret (or ´parseµ) the data. 
Example comma-separated file (sample_log.csv) opened in Notepad. If this file were 
opened in a spreadsheet editor and re-saved as a tab-delimited file, it would appear as 
the file pictured in 2.2.3. 
VB.NET PDF insert image library: insert images into PDF in vb.net
Dim inputFilePath As String = Program.RootPath + "\\" 1.pdf" Dim doc As PDFDocument = New PDFDocument(inputFilePath) ' Get a text manager from the
extract text from pdf with formatting; extract text from pdf image
VB.NET PDF: Get Started with PDF Library
C#.NET rotate PDF pages, C#.NET search text in PDF VB.NET PDF: Get Started with .NET PDF Library Using VB. Simple Sample Code for Creating Blank Page to PDF in VB
copy and paste text from pdf; copy text from pdf with formatting
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
8
The same comma-delimited file as above (sample_log.csv) opened in Microsoft
®
Excel
®
2.2.3 Tab-delimited file (.txt) US-ASCII or UTF-8 encoding 
Tab-delimited files are similar to comma separated files, the difference being that the values in one are separated by commas and in the 
other by tabs. Tab-delimited files carry the standard .txt extension. 
As with the .txt files and comma-separated files described in 2.2.1 and 2.2.2, tab-delimited files should be encoded in either US-ASCII or 
Unicode UTF-8. 
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
9
Example tab-delimited file (sample_log.txt) opened in Notepad. If this file were opened in a spreadsheet editor and re-
saved as a comma-separated file, it would appear as the files pictured in 2.2.2. 
2.3 Structural Markup Text Documents 
Structural markup text documents, including XML and SGML, have been distinguished from plain text and word processing documents because of the 
unique functions they serve and the preservation standards they require. Technically speaking, these texts are also plain text files (see 2.2 Plain Text 
Documents), and many word processing documents, image files, web sites, and other formats are primarily XML-based. For the purposes of this 
document, structural markup text documents include individual plain text documents written in markup languages not otherwise belonging to another 
format category.  
2.3.1 SGML with DTD/Schema 
Standard Generalized Markup Language (SGML) is a markup language used for formally describing the structure and contents of 
documents. It is the umbrella language under which HTML, XML, and XHTML were designed. Defined by ISO 8879:1986, SGML files use 
´tagsµ to assign style and structure to content. These tags must either be internally defined or externally defined in a document type 
declaration (DTD). 
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
10
2.3.2 XML (.xml) with DTD/Schema 
Extensible Markup Language (XML) is a markup language that describes a document’s storage layout and logical structure in a way that is 
both human and computer-readable. The term ´XMLµ is applied to both the markup language and the documents produced with it. XML is a 
subset of the Standard Generalized Markup Language (SGML).  
XML tags are fully extensible and user-defined. Thus, XML documents must include or refer to documentation of the meaning of the tags 
(markup declarations). Usually, an XML file achieves this by referencing a document type definition (DTD) or schema in its header, although 
the file may also include the markup declarations within the XML document itself. The Library of Congress Sustainability of Digital Formats 
database describes two types of XML documents and their markup declarations: 
“XML
DOCUMENTS FALL INTO TWO BROAD CATEGORIES
:
DATA
-
CENTRIC AND DOCUMENT
-
CENTRIC
.
D
ATA
-
CENTRIC DOCUMENTS ARE THOSE 
WHERE 
XML
IS  USED AS A  DATA TRANSPORT
.
E
XAMPLES INCLUDE SALES ORDERS
,
PATIENT RECORDS
,
DIRECTORY ENTRIES
,
AND METADATA 
RECORDS
.
O
NE SIGNIFICANT  USE OF DATA
-
CENTRIC 
XML
IS  FOR MANIFESTS 
(
LISTS
)
OF  DIGITAL  CONTENT
;
ANOTHER  IS  FOR  METADATA 
EMBEDDED  INTO  DIGITAL  CONTENT  FILES
.
D
OCUMENT
-
CENTRIC  DOCUMENTS  ARE  THOSE  IN  WHICH 
XML
IS  USED  FOR  ITS 
SGML-
LIKE 
CAPABILITIES
,
REFLECTING  THE  STRUCTURE  OF  PARTICULAR  CLASSES  OF  DOCUMENTS
,
SUCH  AS  BOOKS  WITH  CHAPTERS
,
USER  MANUALS
,
NEWSFEEDS AND ARTICLES INCORPORATING EXPLICIT METADATA IN ADDITION TO THE TEXT
.
A
XML
DOCUMENT
'
S MARKUP STRUCTURE CAN 
BE DEFINED BY A SCHEMA LANGUAGE AND VALIDATED AGAINST A DEFINITION IN THAT LANGUAGE
.
T
HE INITIAL
,
AND AS OF 
2008,
MOST 
WIDELY USED SCHEMA LANGUAGES ARE THE 
D
OCUMENT 
T
YPE 
D
EFINITION 
(DTD)
LANGUAGE AND 
W3C
XML
S
CHEMA
.
O
THER SCHEMA 
LANGUAGES EXIST
,
INCLUDING 
RDF
AND 
RELAX-NG.”
6
2.4 Spreadsheets 
Spreadsheets represent tabular data divided into columns and rows of data cells. Column and row headings identify data and allow future users to 
make sense and meaning of spreadsheet content. Depending on the relative importance of a spreadsheet’s content, formulas, graphs, charts, and 
sheets, the spreadsheet may need to be preserved in its entirety. For example, the value of cells may be created by formulae that cannot be seen if 
the spreadsheet is exported to PDF/A or plain text. Instead, it would need to be preserved as an OpenDocument Spreadsheet (see 2.4.1 
6
Library of  ongress “XML (Extensible Markup Language,” Sustainability of Digital Formats: Planning for Library of Congress Collections, 
http://www.digitalpreservation.gov/formats/fdd/fdd000075.shtml (accessed 4/26/2012). 
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
11
OpenDocument Spreadsheet ). Your agency or office will need to carefully determine whether this hidden information (or ´metadataµ) merits 
preservation.
7
Many spreadsheets, like those pictured above, have important metadata such as formulas  and styling information. This 
metadata is not always visible to the reader but is critical to rendering the data. When deciding between formats, it is 
important to consider whether your spreadsheets include this kind of information. OpenDocument Spreadsheets are 
capable of preserving formulas, hyperlinks, graphs, charts, and the relationships between multiple sheets. Comma-
separated files and tab-delimited files are not.
6
7
For more information about retention of metadata, see Metadata as a Public Record in North Carolina: Best Practices Guidelines for Its Retention and Disposition 
(11/2010), http://www.records.ncdcr.gov/guides/Metadata_Guidelines_%2020101108.pdf (accessed 9/7/2012). 
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
12
2.4.1 OpenDocument Spreadsheet (.ods)  
OpenDocument Spreadsheet is a sub-type of the OpenDocument Format (ODF), an open source file format for spreadsheets, charts, 
presentations, and word processing documents. Originally created by Sun Microsystems, the current standards were developed by the 
Organization for the Advancement of Structured Information Standards (OASIS) Open Document Format for Office Applications committee.  
The format is based on the XML format used by the OpenOffice.org office suite. The format is also published (in one of its version 1.0 
manifestations) as ISO/IED international standard 26300:2006. See also 2.1.2 OpenDocument Text (.odt) and 2.10.1 OpenDocument 
Presentation (.odp)
In almost all cases, an OpenDocument Spreadsheet ´fileµ with the .ods extension is actually a package of several files that have been 
compressed into a single ZIP file package. Within the zipped package are several separate files that represent the content of the document, 
its styling, metadata, settings, and a manifest of the zip package files. An OpenDocument Spreadsheet file can also be a single, flat XML file; 
this is rare, however, and the associated file extension is usually .xml or .fods. 
The OpenDocument Spreadsheet format does preserve styling, formulas, graphs, charts, and the relationships between 
multiple sheets. If, however, you are converting your file to ODS from another format, such as a Microsoft
®
Excel
®
XLS or 
XLSX file, be sure to check that styling, formulas, graphs, charts, and sheet relationships were converted properly.  
Documents you may be interested
Documents you may be interested