how to display pdf file in picturebox in c# : Copy text from pdf reader software Library dll windows .net winforms web forms file_formats_in-house_preservation0-part463

FILE FORMAT GUIDELINES 
FOR MANAGEMENT AND 
LONG-TERM RETENTION OF 
ELECTRONIC RECORDS
9/10/2012 
State Archives of North Carolina 
Copy text from pdf reader - extract text content from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Feel Free to Extract Text from PDF Page, Page Region or the Whole PDF File
copy pdf text to word document; copy paste text pdf file
Copy text from pdf reader - VB.NET PDF Text Extract Library: extract text content from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
How to Extract Text from PDF with VB.NET Sample Codes in .NET Application
copying text from pdf to word; export text from pdf to word
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
1
Table of Contents 
1. GUIDELINES AND RECOMMENDATIONS .................................................................................. 3 
2. DESCRIPTION OF FORMATS RECOMMENDED FOR LONG-TERM RETENTION ......................... 7 
2.1 Word Processing Documents ...................................................................................................................... 7 
2.1.1 PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) ........................................................................ 7 
2.1.2 OpenDocument Text (.odt) ................................................................................................................... 3 
2.1.3 Special Note on Google Docs™ .......................................................................................................... 4 
2.2 Plain Text Documents ................................................................................................................................... 5 
2.2.1 Plain Text (.txt) US-ASCII or UTF-8 encoding ................................................................................... 6 
2.2.2 Comma-separated file (.csv) US-ASCII or UTF-8 encoding ........................................................... 7 
2.2.3 Tab-delimited file (.txt) US-ASCII or UTF-8 encoding .................................................................... 8 
2.3 Structural Markup Text Documents ........................................................................................................... 9 
2.3.1 SGML with DTD/Schema ....................................................................................................................... 9 
2.3.2 XML (.xml) with DTD/Schema ........................................................................................................... 10 
2.4 Spreadsheets ............................................................................................................................................. 10 
2.4.1 OpenDocument Spreadsheet (.ods) ................................................................................................. 12 
2.4.2 Comma-separated file (.csv) ............................................................................................................ 13 
2.4.3 Tab-delimited file (.txt) ...................................................................................................................... 14 
2.4.4 PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) ..................................................................... 15 
2.4.5 Special Note on Google Docs™ ....................................................................................................... 16 
2.5 Audio ........................................................................................................................................................... 18 
2.5.1 Broadcast WAVE Format LPCM (.wav) .......................................................................................... 19 
2.5.2 WAVE Format LPCM (.wav) .............................................................................................................. 19 
2.6 Digital Video .............................................................................................................................................. 20 
2.6.1 AVI, full frame (uncompressed), WAVE PCM audio (.avi) .......................................................... 20 
2.6.2 Special Note on SD (Standard Definition) and HD (High Definition) videos ............................. 20 
2.7 Raster Images ............................................................................................................................................ 21 
2.7.1 TIFF (.tif), uncompressed ..................................................................................................................... 24 
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
C#.NET PDF Library - Copy and Paste PDF Pages in C#.NET. Easy Ability to copy selected PDF pages and paste into another PDF file. The
copying text from pdf to excel; delete text from pdf with acrobat
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
Extract, Copy, Paste PDF Pages. |. Home ›› XDoc.PDF ›› VB.NET PDF: Copy and Paste PDF Page. Ability to copy PDF pages and paste into another PDF file.
extract text from pdf c#; extracting text from pdf
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
2
2.7.2 JPEG 2000 (.jp2) ................................................................................................................................ 25 
2.8 Vector Images ............................................................................................................................................ 27 
2.8.1 Scalable Vector Graphics 1.1 (.svg) ............................................................................................... 28 
2.8.2 AutoCAD
®
Drawing Interchange Format (.dxf) ............................................................................. 28 
2.8.3 PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) ..................................................................... 29 
2.9 Databases ................................................................................................................................................... 29 
2.9.1 Software Independent Archiving of Relational Databases (SIARD) ......................................... 29 
2.9.2 Delimited Flat File (Plain Text) with DDL ........................................................................................ 30 
2.10 Presentations ............................................................................................................................................ 30 
2.10.1 OpenDocument Presentation (.odp) .............................................................................................. 30 
2.10.2 PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) for presentations without animation .... 31 
2.11 Email .......................................................................................................................................................... 31 
State Agency Employees.............................................................................................................................. 31 
Local Government Employees ..................................................................................................................... 31 
Formats: Multiple Emails & Email Accounts ............................................................................................... 32 
2.11.1 Microsoft
®
Outlook
®
Personal Storage Table (.pst) .................................................................. 32 
2.11.2 MBOX (.mbox, .mbx) ....................................................................................................................... 33 
Formats: Individual Email Messages ........................................................................................................... 34 
2.12 Webpages ............................................................................................................................................... 37 
2.12.1 Web Archive (.warc, .war) ............................................................................................................. 37 
2.12.2 PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) ................................................................... 38 
2.13 Geospatial Vector Datasets ................................................................................................................. 40 
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
PDF ›› C# PDF: Extract PDF Image. How to C#: Extract Image from PDF Document. Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document.
cut and paste text from pdf; copy text from protected pdf to word
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
VB.NET PDF - Extract Image from PDF Document in VB.NET. Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document in VB.NET Project.
extract text from pdf open source; copy text from protected pdf
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
3
File Format Guidelines for Management and 
Long-Term Retention of Electronic records 
STATE ARCHIVES OF NORTH CAROLINA 
1. GUIDELINES AND RECOMMENDATIONS 
The following table represents the digital formats that the State Archives of North Carolina (State Archives) recommends for in-house preservation 
and long-term records retention. For electronic records, long-term retention is considered any period 3 - 5 years or longer. The State Archives 
recommends that any state or local agency record series for which the required retention period is five years or longer be maintained in the 
following formats. The record types included in this document are not exhaustive. State and local agencies producing specialized records may find 
that certain types of records are not covered by this document. Please contact the Electronic Records Branch to discuss potential preservation 
strategies for such media. 
These guidelines classify formats into three categories: 
Recommended for long-term retention: File formats that meet the minimum requirements for long-term retention, including documentation, wide 
adoption, transparency, self-containment, and use within the archival community. In most cases, these are the formats the State Archives itself uses to 
preserve electronic records. 
Acceptable for long-term retention: File formats that do not meet the minimum requirements for long-term retention, but which come near to meeting 
the requirements and, for practical reasons, may be appropriate for long-term retention at some agencies. These formats are more likely to require 
frequent review and maintenance than formats recommended for long-term retention. 
Not recommended for long-term retention: File formats that are not appropriate for long-term retention. Files saved in these formats should not be 
relied on to last more than five years. Electronic records whose retention periods are over five years should not be stored in these formats. 
VB.NET PDF copy, paste image library: copy, paste, cut PDF images
Copy, paste and cut PDF image while preview without adobe reader component installed. Image resize function allows VB.NET users to zoom and crop image.
copy text from pdf reader; get text from pdf online
C# PDF insert text Library: insert text into PDF content in C#.net
Supports adding text to PDF in preview without adobe reader installed in ASP.NET. Powerful .NET PDF edit control allows modify existing scanned PDF text.
acrobat remove text from pdf; find and replace text in pdf
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
4
Type of record 
Recommended for long-term retention  
Acceptable for long-term retention  
Not recommended for long-term retention 
Word Processing 
documents 
PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) 
OpenDocument Text (.odt) 
PDF/A-1b (.pdf) (ISO 19005-1 minimally compliant 
PDF/A) 
Microsoft
®
Word Document (.doc)  
Microsoft
®
Open XML Document (.docx)   
Rich Text Format (.rtf) 
Corel
®
WordPerfect
®
(.wpd) 
Lotus
®
WordPro (.lwp)  
PDF (.pdf) 
Plain text 
documents 
Plain Text (.txt) US-ASCII or UTF-8 encoding 
Comma-separated file (.csv) US-ASCII or UTF-8 
encoding 
Tab-delimited file (.txt) US-ASCII or UTF-8 encoding 
Other delimited text files (space-delimited, colon-
delimited, etc.) where the delimiting character is not 
present in the data  
Structural markup 
text documents 
SGML with DTD/Schema  
XML (.xml) with DTD/Schema 
XML without DTD/Schema  
SGML without DTD/Schema 
Spreadsheets 
OpenDocument Spreadsheet (.ods) 
Comma-separated file (.csv) 
Tab-delimited file (.txt) 
PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) 
Microsoft
®
Excel
®
Spreadsheet (.xls) 
Microsoft
®
Excel
®
Open XML Spreadsheet (.xlsx) 
Other delimited text files (space-delimited, colon-
delimited, etc.) where the delimiting character is not 
present in the data  
Audio 
Broadcast WAVE Format LPCM (.wav) 
WAVE Format LPCM (.wav) 
AIFF (uncompressed) (.aif, .aiff) 
Standard MIDI (.mid, .midi) 
Windows
®
Media Audio WMA (. wma) 
MPEG3  (.mp3) 
MP4 AAC (.m4a) 
Audio CD (Compact Disc Digital Audio system, 
CDDA, CD-DA) 
DVD-Audio 
QuickTime
®
MP4 AAC Protected (.m4p, .m4b) 
QuickTime
®
MP3, iTunes (.mp3) 
RealAudio
®
(.rm, .ra) 
Shorten
®
(.shn) 
RIFF-RMID (.rmi) 
Extended MIDI (.xmi) 
Module Music Formats, Mods (.mod)  
SUN Audio, uncompressed (.au) 
Ogg FLAC (.ogg) 
C# PDF copy, paste image Library: copy, paste, cut PDF images in
|. Home ›› XDoc.PDF ›› C# PDF: Copy, Paste, Cut Image in Page. C#.NET PDF SDK - Copy, Paste, Cut PDF Image in C#.NET. C# Guide
delete text from pdf online; get text from pdf into excel
C# PDF Text Search Library: search text inside PDF file in C#.net
Text: Search Text in PDF. C# Guide about How to Search Text in PDF Document and Obtain Text Content and Location Information with .NET PDF Control.
extract text from pdf to excel; extract text from pdf using c#
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
5
Type of record 
Recommended for long-term retention  
Acceptable for long-term retention  
Not recommended for long-term retention 
Digital Video 
AVI, full frame (uncompressed), WAVE PCM audio 
(.avi) 
AVI, containing H.264/MPEG-4 AVC (lossy)
1
(.avi)
MPEG-4, containing H.264/MPEG-4 AVC (lossy) (.mp4) 
MPEG-2, containing H.262/MPEG-2 (lossy) (.mp2) 
MOV, containing H.264/MPEG-4 AVC (lossy) (.mov) 
ASF, containing WMV (lossy) (.wmv) 
MXF, containing Motion JPG 2000
2
(lossless) (.mxf) 
Ogg, containing Theora (lossy) (.ogg) 
DVD-Video 
VOB (VIDEO_TS, AUDIO_TS) 
Blu-ray Disc™ 
HCAM
®
Digital VHS (D-VHS) 
DVCam
®
Raster Images 
TIFF (.tif, .tiff) uncompressed 
JPG 2000  (.jp2) 
JPEG (.jpg, .jpeg) 
PNG (.png) 
PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) 
GIF (.gif)  
RAW (.raw, various) 
Adobe
®
Photoshop
®
(.psd) 
Kodak PhotoCD 
Encapsulated PostScript (.eps) 
FlashPix™ (.fpx) 
PDF (.pdf)  
Vector Images 
(*See below for 
geospatial vector 
sets.) 
Scalable Vector Graphics 1.1 (.svg) 
AutoCAD
®
Drawing Interchange Format (.dxf) 
PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) 
AutoCAD
®
Drawing Format (.dwg) 
Adobe
®
Illustrator (.ai) 
Corel
®
Draw CDR (.cdr) 
Micrografx Draw DRW (.dwr) 
Windows
®
Metafile WMF (.wmf, .emf) 
Standard for the Exchange of Product Model Data 
STEP (.stp) 
Computer Graphics Metafile DXF (.dxf) 
Databases 
Software Independent Archiving of Relational 
Databases (SIARD) 
Delimited Flat File (Plain Text) with DDL 
Microsoft
®
Access
®
(.accdb) 
Microsoft
®
Access
®
(.mdb) 
dBase Format (.dbf) 
Presentations 
OpenDocument Presentation (.odp) 
PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) for 
presentations without animation 
Microsoft
®
PowerPoint Presentation (.ppt) 
Microsoft
®
Open XML PowerPoint
®
Presentation 
(.pptx) 
1
One of the H.264/MPEG-4 AVC profiles is sometimes described as lossless: MPEG-4 AV  High 4:4:4 Profile. For more information, see the Notes section of “MPEG-4, 
Advanced Video Coding, High 4:4:4 Profile,” Sustainability of Digital Formats: Planning for Library of Congress Collections, 
http://digitalpreservation.gov/formats/fdd/fdd000218.shtml (accessed 5/16/2012). 
2
See “MXF File, OP1a, Lossless JPEG 2000 in Generic Container,” Sustainability of Digital Formats: Planning for Library of Congress Collections, 
http://digitalpreservation.gov/formats/fdd/fdd000206.shtml (accessed 5/16/2012) and “Motion JPEG 2000 jp2 File Format,” Sustainability of Digital Formats: 
Planning for Library of Congress Collections, http://digitalpreservation.gov/formats/fdd/fdd000127.shtml (accessed 5/16/2012). 
C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net
C#.NET PDF SDK - Convert PDF to Text in C#.NET. Integrate following RasterEdge C#.NET text to PDF converter SDK dlls into your C#.NET project assemblies;
c# read text from pdf; copy text from pdf in preview
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
6
Type of record 
Email  
* See section 2.11 Email
Websites / 
Social Media 
* See section 2.12 Webpages
Geospatial Vector 
Data 
* See section 2.13 Geospatial Vector Datasets
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
7
2. DESCRIPTION OF FORMATS RECOMMENDED FOR LONG-TERM RETENTION 
This section describes in further details the formats listed in column one of 1. Guidelines and Recommendations. These file formats meet the minimum 
requirements for long-term retention, including documentation, wide adoption, transparency, self-containment, and use within the archival community. 
In most cases, these are the formats the State Archives itself uses to preserve electronic records. 
File formats are organized according to type of record, as presented in 1. Guidelines and Recommendations
Word Processing Documents 
Plain Text Documents 
Structural Markup Text Documents 
Spreadsheets 
Audio 
Digital Video 
Raster Images 
Vector Images 
Databases 
Presentations 
Email 
Websites/Social Media 
2.1 Word Processing Documents 
This category includes texts created in word processing applications like Microsoft
®
Word and OpenOffice.  Unlike plain text files, these documents 
combine plain text with formatting and styling—including fonts, headings, lists, highlights, notes, and embedded tables and images.   
NOTE: Although some word processing files, such as .docx files, are XML-based, for the purposes of these guidelines, these files have been included in 
the ´word processing documentsµ category and distinguished from ´structural markup text documentsµ due to differences in function and editing 
software (see 2.3 Structural Markup Text Documents). 
2.1.1 PDF/A-1a (.pdf) (ISO 19005-1 compliant PDF/A) 
PDF/A-1a, also known as ´ISO 19005-1 compliant PDF/Aµ is a type of PDF document designed to preserve PDF files for long-term retention. 
Traditional PDF files have a number of weaknesses that can cause the same file to appear or behave differently when opened on different 
computers. Compliant PDF/A files overcome these issues and ensure that the PDF file will appear the same everywhere it is opened. 
Documents produced in word processing software like Microsoft
®
Word or WordPerfect should be converted to compliant PDF/A files.  
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
1
PDF-Archival (more commonly known as PDF/A) is an international standard developed by the Association for Information and Image 
Management International (AIIM International) to archive and preserve electronic documents in PDF form.  The PDF/A format has been 
adopted as ISO standard 19005-1:2005 and is widely used by archival institutions, including the National Archives and Records 
Administration (NARA), Library and Archives Canada (LAC), and the Library of Congress (LOC). Version 1, PDF/A-1, is the current archival 
standard.
It imposes several restrictions on the standard PDF format in order to maximize files’ device independence, self-containment, and 
self-documentation. Constraints include:  
1.
Audio and video content are forbidden. 
2.
Javascript and executable file launches are prohibited. 
3.
All fonts must be embedded and also must be legally embeddable for unlimited, universal rendering (not under copyright). 
4.
Colors must be defined according to a universally available, device-independent color model. 
5.
Encryption is disallowed. 
6.
Image transparency is disallowed. 
7.
Use of standards-based metadata and tagging is mandated. This tagging makes documents understandable to screen readers; 
without it, documents cannot be Section 508 compliant.
4
PDF/A-1 has two levels of compliance. The State Archives uses PDF/A-1a as a preservation standard. This level indicates ´full complianceµ 
with the restrictions listed above. 
PDF/A-1a — ´full complianceµ with the PDF/A standard. Typically, this is the default setting to which word processing software will 
save to PDF/A. Another way applications may describe PDF/A-1a is as ´ISO 19005-1 compliant PDF/A.µ 
PDF/A-1b — ´minimal complianceµ with the PDF/A standard. PDF/A-1b ensures that the document will look the same in the future 
(preserves rendering), but it does not preserve the markup of the document. 
3
There is also a PDF/A version 2, or PDF/A-2, which was also adopted by ISO on June 20, 2011. As a new format, it has not been widely adopted in the archival 
community and it is still being investigated for archival and long-term preservation use. 
4
Library of ongress, “PDF/A-1, PDF for Long-term Preservation, Use of PDF 1.4,” Sustainability of Digital Formats: Planning for Library of Congress Collections, 
http://www.digitalpreservation.gov/formats/fdd/fdd000125.shtml
(accessed 02/17/2012); Daniel Noonan, Amy Mc c roy, and Elizabeth L. lack, “PDF/A: A Viable Addition to 
the Preservation Toolkit,” D-Lib Magazine, 16.11/12 (November/December 2010), 
http://www.dlib.org/dlib/november10/noonan/11noonan.html
(accessed 4/19/2012). 
File Format Guidelines for Management and Long-Term Retention of Electronic records 
Page 
2
TIP: When saving a word processing document as a PDF, you should save the document as ISO 19005-1 compliant PDF/A 
file, also known as ´PDF/A-1a.µ In the example above from Microsoft
®
Office 2010, this was accomplished by selecting 
PDF file format from the drop down menu, clicking the ´Options…µ button, and ticking the box labeled ´ISO 19005-1 
compliant (PDF/A)µ. 
Documents you may be interested
Documents you may be interested