c# winforms pdf viewer control : Copy web pages to pdf Library control class asp.net azure web page ajax guide-to-formats2-part1257

The National Archives                                                                                   A Guide to Formats  Version: 1 
Page 21 of 83
Quality 
Lossiness 
Almost none. Files are contained completely losslessly. 
However, note that file system metadata depends on 
extensions which may not be supported in all zip software. 
Precision  
HighDate/times are only accurate by default to two seconds. 
ds. 
Resilience Recoverability 
Above average. Provides several different recovery 
mechanisms which permit the zip file itself to be read in the 
face of limited corruption, and error detection (but not 
correction) for the contained files themselves. 
Ubiquity 
Very high. The standard (not 64-bit) zip format is extremely 
ely 
widespread, and serves as a basis for many other formats. 
Stability 
Very high. Zip files from the 1980s can still be processed by 
current software. It is likely that support for zip files will 
continue into the indefinite future. However, note that it is not 
formally standardised. 
4.3  Gzip (.gz) 
Gzip (GZ)
23
is a compression format which, unlike the other file containers described here, 
normally only contains a single file. Where multiple files must be compressed, it is common to 
first archive them together using the Tar format (see section 4.4)
into a single tar file, then to 
compress the tar file using gzip. It provides good compression and is fast to compress and 
decompress. 
The file format was first released in 1992, and the specification is openly available, although it 
has not been formally standardised. It was originally created to work around patents (now 
expired) which existed on other compression algorithms at the time. 
It consists of a short header, followed by the compressed data, ending with a CRC
24
checksum 
and the length of the original file. This checksum and original file length provides some error 
detection in the face of corruption, but recovery options are limited.  
File system metadata such as dates, folder structure and permissions are not preserved by 
gzip. Sometimes the original name of the file is included in the format header.  
23
See http://en.wikipedia.org/wiki/Gzip
24
See http://en.wikipedia.org/wiki/Cyclic_redundancy_check
Copy web pages to pdf - copy, paste, cut PDF pages in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others
convert few pages of pdf to word; extract pages from pdf on ipad
Copy web pages to pdf - VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc
delete pages from pdf document; convert selected pages of pdf to word online
The National Archives                                                                                   A Guide to Formats  Version: 1 
Page 22 of 83
It is frequently found on UNIX-like systems, although software to process it on other platforms is 
widely available.  Support for the format in common programming languages is also 
widespread.  While not as full-featured as other file container formats, it follows the UNIX 
philosophy of doing one job well – compressing a file – leaving bundling files together and 
preserving file system metadata as tasks for other tools. 
4.3.1 
Continuity properties of Gzip file formats 
Flexibility Interoperability  HighGzip can be processed on most, if not all, platforms. 
rms. 
C#: How to Add HTML5 Document Viewer Control to Your Web Page
Then, copy the following lines of code necessary resources for creating web document viewer var _userCmdDemoPdf = new UserCommand("pdf"); _userCmdDemoPdf.addCSS
delete page from pdf file online; extract page from pdf document
C# HTML5 Viewer: Deployment on DotNetNuke Site
RasterEdge.XDoc.PDF.dll. RasterEdge.XDoc.PDF.HTML5Editor.dll. Copy following file and folders to DNN Site project: RasterEdge_Cache. Modify Web.Config file.
export one page of pdf preview; extract one page from pdf online
The National Archives                                                                                   A Guide to Formats  Version: 1 
Page 23 of 83
tar files are themselves compressed using the gzip file format (see section 4.3
). Note that the 
files are written out sequentially, one after another (reflecting its origin in tape archiving), and 
there is no index of files in a tar file, so knowledge of, and access to, all files in it is not possible 
without first scanning across the entire tar file. 
Some file system metadata is captured by the tar format, including file names, size and the last 
modified time (stored as numeric UNIX time format). UNIX-style file permissions are also 
captured, although these will not translate into other platforms.  
It provides a simple checksum to detect corruption for each file which is stored. However, the 
checksum is quite basic, and does not check that the file contents themselves have not been 
corrupted, only that the metadata block is correct. Hence, recoverability has several different 
dimensions. Repairing a corrupted tar file so it can be read can be relatively straightforward, but 
the individual files within it may be corrupt and irreparable, and this may not be evident. On the 
other hand, a corruption to one part of a tar file may not impact on the recoverability of other 
files contained within it. 
4.4.1 
Continuity properties of TAR file formats  
Flexibility Interoperability  HighTar can be processed on most, if not all, platforms. 
ms. 
VB.NET PDF Convert to HTML SDK: Convert PDF to html files in vb.
edited), is less searchable for search engines. The other is the crashing problem when user is visiting the PDF file using web browser.
extract pages from pdf online; extract pages pdf
C# PDF Page Insert Library: insert pages into PDF file in C#.net
new PDF page(s) to current target PDF document in both web server-side to delete PDF page using C# .NET, how to reorganize PDF document pages and how
cut pdf pages online; add and remove pages from pdf file online
The National Archives                                                                                   A Guide to Formats  Version: 1 
Page 24 of 83
4.5  OLE2 Compound Document Format 
The OLE2 Compound Document Format
28
is slightly different to the other file container formats 
presented here, in that it is not used as a consumer container format, and tools to manipulate 
OLE2 are not widely available. However, it is an important container format, in that it serves as 
a base container for almost all binary Microsoft file formats.   
Hence, it is unlikely that anyone will ever need to directly use or choose an OLE2 file format, 
and thus will have no direct continuity issues with it. However, to avoid replicating information 
about OLE2 in all the Microsoft binary format descriptions, some information on this key 
underlying format is provided here. 
Programmatic code to access this format can be found, albeit not always well supported on all 
platforms. 
Since OLE2’s role is not to archive files from an external file system, but to allow applications to 
store and manage multiple resources in a single file, it does not typically preserve file system 
metadata at all. However, it is possible to set a file date and time for each contained file if 
required. 
OLE2 has a complex internal structure, allowing files and folders to be created within it. It 
attempts to re-use space as files or folders are changed or deleted, leading to internal 
fragmentation of its resources (much as files can become fragmented on a disk). While this 
reduces the space required for formats based on OLE2, it reduces the recoverability of the files 
based on the format, by mixing up files together requiring the file indexes to reassemble them in 
all cases. A single corruption to the file can prevent the entire file being read successfully. It 
provides no built-in error detection or repair. 
4.5.1 
Continuity properties of OLE2 Compound Document Format 
Flexibility Interoperability  Very low. It is not directly used as a consumer container 
ntainer 
format. However, applications  which make file formats on top 
of this format may have a high interoperability. 
C# PDF Convert to SVG SDK: Convert PDF to SVG files in C#.net, ASP
convert all PDF document pages to SVG image files in C#.NET class application. Perform high-fidelity PDF to SVG conversion in both ASP.NET web and WinForms
copy page from pdf; extract pages from pdf acrobat
C# HTML5 PDF Viewer SDK deployment on IIS in .NET
NET framework is 4.0 or higher, please copy the content in Right-click “Sites” and select “Add Web Site to the place where you store XDoc.PDF.HTML5 Viewer
copy pages from pdf to new pdf; delete pages of pdf
The National Archives                                                                                   A Guide to Formats  Version: 1 
Page 25 of 83
Quality 
Lossiness 
None. All files contained within an OLE2 file are stored 
losslessly. No file system metadata is preserved. 
VB.NET PDF - VB.NET HTML5 PDF Viewer Deployment on IIS
NET framework is 4.0 or higher, please copy the content in Right-click “Sites” and select “Add Web Site to the place where you store XDoc.PDF.HTML5 Viewer
extract pages pdf preview; extract one page from pdf acrobat
C# Image: How to Integrate Web Document and Image Viewer
RasterEdgeImagingDeveloperGuide8.0.pdf: from this user manual, you can find the detailed instructions and explanations for why Copy the Web Document Viewer
delete pages from pdf reader; cut paste pdf pages
The National Archives                                                                                   A Guide to Formats  Version: 1 
Page 26 of 83
5.  Documents 
5.1  Introduction 
Document file formats are among the most common types of file format encountered. There is a 
wide variety of document file formats in use today, which fulfil different needs. This guidance will 
not describe older document formats no longer in widespread use (although there are many of 
these).  
5.1.1 
Document format types 
There tends to be a basic division between page-oriented document formats aimed at print-
perfect layout and those aimed at user editing. Page-oriented document formats are suitable for 
publication, but are not suitable where the document needs to be further changed. 
Page-oriented formats 
Postscript  
PS 
see section 5.2
Portable Document Format   
PDF   
see section 5.3
Open XML Paper Specification 
XPS   
see section 5.4
User-editable formats 
Microsoft Word 97-2003  
DOC   
see section 5.5
Open Document Format Text  
ODF, ODT   see section 5.6
Microsoft Office Open XML   
DOCX   
see section 5.7
Microsoft Rich Text Format   
RTF    
see section 5.8
5.1.2 
Complexity risks 
Digital documents are often imagined to be quite simple, as they largely consist of text on 
pages, replicating physical paper documents which are easily understood. However, in reality 
they are extremely complex file formats. The more complex a format, the harder it is to re-use 
the data in other contexts, access data in it programmatically, or to migrate to different formats. 
The risk of vendor lock-in is substantially increased. 
Documents may have many different resources embedded within them, including images, video 
and even audio. Spreadsheets or other complex formats may also be directly embedded within 
them. They may have programmatic code (e.g. ‘macros’), which perform tasks on the content or 
access external data sources. Typically, programmatic code embedded in documents does not 
survive migration to other formats, as the code language is usually non-standard and heavily 
oriented towards the primary creating application. 
C# Word: How to Create Word Online Viewer in C# Application
viewer creating, you can go to PDF Web Viewer Creation click "Add Reference" and locate .NET Web Viewer DLL. Copy package file "Web.config" content to your
cut pages out of pdf online; copy pages from pdf to word
C# PDF Convert to Jpeg SDK: Convert PDF to JPEG images in C#.net
within .NET projects, including ASP.NET web and Window Copy demo code below to achieve fast conversion from PDF will show how to convert all PDF pages to Jpeg
extract pages from pdf file; acrobat remove pages from pdf
The National Archives                                                                                   A Guide to Formats  Version: 1 
Page 27 of 83
Some user-editable document formats track changes to the content (but usually not all kinds of 
content), and allow review and commenting of the content by different parties. User-defined 
fields may exist to contain defined data (e.g. to support mail-merge functionality). Many 
document formats have specifically defined fields to hold user metadata, such as the author of a 
document. They may also have embedded dependencies on external data (e.g. a link to 
another file on a disk, which can break if either file is moved), and cross-links within the 
document which can also break. 
Some features of document file formats only exist to preserve backwards compatibility with 
documents written in earlier formats. While this mitigates some continuity risks, it also further 
increases the complexity of the formats going forwards. 
5.1.3 
Migration risks 
All document migration carries risk, due to the complexity of document formats. It is entirely 
normal that a document migration will lose or change some features of the original, unless the 
document is very simple. In many cases, the change or loss can be quite minimal and may not 
be considered vital (e.g. the style of a heading changes slightly). However, it is essential that all 
document migrations are tested thoroughly on a selected set of candidate documents, to assure 
that essential features are not lost in the process. Document migration can be largely separated 
into three broad types of migration, which typically carry different risks: 
within a family of file formats (e.g. Microsoft Word 95 to Microsoft Word 97-2003) 
across format families (e.g. Microsoft Rich Text Format to OpenDocument Text 1.1) 
from a user-editable to a page-layout format (e.g. OpenDocument Text 1.1 to PDF 1.7). 
Within a family of file formats 
Upgrading within a family of file formats generally poses few direct continuity risks, as most file 
formats are specifically engineered to be backwards-compatible with earlier versions of the 
‘same’ format. However, migration is never risk free, and some small changes to documents 
may be found – e.g. styles and formatting may change. By contrast, downgrading to earlier 
versions may entirely lose formatting, embedded objects, programmatic code or other advanced 
features depending on what is supported in the earlier versions. The textual content itself is 
usually preserved when downgrading.  
Across format families 
Migrating from one broad type of document file format to an entirely different one poses the 
highest direct continuity risks. No two broad families of document file format support exactly the 
same features, in the same ways, so some change and loss to a document should be expected.   
The National Archives                                                                                   A Guide to Formats  Version: 1 
Page 28 of 83
For example, the Microsoft family of document formats fundamentally manages the pagination 
of documents (replicating a paper-model of documents), whereas the OpenDocument Text 
family of formats largely leaves pagination up to the rendering software (given that it is a digital 
document which may be printed or displayed at different sizes), and does not therefore store 
this information in the format. Therefore translation between them may produce pagination 
changes. 
In general, migration between recent versions of most document formats will produce 
documents which are still readable, but with some formatting changes. However, advanced 
features such as embedded programming (‘macros’) and change-tracking will often not survive 
the process. 
From user-editable to page-layout 
A frequent use-case in document workflows is taking a user-editable document and migrating it 
to a page-layout format, either for publication or archiving. This process will generally produce a 
high-quality output document which preserves the layout and styles of the original. However, all 
advanced interactive features will generally be lost (since this is the fundamental difference 
between user-editable and page-layout formats). 
Some page-layout formats may faithfully replicate the look of a document, but may incidentally 
lose other features that are still required. For example, the PDF format can store text in a way 
which can be rendered absolutely accurately on screen or paper, but is not electronically 
searchable. If the ability to copy and paste out of the document is important, attention should be 
paid to how the text can be further manipulated in the page layout format. Some page-layout 
formats make it hard to select and copy text out of them (e.g. columns are not properly 
wrapped, mixing up text from several columns when it is selected out of the document). 
While page-layout formats are very useful for human readability of documents, it is normal that 
some form of digital access to the content will still be required. Special attention should be paid 
to the features used in the page-layout format and your business requirements for ongoing use 
of the information.   
5.2  Postscript (.ps) 
Postscript (PS)
29
29
See 
is one of the oldest page layout formats, which has its origin as a printer page 
specification language, developed by Adobe Systems and first issued in 1984. It is also used 
http://en.wikipedia.org/wiki/PostScript
The National Archives                                                                                   A Guide to Formats  Version: 1 
Page 29 of 83
widely to publish electronically, particularly for academic papers, although Portable Document 
Format (PDF) is now supplanting it for most purposes.  
Postscript is a textual format, although not a mark-up language, consisting of a series of 
programmatic commands to layout graphics and text. Postscript can only handle numbers up to 
a precision of nine decimal digits, so calculations made using its programming language can 
produce rounding errors. Most people will not encounter this issue if simply saving documents in 
a postscript format – however, advanced users of postscript should be aware of this limitation in 
the format. 
It is not an international standard, although it has the status of a de-facto standard, as it is still in 
widespread use and there are many legacy documents written in it. There are three versions of 
Postscript – level 1, level 2 and version 3, and the specification is freely available from Adobe 
Systems. A large variety of software can read and produce postscript documents, on most 
computer platforms. 
5.2.1 
Continuity properties of Postscript 
Flexibility Interoperability  HighPostscript is readable on all platforms. 
s. 
The National Archives                                                                                   A Guide to Formats  Version: 1 
Page 30 of 83
5.3  Portable Document Format (.pdf) 
Portable Document Format (PDF)
30
5.2
is an extremely widely used format for electronic publishing, 
also created by Adobe Systems. PDF consists of a subset of Postscript (see section  ), along 
with other technologies for embedding fonts and storing additional data. Although much of the 
content of a PDF file can appear as text, it is a binary format and includes support to compress 
parts of the data it stores, and to encrypt its contents. Therefore a PDF file may be more or less 
recoverable depending on exactly how the particular file was written out. 
Although initially a closed, proprietary format, it was made an open international standard ISO 
32000-1:2008 in 2008, which anyone may implement freely without payment of royalties. PDF 
files are accessible on almost every platform, there is a huge range of software which can read 
them, and a substantial body of software which can create them, although due to being a page-
oriented format, it is often not easy or possible to edit them once created. Many Software 
Development Kits are available to manipulate PDF files on all major platforms. 
There are nine separate versions of the PDF specification dating back to 1993, the most recent 
being released in 2009. PDF is now a very complex standard, including many features which go 
beyond a simple page layout specification. For this reason, targeted subsets of the PDF 
standard have been defined, simplifying and removing unnecessary features, standardised 
under the International Standards Organisation. These are: 
PDF/X  
for the printing and graphic arts 
ISO 15930 
PDF/A  
for archiving documents 
ISO 19005 
PDF/E  
for exchange of engineering drawings 
ISO 24517 
5.3.1 
Continuity properties of PDF 
Flexibility 
Interoperability Very high. PDFs can be accessed on all platforms. 
Documents you may be interested
Documents you may be interested