The National Archives                                                                          File Format Conversion  Version: 1.2 
Page 11 of 29
2.1.4 
Preserving your information 
If you need to preserve access to static information for a long period of time, you should focus 
on the essential characteristics of the information you wish to preserve, rather than the 
functionality of the software used to create it in the first place. You may discover that you do not 
need all of the original functionality, and can instead use a much simpler format for 
preservation. For example, you can largely divide document formats into dynamic formats which 
support user-editing, and page-layout oriented documents aimed at printing or electronic 
publication. For preservation of documents, the latter may be a better format than the former.  
However, be aware that there are features which may not be preserved in such a conversion 
process, for example, change history or other embedded metadata. 
In general, if you want to maintain your digital continuity over long periods of time, formats which 
are based on open standards, or are simple, are better than proprietary or complex ones. In 
addition, formats which are effectively read-only are usually less complex than ones which do 
support user-editing, as there are typically fewer features to support. Regardless of complexity 
or standardisation, if a format is widely used, with a lot of information encoded in it, there is a 
good chance that support for it will remain long into the future. You will need to schedule 
periodic testing of your preserved files to make sure they are still complete, available and usable 
in the way you need them to be. 
2.2 
Creating additional versions 
In many cases, rather than converting a file to a new format, you will be creating an additional 
version of your file in a different format to enable new forms of access and use. This does not 
mean that the original format becomes redundant, only that more than one format may be 
required to satisfy all requirements for the same information. However, you should not multiply 
formats unnecessarily – if a single format can provide all your access requirements, then this is 
usually the preferred option (see section 4.2 Assess your environment
for more information). 
Pdf extract pages - copy, paste, cut PDF pages in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others
convert selected pages of pdf to word; delete pages from pdf in preview
Pdf extract pages - VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc
extract page from pdf online; cutting pdf pages
The National Archives                                                                          File Format Conversion  Version: 1.2 
Page 12 of 29
There are a number of reasons why you might want to create additional versions of your files in 
different formats: 
sharing or publishing information (see section 2.2.1
using your information in new ways (section 2.2.2
aggregating information from different sources (section 2.2.3
). 
2.2.1 
Sharing or publishing information 
Exchanging information includes the sharing or transfer of information, either with the public or 
with other organisations, as well as the publication of information (probably in a fixed 
unchanging state).  
When you’re creating new versions for this purpose, it’s important to consider not only how 
other users want to use the information, but also their technical capabilities. You should not 
assume that the public have access to business technology at home. They may run entirely 
different operating systems, word processors or other software, or it may be much older than 
the technology typically found in a business environment. Likewise, if you’re sharing information 
with other organisations, they may have a different IT infrastructure. You may need to convert 
your file into an older or more open format with wider support. 
There may be additional requirements for your information when you publish or share it. For 
example if you are publishing datasets via the data.gov website there are specific requirements 
For example: your organisation has a selection of stock images which are part 
art 
of its branding. These images are used in a large number of different situations, 
and while there is a standard ‘pack’ of different versions, occasionally a situation 
requires a new version to be created. 
The ‘master’ of each image is a high resolution .psd file, which when 
opened with Adobe Photoshop contains layers, masques and additional 
functionality specific to the software. 
A variety of .jpeg versions of each image are stored at a range of 
resolutions and qualities. 
A print company requested the files as .tif files.  
A request is made for a version of the files to be shown on presentation 
screens, the decision is made to embed the files in a .ppt presentation 
format (an alternative was to embed them in a video format) 
C# PDF Text Extract Library: extract text content from PDF file in
inputFilePath); PDFTextMgr textMgr = PDFTextHandler.ExportPDFTextManager(doc); // Extract text content C# example code for text extraction from all PDF pages.
extract page from pdf document; acrobat export pages from pdf
VB.NET PDF Text Extract Library: extract text content from PDF
PDF ›› VB.NET PDF: Extract PDF Text. VB.NET PDF - Extract Text from PDF Using VB. How to Extract Text from PDF with VB.NET Sample Codes in .NET Application.
export pages from pdf reader; extract pages from pdf online
The National Archives                                                                          File Format Conversion  Version: 1.2 
Page 13 of 29
for the format and form.
8
If you are publishing for the public there may be accessibility 
requirements which you must meet – for example, compliance with the Disability Discrimination 
Act.  
2.2.2 
Using your information in new contexts 
It is quite common to find that you need to use or make your information available in different 
contexts. For example, you may need to convert images to smaller and more web-friendly 
formats to publish online. Changing technologies and usage patterns can also demand 
conversion. For example, you may need to make information available on mobile platforms such 
as smartphones.    
2.2.3 
Aggregating information from different sources 
New information is frequently assembled from a variety of different sources. In many cases, the 
information must be transformed from its original format into a common format to allow the 
information to be aggregated. 
For example, you may find raw data in databases, spreadsheets, XML documents and even 
web pages. All of these sources of information are incompatible with each other; hence 
interchange formats must be used. Your choice of formats will obviously depend on the software 
you use to assemble the information, and the features which you must preserve in the source 
data. 
8
Dataset format guidance http://data.gov.uk/blog/guidance-very-basic-standard-file-format-data
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
Image: Extract Image from PDF. |. Home ›› XDoc.PDF ›› C# PDF: Extract PDF Image. How to C#: Extract Image from PDF Document.
delete pages of pdf online; extract page from pdf reader
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
Image: Extract Image from PDF. |. Home ›› XDoc.PDF ›› VB.NET PDF: Extract PDF Image. VB.NET PDF - Extract Image from PDF Document in VB.NET.
extract pdf pages; delete pages of pdf reader
The National Archives                                                                          File Format Conversion  Version: 1.2 
Page 14 of 29
3.  When to convert file formats 
If you have determined that you need to convert information from one file format to another, you 
must also decide when the conversion takes place.  
There are three basic strategies for when to convert file formats. The strategy you choose will 
be largely dictated by your driver for format conversion, but it may also depend on your 
technical environment or other business needs: 
on-demand conversion (see section 3.1
early conversion (section 3.2
late conversion (section 3.3
). 
Early and late conversions are really just variations on batch conversion processes, but with 
different risks and costs attached due to the timing of the conversion. These strategies shade 
into one another; the extreme ends are explained to demonstrate the different trade-offs 
involved.  On-demand conversion is a completely different strategy, relying on servers to 
perform a conversion dynamically. There is no one “right” strategy to use – only by assessing 
your business needs can you determine the appropriate balance of risk, cost and benefit. 
3.1  On-demand conversion 
On-demand conversion is the immediate conversion of a file to another format on receiving a 
request for the file in that format. It typically operates on a single file at a time, although batch 
conversions can also happen on demand. This process may be automated (see the example in 
the paragraph below) or it may require an individual to convert files manually upon request. This 
strategy may be applied to replacing formats, but the strategy is most often applied to create 
additional versions of files in different formats as the need arises.   
For example, your website may offer documentation to users in a variety of formats (e.g. PDF, 
DOC and ODT). However, you do not store each document in each format. Instead, the 
underlying file is converted by the web server on receiving the request for the file in a different 
format. This strategy has both benefits and downsides: 
Benefits 
Downsides 
You do not need to store several copies of 
each file in each format – only one file, with 
There is almost no possibility of quality 
assurance on the converted file(s). If you 
C# PDF Page Insert Library: insert pages into PDF file in C#.net
Page: Insert PDF Pages. |. Home ›› XDoc.PDF ›› C# PDF: Insert PDF Page. Add and Insert Multiple PDF Pages to PDF Document Using C#.
add and remove pages from pdf file online; extract one page from pdf reader
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
Page: Delete Existing PDF Pages. |. Home ›› XDoc.PDF ›› VB.NET PDF: Delete PDF Page. How to VB.NET: Delete Consecutive Pages from PDF.
delete blank pages from pdf file; copy web pages to pdf
The National Archives                                                                          File Format Conversion  Version: 1.2 
Page 15 of 29
the conversion happening dynamically on 
request.  You may, however, store a 
converted file to speed up any future 
requests. 
You do not need to convert a large number 
of files in one go, which may be time 
consuming. 
Adding new files to the system is easy, as 
you have no need to provide them in all 
required formats upfront. 
The system can be updated to provide 
different formats as the need arises, again 
without having to process all your existing 
files up front. 
adopt this strategy, you must assure 
re 
yourself that the conversion process is 
sufficiently reliable for your requirements. 
The systems you are using may not allow 
you to issue dynamic requests for files in 
different formats. For example, if your files 
are accessed via a network file share, 
there is no way to intervene an on-demand 
conversion server. 
The system will require updating as 
different source formats are introduced. 
On-demand conversion may be slow, or 
place too great a load on your systems 
depending on the size, complexity and 
number of conversions.  
This strategy generally only makes sense 
for static information. If editing of the data 
by users is required, then an on-demand 
format conversion strategy may not work, 
unless there is a clear master version, and 
only that version can be changed. 
3.2  Early and regular conversion 
Early conversion means that you have decided to convert files to different formats as soon as 
you can (but not on-demand). Early conversion is a batch-processing strategy, involving 
converting a body of files in a common format into another which better fits your business 
requirements and is generally a replacement process. For example, if you have decided to use 
a newer format provided by some upgraded software, you may convert all your previous files 
into the new format.   
Benefits 
Downsides 
The number of different formats you need 
to support is greatly reduced, converging 
your files on to a standardised set of 
formats. This can mean: 
 information is always encoded in a 
Each file has more frequent conversion 
and each conversion has an associated 
cost and risk of information loss. 
If your original or new formats are fairly 
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
Page: Delete Existing PDF Pages. Provide C# Users with Mature .NET PDF Document Manipulating Library for Deleting PDF Pages in C#.
cut pdf pages; add and delete pages from pdf
VB.NET PDF Page Insert Library: insert pages into PDF file in vb.
Page: Insert PDF Pages. |. Home ›› XDoc.PDF ›› VB.NET PDF: Insert PDF Page. Add and Insert Multiple PDF Pages to PDF Document Using VB.
delete page from pdf preview; deleting pages from pdf file
The National Archives                                                                          File Format Conversion  Version: 1.2 
Page 16 of 29
currently supported format 
at 
 reduced support, maintenance and 
software licensing costs 
 increased flexibility in choosing 
alternate software to use  
 the risk of file format obsolescence 
becomes negligible. 
You have the opportunity to review 
information and allow for quality assurance
of the files. With frequent conversion, 
these processes will be streamlined and 
each conversion will benefit from previous 
experience. 
new 
 conversion tools may not be as 
readily available, may have bugs or 
fail to deal with complex or unusual 
files well. This can also impact both 
the cost and quality of your 
conversion process. 
 the new format may not be as 
widely supported, so you may also 
have to create additional formats if 
you need to share the information 
with users who have not yet 
upgraded. 
If you need the same information to be 
accessible in multiple formats, storing all 
the converted files will take more space 
than using on-demand conversion. 
3.3  Late conversion 
Late conversion means you have decided to defer conversion to the last sensible moment.  
Obviously, the definition of “last sensible moment” will vary based on your own assessment of 
the risks and benefits involved in your own environment.   
For example, following a risk assessment of the file formats in use in your organisation, you may 
find that you have a large amount of legacy information recorded in ten different file formats, 
some of which are not accessible any more using current software. Some of this information 
may not be needed for active business use; hence a preservation strategy is employed. 
However, some of the information is still occasionally required, so a different format is selected 
for this.  
Benefits 
Downsides 
Each file has less frequent conversion, 
therefore there is a lower risk of 
information loss and lower overall costs 
If your target format is well established 
 there will probably be far more 
You will have a greater variety of formats 
in use in your organisation at any one time. 
This can: 
 increase support, maintenance and 
software licensing costs 
The National Archives                                                                          File Format Conversion  Version: 1.2 
Page 17 of 29
conversion tools available to use 
 existing conversion tools will 
probably deal with unusual or 
complex files better, as there has 
been time for bugs and edge-cases 
to be worked out. 
You may be able to discard older 
information no longer deemed useful to the 
business, avoiding the need to convert at 
all. 
 reduce your flexibility to choose 
se 
different software. 
 prevent older information from 
being usable in newer contexts. 
You will probably have to convert a greater 
number of files and a greater variety of 
formats in one go, making this a larger 
project to manage and more complicated 
to quality assess. 
You may misjudge the “last sensible 
moment” and find that converting some 
information is now economically or 
technically unfeasible. 
If you need the same information to be 
accessible in multiple formats, storing all 
the converted files will take more space 
than using on-demand conversion. 
The National Archives                                                                          File Format Conversion  Version: 1.2 
Page 18 of 29
4.  How to convert formats 
Any major format conversion project should be managed using your organisation’s change 
management processes
9
including making appropriate impact assessments, risk analysis, 
quality assurance and communications. You will need to work alongside a number of different 
people in your organisation, including the relevant Information Asset Owners (IAOs) and primary 
users of the information so that you understand their requirements, and that they understand 
the changes.  
This section presents a simple methodology for converting files from one format to another. It 
will give you the steps you should go through in performing a file format conversion process, 
and flag up areas of potential risk that you should consider. 
Assuming you have already understood your drivers for conversion, and chosen when you need 
to convert your files, you should follow the following four steps to convert your files: 
assess your information (see section 4.1
assess your environment (section 4.2
select your migration tools (section 4.3
migrate your files (section 4.4
).  
4.1  Assess your information 
When assessing your information, you need to consider your business requirements – that is 
how you need to be able to find, open, work with, understand and trust your information.
10
These requirements may not be immediately obvious and you should liaise with the owner and 
principle users of the information to ensure all their requirements are met. This will help inform 
whether the information contained in the formats you are migrating from have particular 
characteristics that you want to ensure remain unchanged. Some conversion processes only 
change the format of the underlying information, but many conversion processes will alter some 
aspect of the information as well. In general, very simple types of information can survive a 
conversion process without change, but complex information will be altered in some way.  
9
Digital Continuity for Change Managers nationalarchives.gov.uk/documents/information-
management/digital-continuity-for-change-managers.pdf
10
See Identifying Information Assets and Business Requirements for more information 
nationalarchives.gov.uk/documents/information-management/identify-information-assets.pdf
The National Archives                                                                          File Format Conversion  Version: 1.2 
Page 19 of 29
For example, you may be converting from one document format to another. It is possible that 
while the text of the document remains unchanged, the pagination, colours, styles and fonts 
used within it will be altered in conversion.  
Before conversion, identify the key characteristics of your information that must survive 
conversion without (or with little) change. You should be aware that features which you do not 
regard as essential may in fact be essential because of the way in which they have been used. 
For example, while you may not regard the colours in a document to be important, users may 
have annotated minutes using green to indicate things that are complete, and red for things that 
are unfinished. Or the pagination of a document may change, breaking page references 
embedded in the document, rendering a contract unusable. It is important to review your 
information to determine whether changes to an aspect of your information can subtly affect the 
meaning of it. 
There are often some less obvious characteristics you also should consider, typically related to 
complex or hidden functionality in the format. Below is a non-exhaustive list of a few of them: 
Characteristic 
Example 
Factors to consider 
Embedded metadata 
Many formats allow various 
pieces of descriptive metadata to 
be embedded in them. For 
example, documents recording 
the author of the document, and 
photographs recording the 
geographic location at which it 
was taken and the camera 
settings used. 
Whether any embedded 
metadata is required in the 
converted files. 
Whether your conversion 
tools will move this 
information across. 
Embedded objects 
Many complex formats allow 
other files or formats to be 
embedded within them. For 
example, documents may 
contain embedded images or 
spreadsheets, or presentations 
may contain videos.  
Not all conversion tools 
will be able to deal with all 
kinds of embedded 
objects. 
You must test files with 
embedded objects to 
quality assure that the 
conversion process will 
work for them. 
Scripts and macros 
Some formats can contain mini-
-
If you need the support of 
The National Archives                                                                          File Format Conversion  Version: 1.2 
Page 20 of 29
programming languages. For 
example, documents often have 
a macro feature which allows 
common tasks to be automated.  
In general, scripts and macros 
do not survive conversion 
processes, unless the 
conversion is from one version of 
a format to another of the same 
format. Occasionally, another 
format will provide the same 
support for the same embedded 
scripts or macros, or provide 
equivalent ones, but this is rare.  
scripts and macros in your 
files, you may need to 
rewrite these manually for 
the newer format. 
Digital signatures 
Some files allow digital 
signatures to be embedded 
within them (or you may have 
digital signatures in external 
systems relating to those files).  
Digital signatures validate that a 
file was signed by an authorised 
user, using strong cryptography 
over all of the information in the 
file to prove the assertion.   
Any converted file, being 
different to the original, will 
lose this digital signature 
(or the signature will no 
longer be valid), and you 
will need to produce a new 
digital signature for it. 
You must make sure that your new format supports the required capabilities and that the 
conversion process will maintain the characteristics through the transfer. If your new format 
does not support the capabilities you may need to re-evaluate your choice of format, or whether 
to migrate at all. The process for assessing file formats is described in another document: 
Evaluating your File Formats.
11
11
See Evaluating Your File Formats nationalarchives.gov.uk/documents/information-
management/evaluating-file-formats.pdf
Documents you may be interested
Documents you may be interested