itextsharp c# view pdf : Extract color image from pdf in c# Library application component asp.net windows web page mvc digitisation-at-the-national-archives0-part1425

Digitisation at The National 
Archives 
Last updated: March 2016 
© Crown copyright 2016 
You may re-use this information (excluding logos) free of charge in any format or medium, under the 
terms of the Open Government Licence. To view this licence, visit nationalarchives.gov.uk/doc/open-
government-licence  
Where we have identified any third-party copyright information, you need to obtain permission from the 
copyright holder(s) concerned. 
This publication is available for download at nationalarchives.gov.uk.  
Extract color image from pdf in c# - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
extract photo from pdf; extract pdf images
Extract color image from pdf in c# - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
some pdf image extractor; extract images from pdf acrobat
Digitisation at The National Archives 
Last updated July 2015  
Page 2 of 60 
Contents 
1
Introduction ....................................................................................................................................................................... 4
1.1
Who is this document for? .................................................................................................................................... 4
1.2
References .................................................................................................................................................................. 4
2
Document handling during the scanning process .................................................................................................. 5
2.1
Preparing documents for scanning ..................................................................................................................... 5
2.2
Document handling training ................................................................................................................................. 5
2.3
Support of documents ............................................................................................................................................ 5
2.4
Page turning, unfolding corners ........................................................................................................................... 5
2.5
Staples, pins, paperclips .......................................................................................................................................... 6
2.6
Handling seals ........................................................................................................................................................... 6
2.7
Keeping documents in order ................................................................................................................................. 6
2.8
Annotation and labelling........................................................................................................................................ 6
2.9
The scanning area .................................................................................................................................................... 7
2.10
Use of gloves, tools, cleaning liquids and related items .......................................................................... 7
3
Scanning equipment ........................................................................................................................................................ 7
4
Image capture and quality............................................................................................................................................. 8
5
File format .......................................................................................................................................................................... 8
5.1
Colour space .............................................................................................................................................................. 8
5.2
Compression .............................................................................................................................................................. 8
5.3
Resolution ................................................................................................................................................................... 9
5.3.1
Embedded Capture Resolution Information ............................................................................................ 9
5.3.2
Result of calculations in both examples ................................................................................................. 10
5.4
Physical dimensions............................................................................................................................................... 11
6
JPEG2000 profile for a digitised record ................................................................................................................... 11
7
Converting master images (TIFF and so on) to JP2 for digitised records ...................................................... 12
8
JPEG2000 profile for a digital surrogate ................................................................................................................. 13
9
Converting master images (TIFF and so on) to JP2 for digital surrogates .................................................... 13
10
Metadata ....................................................................................................................................................................... 14
C# PDF insert text Library: insert text into PDF content in C#.net
Ability to change text font, color, size and location and output a new PDF document. XDoc.PDF for .NET empowers C# developers to add multiple text processing
extract photos from pdf; extract image from pdf online
C# WPF PDF Viewer SDK to annotate PDF document in C#.NET
Users can set graph annotation properties, such as fill color, line color and transparency. Support to create a text box annotation to PDF file. C#.NET WPF PDF
how to extract images from pdf files; extract image from pdf in
Digitisation at The National Archives 
Last updated July 2015  
Page 3 of 60 
10.1
Embedded metadata ......................................................................................................................................... 14
10.1.1
Example of embedded metadata in xml ............................................................................................ 14
10.1.2
Explanation of the URI ............................................................................................................................. 14
10.1.3
Creating the UUID .................................................................................................................................... 15
10.1.4
Validation of embedded metadata ...................................................................................................... 16
10.2
External metadata ............................................................................................................................................. 17
10.2.1 Technical metadata .......................................................................................................................................... 18
10.2.1.1 Explanation of Checksums .......................................................................................................................... 18
10.2.1.2 Technical acquisition and technical environment metadata requirements for digitised 
records ............................................................................................................................................................................... 18
10.2.1.3 Technical acquisition metadata requirements for digital surrogates ............................................ 21
10.2.2 Transcription metadata ................................................................................................................................... 22
10.2.2.1 Ordering images............................................................................................................................................. 23
10.2.2.2 Dates.................................................................................................................................................................. 23
11 Validation of scanned images and external metadata .......................................................................................... 24
11.1 Metadata validation ................................................................................................................................................. 24
11.2 Image validation ........................................................................................................................................................ 24
11.2.1 Tools for validation........................................................................................................................................... 27
11.2.1.1 Tools for JPEG2000 format validation .................................................................................................... 27
11.2.1.2 Tools for XML metadata validation ......................................................................................................... 27
12
Folder structure ........................................................................................................................................................... 28
13
Overview of the process ........................................................................................................................................... 30
Appendix A: Technical acquisition metadata for digitised records .......................................................................... 31
Appendix B: Technical environment metadata for digitised records ....................................................................... 45
Appendix C: Technical acquisition metadata requirements for digital surrogates ............................................. 47
Appendix D: An example of the types of fields required in a transcription metadata CSV file ...................... 55
C# PDF File Compress Library: Compress reduce PDF size in C#.net
file with multiple ways with C# Programming Language Program.RootPath + "\\" 3_optimized.pdf"; // create optimizing Options for Color Image -- // to enable
pdf extract images; extract text from pdf image
How to C#: Overview of Using XImage.Raster
Able to support text extract with OCR. Perform annotation capabilities to mark, draw, and visualize objects on image document page. Provide complete color manage
extract color image from pdf in c#; extract image from pdf acrobat
Digitisation at The National Archives 
Last updated July 2015  
Page 4 of 60 
 Introduction 
This document sets out The National rchives standards and requirements for the digitisation of 
analogue records in our collection. It covers the whole digitisation process from initial scanning through 
to delivery of the images for preservation, including The National rchives scanned image specification 
(see sections 6 and 8). 
This document covers the scanning of records where the resultant images will become the legal public 
record for permanent preservation. For purposes of clarity we refer to these images as digitised records. 
This document also covers the scanning of records where the resultant images will become digital 
surrogates with the original paper records being retained and remaining the legal public record. For 
purposes of clarity we refer to these images as digital surrogates. 
1.1  Who is this document for? 
We recommend that government departments who wish to digitise any of their paper records follow the 
processes set out in this document. Please contact your Information Management Consultant (IMC) for 
further information if it is likely that these records will be transferred to The National Archives at a 
future date. Other organisations are welcome to use this document for reference when developing their 
own standards for digitisation.  
For further information regarding digitisation projects at The National Archives, please contact the 
Digitisation and Data Conversion Manager: digitisation.dataconversion@nationalarchives.gsi.gov.uk 
For any queries about the technical aspects of this document please contact: 
digitalpreservation@nationalarchives.gsi.gov.uk 
1.2  References 
In preparing the technical imaging and metadata standards The National Archives have had regard to the 
following (and other standards referred to therein): 
BS 10008:2008 Evidential weight and legal admissibility of electronic information. Specification 
The Archives New Zealand/Te Rua Mahara o te Kāwanatanga Digitisation Toolkit: 
http://archives.govt.nz/advice/guidance-and-standards/guidance-subject/digitisation-toolkit 
The Minimum Digitization Capture Recommendations from ALA 
http://www.ala.org/alcts/resources/preserv/minimum-digitization-capture-recommendations 
US FADGI Guidelines: Technical Guidelines for Digitizing Cultural Heritage Materials 
Netherlands: http://www.metamorfoze.nl/english/digitization  
In drawing up our specifications for surrogates we have also reviewed published information by 
C# TIFF: TIFF Editor SDK to Read & Manipulate TIFF File Using C#.
3. Save Tiff file with color profile. 1. Extract text from Tiff file. Various types annotation objects can be added to your loaded Tiff image file in C#
online pdf image extractor; pdf image text extractor
How to C#: Color and Lightness Effects
PDF, VB.NET convert PDF to text, VB.NET extract PDF pages, VB Raster SDK, you can get and modify the color and lightness effects of image by assigning
how to extract images from pdf in acrobat; extract images from pdf files without using copy and paste
Digitisation at The National Archives 
Last updated July 2015  
Page 5 of 60 
o
Desrochers and Thurgood of Library and Archives Canada, 
http://www.museumsandtheweb.com/mw2007/papers/desrochers/desrochers.html  
o
The Wellcome Trust, http://library.wellcome.ac.uk/assets/wtx056572.pdf 
 Document handling during the scanning process 
The guidance in this section is drawn from widely accepted standards for handling archival records. The 
restrictions recommended for €the scanning area will be familiar from standard document reading room 
restrictions. 
2.1  Preparing documents for scanning
Ideally a professional conservator will carry out this preparation and will: 
assess the condition of the records to ensure documents are not too fragile for scanning. As well 
as general fragility you should look for mould, pages stuck together and inserts obscuring records  
assess the condition of records, looking for any damage which has affected the legibility of the 
text 
remove any staples 
2.2  Document handling training 
New scanning operators should undergo document handling training by the conservator(s) prior to 
handling any documents and receive annual refresher training thereafter 
2.3  Support of documents 
Use both hands at all times when moving boxes and documents. 
Ensure scanning beds are large enough to support the whole document. 
Never leave documents exposed on the scanner when unattended. 
Support books and other bound documents with a book cradle or book wedges. 
2.4  Page turning, unfolding corners 
Turn pages from the fore edge (right edge) of the document not from the tail (bottom) edge. 
It is not acceptable to use moisture (including licked fingers) for page turning. 
Do not pinch document corners together to turn the page. 
The scanning operator should unfold folded corners but should not then fold them back on 
themselves. 
C#: Use OCR SDK Library to Get Image and Document Text
using this OCR SDK to extract image and document scanned document or image-only PDF using C# Support both monochrome and bitonal color image recognition for
extract images from pdf online; some pdf image extract
C# Raster - Modify Image Palette in C#.NET
convert PDF to images, C#.NET PDF file & pages edit, C#.NET PDF pages extract, copy, paste Note: if the image itself does not contain palette Color then we
extract image from pdf; how to extract images from pdf
Digitisation at The National Archives 
Last updated July 2015  
Page 6 of 60 
Where documents are attached to each other and cannot be separated, scan the document in a 
way which prevents the introduction of new creases. 
2.5  Staples, pins, paperclips 
Ideally a conservator should have removed all varieties of staple as part of the process of 
preparing the documents for scanning. If any have been missed, inform the conservator(s).  
Scanning operators should remove pins, split pins and paperclips carefully but removal should not 
be forced if this will cause damage. 
Cut all treasury tags immediately prior to scanning and replace them with appropriate length 
nylon ended tags as soon as the file is scanned. 
The tag should be at least three times as long as the depth of the pile of papers.  
2.6  Handling seals  
Take care with applied and pendant seals as they are fragile. They must not be knocked or have 
weight or pressure applied to them. Neither should they be left to hang off the edge of a work 
station. 
Do not use glass without adjustments approved by the conservator(s) (for example, lowering the 
document bed, putting blocks under the glass so there is no weight on the document). The same 
applies to documents with pigments. 
2.7  Keeping documents in order 
The contents of boxes should stay together and stay in the sequence in which they came from 
the box. 
Work on only one document at a time so that boxes and documents do not get mixed up.  
Replace documents in closed boxes at the end of the day and return them to storage. 
2.8  Annotation and labelling 
Annotation or labelling of any part of a document, including the box, is not permitted. Do not use 
sticky (Post-it
®
) notes or similar to mark documents. You can use paper markers, provided that 
you remove them from the document after scanning. 
C# HTML5 PDF Viewer SDK to annotate PDF document online in C#.NET
Users can set graph annotation properties, such as line thickness, color and transparency. C# HTML5 PDF Viewer: Annotate PDF Online.
extract photos pdf; extract pdf pages to jpg
C# TIFF: How to Embed, Remove, Add and Update TIFF Color Profile
color profiles. Commonly, Tiff image color profiles like ICC and ICM are widely used in C#.NET imaging application. RasterEdge XDoc
extract text from pdf image; extract image from pdf
Digitisation at The National Archives 
Last updated July 2015  
Page 7 of 60 
2.9  The scanning area 
Scanning operators workstations should provide adequate surface area to ensure the full support 
of documents and allow for an organised workspace. Too little space can have a negative impact 
on document handling. 
Keep the scanning area clean and tidy - keep bags and coats in lockers and do not take them into 
the scanning area.  
No food or drink (including chewing gum) should be permitted in the scanning area. 
You may use pencils only - without erasers. No pens or correction fluid are permitted. 
Do not use hand and face moisturisers, moisturising wipes, lip balms or anything similar that is 
applied by hand.  
Hands should be clean and dry at all times whilst handling documents.  
2.10  Use of gloves, tools, cleaning liquids and related items 
Do not wear cotton gloves or powdered gloves  
You may wear unpowdered nitrile/latex (or similar) gloves if instructed specifically by the 
conservator(s), for example, for photographic material. 
Do not use handling aids such as rubber thimbles and other tools unless approved by the 
conservator(s). 
Do not use cleaning liquids unless approved by the conservator(s). 
Note: if any damage to documents is found during scanning bring this to the attention of the 
conservator(s) for repair before scanning takes place.  
 Scanning equipment 
The National Archives approves scanning equipment for each project.  
In general, The National Archives considers overhead cameras and scanners with a flat scanning bed 
suitable for scanning. You may use supported glass except in cases where the material may be at risk. 
You may only use flatbed scanners and automatic feed scanners with the approval of the conservator(s).  
Similarly, the conservator(s) must approve the use of weights prior to scanning. Lights should not 
generate too much heat; ideally use cold light sources. Brightness levels must not have a negative impact 
on the health and safety of operators. 
Digitisation at The National Archives 
Last updated July 2015  
Page 8 of 60 
 Image capture and quality 
Images should be de-skewed as necessary to achieve nominal skew of not greater than one 
degree. 
All digital images should be legible and at least as readable as the original image from which they 
are derived.  
Final images should be single page, unless information crosses both pages. 
All images should be viewed immediately after scanning as a check on satisfactory capture (for 
example images complete or not inverted) and rescanned if required. 
 File format 
Sections 5 to 8 set out the technical specification The National Archives uses for producing scanned 
images of analogue records. Please note that this specification reflects the requirements of The National 
Archives and may not be suitable for implementation in other organisations. 
From March 2013 all records digitised at, or for, The National Archives will be delivered for preservation 
as JPEG 2000 part 1 files conformant with the latest version of ISO/IEC 15444-1  JPEG 2000 part 1 and 
saved with the extension .jp2. If scanning software does not produce .jp2 files natively, images must be 
converted from a suitable intermediate file format to expected resolution and quality standards. See 
sections 7 and 9.  
Access to the original images (for example, TIFFs) should be maintained until the master JP2 images are 
signed off. 
5.1  Colour space 
Scan images in 24 bit colour using the Enumerated sRGB colourspace profile, or for microform material 
the 8 bit Enumerated grayscale colourspace profile. 
5.2  Compression 
Use lossless compression for digitised records (where sole access is to be provided via the scanned 
image).   
Lossy compression is acceptable for digital surrogates (where the original paper records are to be 
retained as the primary record). See section 6 below. 
Digitisation at The National Archives 
Last updated July 2015  
Page 9 of 60 
5.3  Resolution 
Requirements as to Pixel per inch (PPI) vary according to the format of the material to be scanned: 
use a default of 300 PPI for ordinary documents 
PPI should be considerably higher for any photographic media: 
photographs should be at 600 PPI   
photographic transparencies should be at 4000 PPI 
For microform the requirement should be for a resolution equivalent to 300 PPI at the size of the original 
document. If this is not physically possible we would agree on the maximum feasible resolution. 
5.3.1  Embedded Capture Resolution Information 
Image capture resolution information should be written to the JP2's 'Capture Resolution Box'. This is held 
within the parent 'Resolution Box', which is located within the 'JP2 Header Box'. The Capture Resolution 
Box specifies the resolution at which the source was digitised, by flatbed scanner or other device, to 
create code-stream image samples. Resolution is detailed by way of a set of values written to the 
following parameters:  
vRcN = vertical grid resolution numerator 
vRcD = vertical grid resolution denominator 
vRcE = vertical grid resolution exponent 
hRcN = horizontal grid resolution numerator 
hRcD = horizontal grid resolution denominator 
hRcE = horizontal grid resolution exponent 
The parameter values are used by the following calculations to state Vertical Resolution capture and 
Horizontal Resolution capture values ('VRc' and 'HRc'): 
VRc = VRcN / VRcD x 10 
VRcE
HRc = HRcN / HRcD x 10 
HRcE 
The parameter values written may vary by numerator value and the relative adjustment of denominator 
and exponent, but the resulting values of €VRc and €HRc by calculation must return the correct image 
Digitisation at The National Archives 
Last updated July 2015  
Page 10 of 60 
resolution values – measurements stated in €Pixels Per Meter from which Pixels Per Inch values can be 
derived (1 pixel per meter = 0.0254 pixels per inch.) 
Two examples of different, but correct values for a 300 PPI (Pixels Per Inch) image are shown below: 
Example 1: 
vRcN: 30000   
vRcD: 254  
hRcN: 30000 
hRcD: 254  
vRcE: 2  
hRcE: 2 
Example 2: 
vRcN: 300 
vRcD: 254 
hRcN: 300 
hRcD: 254 
vRcE: 4 
hRcE: 4 
5.3.2  Result of calculations in both examples 
Example 1:  
VRc = VRcN / VRcD x 10 
VRcE
30,000/254 x 10 
2
= 11811.02362204724 PPM 
11811.02362204724 x 0.0254 = 300 PPI  
Example 2:  
VRc = VRcN / VRcD x 10 
VRcE
300/254 x 10 
= 11811.02362204724 PPM 
11811.02362204724 x 0.0254 = 300 PPI  
Documents you may be interested
Documents you may be interested