parse pdf c# : Read pdf metadata control software system azure windows html console UMDigitizationSpecs201008271-part335

11
Image Capture Requirements
The following image capture requirements apply to all projects, regardless of their designation as 
either an MDP project or a BibID project. 
The normal image capture requirement for all volumes is to capture them from outside front 
cover to outside back cover, with all images kept and named in sequential order. File names 
should start at 00000001 and increment sequentially for each additional image, following the 
sequence of the original library materials. Page image files must also be named with a file 
extension appropriate to the image file format, as detailed later in this document. The front cover 
image should include the spine if possible. All end papers and covers shall be scanned as well 
unless otherwise instructed by the University. 
Michigan Digitization Projects (MDP)
For projects designated as MDP projects, vendors are required to produce one and only one 
image for every page within a physical volume. Each image shall be in the required format for 
the image’s content type (bitonal or contone) as detailed later in this document.
Pages containing 
only black and white text or simple line drawings must be captured as bitonal images. Pages 
containing half-tone or continuous tone photographs and highly detailed lithographs should be 
captured as grayscale images. Pages containing any meaningful color elements should be 
captured as color images. 
Bibliographic Identifier Projects (BibID)
For projects designated as BibID projects, vendors are required to produce one bitonal image for 
every page within a physical volume. In addition, vendors are required to produce contone 
images for those pages whose content dictates continuous tone imaging. It is permissible for 
vendors to capture every page in the color space appropriate for that page and to derive an 
additional bitonal image file for those pages that require both color and bitonal imaging. Pages 
containing only black and white text or simple line drawings must be captured as bitonal images. 
Pages containing half-tone or continuous tone photographs and highly detailed lithographs 
should be captured as grayscale images. Pages containing any meaningful color elements should 
be captured as color images. 
The following categories represent special categories which may be encountered in any volume 
in any project, regardless of designation. Any vendor encountering a special situation which is 
not addressed in this document should be contact the University for further instruction. 
Missing Pages 
In all projects, physical volumes may have missing pages. For any bibliographic entity where the 
pagination is broken by missing pages, missing page targets must be inserted. For MDP projects, 
the amount of materials and the minimal preparation of each volume prevent DCU staff from 
flagging each instance where a page is missing; for BibID and other projects, DCU staff may 
flag these missing pages. Should vendor scanning technicians find other pages missing they must 
insert missing page targets as appropriate. 
Read pdf metadata - add, remove, update PDF metadata in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata
batch update pdf metadata; adding metadata to pdf
Read pdf metadata - VB.NET PDF metadata library: add, remove, update PDF metadata in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Enable VB.NET Users to Read, Write, Edit, Delete and Update PDF Document Metadata
embed metadata in pdf; batch edit pdf metadata
12
For example, if pages 5 and 6, 21 and 22 are missing from the original text, the scanning 
operator must replace the missing pages with missing page targets for both the front and the back 
of each leaf (this example would require 4 missing page targets). Should the scanning operator 
notice a missing page without a flag, he/she should insert the missing page target. The sequence 
should follow the original source document sequence and the corresponding files as if the 
missing page were scanned. 
The missing page targets should be 8.5
x 11
targets regardless of the size of the physical 
volume. The text of 
the missing page target must be ―Page Missing in Original Volume‖ in
minimally 36 point font. 
Please see Appendix E for examples of how missing pages should be documented in the 
notes.txt file.
Foldouts, Centerfold Images, or Two-Page Spreads 
These types of pages present special challenges in capture. All foldouts are expected to be 
scanned by the vendor unless authorization and instruction to the contrary are received from the 
University. Normally a foldout 11
x 17
can be scanned on most scanners without adjustment to 
resolution. If a vendor is unable to scan foldouts larger than 11
x 17
without adjustment to 
resolution, the vendor shall contact the University immediately for instructions. 
If the foldout cannot be safely scanned, the vendor must contact the University for further 
instruction. 
Foldouts may be removed only with prior permission from the University for better image 
capture.  If foldouts are removed, they should be placed in their proper order within the 
volume from which they came. Vendors should not attempt to reattach the foldouts 
themselves.   
If a vendor cannot capture any foldout as one whole image, they shall stop scanning and 
contact the University immediately for instructions. 
Centerfolds (including two-page spreads and uncut plates) will be treated as foldouts in the 
scanning process. Unless otherwise requested, an extra blank page (8.5
x 11
) should be 
inserted after the centerfold image to maintain the correct recto/verso sequence. See 
Appendix F for sample diagram. 
Image Color Requirements
The following image color requirements apply to all page images in all projects, regardless of 
their designation as either an MDP project or a BibID project. 
Bitonal Images 
Any page image which consists of text only or which consists of line art against the background 
paper color should be captured as a bitonal image.  Black-and-white halftone images (e.g., 
photographs reproduced in a newspaper) should also be captured as bitonal images. 
Grayscale Images 
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
Get image information, such as its location, zonal information, metadata, and so on. Extract image from PDF free in .NET framework application with trial SDK
change pdf metadata creation date; view pdf metadata
How to C#: Basic SDK Concept of XDoc.PDF for .NET
XDoc.PDF for .NET supports editing PDF document metadata, like Title, Subject, Author, Creator, Producer, Keywords, Created Date, and Last Modified Date.
bulk edit pdf metadata; edit pdf metadata
13
Any page image which uses color halftone or continuous tone photographs, variously shaded 
gray graphs or diagrams, or variously shaded gray lines to distinguish among multiple chart or 
illustrative elements should be captured as a grayscale image. 
All grayscale images should be captured in an 8-bit color space. 
In all projects, vendors are expected to use reasonable judgment to determine whether a 
grayscale image is the most appropriate image capture method; in the case where it is not 
definitely clear whether to capture in grayscale or color, the vendor can safely assume to use 
color. Vendors who are unsure about whether to capture any given page image in grayscale are 
welcome to contact the University for additional instructions.
Color Images 
Any page image which uses color photographs, colored bar graphs or diagrams, or colored lines 
to distinguish among multiple chart or illustrative elements should be captured as a color image. 
All color images should be captured in a 24-bit color space, preferably the sRGB color space. In 
all projects, vendors are expected to use reasonable judgment to determine whether a color image 
is the most appropriate image capture method; in the case where it is not definitely clear, the 
vendor can safely assume to use color. Vendors who are unsure about whether to capture any 
given page image in color are welcome to contact the University for additional instructions. 
Image Resolution Requirements
The following image resolution requirements apply to all projects governed by these 
specifications, regardless of the 
individual project’s designation as an MDP project or a BibID
project. Vendors should report their ability to meet these requirements in detail as part of their 
proposal document. 
On all images in all color spaces, X resolution and Y resolution (pixels per inch along the X-axis 
and Y-axis) must be identical values. 
Bitonal Images 
All bitonal page images must have a resolution measured in pixels per inch (ppi) of 600ppi. This 
resolution should be an uninterpolated optical resolution wherever possible; if the scanning 
equipment can only achieve this resolution via interpolation, the resolution must be interpolated 
by the scanning camera and its software as part of the original page scan, not as part of a separate 
post-processing image adjustment. 
If the optical resolution of the scanning equipment is not able to achieve an exact optical 
resolution of 600ppi 
which may occur when scanning foldouts or oversized material -- the 
vendor should contact the University for instructions. All deviations from the normal 600ppi 
resolution for bitonal images must be recorded in the notes.txt file for that volume or 
bibliographic entity. 
Continuous Tone (Color & Grayscale) Images 
All contone (continuous tone) page images must have a resolution measured in pixels per inch 
(ppi) of 400ppi. If the optical resolution of the scanning equipment is not able to achieve an exact 
optical resolution of 400ppi 
which may occur when scanning foldouts or oversized material --, 
VB.NET PDF: Basic SDK Concept of XDoc.PDF
XDoc.PDF for .NET supports editing PDF document metadata, like Title, Subject, Author, Creator, Producer, Keywords, Created Date, and Last Modified Date.
pdf metadata online; pdf metadata viewer online
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
Scan image to PDF, tiff and various image formats. Get image information, such as its location, zonal information, metadata, and so on.
rename pdf files from metadata; read pdf metadata java
14
the vendor should contact the University for instruction. It is acceptable to scan a contone image 
at a higher resolution (e.g., 600 ppi) and then downsample the final image file to 400 ppi, 
preferably using bicubic interpolation in post processing. 
In the event a vendor cannot scan an oversized item or foldout at 400 ppi (optical or 
downsampled), the vendor shall contact the University immediately for instructions on how to 
proceed.  Upsampling is not allowed.  Any deviation from acquiring an image at 400ppi optical 
resolution for contone images (e.g., deriving 400 ppi from a higher resolution) must be recorded 
in the notes.txt file for that volume or bibliographic entity. 
Image Quality Requirements
When digitizing from microfilm, all page images should be rotated (where appropriate) so that 
the page image appears in proper reading position on screen when the image file is opened. 
All page images, whether digitized from a book or from microfilm, should fill the image frame to 
the largest extent possible. When scanning from microfilm, preservation microfilming guidelines 
require that the reduction ratio on a single reel of microfilm remain constant throughout the reel.  
In the case where bibliographic entities are smaller than the page and do not fill the individual 
frame on the reel, the vendor does not need to take any corrective action.  Vendors should 
eliminate or minimize the amount of black border that frames the page image either during 
capture or in post-processing the image. 
When scanning from a 2N microfilm print master negative, all images must have their polarity 
reversed, so that text and graphics appear as black/gray pixels against a white background. All 2-
up frame images must be split at the gutter (where appropriate) to produce separate images files 
for each page (recto and verso). Foldouts or other single pages which fill the full microfilm 
frame must not be split. 
Image Format Requirements
All images files shall be provided in either one of two formats: TIFF or JPEG2000. 
TIFF Format Image Requirements 
For all TIFF format image files, the internal bitmap must be single strip format. Color TIFF 
images must all be in the sRGB color space. 
Compliance with the TIFF format specification will be verified using the JHOVE object 
validation software, and all TIFF images must be minimally ―well
-
formed‖ ag
ainst the TIFF 
standard in order to meet acceptability criteria. 
Michigan Digitization Projects (MDP)
For projects designated as MDP projects, all bitonal image files delivered must be in the TIFF 
format and also must be in CCITT Group 4 compression. Continuous tone images for MDP 
projects must be delivered in JPEG 2000 format, detailed later in this document. 
Bibliographic Identifier Projects (BibID)
C# PDF - Read Barcode on PDF in C#.NET
Bookmark: Edit Bookmark. Metadata: Edit, Delete Metadata. Watermark: Add Watermark to PDF. Form Process. Data: Read, Extract Field Data. Data: Auto Fill-in Field
metadata in pdf documents; pdf xmp metadata
C# TIFF: TIFF Metadata Editor, How to Write & Read TIFF Metadata
C#.NET. Allow Users to Read and Edit Metadata Stored in Tiff Image in C#.NET Application. C# Overview - View and Edit TIFF Metadata.
add metadata to pdf file; batch pdf metadata
15
For projects designated as BibID projects, all bitonal image files delivered must be in the TIFF 
format and also must be in CCITT Group 4 compression. Continuous tone images for MDP 
projects must be delivered in JPEG 2000 format, detailed later in this document. 
JPEG2000 Format Image Requirements 
Vendors are required to explain and detail their ability to support this file format in their proposal 
documents. 
The JPEG2000 format for image files is the required format for delivery of the continuous tone 
(color and grayscale) digitized images produced by projects designated as MDP. 
BibID projects may deliver in JPEG 2000 format as an option at present, though still in the same 
file directory structure. This delivery format will be preferred in the near future by all University 
digitization projects. 
In order to maintain consistency among the JPEG2000 files in the library repositories that are 
produced from various projects and vendors, the University requires the following parameters for 
all JPEG2000 files: 
·  The JPEG 2000 file will conform to JP2 file format as specified in ISO/IEC 15444-1:2000 
(i.e., JPEG 2000, Part 1). 
·  The JPEG 2000 file will be prepared after any image processing or clean-up is performed. 
·  The JPEG 2000 file's image X origin, image Y origin, tile X origin, and tile Y origin will be 
0. 
·  The JPEG 2000 file will contain only one component. 
·  The JPEG 2000 file's height and width will be the same as the master image file after 
transcoding. 
· 
The JPEG 2000 file will be in the sRGB color space.
·  The JPEG 2000's progression order will be RLCP (resolution, layer, component, position) or 
RLPC. 
·  The JPEG 2000 file will have 2 decomposition levels. 
·  The JPEG 2000 file will have 8 quality layers. 
·  The JPEG 2000 transcoding process will use the 9-7 irreversible filter. 
·  The default slope rate distortion used in transcoding will be 51492. 
·  No tiling is necessary in the JPEG 2000 file. 
All image files supplied in the JPEG2000 file format must be compliant with Part 1 of the 
JPEG2000 core coding system and meet the JP2 basic file format definition. Files must be 
supplied with the ―.jp2‖ extension.
Many scanning hardware and software packages do not support native image capture to the 
JPEG2000 format. Transcoding an image file to the JPEG2000 file format is considered 
acceptable and normative. The file format of the original image file should be a non-distorting 
format, such as uncompressed TIFF, and not a format that inherently downgrades the quality of 
the image through lossy compression (JPEG). 
The University of Michigan has adopted the Kakadu open source software package for the 
transcoding of image files into the JPEG2000 format.  Due to variations among the various 
VB.NET PDF Library SDK to view, edit, convert, process PDF file
PDF Metadata Edit. Offer professional PDF document metadata editing APIs, using which VB.NET developers can redact, delete, view and save PDF metadata.
online pdf metadata viewer; change pdf metadata
VB.NET PDF Text Extract Library: extract text content from PDF
PDF ›› VB.NET PDF: Extract PDF Text. VB.NET PDF - Extract Text from PDF Using VB. How to Extract Text from PDF with VB.NET Sample Codes in .NET Application.
remove pdf metadata; adding metadata to pdf files
16
JPEG2000 software packages available, the University recommends Kakadu to our vendors as 
well, as it is an excellent and flexible package for transcoding files to the JPEG2000 format. The 
University has provided the parameters we use to insure compatible encoding of JPEG2000 
image files in Appendix G
Image Metadata Requirements
All image files must have technical and source metadata embedded within the image file itself. 
The requirements for metadata inclusion for each format are detailed in the following sections. 
TIFF Image Metadata Requirements 
To help ensure the long-term sustainability of their master images, the University of Michigan 
Library requires the use of some of the data elements in Draft NISO Z39.87 
2002 Standard, 
Data Dictionary
Technical Metadata for Digital Still Images to record technical metadata in the 
TIFF header of each image. In addition to required TIFF tags, some additional tags are utilized to 
document the provenance of each image. 
In addition to the required fields for baseline TIFF images, the following fields of the TIFF 
header must have the appropriate values inserted: 
269 DocumentName  <Barcode>/<image file name> or <BibID>/<image file name> 
The formats above must be consistent among the files in a single project; the <Barcode> is 
appropriate for projects designated as MDP projects and the <BibID> format is appropriate for 
projects designated as BibID projects. 
306 DateTime  
Time and date of image capture in ISO8601 format 
315 Artist 
Scanning vendor company name 
This information is mandatory and will be included in the Library’s quality assurance and
evaluation processes. 
In addition to the required information, the following fields in the TIFF header are recommended 
for recording additional technical metadata. Presence of this information is not a requirement for 
satisfactory performance of these specifications. 
271Make 
Scanner manufacturer 
272 Model   
Include model number 
305 Software   
Include version number 
See Appendix H for a more complete explanation with sample values. 
JPEG2000 Image Metadata Requirements 
JPEG2000 file format specification.
See Appendix G for a more complete explanation with sample values. 
17
File Checksum Requirements
Each bibliographic entity subdirectory shall contain a MD5 checksum signature file for all of the 
image files in that subdirectory in order to verify that the digital image files are complete and 
intact as the files are moved and migrated from system to system and disk to disk. This signature 
file is identical to the file supplied in previous University of Michigan digitization specifications. 
MD5 checksum files are required for all directories containing images and are required to 
include all image files regardless of format. This requirement remains in effect even between the 
different project designations of MDP projects and BibID projects. 
This MD5 checksum signature file is required in all directories in which image files are 
contained and only in such directories. Directories that only contain subdirectories should not 
contain checksum files, even though those subdirectories may contain image files themselves. 
The MD5 signatures for each image file are concatenated into a single file that must be named 
―checksum.md5‖ and this file
must be stored in the item directory at the same level as the page 
image files. Checksums are validated throughout the workflow to ensure that files are accurately 
written from one medium to another. In addition, they provide a check against bit-deterioration 
and serve to guarantee digital object authenticity. 
The MD5 file contains one line for each image in the volume. Each line consists of the 32- 
character MD5 signature followed by 2 ―blank‖ characters followed by the image file base name.
Please notice in the sample lines below that no directory names are present, nor is the directory 
name present in the MD5 filename. 
Here is a sample MD5 file: 
786fd62b33b65560d9993d0f5f4235d1 
00000001.tif 
0fa7abf97a4414aed10b316c59b07249 
00000002.tif 
f30cc4a3d27f54329b3d9aaa5b2d7bda 
00000003.tif 
6a621fe605578f95cc66cc27b7ca77b5 
00000004.tif 
97c664aa9fb998dde78ce2aecbf59d73 
00000005.tif 
01cb4b01a9de2aa1660da009989f5f13 
00000006.tif 
1e8cb443ca9d72be25fa545c2a82a541 
00000007.tif 
745d4e8edfc7492e43eb6053b96cffb2 
00000008.tif 
f238e2dd728970cb8bb5bc9925c8a409 
00000009.tif 
a22322fec76543a0df26e08de58d0bfa 
00000010.tif 
42e9295e8dc45cb082e2759bf3cb4b5c 
00000011.tif 
It is considered best practice to generate MD5s in the same location as the original scanned 
images were saved, prior to burning a CD/ DVD or moving the files to another mass storage 
device or disk subsystem. Vendors are strongly encouraged to verify the MD5 signatures after 
burning a CD/ DVD or moving the data to another mass storage device or disk subsystem in 
order to verify that the content was fully transferred to the media. 
The checksum algorithm used should be the 128-bit md5 (Message Digest 5) algorithm 
described in RFC 1321 (http://www.faqs.org/rfcs/rfc1321.html
). 
18
Ancillary Image Files
The University requires a detailed explanation of the vendor quality control processes, especially 
as it pertains to verifying the requirements and specification of this document. 
AIIM Scanner Test Target 
The University requires that that every set of scanned page images, whether a complete physical 
volume or a subdivision of a physical volume, must include a scan of the Association of 
Information and Image Management (AIIM) Scanner Test Chart #2, AIIM X441. This target 
allows the University to evaluate scanner performance, focus, and image clarity for that scanning 
session. 
Each directory should include a scan of the AIIM target that is designated for paper based 
scanning. The scanned image file for this target must be scanned as a bitonal image in TIFF 
format with CCITT Group 4 compression; and the file must be named ―aiim.tif‖ exactly with
appropriate letter case sensitivity observed. The University shall use the following target 
evaluation criteria: 
·  The Bodoni 4 point lower case letters should be clear and distinct 
·  The diagonal line should be smooth and straight 
·  Distinct halftone wedges representing the dynamic range present in the source document 
should be rendered free of moiré patterns at the appropriate screen ruling (normally 133) in 
either regular or enhanced mode. 
If these criteria cannot be met at the settings deemed optimal, the vendor should note this in the 
notes.txt included with the image files. 
This scanning target may be ordered from: 
AIIM Headquarters 
1100 Wayne Avenue, Suite 1100 
Silver Spring, Maryland 20910 
Phone: 301.587.8202 
Toll free: 800.477.2446 
Fax: 301.587.2711 
E-mail: aiim@aiim.org 
http://www.techstreet.com/cgi-bin/detail?product_id=6845
Scanning Notes Text File 
The University requires that that every set of scanned page images, whether a complete physical 
volume or a subdivision of a physical volume, must include a simple text file that reports any 
problems scanning, any deviations from normal resolution, or any other information about the 
scanning process which the vendor judges should be reported to the University. 
This file must be a text file named ―notes.txt‖ exactly with appropriate letter case observed.
An 
example of this file is represented in Appendix E
19
Production Note Target 
The University requires that that every set of scanned page images, whether a complete physical 
volume or a subdivision of a physical volume, must include a scan of the production note target 
sheet included for that bibliographic entity. 
The scanned image file for this target must be scanned as a bitonal image in TIFF format with 
CCITT Group 4 compression; and the file must be named ―prodnote.tif‖ exactly with appropriate
letter case sensitivity observed. 
These production note target images are only required for projects designated as BibID projects. 
MDP projects do not produce the production note target, and therefore do not require these target 
image files. If any bibliographic entity for a BibID project is missing a production note target, 
the vendor should contact the University immediately for instruction.  An example of this file is 
represented in Appendix I
V. EVALUATION PROCESS 
Vendor Quality Control Expectations
The University requires a detailed explanation of the vendor quality control processes, especially 
as it pertains to verifying the requirements and specification of this document. 
University Quality Control of Vendor Digital Product
The University shall engage in a formal evaluation both to verify that the digital product of the 
participating vendors meets the specifications detailed in this document and to evaluate the 
quality and acceptability of the digital imaging for University digitization efforts. The University 
reserves the right to reject any digital file or files which fail to meet the specifications and 
requirements detailed in this document, as determined by the evaluation method which follows. 
The University also reserves the right to require the vendor to rescan any page images which do 
not meet the specifications and requirements of this document or to refuse payment, up to and 
including the whole digital product produced for a shipment of materials. If the digital product of 
any vendor fails to meet these specifications and requirements after rescan, the university 
reserves the right to require the return of materials for submission to another vendor. 
Digital Quality Control of Files
The University shall use a variety of means to electronically evaluate the digital product of the 
vendors. In this electronic evaluation of the digital product of participating vendors, the 
evaluation will include, but shall not be limited to, the following areas: 
Validation of File Structure 
The University shall use a variety of automated means as well as manual inspections to insure 
that the digital file structure meets the specifications in this document. This will include 
verifying the parent directory is named with the proper identifier according to project designation 
(MDP vs. BibID) and verifying that all individual bibliographic entities are broken out into 
appropriate subdirectories that are named according to the specifications of this document. 
20
Validation of File Naming Conventions 
The University shall use a variety of automated means as well as manual inspections to insure 
that the digital file names meet the specifications in this document. This will include verifying 
the number of characters in each file name as well as verifying that all files in a given 
subdirectory are named in sequential numeric order, according to the specifications of this 
document. 
Validation of File Metadata 
The University shall use a variety of automated means as well as manual inspections to insure 
that the required metadata elements are present in each digital file according to the specifications 
in this document. 
Validation of Checksum 
The University shall use a variety of automated means as well as manual inspections to insure 
that the required MD5 checksum files are present in each digital file subdirectory and that all 
digital files are fully valid and verified to a check of the MD5 calculations, according to the 
specifications in this document. 
Validation of File Format 
The University shall use a variety of automated means as well as manual inspections to insure 
that the digital image files are compliant with the image format specification that they purport to 
be. The primary software tool for accomplishing this will be the JHOVE object validation 
environment developed by Harvard University. This tool is freely available to the public at the 
following URL: http://hul.harvard.edu/jhove/
. The University currently uses the latest version of 
JHOVE 1.x; vendors are strongly discouraged from using version 2.x).  Any questions on what 
constitutes an acceptable file validation output from JHOVE can be directed to the Digital 
Conversion Production Manager. 
Qualitative Evaluation
The University shall use a variety of means to qualitatively evaluate the digital product of the 
vendors. In this qualitative evaluation of the digital product of preferred vendors, the evaluation 
will include, but shall not be limited to, the following areas: 
Evaluation of Image Clarity 
All digital images must be clearly legible, in proper focus, and provide sharp representation of 
the original. Individual letters, particularly if they have closed loops or other bounded areas, in 
the 
typeface should not display ―filled
-
in‖ areas and should be clearly identifiable.
For page images that contain illustrations, photographs, or other graphic materials, special 
attention should be given to eliminate moiré patterns that appear in the scanned image. 
All bitonal page images should be filtered or processed so as to eliminate or reduce general noise 
or speckle effects that appear in the digital image. 
In all shipments, any frames or images that are judged by the vendor to be impossible to image 
Documents you may be interested
Documents you may be interested