pdf reader in asp.net c# : Delete text pdf acrobat professional software application project winforms azure asp.net UWP NDNP_201113TechNotes0-part884

ATTENTION:  
This document issued in conjunction with the NEH National Digital 
Newspaper Program (http://www.neh.gov/grants/guidelines/ndnp.html
award competition. For general program information, see 
http://www.loc.gov/ndnp/
 
Library of Congress 
08/19/2011 
Page 1 
Delete text pdf acrobat professional - delete, remove text from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
online pdf editor to delete text; how to delete text from a pdf document
Delete text pdf acrobat professional - VB.NET PDF delete text library: delete, remove text from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
how to erase pdf text; how to delete text in pdf preview
The National Digital Newspaper Program (NDNP) 
Technical Guidelines for Applicants
Document Control...............................................................................................................2 
Overview of Technical Approach for 2011-13 NDNP Awards..........................................2 
Deliverables........................................................................................................................4 
Technical Details................................................................................................................5 
Selection..........................................................................................................................5 
Scanning and Master Image Format...............................................................................6 
OCR and Associated Information...................................................................................8 
Other Derivative Files...................................................................................................10 
Metadata........................................................................................................................10 
Technical Validation of Digital Objects.......................................................................12 
Delivery of Digital Assets.............................................................................................13 
Appendices........................................................................................................................15 
Appendix A: Digital Asset Metadata Elements - Dictionary........................................17 
Appendix B: File Format Profiles and Specifications..................................................35 
Appendix C: XML Metadata Templates.......................................................................47 
Appendix D: Batch, File and Directory Structure on Delivery Media.........................71 
Document Control 
Revision   Date 
Summary of Change 
2010/08/27  Technical Details – OCR and Associated Information: 
correction to coding description for non-English text.  
2011/8/19 
Appendix A: Updated “Issue Date As Labeled” element from 
NR to R; Updated “Edition Label” from MA to O; Updated 
“Section Label” from MA to O; Updated “Page Number” string 
from MA to O; Updated “Titles (on Reel)” element with 
instructions for multiple titles; Updated “Title”, “Issue Date”, 
and “Edition Label” with X-Path to “LABEL” attribute; 
Appendix C: Updated BATCH XML Metadata Template from 
1.4 to 1.5. 
Overview of Technical Approach for 2011-13 NDNP Awards 
The National Digital Newspaper Program is a long-term effort and the technical 
environment will change as the program continues.  The National Endowment for the 
Humanities (NEH) and the Library of Congress (LC) have selected a technical approach 
to balance long-term objectives and shorter-term constraints. These include: 
convenient accessibility over the World Wide Web for the general public to the entire 
collection as it grows, through a consistent interface and using proven technology; 
page images of sufficient spatial and tonal resolution to support effective performance 
of OCR (optical character recognition) software and representation of printed half-
tones, given the limitations of microfilm, expecting that future improvements in OCR 
and image processing will be applied to the same images; 
Library of Congress 
08/19/2011 
Page 2 
.NET PDF Document Viewing, Annotation, Conversion & Processing
Redact text content, images, whole pages from PDF file. Annotate & Comment. Edit, update, delete PDF annotations from PDF file. Print.
how to remove text watermark from pdf; delete text from pdf file
C# PDF Converter Library SDK to convert PDF to other file formats
Allow users to convert PDF to Text (TXT) file. can manipulate & convert standard PDF documents in other external third-party dependencies like Adobe Acrobat.
delete text pdf; how to delete text in pdf using acrobat professional
the use of digital formats with a high probability of sustainability - in particular, using 
standard formats where possible and proprietary formats only where widely adopted; 
and attention to the cost of digital conversion and maintenance of the resulting assets.  
The goal of the initial program phase is to enhance access to newspapers through a Web-
accessible NDNP delivery application, open and freely available to the public. This 
delivery application will provide access to a substantive amount of newspaper content 
selected for its historical value with broad geographic coverage and consistent sustainable 
digital assets to support effective use by scholars and the general public. This award cycle 
is a continuation of the initial program development phase. 
In succeeding phases of the project, the approach and associated guidelines will be 
evaluated and revised based on feedback from awardees, experience in providing access 
to historic newspapers online, and technological advances. 
In summary, the current technical approach is based on: 
grayscale images (scanned for maximum resolution possible between 300-400 dpi, 
relative to the original material) from microfilm  
OCR with word-bounding boxes, uncorrected, with recognition of columns, but 
without segmentation of pages into articles, 
structural metadata for pages, issues, editions, and titles to support a chronologically-
based browsing interface, 
copies of all page images and associated metadata at LC, 
an interface designed specifically for access to historic newspapers in the public 
domain, mounted at LC  (the initial interface will permit full-text searches with 
retrieval of individual page images, and highlighting of search words on the images), 
and 
the ability of awardees to re-use any digital assets created for NDNP in other systems 
or for other purposes.  
NEH and LC recognize that other institutions may choose other approaches or formats 
for their own digital repository and delivery systems and thus either weigh costs and 
benefits differently or wish for compatibility to existing systems.  Applicants may pursue 
local approaches in parallel with participation in NDNP, with the overall goal of 
providing effective widespread access to newspapers through scanning and text 
conversion and evaluating alternative interfaces for navigating and exploring large 
collections of newspapers.  Applicants who use other formats locally must be capable of 
providing digital assets to the NDNP according to the specifications described below. 
The National Digital Newspaper Program supports a consistent technical specification for 
digital newspaper reproductions and associated metadata in order to maintain parity of 
services for materials from a variety of institutions and collections and to support the 
“best practices” of today’s understanding of digital preservation needs.   
Library of Congress 
08/19/2011 
Page 3 
C# powerpoint - PowerPoint Conversion & Rendering in C#.NET
other external third-party dependencies like Adobe Acrobat. Using this .NET professional PowerPoint document conversion library PowerPoint to PDF Conversion.
erase text from pdf file; delete text from pdf
C# Word - Word Conversion in C#.NET
using other external third-party dependencies like Adobe Acrobat. Using this .NET professional Word document conversion library toolkit Word to PDF Conversion.
how to delete text in pdf acrobat; how to erase text in pdf online
Deliverables 
Awardees are expected to deliver the following to the Library of Congress, to allow 
construction of a permanent archive and a unified interface for searching and browsing 
the entire NDNP collection.  After the cooperative agreements are announced, LC will 
convene a meeting of awardees to review these technical guidelines, and establish work-
plan milestones, and specifications for 2011-13 deliverables.  
For each title 
Up-to-date MARC record from the CONSER database, fully conformant to current 
standards for cataloging U.S. print newspapers [original format only, not microform], 
Additional title-level metadata related to the title run/s digitized and delivered (see 
Appendix A: Digital Asset Metadata Elements), and 
Newspaper History Essay – scope and content (in English) of each title, history and 
significance – 500 words. 
For each issue/edition 
Structural metadata for issues/editions digitized and organized by date (see Appendix 
A: Digital Asset Metadata Elements) 
For each newspaper page 
Page image in two raster formats  
Grayscale, scanned for maximum resolution possible between 300-400 dpi, 
relative to the original material, uncompressed TIFF 6.0 (see Scanning below and 
Appendix B – File Format Profiles), 
Same image, compressed as JPEG2000 (see Scanning below and Appendix B – 
File Format Profiles), 
OCR text and associated bounding boxes for words (see OCR details below and 
Appendix B – File Format Profiles), 1 file per page image, 
PDF Image with Hidden Text, i.e., with text and image correlated (see OCR details 
below and Appendix B – File Format Profiles), 
Structural metadata to relate pages to title, date, and edition, to sequence pages within 
issue or section; and to identify associated image and OCR files (see Appendix A: 
Digital Asset Metadata Elements and Appendix C – XML Metadata Templates), and 
Technical metadata to support the functions of a trusted repository (see Appendix A: 
Digital Asset Metadata Elements, Appendix B – File Format Profiles and Appendix C 
– XML Metadata Templates). 
For each microfilm reel digitized: 
A second-generation (2N) duplicate silver negative microfilm, made from the camera 
master, will be barcoded and deposited with the Library of Congress on completion of 
the award (LC to supply barcodes for all reels), and 
Technical metadata concerning the quality characteristics of the film used for 
digitization (See Appendix A – Digital Asset Metadata Elements/Reel Information) 
Library of Congress 
08/19/2011 
Page 4 
C# Windows Viewer - Image and Document Conversion & Rendering in
without using other external third-party dependencies like Adobe Acrobat. Using this .NET professional raster image and document conversion Convert to PDF.
remove text watermark from pdf online; how to delete text from pdf reader
VB.NET PowerPoint: VB Code to Draw and Create Annotation on PPT
other documents are compatible, including PDF, TIFF, MS free hand, free hand line, rectangle, text, hotspot, hotspot more plug-ins needed like Acrobat or Adobe
delete text pdf document; how to delete text from pdf
will be encoded in a METS object with other digital assets (See Appendix C – XML 
Metadata Templates.). 
NOTE: All digital objects must conform and validate to NDNP technical specifications 
as described in Appendices B and C. See Technical Validation of Digital Objects 
below, for more information.  
Technical Details 
Selection 
The goals of the overall project, the chronological scope (1836-1922), and the intellectual 
criteria for selecting newspaper titles for this phase are described in NEH Program 
guidelines ( http://www.neh.gov/grants/guidelines/ndnp.html
).  To ensure the highest 
quality and most usable digital products and services, the process for selection of a 
newspaper title for inclusion in the NDNP should also incorporate a technical analysis of 
the microfilm to be scanned. 
For NDNP (and the associated collection of duplicate microfilm negatives (2N)) to be as 
complete as possible, the following guidelines should be followed: 
1.  Complete (or majority of) title run should be available on microfilm without 
restrictions that interfere with the goals of the program;  
2.  An effort should be made to deliver as complete a title run, within the prescribed 
date range, as possible. Locating and substituting a limited number of scanned 
images from paper may be necessary to complete the run. 
Several technical factors will affect the success of microfilm scanning and optical 
character recognition (OCR).  The following factors should be considered during the 
selection process.  They include: 
1.  The quality of original text and microfilm capture.  Poorly prepared original 
material, no matter how well microfilmed, yields poor results.  Microfilm of 
bound material may have page curvature, gutter shadows, or out of focus pages 
that influence digital image quality. Preference in selection should be given to 
titles on higher quality microfilm. 
2.  The reduction ratio used when microfilming the original newspaper.  This ratio 
directly influences image quality and OCR results.  The lower the reduction ratio 
(below 20x) the better.  (If the reduction ratio is too high to allow scanning at 400 
dpi, tests on sample images may be performed to determine if a lower resolution 
(e.g., 350 dpi) provides acceptable confidence levels in OCR text.)  
3. The camera master negative microfilm duplicated for scanning should have 
resolution test patterns readable at 5.0 or higher. For camera master microfilm 
Library of Congress 
08/19/2011 
Page 5 
C# Excel - Excel Conversion & Rendering in C#.NET
using other external third-party dependencies like Adobe Acrobat. Using this .NET professional Excel document conversion library Excel to PDF Conversion.
erase text in pdf document; delete text in pdf file online
VB.NET PDF: How to Create Watermark on PDF Document within
users need no external application plugin, like Adobe Acrobat. Add Image Watermark to PDF. Besides text, users also image__2.Save("C:\1-watermark.pdf") End If.
how to delete text from pdf document; how to delete text from a pdf
without resolution test charts, resolution can be estimated by comparison to film 
with resolution test charts and original material.  
4.  Variations in density within images and between exposures.  Such variations 
require adjustment of scanning parameters within a reel.  Density readings should 
follow current standards, but the range should ideally be narrower than the 
standards allow (e.g. .90-1.20).  Best results are obtained from microfilm with 
variations in density readings of no more than 0.2 within an image and between 
exposures. 
5.  Confidence level through OCR testing of sample page images.  Searchable text 
using OCR is a key discovery element of NDNP.  For a camera master negative 
that is questionable with respect to any of the above criteria (resolution, reduction 
ratio, densities, etc.), sample digital images may need to be tested for usable OCR 
confidence levels to determine suitability for selection. 
Note: The current guidelines for microfilming newspaper for the USNP are available at 
http://www.loc.gov/rr/news/usnp/usnpguidelinesp.html.   
Scanning and Master Image Format 
Scanning specifications should follow these guidelines:  
scan from a clean second-generation duplicate silver negative microfilm (to be 
deposited with the Library of Congress at the end of the award period);  
capture specifications are 8-bit grayscale at the maximum resolution possible, 
between 300 and 400 dpi, relative to the physical dimensions of the original 
newspaper, rather than the microfilm.  For the scanner operator to achieve this, 
the microfilm reduction ratio must be known or derived by other means; 
a standards-based target film strip should be scanned at the start of each session, 
to monitor scanning equipment performance.  Target test images should be 
delivered along with the page images; 
provide the master page images, delivered to LC, as uncompressed images in 
TIFF 6.0 format. 
Newspapers microfilmed two sheets per frame should be split into two separate image 
files (and assigned appropriate metadata). To improve appearance and OCR accuracy, 
images with more than 3 degrees of skew should be deskewed. Page image files should 
be cropped to the page edge (not to the text block boundaries), retaining the actual edge 
and up to ¼ inch beyond.  
In general, the goal of the NDNP cropping specification is to produce as complete a page 
image as possible in order to best enable long-term management and access needs into 
the future. For film created against a white or neutral-colored background, newspaper 
images may be cropped based on the text block and appropriate padding.  
Library of Congress 
08/19/2011 
Page 6 
All operations that change the image dimensions, spatial resolution, or orientation (e.g., 
cropping, deskewing) must be made to the TIFF before OCR, since the OCR output is 
expected to include bounding-box coordinates to relate words and characters to their 
position on the page in the search interface.  The grayscale master TIFF files delivered to 
LC must have the same characteristics with respect to cropping and deskewing as the 
images used for OCR, but the TIFF should have no other enhancements (bitonalization, 
sharpening, contrast enhancement, etc.) used in the OCR-creation process.
To maximize workflow efficiency, existing microfilming target frames may be captured 
as images and delivered with other digital assets, and described in the reel metadata 
object (see Appendix C – XML Metadata Templates).  Capture of these images and 
creation of derivative files and associated metadata is optional. If included in NDNP 
deliveries, such images will be treated as digital assets for archiving but not normally 
displayed in the NDNP access interface, as they represent an artifact of the microfilming 
process rather than intellectual content of the collection.  
In addition, a standards-based scanning target film strip, as specified by Library of 
Congress, should be scanned at the start of each session, to monitor scanning equipment 
performance.  Target test images should be delivered along with the page images, and 
described in the reel metadata object appropriately (see Appendix C – XML Metadata 
Templates).  Specific test targets and quality analysis tools will be discussed with 
awardees at the post-award awardees' meeting. Targets will need to be purchased by 
individual awardees from specified source (currently: 35mm Grayscale Preservation 
Microfilm Target, available from Image Science Associates, 
http://imagescienceassociates.com
, approx. cost $360/strip). 
NDNP follows recommendations of the Federal Agencies Digitization Guidelines 
Initiative ( http://www.digitizationguidelines.gov/
) and utilizes the draft standard NISO 
Z39.87 Data Dictionary – Technical Metadata for Digital Still Images for master images. 
To support LC’s responsible custodianship of these images, the headers for all image 
deliverables (TIFF, JPEG2000, and PDF) should incorporate tagged metadata relating to 
the creation and rendering of the images (e.g., tile specifications, if used), per Appendix 
B. 
Summary of Scanning Guidelines 
1.  Digital reproductions should be made from a preservation copy of microfilm, a 
clean second-generation duplicate silver negative.  
2.  Technical scanning requirements: maximum resolution possible between 300-400 
dpi, relative to physical dimensions of the original material; 8-bit grayscale; TIFF 
6.0 uncompressed.  
3.  Two-up film should be split so that there is one page image per file. 
Library of Congress 
08/19/2011 
Page 7 
4.  De-skew images with a skew of greater than 3 degrees. (Greater skew leads to 
less accurate OCR.) 
5.  Crop to include visible edge of page, retaining up to ¼ inch beyond edge.  
6.  Optional: Capture microfilm target frames. These image files to be identified in 
reel metadata; will not be used for display.  
7.  Capture additional scanning resolution targets, i.e., 35mm Grayscale Preservation 
Microfilm Target, (2 images per reel--target will be specified by LC) at the start 
of each session, to monitor scan quality. These scan target images should be 
delivered with microfilm target images and page images and identified in reel 
metadata. 
Note: the grayscale images sent to LC must have exactly the same dimensions, spatial 
resolution, skew, and cropping as the images used for OCR. 
OCR and Associated Information 
Machine-readable text allows users to search a newspaper or a collection of newspapers 
for names of people and places, and for phrases, and provides the potential to use more 
powerful data-mining or natural language analysis techniques to locate relevant articles.  
The provision of machine-readable text correlated with page images is a tremendous aid 
to users seeking to navigate the complicated layouts and large, text-intensive pages of 
newspapers.  It permits the examination of the relationships between various articles, 
visually and textually.  The NDNP access interface is based on a fully automated 
approach to text conversion without subpage-level segmentation or subpage-level 
metadata.   
OCR software creates machine-readable text from scanned page images and permits full-
text searching of the contents of newspaper pages.  Bounding-box data relates words to 
their position on the image.  Coordinates describe the position and outer dimensions of a 
box enclosing a character or word, and/or space(s), in the original image. The NDNP 
application searches uncorrected OCR text at the page-level, using bounding-box 
coordinates for words to correlate text elements to position on the page, so that search 
words can be highlighted in the interface. 
Each page digitized for NDNP must be accompanied by OCR text encoded using the 
ALTO (Analyzed Layout and Text Object) XML schema, Version 2.0 or greater, with the 
additional clarifications stated in Appendix B – File Format Profiles.  
Newspapers may contain text published in English, French, Italian and/or Spanish. The 
awardee institution is responsible for providing relevant language expertise to review the 
quality of the converted content and related metadata. Non-English language text in the 
ALTO XML must be encoded by TextBlock  to automate differentiation between 
Library of Congress 
08/19/2011 
Page 8 
language sets, using ISO 639-2: Codes for the representation of names of languages: 
alpha-3 codes.  
Important:  The page images delivered must correspond in dimensions, orientation, and 
skew to those used for the OCR.   Any text correction must retain the integrity of the 
ALTO positional coordinates.   
Summary of OCR Guidelines 
Highlighted elements for OCR files (see Appendix B for full specification): 
1.  One OCR text file per page image. (Discrete files should be produced for each 
page, rather than for a multi-page issue or entire title).  
2.  Each OCR text file name corresponds to the page image it represents.  
3.  Text in UTF-8 character set. 
4.  No graphic elements saved with the OCR text. 
5.  OCR text ordered column-by-column (that is, in a natural reading order). 
6.  OCR text file with bounding-box coordinate data at the word level. 
7.  OCR will conform to the ALTO XML schema, Version 2.0 or greater.  
8.  All page images must be accompanied by an ALTO XML file containing 
recognized text. 
If possible, additional elements for OCR files: 
1.  Confidence level data at the page, line, character, and/or word level. 
2.  Point size and font data at the character or word level. 
Note: Zones for articles will not be used in the interface. If the OCR process selected by 
an awardee does generate coordinates for zones, the segmentation data must be removed 
from the METS/ALTO object and/or batch prior to delivery to LC.  
For non-English language text:  
1.   “Language” attribute must be expressed by textblock, as most appropriate for the 
content. (Text with unspecified language attribute will default to “eng” (English) 
for search and discovery purposes).  
2.  Non-English language attributes are limited to identification as Spanish, French or 
Italian. 
3.  Language encoding must be using ISO 639-2: Codes for the representation of 
names of languages: alpha-3 codes.  
a.  See http://www.loc.gov/standards/iso639-2/
.  
Note: Any ALTO text without specific language encoding will be treated as English for 
text indexing and searching.  
Library of Congress 
08/19/2011 
Page 9 
Other Derivative Files 
In addition to the master TIFF image file and OCR text using the ALTO schema, the 
awardee institution will provide a searchable PDF (Portable Document Format) Image 
with Hidden Text for each page image and a JPEG2000 compressed image file (.JP2).  
PDFs will provide an image of the original page that can be conveniently printed and 
downloaded, supporting within-page searching for words, external to the NDNP search 
system.  LC will use the separate OCR output file as the basis for search in its access 
interface. The PDF Image with Hidden Text can be created at the time of processing by 
the OCR application.  
Highlighted elements for PDF files (see Appendix B for full specification) 
1.  PDF Image with Hidden Text for each page image.  
2.  Each searchable PDF file name corresponds to the page image it represents. 
3.  The PDF files should incorporate appropriate XMP metadata per Appendix B – 
File Format Profiles. 
4.  The page image will be grayscale, downsampled to 150dpi and encoded using a 
medium JPEG quality setting. 
5.  The PDF will not contain any bookmarks, links, named destinations, comments, 
forms, Javascript actions, external cross references, alternate images, embedded 
thumbnails, annotations, or private data. 
The JPEG2000, Part 1, (or ISO-15444) compressed image files delivered will provide a 
flexible production master image that can be used to efficiently provide appropriate data 
to end users. For background information on the origin of the JPEG2000 profile used by 
NDNP, see the following report, NDNP Historical Newspaper JPEG2000 Profile 
(http://www.loc.gov/ndnp/pdf/NDNP_JP2HistNewsProfile.pdf
).  
For the NDNP access interface, LC has developed and employs a zooming capability 
based on JPEG2000 wavelet compression. This technology not only compresses the 
newspaper image effectively but also permits the presentation of image segments 
dynamically, at the user’s request.  
Highlighted elements of JPEG2000 format:  
1.  JPEG2000 image for each page image. 
2.  Each JPEG2000 will incorporate appropriate XMP metadata per Appendix B – 
File Format Profiles.  
3.  The JPEG2000 will be 6 decomposition levels, and 25 quality levels. 
4.  JPEG2000 compression will be 8:1.  
Metadata 
One aim of the LC/NEH partnership in establishing the National Digital Newspaper 
Program is to integrate historical newspaper collections digitized by many institutions 
Library of Congress 
08/19/2011 
Page 10 
Documents you may be interested
Documents you may be interested