pdf reader in asp.net c# : How to delete text in pdf converter Library SDK class asp.net .net html ajax NDNP_201618TechNotes0-part891

ATTENTION:  
This document issued in conjunction with the NEH National Digital 
Newspaper Program (http://www.neh.gov/grants/preservation/national-
digital-newspaper-program) award competition. For general program 
information, see http://www.loc.gov/ndnp/ .  
Library of Congress 
09/29/2015 
Page 1 
How to delete text in pdf converter - delete, remove text from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
delete text pdf; pdf text remover
How to delete text in pdf converter - VB.NET PDF delete text library: delete, remove text from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
delete text from pdf acrobat; delete text pdf file
The National Digital Newspaper Program (NDNP) 
Technical Guidelines for Applicants
Document Control and Updates for 2016-18 NDNP Awards ............................................ 2 
Overview of Technical Approach for 2016-18 NDNP Awards .......................................... 3 
Deliverables ........................................................................................................................ 4 
Technical Details ................................................................................................................ 5 
Selection .......................................................................................................................... 5 
Scanning and Master Image Format ............................................................................... 6 
OCR and Associated Information ................................................................................... 8 
Other Derivative Files ................................................................................................... 11 
Metadata ........................................................................................................................ 12 
Technical Validation of Digital Objects ....................................................................... 13 
Delivery of Digital Assets ............................................................................................. 14 
Appendices ........................................................................................................................ 17 
Appendix A: Digital Asset Metadata Elements - Dictionary ........................................ 19 
Appendix B: File Format Profiles and Specifications .................................................. 36 
Appendix C: XML Metadata Templates....................................................................... 47 
Appendix D: Batch, File and Directory Structure on Delivery Media ......................... 72 
Appendix E: Associated Online Resources .................................................................. 75 
Document Control 
Revision   Date 
Summary of Change 
UPDATES for 2016-18 NDNP Awards 
1.  Updated guidelines for acceptable languages and associated search engine support in 
OCR and Associated Information section (Page 8). 
2.  Update OCR Profile from Version 1.15 to 1.16. Expanded language code specification 
information to include any language with a valid ISO 639-2 alpha-3 language code (Page 
46). 
Library of Congress 
09/29/2015 
Page 2 
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
›› VB.NET PDF: Delete PDF Page. VB.NET PDF - How to Delete PDF Document Page in VB.NET. Visual Basic Sample Codes to Delete PDF Document Page in VB.NET Class.
how to copy text out of a pdf; pull text out of pdf
C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net
Integrate following RasterEdge C#.NET text to PDF converter SDK dlls into your C#.NET project assemblies; RasterEdge.Imaging.Basic.dll.
how to delete text from a pdf in acrobat; erase text in pdf document
Overview of Technical Approach for 2016-18 NDNP Awards 
The National Digital Newspaper Program is a long-term effort and the technical environment 
will change as the program continues.  The National Endowment for the Humanities (NEH) and 
the Library of Congress (LC) have selected a technical approach to balance long-term objectives 
and shorter-term constraints. These include: 
convenient accessibility over the World Wide Web for the general public to the entire 
collection as it grows, through a consistent interface and using proven technology; 
page images of sufficient spatial and tonal resolution to support effective performance of 
OCR (optical character recognition) software and representation of printed half-tones, given 
the limitations of microfilm, expecting that future improvements in OCR and image 
processing will be applied to the same images; 
the use of digital formats with a high probability of sustainability - in particular, using 
standard formats where possible and proprietary formats only where widely adopted; 
and attention to the cost of digital conversion and maintenance of the resulting assets.  
The goal of the program is to enhance access to newspapers through a Web-accessible NDNP 
delivery application, open and freely available to the public. This delivery application will 
provide access to a substantive amount of newspaper content selected for its historical value with 
broad geographic coverage and consistent sustainable digital assets to support effective use by 
scholars and the general public. This award cycle is a continuation of the initial program 
development phase. 
As the program progresses, the approach and associated guidelines will be evaluated and revised 
based on feedback from awardees, experience in providing access to historic newspapers online, 
and technological advances. 
In summary, the current technical approach is based on: 
grayscale images (scanned for maximum resolution possible between 300-400 dpi, relative to 
the original material) from microfilm  
OCR with word-bounding boxes, with recognition of columns, but without segmentation of 
pages into articles, 
structural metadata for pages, issues, editions, and titles to support a chronologically-based 
browsing interface, 
copies of all page images and associated metadata at LC, 
an interface designed specifically for access to historic newspapers in the public domain, 
mounted at LC  (the interface will permit full-text searches with retrieval of individual page 
images, and highlighting of search words on the images), and 
the ability of awardees to re-use any digital assets created for NDNP in other systems or for 
other purposes.  
NEH and LC recognize that other institutions may choose other approaches or formats for their 
own digital repository and delivery systems and thus either weigh costs and benefits differently 
or wish for compatibility to existing systems.  Applicants may pursue local approaches in 
parallel with participation in NDNP, with the overall goal of providing effective widespread 
Library of Congress 
09/29/2015 
Page 3 
VB.NET PDF Text Extract Library: extract text content from PDF
PDF ›› VB.NET PDF: Extract PDF Text. VB.NET PDF - Extract Text from PDF Using VB. How to Extract Text from PDF with VB.NET Sample Codes in .NET Application.
how to delete text from pdf document; how to delete text from pdf
C# PDF Text Extract Library: extract text content from PDF file in
XDoc.PDF ›› C# PDF: Extract PDF Text. C# PDF - Extract Text from PDF in C#.NET. Feel Free to Extract Text from PDF Page, Page Region or the Whole PDF File.
how to delete text in pdf converter professional; delete text pdf preview
access to newspapers through scanning and text conversion and evaluating alternative interfaces 
for navigating and exploring large collections of newspapers.  Applicants who use other formats 
locally must be capable of providing digital assets to the NDNP according to the specifications 
described below. 
The National Digital Newspaper Program supports a consistent technical specification for digital 
newspaper reproductions and associated metadata in order to maintain parity of services for 
materials from a variety of institutions and collections and to support the “best practices” of 
today’s understanding of digital preservation needs.   
Deliverables 
Awardees are expected to deliver the following to the Library of Congress, to allow construction 
of a permanent archive and a unified interface for searching and browsing the entire NDNP 
collection.  After the cooperative agreements are announced, LC will convene a meeting of 
awardees to review these technical guidelines, and establish work-plan milestones, and 
specifications for 2016-18 deliverables.  
For each title 
Up-to-date MARC record from the CONSER OCLC database, fully conformant to current 
standards for cataloging U.S. print newspapers [original format only, not microform], 
Additional title-level metadata related to the title run(s) digitized and delivered (see 
Appendix A: Digital Asset Metadata Elements), and 
Newspaper History Essay – scope and content (in English) of each title, history, and 
significance – 500 words. 
Note: Conformant MARC records for newspaper titles selected for NDNP should be present or 
made available by awardees via the OCLC WorldCat database prior to submitting digitized data 
to LC.  
For each issue/edition 
Structural metadata for issues/editions digitized and organized by date (see Appendix A: 
Digital Asset Metadata Elements) 
For each newspaper page 
Page image in two raster formats  
Grayscale, scanned for maximum resolution possible between 300-400 dpi, relative to the 
original material, uncompressed TIFF 6.0 (see Scanning below and Appendix B – File 
Format Profiles), 
Same image, compressed as JPEG2000 (see Scanning below and Appendix B – File 
Format Profiles), 
OCR text and associated bounding boxes for words (see OCR details below and Appendix B 
– File Format Profiles), 1 file per page image, 
PDF Image with Hidden Text, i.e., with text and image correlated (see OCR details below 
and Appendix B – File Format Profiles), 
Library of Congress 
09/29/2015 
Page 4 
VB.NET PDF Convert to Text SDK: Convert PDF to txt files in vb.net
Convert PDF to Text in VB.NET Demo Code. Integrate following RasterEdge text to PDF converter SDK dlls into your VB.NET project assemblies;
erase pdf text online; erase pdf text
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
Page: Delete Existing PDF Pages. |. Home ›› XDoc.PDF ›› C# PDF: Delete PDF Page. C#.NET PDF Library - Delete PDF Document Page in C#.NET.
acrobat delete text in pdf; delete text from pdf online
Structural metadata to relate pages to title, date, and edition, to sequence pages within issue 
or section; and to identify associated image and OCR files (see Appendix A: Digital Asset 
Metadata Elements and Appendix C – XML Metadata Templates), and 
Technical metadata to support the functions of a trusted repository (see Appendix A: Digital 
Asset Metadata Elements, Appendix B – File Format Profiles and Appendix C – XML 
Metadata Templates). 
For each microfilm reel digitized: 
A second-generation (2N) duplicate silver negative microfilm, made from the camera master, 
will be barcoded and deposited with the Library of Congress on completion of the award (LC 
to supply barcodes for all reels), and 
Technical metadata concerning the quality characteristics of the film used for digitization 
(See Appendix A – Digital Asset Metadata Elements/Reel Information) will be encoded in a 
METS object with other digital assets (See Appendix C – XML Metadata Templates.). 
Note: All digital objects must conform and validate to NDNP technical specifications as 
described in Appendices B and C. See Technical Validation of Digital Objects below, for more 
information.  
For the award 
List of newspaper titles, and associated publishing information, identified as having non-
NDNP digitized archives available on the Web, as described in the NEH Program Guidelines 
(http://www.neh.gov/grants/preservation/national-digital-newspaper-program). This list 
should include title-level bibliographic information and information on the digital resource 
available.  Further details will be specified at the 2016-18 awardees’ meeting, post-award.   
Technical Details 
Selection 
The goals of the overall project, the chronological scope (1836-1922), and the intellectual criteria 
for selecting newspaper titles for the program are described in NEH Program guidelines 
(http://www.neh.gov/grants/preservation/national-digital-newspaper-program).  To ensure the 
highest quality and most usable digital products and services, the process for selection of a 
newspaper title for inclusion in the NDNP should also incorporate a technical analysis of the 
microfilm to be scanned. 
For NDNP (and the associated collection of duplicate microfilm negatives (2N)) to be as 
complete as possible, the following guidelines should be followed: 
1.  Complete (or majority of) title run should be available on microfilm without restrictions 
that interfere with the goals of the program;  
2.  An effort should be made to deliver as complete a title run, within the prescribed date 
range, as possible. Locating and substituting a limited number of scanned images from 
paper may be necessary to complete the run. 
Library of Congress 
09/29/2015 
Page 5 
C# Create PDF from Text to convert txt files to PDF in C#.net, ASP
C#.NET: View Tiff in WPF. XDoc.Converter for C#; XDoc.PDF for C# File: Split PDF; C# Page: Insert PDF pages; C# Page: Delete PDF pages; C# Read: PDF Text Extract
delete text pdf acrobat; remove text watermark from pdf online
VB.NET Create PDF from Text to convert txt files to PDF in vb.net
C#.NET: View Tiff in WPF. XDoc.Converter for C#; XDoc.PDF for C# File: Split PDF; C# Page: Insert PDF pages; C# Page: Delete PDF pages; C# Read: PDF Text Extract
how to delete text in a pdf acrobat; how to delete text in pdf file online
Several technical factors will affect the success of microfilm scanning and optical character 
recognition (OCR).  The following factors should be considered during the selection process.  
They include: 
1.  The quality of original text and microfilm capture.  Poorly prepared original material, no 
matter how well microfilmed, yields poor results.  Microfilm of bound material may have 
page curvature, gutter shadows, or out of focus pages that influence digital image quality. 
Preference in selection should be given to titles on higher quality microfilm. 
2.  The reduction ratio used when microfilming the original newspaper.  This ratio directly 
influences image quality and OCR results.  The lower the reduction ratio (below 20x) the 
better.  (If the reduction ratio is too high to allow scanning at 400 dpi, tests on sample 
images may be performed to determine if a lower resolution (e.g., 350 dpi) provides 
acceptable confidence levels in OCR text.)  
3.  The camera master negative microfilm duplicated for scanning should have resolution 
test patterns readable at 5.0 or higher. For camera master microfilm without resolution 
test charts, resolution can be estimated by comparison to film with resolution test charts 
and original material.  
4.  Variations in density within images and between exposures.  Such variations require 
adjustment of scanning parameters within a reel.  Density readings should follow current 
standards, but the range should ideally be narrower than the standards allow (e.g. .90-
1.20).  Best results are obtained from microfilm with variations in density readings of no 
more than 0.2 within an image and between exposures. 
5.  Confidence level through OCR testing of sample page images.  Searchable text using 
OCR is a key discovery element of NDNP.  For a camera master negative that is 
questionable with respect to any of the above criteria (resolution, reduction ratio, 
densities, etc.), sample digital images may need to be tested for usable OCR confidence 
levels to determine suitability for selection. 
Note: The current guidelines for microfilming newspaper for the USNP are available at 
http://www.loc.gov/rr/news/usnp/usnpguidelinesp.html.   
Scanning and Master Image Format 
Scanning specifications should follow these guidelines:  
Scan from a clean second-generation duplicate silver negative microfilm (to be deposited 
with the Library of Congress at the end of the award period). 
Capture specifications are 8-bit grayscale at the maximum resolution possible, between 
300 and 400 dpi, relative to the physical dimensions of the original newspaper, rather 
than the microfilm.  For the scanner operator to achieve this, the microfilm reduction 
ratio must be known or derived by other means. 
Library of Congress 
09/29/2015 
Page 6 
A standards-based target film strip should be scanned at the start of each session, to 
monitor scanning equipment performance.  Target test images should be delivered along 
with the page images. 
Provide the master page images, delivered to LC, as uncompressed images in TIFF 6.0 
format. 
Newspapers microfilmed two sheets per frame should be split into two separate image files (and 
assigned appropriate metadata). To improve appearance and OCR accuracy, images that contain 
text blocks exhibiting more than 3 degrees of skew should be de-skewed. Page image files 
should be cropped to the page edge (not to the text block boundaries), retaining the actual edge 
and up to ¼ inch beyond.  
In general, the goal of the NDNP cropping specification is to produce as complete a page image 
as possible in order to best enable long-term management and access needs into the future. For 
film created against a white or neutral-colored background, newspaper images may be cropped 
based on the text block and appropriate padding.  
All operations that change the image dimensions, spatial resolution, or orientation (e.g., 
cropping, de-skewing) must be made to the TIFF before OCR, since the OCR output is expected 
to include bounding-box coordinates to relate words and characters to their position on the page 
in the search interface.  The grayscale master TIFF files delivered to LC must have the same 
characteristics with respect to cropping and deskewing as the images used for OCR, but the TIFF 
should have no other enhancements (bitonalization, sharpening, contrast enhancement, etc.) used 
in the OCR-creation process.
To maximize workflow efficiency, existing microfilming target frames may be captured as 
images and delivered with other digital assets, and described in the reel metadata object (see 
Appendix C – XML Metadata Templates).  Capture of these images and creation of derivative 
files and associated metadata is optional. If included in NDNP deliveries, such images will be 
treated as digital assets for archiving but not normally displayed in the NDNP access interface, as 
they represent an artifact of the microfilming process rather than intellectual content of the 
collection.  
In addition, a standards-based scanning target film strip, as specified by Library of Congress, 
should be scanned at the start of each session, to monitor scanning equipment performance.  
Target test images should be delivered along with the page images, and described in the reel 
metadata object appropriately (see Appendix C – XML Metadata Templates).  Specific test 
targets and quality analysis tools will be discussed with awardees at the post-award awardees' 
meeting. Targets will need to be purchased by individual awardees from a specified source 
(currently: 35mm Grayscale Preservation Microfilm Target, available from Image Science 
Associates, http://imagescienceassociates.com, approx. cost $425/strip). (See: 
http://www.imagescienceassociates.com/mm5/merchant.mvc?Screen=PROD&Store_Code=ISA
001&Product_Code=MPT&Category_Code=TARGETS.) 
NDNP follows recommendations of the Federal Agencies Digitization Guidelines Initiative ( 
http://www.digitizationguidelines.gov/ ) and utilizes the standard NISO Z39.87 Data Dictionary 
Library of Congress 
09/29/2015 
Page 7 
– Technical Metadata for Digital Still Images for master images. To support LC’s responsible 
custodianship of these images, the headers for all image deliverables (TIFF, JPEG2000, and 
PDF) should incorporate tagged metadata relating to the creation and rendering of the images 
(e.g., tile specifications, if used), per Appendix B. 
Summary of Scanning Guidelines 
1.  Digital reproductions should be made from a preservation copy of microfilm, a clean 
second-generation duplicate silver negative.  
2.  Technical scanning requirements: maximum resolution possible between 300-400 dpi, 
relative to physical dimensions of the original material; 8-bit grayscale; TIFF 6.0 
uncompressed.  
3.  Two-up film should be split so that there is one page image per file. 
4.  De-skew images that contain text blocks exhibiting skew of greater than 3 degrees. 
(Greater skew leads to less accurate OCR.) 
5.  Crop to include visible edge of page, retaining up to ¼ inch beyond edge.  
6.  Optional: Capture microfilm target frames. These image files will be identified in the reel 
metadata but will not be used for display.  
7.  Capture additional scanning resolution targets, i.e., 35mm Grayscale Preservation 
Microfilm Target, (2 images per reel--target as specified by LC) at the start of each 
session, to monitor scan quality. These scan target images should be delivered with 
microfilm target images and page images and identified in reel metadata. 
Note: the grayscale images sent to LC must have exactly the same dimensions, spatial resolution, 
skew, and cropping as the images used for OCR. 
OCR and Associated Information 
Machine-readable text allows users to search a newspaper or a collection of newspapers for 
names of people and places, and for phrases, and provides the potential to use more powerful 
data-mining or natural language analysis techniques to locate relevant articles.  The provision of 
machine-readable text correlated with page images is a tremendous aid to users seeking to 
navigate the complicated layouts and large, text-intensive pages of newspapers.  It permits the 
examination of the relationships between various articles, visually and textually.  The NDNP 
access interface is based on a fully automated approach to text conversion without subpage-level 
segmentation or subpage-level metadata.   
Library of Congress 
09/29/2015 
Page 8 
OCR software creates machine-readable text from scanned page images and permits full-text 
searching of the contents of newspaper pages.  Bounding-box data relates words to their position 
on the image.  Coordinates describe the position and outer dimensions of a box enclosing a 
character or word, and/or space(s), in the original image. The NDNP application searches OCR 
text at the page-level, using bounding-box coordinates for words to correlate text elements to 
position on the page, so that search words can be highlighted in the interface. 
Each page digitized for NDNP must be accompanied by OCR text encoded using the ALTO 
(Analyzed Layout and Text Object) XML schema, Version 2.0 or greater, with the additional 
clarifications stated in Appendix B – File Format Profiles.  
Newspapers selected for NDNP digitization must contain text published in languages that have a 
valid language code according to the international standard ISO 639-2: Codes for the 
representation of names of languages: alpha-3 codes (http://www.loc.gov/standards/iso639-2/). 
All text in the ALTO XML must be encoded by TextBlock to automate differentiation between 
language sets, using ISO 639-2.  
For 2016-2018 awards (going forward and subject to change), the Library of Congress expects to 
provide full-text search support in two tiers, based on language. 
Level 1 Support (Language Analysis Support): 
The following languages will be supported with (a) exact match techniques and (b) 
language analysis (stemming, stop words, and/or variants) as applied by the search 
tools/technologies in use by the Library of Congress’ web sites. This list may be subject 
to change based on the supporting software. 
Arabic 
Armenian 
Basque 
Bulgarian 
Burmese 
Catalan 
Chinese 
Czech 
Danish 
Dutch 
English 
Finnish 
French 
Galician 
German 
Greek 
Hebrew 
Hindi 
Hungarian 
Indonesian 
Irish 
Italian 
Japanese 
Khmer 
Korean 
Lao 
Latvian 
Norwegian 
Persian / Farsi 
Polish 
Portuguese 
Romanian 
Russian 
Spanish 
Swedish 
Thai 
Turkish
Library of Congress 
09/29/2015 
Page 9 
Level 2 Support (Exact Match Only Support): 
Languages with valid ISO 639-2 language codes that are not supported by the 
search tools/technologies in use by the Library of Congress’ web sites (level 1 
support) will be supported using “exact match” techniques only.  Search results 
will only match exactly what is provided for input, without accounting for 
stemming, stop words, or variants. 
The awardee institution is responsible for providing relevant language expertise to review 
the quality of the converted content and related metadata. Automated language 
recognition, if used, should be applied by title, rather than by reel or batch. 
Note: When applicable, text printed in Fraktur/black letter fonts must incorporate 
technical processing that includes Fraktur/black letter specific tools.  While these fonts 
were predominately used for German language text, other European languages may be 
printed in Fraktur/black letter fonts. More information will be available at the annual 
awardee meeting. 
Associated MARC title records should be reviewed and, if necessary, updated to reflect 
the presence of non-English text.  
Important:  The page images delivered must correspond in dimensions, orientation, and 
skew to those used for the OCR.   Any text correction must retain the integrity of the 
ALTO positional coordinates.   
Summary of OCR Guidelines 
Highlighted elements for OCR files (see Appendix B for full specification): 
1.  One OCR text file per page image. (Discrete files should be produced for each 
page, rather than for a multi-page issue or entire title).  
2.  Each OCR text file name corresponds to the page image it represents.  
3.  Text in UTF-8 character set. 
4.  No graphic elements saved with the OCR text. 
5.  OCR text ordered column-by-column (that is, in a natural reading order). 
6.  OCR text file with bounding-box coordinate data at the word level. 
7.  OCR will conform to the ALTO XML schema, Version 2.0 or greater.  
8.  All page images must be accompanied by an ALTO XML file containing 
recognized text. 
If possible, additional elements for OCR files: 
1.  Confidence level data at the page, line, character, and/or word level. 
2.  Point size and font data at the character or word level. 
Note: Zones for articles will not be used in the interface. If the OCR process selected by 
an awardee does generate coordinates for zones, the segmentation data must be removed 
from the METS/ALTO object and/or batch, prior to delivery to LC.  
Library of Congress 
09/29/2015 
Page 10 
Documents you may be interested
Documents you may be interested