open pdf in word c# : Delete text from pdf preview application Library tool html asp.net azure online IPN%2056.indd.def1-part382

11
I
n
t
e
r
n
a
t
i
o
n
a
l
P
r
e
s
e
r
v
a
t
i
o
n
N
e
w
s
N
o
.
5
6
M
a
y
2
0
1
2
advantages of this decision are plain to see: the microfi lm struc-
ture is already optimized, there are not two occurrences of the 
same  page, because  the  selection task  has  alr eady  been ac-
complished. Furthermore, the microfi lm scan, if managed with 
proper technology, is really faster and cheaper than paper scan. 
On the other hand, some microfi lm pages may not fi t the qual-
ity level we are expecting, because of some errors in microfi lm 
creation. The average quality of the microfi lm scan showed to 
be  quite good as the paper (we have for all micr ofi lm reels  a 
master and some copies, and the master reels have never been 
used) but we had to be sure that we could track all the quality 
problems  for all pages. So we put a contr ol  step,  callevdo t-
ing, inside the workfl ow, in order to identify all the “below the 
minimum quality” pages.
The workfl ow steps, then, were:
Scan
The  scan  is performed  on the  entir e  micr olfim  reel,  and  the 
single pictures of each page are then made. The tiff fi les so ob-
tained, one for each page, are then automatically processed by 
two crop and deskew tasks. These scanning and post scanning 
tasks,  actually,  are  not really  inside the workfl ow  system, but 
the output tiff fi les are sent to the input queue of the workfl ow 
system, that starts handling them.
First ocr – page level – the voting process
As said before, we were afraid, and still are, now that the Dacs 
Project  is in its second half, that some page scan quality was 
lower than we could accept. So we established a double step 
control for all the pages based on two criteria:
•  Ocr  process  must recognize  at  least 90%  of the  text  con-
tained in the page.
•  The semantic text engine dictionary must accept at least 80% 
of the words in the page text (of every kind of text, because 
there’s no difference, at this point, between ads and articles 
and other things).
All  the  pages that  do not  go  thr ough  this  double  exam ar e 
refused, and an operator has the choice between rescan or ask 
for  the paper.  Until today we had about 0,5% of the pages 
refused, and we’d noticed that in most cases switching to the 
paper hasn’t  considerably improved  the quality,  being the pa-
per itself the problem.
Page identifi cation metadata insertion
Pages that go through the voting process are identifi ed in term 
of  date, page  number,  edition,  etc., and  some  metadata ar e 
inserted in the database (if the page deals with sports, econom-
ics,  or other pr edefi  ned  issues). Then a check is made  about 
the  completeness of  the  edition. Following the usual  edition 
criteria,  we decided that  we  needed  a  complete second  edi-
tion, and that this had to be true for the mor ning and for the 
afternoon, and so:
•  The morning editions A and B and the afternoon ones, C and 
D, are kept separated.
•  We defi ne the entities Last Edition (B and D) and Previous Edi-
tion (A and C). The Last Editions must have all the pages, and 
the Previous ones can be incomplete.
Page clipping – article identifi cation: Last Editions only
Last  Edition pages ar e  clipped into text blocks, that ar e  then 
gathered  in  articles, with  each  component  defi   ned,  and  the 
right  reading  order:  header,  title,  subtitle, body  text, author , 
pictures and captions. Obituary blocks are tagged, and only ad 
blocks are left without marking.
Second ocr – article level: Last Editions only
Last editions pages are then submitted to another fi nal ocr pro-
cess, that scans all the defi ned text blocks, in the right reading 
order, thus following the correct text fl ow in the articles
Automatic text correction by semantic dictionary: 
All Editions
Now  we have on hand all the article texts of  the Last Edition
pages,  and the page undistinguished text for the Pr evious  Edi-
tion pages. The semantic text engine Cogito, by Expert System,  
analyzes all the texts and automatically corrects the wrong words 
for  which the corr ection  confi dence  is affordable  and, for Last  
Edition  articles only,  tags as wrong  the words  that it considers 
may be wrong on semantic, syntactic or orthographic basis. 
Manual text correction and fi nal validation: 
Last Edition only
The last step in text correction is the manual one, and for Last 
Editions  only.  We  use an  application (managed by the work-
fl ow) that allows us to analyze and perform manual text correc-
tion in order to get to a 95% correctness of the body text and 
100% correctness of the title.
Article linking: Last Editions only
This last step allows us to manually link all the articles that fl ow on 
more  than one page, and this leads to put (see next paragraph)  
the complete text of this kind of articles in a single xml fi le.
Dacs deliverables (digital objects) and xml structur e for the ex-
haustive description of the digital archive
The objects produced for a specifi c edition are:
Edition level (Last and Previous Edition):
•  One Mets xml fi le. It contains all the edition metadata, and a 
description and reference of all the objects.
Page level (Last and Previous Edition). For each page:
• High resolution tiff fi le
• Jpeg fi le at several resolutions
• Pdf fi le with searchable text
•  Alto xml fi le, mapping all the contained words and their tag-
ging
Article level (Last Edition only):
• Jpeg fi le of the clipped article at several resolutions
•  Nitf xml fi le  containing the whole text of the article with its 
tags
The xml structure of Mets, Alto and Nitf are the standard ones, 
with some elements added: cross references between the three 
different xmls, and some editorial and semantic information in 
the Alto fi le, so that the Nitf fi le could be completely construct-
ed starting from the Mets and Alto fi les.
4. Manual text correction for Last Editions.
Delete text from pdf preview - delete, remove text from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
pdf editor delete text; how to erase text in pdf online
Delete text from pdf preview - VB.NET PDF delete text library: delete, remove text from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
delete text from pdf preview; remove text watermark from pdf
12
I
n
t
e
r
n
a
t
i
o
n
a
l
P
r
e
s
e
r
v
a
t
i
o
n
N
e
w
s
N
o
.
5
6
M
a
y
2
0
1
2
Sustainability in the United States National 
Digital Newspaper Program
by Deborah Thomas and Mark Sweeney, Library of Congress, USA
Abstract
This paper describes the program organization, technical speci-
fi cations, and tools that support the U.S. National Digital News-
paper Program (NDNP), a partnership between the National En-
dowment for the Humanities (NEH) and the Library of Congress 
(LC). NDNP is a long-term effort to provide permanent access 
to  a national digital collection  of  newspaper bibliographic in-
formation  and selected historic newspapers, digitized by NEH 
awardees in all U.S. states and territories. The program provides 
the Library of Congress with a testing ground for the develop-
ment  of large-scale distributed, digitization programs and for 
predicting long-term needs for management and preser vation 
of  digital  assets. The  development  focuses  on  creating  digi-
tized newspaper page surrogates through a distributed effort, 
ingesting  the resulting digital objects into a system, providing 
user-friendly access to the data, while implementing a system 
that is capable of sustaining the content for future use.
Whether  describing  political  rallies,  disasters  or  r
eal  estate 
sales, historic newspapers are the primary record of events that 
chronicle the development of communities
1
. The U.S. National 
Digital Newspaper Program (NDNP), a partnership between the 
National Endowment for the Humanities (NEH) and the Library 
of  Congress  (LC), is a long-term ef fort  to provide  permanent 
access to a national digital r esource of selected historic news-
papers digitized by NEH-funded institutions from all U.S. states 
and territories and newspaper bibliographic information about 
collections across the country. This program builds on the lega-
cy of the United States Newspaper Program (USNP, 1982-2011) 
sponsored  by  NEH  with  LC  technical  support  –  an excellent 
example  of successful collaboration at  both the national and 
state  levels  to  inventory ,  catalog,  and  selectively  pr eserve  on 
microfi  lm  a corpus of at-risk newspaper materials. The newer 
NDNP  not only extends the usefulness of USNP bibliographic 
and microfi lm assets by increasing access to this valuable infor-
mation, but also provides an opportunity for many institutions 
to contribute select digitized newspapers to a freely accessible 
national newspaper resource.
Newspapers throughout American history have provided a ven-
ue for sharing the facts and opinions of moments in time, sig-
nifi cant people, and local perspectives—a unique r esource for 
recording  and understanding both singular and united voices 
on  ideas, events, and democratic identity .  In  recent  decades, 
under USNP, the preservation of newspapers on microfi lm and 
the establishment of imaging and bibliographic standar ds has 
been an important component of  archival programs, enabling 
1. This paper is a revision and update of Mark Sweeney, “The United States 
National Digital Newspaper Pr ogram (NDNP): a distributed national ef fort 
to enhance access to America’s historic newspapers.” International Federa-
tion of Library Associations W orld Conference and Assembly, Milan, Italy, 
August 2009. Conference presentation.
them to manage and sustain the vast quantity of material r ep-
resenting the historic record effectively. However, even this criti-
cal aspect of newspaper librarianship does little to address the 
use and access needs of text-intensive newsprint. Even with the 
best imaging standards and process, the intellectual content of 
the newspaper is presented in a complicated layout, with vary-
ing  visual cues and small typefaces. The development of new 
digitization technologies, text recognition, and search engines 
enables  the  NDNP  to  provide  enhanced  access  and  discovery 
to this material, as well as the national leadership necessary to 
establish best practices and standar ds  for the digitization and 
structure  for historic newspaper materials intended for a sus-
tainable electronic resource.
Establishing the Program
The  primary goals of the pr ogram  are  long-term – to pr ovide 
enhanced access to select newspapers by cr eating and aggre-
gating  millions of digitized pages fr om  geographically-diverse 
communities while also repurposing existing bibliographic and 
1. Newspaper pages fr om Chronicling America: Historic American News-
papers.
How to C#: Preview Document Content Using XDoc.Word
How to C#: Preview Document Content Using XDoc.Word. Get Preview From File. You may get document preview image from an existing Word file in C#.net.
delete text from pdf file; acrobat delete text in pdf
How to C#: Preview Document Content Using XDoc.PowerPoint
How to C#: Preview Document Content Using XDoc.PowerPoint. Get Preview From File. You may get document preview image from an existing PowerPoint file in C#.net.
how to copy text out of a pdf; remove text watermark from pdf online
13
I
n
t
e
r
n
a
t
i
o
n
a
l
P
r
e
s
e
r
v
a
t
i
o
n
N
e
w
s
N
o
.
5
6
M
a
y
2
0
1
2
holdings data for over 140,000 U.S. titles in a fr eely-accessible 
and searchable system. Since the U.S. national newspaper col-
lection is dispersed among hundreds of libraries throughout the 
country, a decentralized selection and digital conversion model 
was adopted with data aggregation provided by the Library of 
Congress for access and preservation.
In 2004, NEH and LC began a collaboration to develop a nation-
wide  program  that enhanced access to this material thr ough 
the use of new technologies and information channels, scaled 
to include representative content from all U.S. states and terri-
tories produced over several decades, and encouraged interop-
erability between digital libraries through shared specifi cations. 
A memorandum of understanding between NEH and LC clearly 
delineates the responsibilities of the two agencies in developing 
the  overall national pr ogram.  While NEH  manages  and funds 
annual award competitions among state-level institutions to se-
lect and convert historic newspapers to digital form, LC focuses 
on  the  program’s  technical  specifi  cations,  data  management 
and publicly serving the content. State level institutions, known 
in  the  program  as  “awardees,”  are  responsible  for  selecting 
newspapers  published  in  their  state  according  to  program 
guidelines and converting them to valid digital form for central 
aggregation at LC. 
In  2005,  NEH held a  national competition for institutions  to 
select, digitize and contribute 100,000 pages each fr om  their 
historic  newspaper  collections  to  the  NDNP pr ogram.  In  this 
fi  rst  year, NEH selected six contributors based on their experi-
ence with historic newspapers, digitizing collections, and digital 
library infrastructures. In subsequent years, from 2007-present, 
NEH has made additional awards and supplemental awards to 
a total of 28 states, funding digitization of mor e than 5.6 mil-
lion pages to date. A competition is currently underway for this 
year’s awards to be issued in August 2012. 
Technical Specifi cations and Tools
In the development and overall management of the pr ogram, 
the Library of Congress provides technical support of the pr o-
gram’s primary goal – creating open access to the nation’s his-
toric newspapers. The Library’s role has three parts: to establish 
technical digitization specifi cations that permit aggregation, to 
serve and unify this content thr ough  a publicly-available Web 
site, and to permanently sustain the aggregated content. As LC 
reviewed the means available to accomplish these objectives, it 
became  clear  that the requirements of sustaining  the  content 
over  time  would  inform  many  decisions  supporting  the  other 
two objectives. 
The NDNP data management environment is based on require-
ments supporting the four major workfl ows as identifi ed in the 
Open  Archival  Information  Systems (OAIS)  Refer ence  Model: 
ingest, archiving, dissemination and preservation management. 
From the outset, LC recognized the scope of the planned pro-
gram  –  millions  of  newspaper pages pr oduced  by  many  dif-
ferent  organizations  over several decades (equaling, at least, 
hundreds of terabytes) – and the commitment between public-
ly-funded agencies to manage access to this content r equired 
emphasis on the creation of digital assets according to emerg-
ing  standards  and  uniform  best  practices.  W ell-formed  data 
operating in a robust technical infrastructure would be the best 
approach  to  ensuring  cost-effective  management  of  the  con-
tent over time. 
The  Library  began with identifying  high-level  operating prin-
ciples and functional requirements for a digital asset manage-
ment  environment  that supported ingesting and ar chiving,  as 
well as the associated dissemination workfl ow. In a climate of 
emerging (and evolving) best practices for digital preservation, 
LC initiated an explicit development phase to allow for research 
2. NDNP Awardee States, 2005-2011.
VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
a preview component enables compressing and decompressing in preview in ASP images size reducing can help to reduce PDF file size Delete unimportant contents:
how to erase in pdf text; how to edit and delete text in pdf file online
C# WinForms Viewer: Load, View, Convert, Annotate and Edit PDF
Add text to PDF document in preview. • Add text box to PDF file in preview. • Draw PDF markups. Search PDF text in preview. • View PDF outlines.
how to delete text in a pdf file; how to delete text in pdf document
14
I
n
t
e
r
n
a
t
i
o
n
a
l
P
r
e
s
e
r
v
a
t
i
o
n
N
e
w
s
N
o
.
5
6
M
a
y
2
0
1
2
and assessment of long-term workfl ow and curation needs, as 
well as incremental progress toward NDNP goals. The principles 
applied in making technical choices wer e intended to support 
the development of a system that is sustainable in today’s best 
estimation  – open,  modular ,  certain  to  change,  and  able  to 
evolve to meet future uses. 
These technical decisions were also informed by realities of the 
overall program structure: 
–  The  content  –  analog  versions  (micr ofi  lm,  paper)  of  U.S. 
historic  newspapers – r esides  primarily in state r epositories, 
rather than at the national library, and therefore the program 
requires distributed production of the digital assets; 
–  The funding to apply new technologies to enhance access to 
this material is fi nite, therefore,
•  content  included in  the  pr ogram  will  be selective, rather 
than the entire corpus available;
•  technical  requirements  for converted materials should ac-
count for potential re-use and reprocessing over time (scan 
once, use many times);
•  the program should provide a model for other efforts that 
may eventually interoperate – sharing best practices, con-
version  specifi cations,  and standar dizing  basic  access for 
historic newspapers.
–  Demonstration of good use of public funds by providing open 
and perpetual access; 
–  In expectation of change, avoid closing off options, by devel-
oping  a  system  envir onment  that  would  be  open, expand-
able, and modular. 
To  build  an  extendable,  scalable,  and  sustainable  workfl ow, 
eventually encompassing more than 50 producers, NDNP need-
ed to consider fi ve main requirements:
–  convert  the content to achieve the highest quality informa-
tion for discovery and re-use,
–  ensure  technical consistency acr oss  multiple producers  over 
time,
–  use  open  and  sustainable formats to encourage  long-term 
preservation, 
–  develop a data architecture that would allow for both man-
ageability and scalability over time, and
–  develop  scalable  workfl  ows,  quality  pr ocesses,  and  data 
transfer  tools that support inventory and management of a 
large-scale digital collection, created by multiple producers.
Building  on its experience with large-scale digitization of his-
toric materials, LC developed technical specifi cations for NDNP 
content based on existing best practices. The image specifi ca-
tions – TIFF, JPEG2000, and PDF – are intended to play specifi c 
roles in the NDNP system (TIFF for archiving, JPEG2000 for pro-
duction  and PDF for portability) and conform to curr ent  best 
practices  for digital fi le  format sustainability
2
 These practices 
include  wide-ranging  adoption in  the  cultural  heritage  com-
munity, transparency of the digital information itself, and self-
documentation within the fi le format. The image specifi cations 
for  NDNP,  primarily  8-bit  grayscale  at  300-400  dpi,  attempt 
to  capture  the most data possible fr om  newspaper micr olfim 
negatives to provide for future reprocessing and reuse with im-
2. “Sustainability of Digital Formats – Planning for Library of Congress Col-
lections.” http://www.digitalpreservation.gov/formats/ (Accessed 22 March 
2012)
proved technology. In addition, LC chose a standard XML meta-
data scheme (Metadata Encoding and Transmission Standard
3
for  description  of  the digital  objects at  the  newspaper issue 
and page level and the ALTO (Analyzed Layout and Text Object) 
schema extension
4
for structuring the automatically-recognized 
machine  readable  page  text  (optical  character  recognition  or 
OCR). Metadata requirements were intended to provide a basic 
level  of access to newspaper pages, capturing as much struc-
tural and technical information as possible  from both fi lm and 
intellectual content at the point of digital creation. 
NDNP  recognized  that a distributed pr oduction  model would 
require  improved  mechanisms  for  quality  assurance  of  the 
content  as  it was cr eated  and aggregated,  as  well as explicit 
incorporation of metadata intended to assist in long-term man-
agement and sustainability of the digital objects. These require-
ments led to the development of two NDNP-related tools, a mi-
crofi lm scanner target for objective image quality analysis and 
a  technical validation and quality r eview  software,  both used 
by program participants to assist in capturing technically valid, 
high-quality  images and ensuring that metadata conforms to 
NDNP technical specifi cations.
The  NDNP image  specifi cations  attempt to captur e  the  most 
data possible from newspaper microfi lm and the program has 
3. Metadata Encoding and Transmission Standard (METS): http://www.loc.
gov/standards/mets/ (Accessed 22 March 2012)
4.  Analyzed Layout and T ext  Object Schema (AL TO): http://www.loc.gov/
standards/alto/ (Accessed 22 March 2012)
3. Preservation Microfi lm Scanner Target (PMT), image provided by Image 
Science Associates.
C# WinForms Viewer: Load, View, Convert, Annotate and Edit
PowerPoint Conversion. • Convert Microsoft Office PowerPoint to PDF (.pdf). Delete annotations from PowerPoint. Select PowerPoint text contents for edit.
how to delete text from a pdf document; acrobat remove text from pdf
C# PDF insert text Library: insert text into PDF content in C#.net
Supports adding text to PDF in preview without adobe reader installed in ASP.NET. Powerful .NET PDF edit control allows modify existing scanned PDF text.
delete text from pdf online; pdf text remover
15
I
n
t
e
r
n
a
t
i
o
n
a
l
P
r
e
s
e
r
v
a
t
i
o
n
N
e
w
s
N
o
.
5
6
M
a
y
2
0
1
2
established technical specifi cations and workfl ow components 
to  that  end.  Microfi lm  is  assumed  to  play  the  leading  role  in 
content selection since most original paper issues from the tar-
get time period have signifi cant deterioration or are simply no 
longer  available.  The captur e  of a standar dized  image  target 
along with the selected historic material is a best practice used 
by many digital library projects to further the goals of produc-
ing accurate materials that can be managed in the absence of 
the original item. Recognizing that no such test target existed 
for the digitization of microfi lm at the time, NDNP worked with 
Image  Science Associates
5
to develop the Pr eservation  Micro-
fi lm Scanner Target (PMT), a standardized technical test target 
on  microfi  lm  (see Fig. 3) with associated analysis softwar e, to 
assist  in  creating  the  high  quality  digital  images that  the pro-
gram requires.
The  PMT  can  be  used  to  cr eate  a  benchmark  for  scanning 
equipment  capabilities or  to  support  ongoing quality contr ol 
during  production  workfl ow.  An initial set  of scanned target 
images  from  a specifi c  capture  device can establish a bench-
mark  for anticipated performance of that particular device or 
variables  associated with settings. Comparison of benchmark 
scans from  different scanning equipment or dif ferent vendors 
can assist in making choices among them. In addition, if ther e 
are  quality concerns  for a particular image set (blur ,  contrast, 
noise, etc.) PMT images captured at the time of digitization can 
be useful in determining which variable is responsible for qual-
ity concerns and how to address them. 
The fi lm target and analysis software contains several elements 
to  ensure  consistency with curr ent  International  Organization 
for Standardization (ISO) imaging specifi cations. In ISO 14524, 
the responsiveness of the capture device to tones is defi ned as 
its Opto-Electronic Conversion Function (OECF). The PMT con-
tains a series of gray boxes, with graduated levels of darkness 
that  should be distinctly observable in a high quality scanned 
image. This creates both a visual clue that the target image cap-
tured the full range of tones available, and data points that may 
be analyzed by software to calculate the OECF for the system. 
Given the variety of content elements in newspaper images, it 
is important not only that enough pixels per inch are captured, 
but also that the optical system captur es enough detail to jus-
tify those pixels. In ISO 16067-2, sharpness is measur ed in the 
system’s  Spatial Frequency  Response (SFR). The PMT contains 
a  slant-edge border  between white and black ar eas  and eye-
readable resolution charts consisting of narrowly spaced lines. 
This is the input for a software analysis of the system’s SFR ca-
pability.
The process of digitization often produces unintentional noise: 
artifacts  that appear randomly or systematically in the digital 
image  that were  not in the original. The PMT measur es  noise 
through  the use of a series of squar es with very small vertical 
and horizontal lines and a long diagonal line acr oss the entire 
target. If there is interference created by the distance between 
pixels on the sensor and these lines, the target image will pr o-
duce a pattern of widely spaced lines. The degree of fl uctuation 
is indicated by the analysis software, which also provides infor-
mation on the likely range of acceptable fl uctuation.
5. See Image Science Associates: http://www.imagescienceassociates.com/, 
for more information (Accessed 22 March 2012)
For NDNP production workfl ows, the analysis of PMT target im-
ages may be done as often or as little as awardee project man-
agers deem necessary, frequently for quality monitoring or on 
an as-needed basis. To date, analysis of scanned targets within 
NDNP has revealed issues in scanning performance in the areas 
of tonal reproduction, sharpness and noise, enhancing produc-
ers’  ability to monitor aspects of the digitization pr ocess.  Just 
as  importantly,  when poor newspaper images on the original 
microfi lm  caused the scanning pr ocess  to be questioned, the 
use  of  the  target  has  also  demonstrated  when  the  scanning 
devices is operating correctly.
In  order  to  ensur e  conformance  with  other  NDNP  techni-
cal  specifi cations,  a second  tool was needed for NDNP staf f, 
awardee institutions, and digitization vendors alike to validate 
conformance to NDNP technical specifi cations and enable qual-
ity  assurance processing.  To  support effi ciency  and scalability, 
technical conformance (e.g. whether a fi eld is populated with 
the appropriate data type) would be supported by automated 
analysis while a data object viewer would support more subjec-
tive human inspection (e.g., whether the fi eld data is correct). 
To support automated technical conformance, much work had 
already  been done at Harvar d  University with the cr eation  of 
the open source JSTOR/Harvard Object Validation Environment 
(JHOVE)  software
6
 This  software  was  able  to  measure  and 
characterize  many aspects  of the fi  le  types (JPEG  2000,  PDF , 
TIFF)  that  are  used in  NDNP.  Further programming  at LC ex-
tended the capabilities of the software and incorporated valida-
tion of the XML metadata necessary for the NDNP system
7
. This 
analytical code was wrapped in a graphical user interface that 
became known as the Digital V iewer and Validator (DVV). The 
DVV then allowed automated analysis of the objective criteria 
6.  JSTOR/Harvard  Object Validation  Environment  (JHOVE): http://hul.har-
vard.edu/jhove/ (Accessed 22 March 2012)
7.  For  more  explanation of  the  digital  object validation  strategies  imple-
mented for NDNP, see Littman, Justin. “A Technical Approach and Distrib-
uted Model for Validation of Digital Objects.” In D-Lib Magazine, 12:5 (May 
2006).  http://www.dlib.org/dlib/may06/littman/05littman.html  (Accessed 
22 March 2012)
4.  NDNP Digital V iewer  and Validator,  quality  review  interface and DOS 
command-line module.
How to C#: Preview Document Content Using XDoc.excel
How to C#: Preview Document Content Using XDoc.Excel. Get Preview From File. You may get document preview image from an existing Excel file in C#.net.
erase text from pdf; how to remove text watermark from pdf
C# PDF replace text Library: replace text in PDF content in C#.net
Description: Delete specified string text that match the search option from specified PDF page. Parameters: Name, Description, Valid Value.
remove text from pdf preview; erase text from pdf file
16
I
n
t
e
r
n
a
t
i
o
n
a
l
P
r
e
s
e
r
v
a
t
i
o
n
N
e
w
s
N
o
.
5
6
M
a
y
2
0
1
2
of  the data objects  ensuring the right data types wer e  used, 
and  a visual quality review to ensure  the metadata was being 
employed correctly (e.g. the right title was used, the date in the 
metadata matches the date on the page image). 
During  validation,  initiated  thr ough  either  the  graphical  in-
terface  or a DOS command-line module, the DVV verifi es ap-
proximately 100 characteristics of the data package. If the fi les 
meet the specifi cations, it extracts header data from the various 
self-documenting fi le types for transformation into Preservation 
Metadata  Implementation  Strategies (PREMIS)  and Metadata 
for Images in XML Schema (MIX) schemas within the associated 
METS  object. In addition, the DVV adds a digital signatur e  to 
the METS object for each associated fi le. This digital signature 
can be checked later, to determine if the fi le has changed in the 
interim, whether intentionally, by operator error, or by bit deg-
radation. These features of the DVV allow the validity of NDNP 
data fi les to be monitored throughout their lifecycle.
Early in the program NDNP determined that to maintain a sus-
tainable  cost-effective  program,  the data pr oduced  by NDNP 
must be managed in such a way as to ensure both its reliability 
and quality for use. One early lesson was identifying the need 
to  minimize  human-interaction  (and  ther efore  human  err or) 
in the data lifecycle. To that end, when LC r eceives the NDNP 
data,  valid and with digital signatur es  for each fi le  intact, the 
data delivery is then “bagged” using the Inter net Engineering 
Task Force (IETF) draft specifi cation BagIt
8
(developed under the 
National  Digital  Information  Infrastructur e  and  Pr eservation 
Program
9
 and transferred  into  an automated  workfl ow sup-
ported  by  generalized transfer utilities  that  pr ovide  manage-
ment services to enhance reliability, fi ndability, and integration 
with other digital collection material.
The tools described above help ensure the initial NDNP invest-
ment in data specifi cations and quality monitoring results in a 
sustainable resource worth the cost of management and main-
tenance over time. 
Enhancing Access through Use:
Chronicling America
During the early stages of the program, LC developed require-
ments for an access system thr ough identifying use cases and 
scenario  planning. The NDNP team defi   ned  needs for access 
as the ability of  a general user to  search and/or alphabetically 
browse newspaper title directory records, browse through vari-
ous digitized titles by issue date and logical page order, and to 
support  simple keyword  search  at the newspaper page level. 
Automatically recognized  machine readable  text (optical char-
acter  recognition,  or  OCR)  with  associated  wor d  coordinate 
data,  structured  using  the  AL TO  schema  provided  the  basic 
page structure and keyword searchability as well as locational 
information that could be used in a visual interface to highlight 
search  results.  Additional  structural  or  descriptive  metadata 
identifying parts of the page was not included in the specifi ca-
8. BagIt specifi cation: http://www.digitalpreservation.gov/partners/resourc-
es/tools/index.html#b (Accessed 22 March 2012)
9.  National Digital Information Infrastructur e  and Pr eservation  Program: 
http://www.digitalpreservation.gov/# (Accessed 22 March 2012)
tion in order to maximize the available resources and meet the 
needs of providing basic access to the content. Formal usability 
testing was conducted on an early prototype incorporating this 
functionality to confi rm general usage assumptions and needs. 
The user interface to NDNP data, known  as Chronicling Amer-
ica:  Historic American Newspapers  (http://chroniclingamerica.
loc.gov), is freely accessible to the public and available from the 
Library of Congress Web site. The current Web site architecture 
supports human, machine, and API (Application Pr ogramming 
Interface) usage. Building on open source software toolkits, the 
architecture leverages the Apache HTTPD Web Server, the Djan-
go web publishing framework
10
(originating from the newspa-
per publishing sector and able to fulfi ll many of the digital r e-
source  use cases with very little additional ef fort),  the JQuery 
JavaScript  Library,  MySQL database,  Solr sear ch  server,  and a 
number of Python libraries. These open source tools provide the 
fl exibility, reliability and ease of use needed both internally at LC 
for implementation and for external users. For use outside the 
Library of Congress, the complete site application is packaged 
together  for  open-sour ce  distribution  thr ough  SourceForge.
net as “the LC Newspaper Viewer.”
11
Most importantly, LC has 
substantively revised the site 2 times to date, enhancing access 
to the site and use of the site by multiple factors, without any 
changes to the NDNP digital object technical specifi cations or 
structures. 
This architecture supports robust performance that allows web 
crawlers  and  sear ch  engines  access  toC hronicling  America 
content.  Providing  machine access to the content has gr eatly 
enhanced use of the newspaper collection by putting it in front 
of  millions from  whom  it was pr eviously  hidden. Implement-
ing  standard  APIs allows exter nal  dissemination and  curation 
10.  Django  Web  Framework:  http://www.djangoproject.com/  (Accessed 
22 March 2012)
11.  SourceForge.net/Library  of  Congr ess  –  Newspaper  V iewer:  http://
sourceforge.net/projects/loc-ndnp/?source=directory  (Accessed  22 Mar ch 
2012)
5. Screen shot, chroniclingamerica.loc.gov.
17
I
n
t
e
r
n
a
t
i
o
n
a
l
P
r
e
s
e
r
v
a
t
i
o
n
N
e
w
s
N
o
.
5
6
M
a
y
2
0
1
2
of  the  site  content.  For  example,  the  OpenSearch  API  imple-
mented allows users to search the newspaper pages and titles 
directly from their Web browser or harvest newspaper images, 
text  or bibliographic data  to pr ovide  insight into  the  historic 
progression  of newspaper publishing  in  the  U.S.  Supporting 
the semantic web and RDF (Resour ce Description Framework) 
and  using common linked data vocabularies, each newspaper 
page  and  bibliographic  dir ectory  record  has a  persistent URL 
and  includes  Dublin Cor e  and  MODS data  embedded  in the 
page view as HTML. Presenting the NDNP data in multiple ways 
beyond the Web-to-user interface promotes use of the content 
via new research techniques such as data mining, visualization 
or machine-user methods of discovery.
The  site  currently  includes  approximately  5  million  newspapers 
pages from more than 700 titles, published between 1836 and  
1922 from 25 states and the District of Columbia, with 3 addi-
tional states pending. Also included is a directory of newspapers 
published in the US from 1690 to the present and information on 
libraries that hold them in both physical and digital form. Since 
March 2007, the site has pr ovided  content to approximately  7 
million  visitors with over 65 million page views. In addition to  
basic keyword search functionality, the Web site provides access 
to  citation information for each newspaper page, visual calen-
dars  indicating available issues for a given year ,  fi les  for down-
load and re-use, special features for clipping (or printing) detailed 
images  of a page, persistent “bookmarkable” links for all site  
views,  newspaper histories for  each  digitized title, r egular  RSS 
(Really Simple Syndication) feeds of content highlights, updates, 
program developments, and more. Additional links are provided 
to share any Web page in the site by email and social media, such 
as Facebook, Twitter and others. Likely areas for future enhance-
ment to access are language-specifi c search capabilities for mul-
tilingual page content (currently English, French, German, Italian, 
and Spanish are anticipated), additional automated analysis and 
manipulation of OCR to enhance search specifi city and the over-
all user experience. 
Sustaining the Content
An  important component in the fulfi llment  of LC’s  role  in this 
program is the development of a system envir onment that en-
sures  the digital  assets  acquir ed  from  many different  sources 
over a long period of time will be sustainable. The environment 
must  guarantee that when people, pr ocess,  and technologies 
change, the digital asset can be available (transparently and au-
tomatically if possible) for use and, potentially , transformation. 
Appropriate repository architecture is an essential component in 
determining if a digital pr eservation  environment  is successful. 
As mentioned earlier, the core custodial unit of digital content 
at the Library of Congress is compliant with the BagIt specifi ca-
tion where each unit is called a bag. The content itself is stored 
in  fi  les  in  the bag,  which  ar e  listed with  their  cryptographic 
hash values
12
in a bag manifest. Bags also contain administra-
12. For more information about cryptographic hashes and content integ-
rity, see Zwaard, Kate. “Hashing Out Digital Trust”. In The Signal, (Novem-
ber  2011).  http://blogs.loc.gov/digitalpr eservation/2011/11/hashing-out-
digital-trust/ (Accessed 27 March 2012)
tive metadata about content that help curators now and in the 
future reconstruct fi les into usable and useful information.
To provide repository services that ensure digital assets are pre-
served  over time
13
,  the Library developed  a  suite of  softwar e 
and services referred to as Content Transfer Services (CTS). CTS 
moves bags through an automated workfl ow that ensures not 
only the safekeeping of the bag, but also provides checkpoints 
for subjective review through the end of the process. Upon re-
ceipt of deliveries, CTS performs a malware scan. To ensure the 
continued  integrity  of  the  content,  no  copies  to  any  storage 
location are considered complete until CTS verifi es the crypto-
graphic hash values. Periodic spot-checks on content to detect 
accidental  changes or corruption ar e  also initiated using CTS. 
The  workfl ow  completes with  a  bag  being  copied  to  access 
servers,  archival  systems, and an automated pr ocess  is kicked 
off to make the former available to the public.
Each  operation in CTS  cr eates  and  stores  preservation  meta-
data, which is accessible to curators through the CTS web inter-
face. Users of the system can manually add or modify adminis-
trative and bibliographic information as content is being stored 
or  manipulated. Staff  can use the interface to br owse directly 
to fi les without needing direct server access, but in a way that 
still provides an access control layer.
In  addition to workfl  ow  and preservation  management, CTS 
includes extensive reporting about both the content and its use 
which  library staff  can view thr ough  standard  reports  and ad 
hoc queries. Locations of data, storage used, fi le formats, fi les 
stored,  and progress through  automated workfl ow  are  all vis-
ible to curatorial staff. These reports are exportable to spread-
sheets which are used in reports to program stakeholders, the 
U.S. Congress and to inform billing and contracts. 
Library staff constantly monitor the risks
14
to the assets under 
LC stewardship and make regular improvements to CTS and its 
processes.  Evaluation of the lessons lear ned,  as well as input 
from  other  LC collection management pr ojects,  will continue 
to inform the development of additional tools and services for 
managing the complex workfl ows associated with data acquisi-
tion, management, access and archiving.
Supporting Infrastructure for Sustainability
The  NEH and LC have made a long-term commitment to the 
development of this program and its digital assets, including a 
formal agreement regarding goals of the program, cost-sharing 
for  technical development and data management, and coop-
eratively  guiding the pr ogram’s  progress.  In order  to fu lfil its 
role  in providing  permanent access to this high-value historic 
content, LC implemented supporting infrastructure – both pro-
13. See Littman, Justin. “A Set of Transfer-Related Services.” In  D-Lib Maga-
zine, 15:1/2 (January/February 2009). http://www .dlib.org/dlib/january09/
littman/01littman.html (Accessed 27 March 2012)
14. See Littman, Justin. “Actualized Preservation Threats: Practical Lessons 
from Chronicling America.” In D-Lib Magazine, 13:7/8 (July/August 2007). 
http://www.dlib.org/dlib/july07/littman/07littman.html (Accessed 27 March 
2012)
18
I
n
t
e
r
n
a
t
i
o
n
a
l
P
r
e
s
e
r
v
a
t
i
o
n
N
e
w
s
N
o
.
5
6
M
a
y
2
0
1
2
grammatic and technical – to enable the long-term sustainabil-
ity of the collection. 
The organizational infrastructure established at LC included an 
internal program management team, made up of stakeholders 
representing  collections  inter ests,  digital  production  (conver-
sion and acquisition), and digital preservation. These stakehold-
ers had hands-on experience in a broad range of LC programs, 
including  newspaper  collection  development,  the  American 
Memory digital historic collections, Ameritech-funded partner-
ships,  information  technology  and  the  National Digital Infor -
mation Infrastructure  Preservation Program (NDIIPP). Together, 
these  committee  members  r epresented  various  management 
groups in the Library and successfully scoped the LC r oles and 
deliverables that fulfi ll program requirements –administering a 
successful distributed production model, providing a Web inter-
face to acquired data, and developing a system environment to 
maintain and sustain the digital content. 
To accomplish these goals it was essential that LC also establish 
a  technical development team r epresenting various specialties 
 preservation  architecture  and repository  development, data 
modeling,  software  development, search  analysis and  user in-
terface development - willing to experiment and contribute to 
the advancement of best practices in digital preservation. This 
team shares expertise with other LC digital collection manage-
ment  efforts,  including  copyright  deposit  of  electr onic  jour-
nals,  Web  archiving,  and  digitized  historic  collections,  using 
and  generalizing  the  lessons lear ned  in NDNP  to extend the 
repository services to other content types. The technical devel-
opment group supporting NDNP supports not only the creation 
of a system environment that meets NDNP goals, but also the 
establishment  of  a r epository  development center  (har dware, 
software,  and  systems) for on-going r esearch  at LC  into  the 
challenges of preserving all types of digital information. 
Together, LC, NEH and the participating awar dees have devel-
oped a strong community of practice around the digitization of 
historic newspapers that: 
•  allows for a uniform body of content created by multiple pro-
ducers, 
•  meets basic user access needs beyond analog versions, 
•  has a high-degree of sustainability, and
•  enhances access to American newspapers overall. 
The  immediate  up-fr ont  decisions on  the  best  practices  and 
strategies for sustainability that would lead to a successful pro-
gram have been validated. As the program continues to devel-
op and expand, LC will continue to adapt and evolve the tools 
and systems supporting this program. Facing the challenges of 
building  a national digital newspaper collection has informed 
universal understanding of needs and capabilities for the pr es-
ervation of all digital information.
Acknowledgement
Thanks to David Brunton, Robin Butterhof, Liz Madden, Nathan 
Yarasavage and Kate Zwaard at the Library of Congress for con-
tributing to this article. 
19
I
n
t
e
r
n
a
t
i
o
n
a
l
P
r
e
s
e
r
v
a
t
i
o
n
N
e
w
s
N
o
.
5
6
M
a
y
2
0
1
2
Sostenibilidad del Programa Nacional de Prensa Digital de los Estados Unidos 
Este documento describe la organización, especifi caciones técnicas y herramientas del programa que patrocina el Programa 
Nacional de Prensa Digital de los Estados Unidos (NDNP, por sus siglas en inglés), una asociación entre el National Endowment 
for the Humanities (NEH) y la Biblioteca del Congreso (LC). El NDNP es un esfuerzo a largo plazo para ofrecer acceso perman-
ente a la colección digital nacional de información bibliográfi ca de la prensa y periódicos históricos seleccionados, digitalizados 
por los benefi ciarios del NEH en todos los estados y territorios estadounidenses. El programa le proporciona a la Biblioteca del 
Congreso un terreno de prueba para el desarrollo de programas de digitalización distribuidos a gran escala y para la predic-
ción de necesidades a largo plazo para el manejo y la pr eservación de los recursos digitales. El desarrollo se centra en crear 
sustitutos de páginas de periódicos digitalizadas a través de un esfuerzo distribuido, ralizar la ingestión de los objetos dig itales 
resultantes  a un sistema, brindar acceso a los datos de manera amigable al usuario, al mismo tiempo que implementa un 
sistema capaz de sostener el contenido para su uso futuro.
Los objetivos fundamentales del programa son, a largo plazo, proveer acceso mejorado a periódicos seleccionados mediante la 
creación y agregación de millones de páginas digitalizadas de comunidades geográfi camente diversas, mientras se replantea el 
propósito de los datos bibliográfi cos y de existencias de más de 140.000 títulos estadounidenses en un sistema de libre acceso 
y búsqueda. En virtud de que la colección nacional de prensa de los Estados Unidos está dispersa entre cientos de bibliotecas 
en todo el país, se adoptó un modelo de selección descentralizada y conversión digital con agregación de datos suministrado 
por la Biblioteca del Congreso para acceso y preservación.
Un acuerdo entre el NEH y la LC establece claramente las responsabilidades de las dos agencias en el desarrollo del programa 
nacional global. Mientras que el NEH administra y fi nancia competencias de premios anuales entre instituciones a escala es-
tadal para seleccionar y convertir periódicos históricos a forma digital, la LC se centra en las especifi caciones técnicas del pro-
grama, el manejo de datos y ofrecer el contenido al público. Las instituciones de nivel estadal, conocidas en el programa como 
“benefi ciarias”, son responsables de la selección de los periódicos publicados en su estado, de acuer do con los lineamientos 
del programa y su conversión a la forma digital válida para su agregación central en la LC. 
El desarrollo de las nuevas tecnologías de digitalización, el r econocimiento de texto y los motor es de búsqueda habilitan al 
NDNP para brindar un acceso mejorado y el descubrimiento de este material, así como para alcanzar el liderazgo necesario 
para establecer las mejores prácticas y normas de digitalización y estructura para la pr ensa histórica destinada a convertirse 
en un recurso electrónico sostenible. 
El entorno de gestión de datos del NDNP se basa en los requisitos que respaldan los cuatro fl ujos de trabajo principales según 
están identifi cados en el Modelo de Referencia de los Sistemas Abiertos de Información de Archivos (OAIS): ingestión, archivo, 
diseminación y gestión de preservación. Desde el inicio, la Biblioteca del Congreso reconoció el alcance del programa previsto 
– millones de páginas de periódicos producidas por muchas organizaciones diferentes durante varias décadas (equivalentes, 
por lo menos, a cientos de terabites). El compr omiso entre las agencias que reciben fi nanciamiento público para manejar el 
acceso a este contenido requirió hacer énfasis en la creación de activos digitales de acuerdo con las normas emergentes y las 
mejores prácticas uniformes. 
Los datos bien formados que oper en dentro una infraestructura técnica robusta serían el mejor enfoque para asegurar una 
gestión con efectividad de costos del contenido a largo plazo. 
Estas decisiones técnicas también estuvieron determinadas por las realidades de la estructura del programa completo: 
–  El contenido – versiones analógicas (micr ofi lme, papel) de los periódicos históricos estadounidenses r eside principalmente 
en repositorios de los estados, en lugar de una biblioteca nacional, y por lo tanto el programa requiere una producción dis-
tribuida de los activos digitales.
–  El fi nanciamiento para aplicar nuevas tecnologías para mejorar el acceso a este material es fi nito, por lo tanto, 
•  el contenido incluido en el programa será selectivo, en lugar del corpus completo disponible;
•  los requerimientos técnicos para los materiales convertidos deben abar car la potencial reutilización y reprocesamiento  a 
largo plazo (escanear una vez, usar muchas veces);
•  El programa debe ser un modelo para otros esfuerzos que puedan interoperar en el futuro – compartir las mejores prácti-
cas, especifi caciones de conversión y estandarización del acceso básico a los periódicos históricos.
20
I
n
t
e
r
n
a
t
i
o
n
a
l
P
r
e
s
e
r
v
a
t
i
o
n
N
e
w
s
N
o
.
5
6
M
a
y
2
0
1
2
–  Demostración del buen uso de los fondos públicos para proveer acceso abierto y permanente;
–  Con  la expectativa de cambios, se debe evitar cerrar opciones, mediante el desarr ollo de un entorno  de sistema abierto, 
expandible y modular. 
A partir de su experiencia con la digitalización a gran escala de materiales históricos, la LC desarrolló las especifi caciones téc-
nicas para el contenido del NDNP con base en las mejores prácticas existentes.
La interfaz del usuario con los datos del NDNP , conocida comoC hronicling  America: Historic American Newspapers (http://
chroniclingamerica.loc.gov), es de libre acceso para el público y está disponible en el sitio web de la Biblioteca del Congerso. El 
sitio actualmente incluye un aproximado de 5 millones de páginas de periódicos de más de 700 títulos, publicados entre 1836 
y 1922 de 25 estados y el Distrito de Columbia, con 3 estados adicionales pendientes por incluir.
Un componente importante en el desempeño del papel de la Biblioteca del Congreso en este programa es el desarrollo de un 
entorno de sistema que asegure que los activos digitales adquiridos de distintas fuentes durante un período pr olongado de 
tiempo sean sostenibles. El entorno debe garantizar que cuando las personas, los procesos y las tecnologías cambien, se pueda 
acceder al activo digital (de manera transparente y automática, si es posible) para su uso y, potencialmente, su transformación . 
La arquitectura adecuada de los repositorios es un componente esencial para determinar si un entorno de preservación digital 
es exitoso. 
Conjuntamente, la LC, el NEH y los benefi ciarios participantes han desarrollado una fuerte comunidad de práctica alrededor 
de la digitalización de los periódicos históricos que:
•  permite un cuerpo uniforme de contenido creado por productores múltiples, 
•  satisface las necesidades básicas de acceso de los usuarios más allá de las versiones analógicas,
•  tiene un alto grado de sostenibilidad y 
•  mejora el acceso a los periódicos estadounidenses en general. 
Documents you may be interested
Documents you may be interested