opening pdf file in asp.net c# : Delete text pdf acrobat professional software SDK dll winforms windows .net web forms JP_2005_020-part423

ALLENPRESS, INC.
YEAR2005 NO. 2
THENEWSLETTERFOR
JOURNALPUBLISHERS
• What Societies and Associations Are Doing with TheirBack Issues •
• How to Perform a Legacy Conversion with Allen Press •
Legacy Content Conversion:
Generating citations, revenue and goodwill
from your publication history
“Relevancy is driven by content, not publication date”
By Duff Johnson
Founder, President, Principal Consultant, Document Solutions
Contributing Editor, Business and Government, Planet PDF
This issue of JP explains,in a detailed but non-technical way,the ins and outs of
assessing,planning,and executing the conversion of a publication’s back-cata-
logue to electronic format. Written by a veteran service provider and consultant,
and including detailed case studies of legacy content usage published for the first
time anywhere,this article delivers information designed to provoke reflection on
the considerations,opportunities,and pitfalls of converting legacy content for use
online or on disk. The services outlined on this newsletter are available from Allen
Press,Inc.
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Top Five Reasons to Digitize Back Issues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
What Other Societies are Doing: 3 Case Studies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Seven Key Indicators Favoring Legacy Conversion (sidebar)  . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Legacy Conversion: Start with PDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
PDF/Archive (sidebar) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Content Tagging and Conversion to XML/SGML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
The Imaging Process  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Evaluating Legacy Content: Seven Key Considerations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
How to Perform a Legacy Conversion with Allen Press (flow chart) . . . . . . . . . . . . . . . . . . . 14
Glossary of Terms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Quotation Request Form . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Delete text pdf acrobat professional - delete, remove text from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
delete text in pdf file online; how to remove text watermark from pdf
Delete text pdf acrobat professional - VB.NET PDF delete text library: delete, remove text from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
deleting text from a pdf; how to erase text in pdf
JP,  T
HE
N
EWSLETTER FOR
J
OURNAL
P
UB
-
LISHERS
, is published four or more times a year
by Allen Press, Inc. JPis dedicated to provid-
ing comprehensive management and techno-
logical information and guidance to journal
publishers.
Allen Press, Inc.
810 E. 10th Street
Lawrence, KS 66044
Phone: 785-843-1234 or 800-627-0326
Fax: 785-843-1226
www.allenpress.com
Rand Allen, Chief Executive Officer
e-mail: rallen@allenpress.com
Printing Division
Guy Dresser, Vice President, ext. 123
e-mail: gdresser@allenpress.com
Publishing Division
Alliance Communications Group
Theresa Pickel, Director, ext. 263
e-mail: tpickel@acgpublishing.com
www.acgpublishing.com
Web Publishing Division
Ted Freeman, Director, ext. 170
e-mail: tfreeman@allenpress.com
Association Management Division
Allen Marketing and Management
Frank Cherry, Director, ext. 255
e-mail: fcherry@allenpress.com
S
UBSCRIPTIONS
:
Newsletter subscriptions are available at 
no charge to qualified subscribers for a 
limited time.
S
UBMISSIONS
:
Article queries, press releases, news tips,
and comments are welcome.Please mail,
fax, or e-mail material to the editor.
E
DITOR
:
Gene Kean, Executive to the CEO
e-mail: gkean@allenpress.com
A
SSOCIATE
E
DITOR
:
Martha Chapin
e-mail: mchapin@allenpress.com
©Copyright 2005 by Allen Press, Inc.
No portion of this newsletter may be reprinted without
the written consent of Allen Press, Inc.
Bac
k Issues Online Can Be a 
V
alua
b
le Resour
ce!
Societies are Putting Back Issues Online 
for Current and Future Researchers,
and You Can Too!
Dear Society Directors, Editors, and Managers in STM Publishing:
The two most valuable resources for any scientific or medical society are its
members and its journal. Nothing happens without members, of course, and
the journals, both current and past issues, represent the accumulated knowl-
edge of the discipline.
Many societies already place current journal content online. Historical con-
tent, however, often receives less attention. While legacy content is often of
great value to researchers and practitioners worldwide, if users cannot get easy
access to it, then the journal cannot offer its full potential to current and future
researchers.
This newsletter describes some of the ways Allen Press has organized and
simplified the placement of recent and back issues online. We will be happy to
provide these services for your society or organization.
Providing legacy content conversion is only one of the many services that
we provide for our clients. Four divisions of Allen Press provide more than 25
different services in printing, publishing, and association management. We are
the only U.S. printer that provides ALLthe services associations and publish-
ers need.
Allen Press is more than just the leader in printing quality for scientific,
medical, technical, and special interest journals and magazines. More than 400
journals and magazines in a variety of academic and trade fields have entrust-
ed Allen Press with their printing and publishing support services. It is our
commitment to the STM communities that has enabled our company to be a
world leader in scientific, technical, and medical printing and publishing. In
2004, our client publications won the TOP FOUR GOLD INK AWARDS
(the most prestigious and challenging print production competition in the busi-
ness) for journal web printing. 
Allen Press serves clients coast to coast. More than 150 national association
leaders and editors attended our April, 2005 Emerging Trends Seminar at the
National Press Club in Washington, D.C. This annual seminar provides state-
of-the-art information on new and emerging challenges facing the scholarly
community.
We invite you to contact us regarding your interest in any Allen Press print-
ing or publishing services.
Sincerely,
RANDALLEN
Chief Executive Officer
.NET PDF Document Viewing, Annotation, Conversion & Processing
Redact text content, images, whole pages from PDF file. Annotate & Comment. Edit, update, delete PDF annotations from PDF file. Print.
remove text from pdf preview; delete text pdf files
C# PDF Converter Library SDK to convert PDF to other file formats
Allow users to convert PDF to Text (TXT) file. can manipulate & convert standard PDF documents in other external third-party dependencies like Adobe Acrobat.
how to delete text in a pdf acrobat; how to erase text in pdf file
Journal Publishing
3
Introduction
Many scholarly and scientific societies and
associations have discovered that digitizing and
publishing their journals’legacy data online or on
CD-ROM not only generates goodwill with their
members and constituents, but also increases the
visibility of their content by connecting it to cur-
rent  research,  raising  its  impact  factor,  and
increasing revenue. For too many STM publish-
ers, however, journal content more than four or
five years old now exists solely on dusty shelves,
languishes on unusable diskettes, or worst of all,
lies unread in the printer’s warehouse, at consid-
erable expense.
How relevant is your legacy research? In fields
such as bio-medicine and particle physics, the
very latest research is unquestionably the most
relevant. In many other fields, such as geophysics,
integrative biology, and social science, however,
research from the 90s, 80s, 70s, 60s, and even ear-
lier remains relevant and continues to be cited.
Regardless of the scientific field, the half-life of
research not found online declines at a much
faster rate simply as a result of unavailability. That
is because for most researchers these days, partic-
ularly the younger generation, research that can-
not  be  found  online  simply  does  not  exist.
Imagine you are a young researcher. You can
barely remember the time when  Google was
unavailable. You seek out the biggest and the best
collections of online content. Relevancy to you is
determined by content, not publication date.
In this article, I describe the benefits to pub-
lishers of digitizing legacy content and offer
case studies of three organizations who have
done so and profited. I discuss and detail the
issues, considerations, and background infor-
mation that publishers will need to understand
their options, including action plans to get the
process started. 
Top Five Reasons to Digitize Back Issues
From a simple scanned image to searchable
PDFs or richly tagged XML, the right conversion
process blends the need for a near-term return on
the investment with an eye to the future. There are
many approaches to freeing a publication’s histo-
ry from the bonds of paper and putting it to work
on Web sites or in disk-based collections.
1. More  online  presence, more  usage.
Placing more content online increases the volume
of search words and phrases available to search
engines. More searches find more hits, so more
researchers download more articles for reference,
use, and citation.
2. Increases citations. It is becoming clear
that journal usage and the citations resulting from
it increase in part as a simple function of availabil-
ity. Previous, current, and future readers  and
authors are predisposed to an interest in the histo-
ry of their publication of choice. In many disci-
plines, highly specific studies relevant to current
research are often found in older material. 
When  older journal  issues  go online, they
should ideally become available to CrossRef and
other citation linking systems as “targets” for links
from later issues and other journals, increasing
readership as researchers “drill down” into refer-
ences from current articles to older material.
Asubtler benefit arises from renewed aware-
ness of existing research. When scientists can eas-
ily check entire publication histories for relevant
content, they can quickly determine if similar
research has ever occurred, thus saving countless
hours in locating, replicating, or describing work
already done by others. This effect is unaddressed
in a journal’s Impact Factor, but is an important
contribution nonetheless, in many cases helping
refine current ideas or making costly additional
research unnecessary.
Since they began publishing online in 1996,
Annual Reviews saw an increase of 21% in the
aggregated Impact Factors of 26 of their titles,
spanning all disciplines.
Providing journal legacy content online or on
disk makes it far easier for new researchers to
mine content and citations deep within the publi-
cation history. While material from the 1950s or
1960s might be considered of little relevance by
some, evidence suggests that search engine users
clearly want access to that information.
In the 21st century, the only thing worse
than not showing up as a search-engine hit is
not being available on the Web in the first
place.
3. Provides  a  complete  and  permanent
solution  for  back-issue  requests. Imaging
legacy content to archive-quality PDF files pro-
Continued on page 4
C# powerpoint - PowerPoint Conversion & Rendering in C#.NET
other external third-party dependencies like Adobe Acrobat. Using this .NET professional PowerPoint document conversion library PowerPoint to PDF Conversion.
erase pdf text online; pdf text remover
C# Word - Word Conversion in C#.NET
using other external third-party dependencies like Adobe Acrobat. Using this .NET professional Word document conversion library toolkit Word to PDF Conversion.
erase pdf text; online pdf editor to delete text
4
Journal Publishing
vides a permanent solution to the problem—and
opportunity—of back issue requests. Digitized
articles and issues in PDF form are permanent-
ly available, and may be delivered to end-users
via Web site or e-mail for authorized reprints at
the user’s own expense. Legacy content collec-
tions may be used in disk products, delivering
some or all back-issues as a valuable collection
and reference.
4. Be of service to the membership.Convert-
ing the publication history is always appreciated
by association members, who tend to regard this
activity as in the best interests of the institution. In
reviving and promoting legacy content, senior
members may be honored, anniversaries celebrat-
ed, and the community will appreciate the sense
that the entirety of the intellectual effort associat-
ed with the publication will be preserved and
available forever.
5. Facilitate  a  variety  of  distribution
options.Electronic publication histories may be
deployed in various applications that may be of
real  value  to  members.  Many  scientists  and
researchers appreciate the offline access benefits
of CD or DVD-ROMs. These formats are a valu-
able way to offer “the last ten years” collections,
complete historical archives, subscription premi-
ums, celebrate publication anniversaries, and mar-
ket the publication to new readers. Supplementary
materials, such as very large image files, movies,
databases, and other ancillary materials may also
be distributed via disk, often in conjunction with
current or legacy content.
Some associations sell disk collections simply
to cover the cost of conversion, then post the con-
tent online alongside current issues via “Legacy
Content” subscriptions. Others simply add value
to the current subscription model by providing
legacy content access without additional charge.
Others sell individual articles or full issues as
electronic reprints, or use their PDFs as an easy,
low-cost replacement to existing back-issue ser-
vices, shifting the cost of “printing” each reprint
directly to the end-user.
C# Windows Viewer - Image and Document Conversion & Rendering in
without using other external third-party dependencies like Adobe Acrobat. Using this .NET professional raster image and document conversion Convert to PDF.
erase text from pdf; delete text from pdf with acrobat
VB.NET PowerPoint: VB Code to Draw and Create Annotation on PPT
other documents are compatible, including PDF, TIFF, MS free hand, free hand line, rectangle, text, hotspot, hotspot more plug-ins needed like Acrobat or Adobe
how to delete text from pdf document; how to delete text from pdf with acrobat
Journal Publishing
5
American Society of Agronomy, Crop
Science Society of America, and the Soil
Science Society of America
Together, these three societies have pub-
lished a wealth of comprehensive agronomy
research spanning almost a century.
The tri-societies were out of copies for many
of  their  frequently-requested  back  issues.
Responding to subscribers’ requests to make
legacy content available for general access, the
societies contracted to convert their entire pub-
lication history—over 180,000 pages including
over 8,000 images. To offset the conversion
costs, they produced four sets of CD-ROM col-
lections, indexed by title, author and date. Each
disk may be used in a stand-alone fashion, or
installed to a hard-drive for full-text search
across the entire collection at once.
At the end of the conversion and disk-devel-
opment process, the societies had created valu-
able new products to add to their bookstore
offerings. Of course, once converted, the same
material  became  available  for  deployment
online, as well as on disk.
Agronomy Journal/JNRLSE CD-ROM
Collection (7 CD Set)
Agronomy Journal(1907–2001)
Journal of Production Agriculture,
(1988–1999)
Journal of Natural Resources and
Environmental Education(1972–2001) 
Personal/Single-user - $225, 
Institutional/Multiple-user - $800
Crop Science CD-ROM Collection 
(6 CD set)
Crop Science(1961–2001)
Personal/Single-user - $225, 
Institutional/Multiple-user - $800
Journal of Environmental Quality 
CD-ROM Collection (3 CD set)
Journal of Environment Quality
(1972–2001)
Personal/Single-user - $225, 
Institutional/Multiple-user - $800
SSSAJ CD-ROM Collection (6 CD set)
Soil Science Society of America Journal
(1936–2000)
American Soil Survey Association Bulletins
(1921–1936)
Personal/Single-user - $225, 
Institutional/Multiple-user - $800
Since offering the CD-ROM collections in
early 2004, the Society cleared their conversion
and disk development costs in less than 12
months.
Seven Key Indicators
Favoring Legacy Conversion
Historical content is manifestly use-
ful to current researchers.
The membership is asking for
increased access to historical 
content.
Libraries would value the expan-
sion of your current online subscrip-
tion offering to include “Legacy”
content.
You think the membership would
enjoy access to disks including cur-
rent, legacy, or ancillary content.
An organizational anniversary or cel-
ebration inspires the urge to preserve
the past.
You would like to reduce or elimi-
nate your back-issue stock and begin
providing back issues past a certain
date in electronic-only form.
You have run out of back issues.
What Other Societies Are Doing: 3 Case Studies
C# Excel - Excel Conversion & Rendering in C#.NET
using other external third-party dependencies like Adobe Acrobat. Using this .NET professional Excel document conversion library Excel to PDF Conversion.
how to erase in pdf text; delete text from pdf preview
VB.NET PDF: How to Create Watermark on PDF Document within
users need no external application plugin, like Adobe Acrobat. Add Image Watermark to PDF. Besides text, users also image__2.Save("C:\1-watermark.pdf") End If.
how to delete text in pdf document; remove text from pdf acrobat
6
Journal Publishing
Annual Reviews
Many publishers believe that while there might
be continuing interest in articles going back a
decade or two, few, if any, users would find Bio-
Medical Reviewsfrom before the 1970s of suffi-
cient interest to justify the investment in a whole-
sale conversion of the legacy content. They could
be wrong.
Annual Reviews, of Palo Alto, California, has
published comprehensive collections of critical
reviews written by leading scientists in 29 distinct
disciplines, with many titles dating to 1950 and
earlier. A nonprofit publisher, Annual Reviews’
mission is to provide the worldwide scientific
community with a synthesis of primary research
literature. Their publications are among the most
highly cited in science, ranking within the top ten
publications for their respective disciplines.
In 2002, Annual Reviewsdecided to move the
entire corpus of their publication history online, a
collection spanning 70 years, 475,000 pages, and
5,400 color and grayscale images, as a new sub-
scription option for online subscribers.
Using  the  PDF/MultiResolution  conversion
process to maximize image quality while keeping
30-page chapters to the smallest possible file size,
the project was largely completed within three
months. Once imaged, pages were checked exten-
sively for quality, corrected for orientation, and
OCRed. As the bulk of the legacy content was
processed, an inventory database generated by the
contractor assisted Annual Reviewsstaff in identi-
fying and locating missing volumes. An Annual
Reviewslogo and hyperlink to the Annual Reviews
Web site was “hard-wired” to each PDF page
before delivery.
In six months, all data processing was com-
plete, and the entire Annual Reviewspublication
history was ready to go online.
Based on filtered server logs, Annual Reviews
was able to determine that during 2004, their lega-
cy project resulted in over 741,000 downloads of
legacy (pre 1996) content. In fact, adding the lega-
cy material online increased total PDF downloads
for all Annual Reviewschapters by 38%.
The following charts show the effect on down-
loads of adding legacy content subscriptions to
64% of Annual Reviewsonline subscribers in 2004.
Had all online subscribers possessed legacy sub-
scriptions, total PDF downloads of legacy material
would have been even greater. The legacy product
has been an immediate success for the publisher
and its customers. Priced modestly, access to the
legacy material was quickly subscribed.
American Meteorological Society
AMS Director of Publications, Ken Heideman,
knew that the Society’s legacy content was valu-
able to the membership. According to Heideman,
the half-life of citations in atmospheric science
journals is about 10 years. This means that the
number of citations listed in 2005 AMS journals
to material published before 1995 will be roughly
equal to the number of citations in 2005 to content
published between 1995 and 2004, and is an indi-
cation of the enduring relevance of many of the
articles contained in the legacy collection.
Even earlier articles gain a significant number
of new citations as each year passes, representing
savings in time and research budgets. It was obvi-
ous to AMS Journals that placing legacy content
online was an excellent way to ease the research
burden for tens of thousands of atmospheric sci-
entists.
When the AMS decided to begin their legacy
conversion project in 1999, both the Society
membership and subscribing institutions were
enthusiastic. AMS elected to support the costs of
legacy content conversion by pricing access to the
entire legacy collection, including articles back to
the 19th century, at a one-time cost equal to the
combined total price of subscriptions in 1994,
1995 and 1996. Even though AMS Publications
declared their intention to make the legacy content
available at no extra charge to all subscribers by
January 2006, the Society recovered almost the
entire conversion cost from subscribers who elect-
ed to pay the price for “early” access to the lega-
cy content. 
The journals of the American Meteorological
Society are richly illustrated, with critical infor-
mation contained in subtle details of the included
images. The initial legacy conversion included
the  complete  canon  of  eight  journals—over
260,000 pages and 16,000 images—covering the
period from 1990 through 1998.
Continued on page 8
Journal Publishing
7
8
Journal Publishing
Destined for Allen Press’s Web servers, the
hosts of AMS content online, the end-product of
the initial conversion effort was a collection of
20,000 articles converted from paper back-issues
to MultiResolution PDF/Image files, SGMLhead-
er files, and OCRed text. Follow-up conversion
work has reached further back in time, bringing
the total AMS publications legacy volume to over
33,000 articles dating back to 1873.
The response from the membership has been
exceptionally positive. As far as the Society’s
journals are concerned, Heideman says, the lega-
cy conversion effort is the, “centerpiece of who
we are and what we have to offer.” The AMS
legacy project is hosted by Allen Press and may
be seen at http://ams.allenpress.com.
Legacy Conversion: Start with PDF
PDF, HTML, SGML, XML, JPEG, TIFF ….
just tell me what I need!
Before you approach a scanner, you will need
to have thought about the information to be cap-
tured in addition to article text. Most publishers
find it essential to capture metadata such as ISSN
number, issue, and page number, as well as key
article metadata (title, author), and often other
metadata as well, such as author’s affiliation and
keywords for use in SGML headers, PDF index
fields, or for other indexing systems. In many
cases, the abstract from each article is also cap-
tured, whether to text, SGML or XML, for use in
enriching the information available through search
engine results.
While there are many format options in the
legacy conversion process, here we will cover the
essentials of almost any legacy conversion project.
No matter what else you do, you will want
top-quality PDF files.
Since Adobe Systems’ original innovation in
the early 1990s, PDF has become the standard
Continued on page 9
Journal Publishing
9
electronic format for viewing, printing and reten-
tion of final-form documents. As demonstrated in
Annual Reviews’download logs (see bar graph on
next page), PDF remains a clear preference for
most users. PDF is popular due to its total reliabil-
ity, fidelity to the original printed page, and for a
variety of subtle features that are less well known
but equally felt. Today, new journal issues are cus-
tomarily loaded to association Web sites in PDF,
often alongside HTML (often SGML or XML
generated) versions of the article. However, users
still clearly prefer PDF over HTMLor XML.
The  key  advantages  of  PDF  conversion
include:
PDF files are freely readable with the free
Adobe Reader, and freely distributable.
PDF prints just like the original page, without
fail.
PDF files deliver a consistent, predictable, and
familiar presentation throughout the publication
history.
Searchable Image PDFs offer full-text search
hits highlighted right on the page.
PDF/MultiResolution gives  the  best-quality
option for pages combining black and  white
with color or halftone content, and allows high-
resolution images to be captured separately for
use in HTMLor XML.
PDF files can contain comprehensive XML
metadata at the document level via Adobe’s
XMParchitecture, facilitating interoperability
standards such as the Dublin Core. APDF file
may thereby serve as a “Rosetta Stone” —the
Reference Document—for the content it con-
tains.
Asingle PDF file may contain any package of
content, articles, whole journal issues, sound or
movie files, and other attachments.
PDF files present lower up-front conversion
costs than XML.
As the de-facto electronic document standard,
PDF serves as an investment in, and staging
platform for, an eventual piecemeal or complete
XMLconversion.
Some archives have required the use of uncom-
pressed TIFF files as an ultimate long-term stor-
age format. However, this requirement is general-
ly restricted to a very limited set of high-value his-
torical documents. Although Adobe Systems, a
for-profit company, makes the ubiquitous (and
free) Reader, PDF is an open file-format specifi-
cation. The ability to create and view PDF files is
not restricted to Adobe’s products. PDF files can
(and should) be properly future-proofed via adher-
ence to the PDF/A(Archive) standard. Most lega-
cy conversion projects deliver PDF of a type that
is inherently compliant with PDF/A.
Content Tagging and Conversion 
to XML/SGML
For electronic content, users rely on indexes,
full-text search engines, and existing citations to
provide a guide to the goldmine, and they are
happy to download a PDF file when they find one
that suits their interest.
While  full  text XML or  SGML is usually
“overkill” for most legacy conversion needs, we
nonetheless strongly recommend that all imaging
PDF/Archive
PDF 
Non-archival format
Text, raster images, vector graphics,
music, video, etc.
Encryption and executable scripts
permitted
No type fonts included
PDF-A
Archival format
Text, raster images and vector graph-
ics only
Future ISO standard
Encryption and executable scripts
not permitted
Type fonts included
More information about PDF/Aavail-
able at http://www.aiim.org/standards.
asp?ID=25013
Continued on page 10
10
Journal Publishing
and conversion work should be of sufficient qual-
ity to allow future conversion to XMLor SGML.
Technology moves on, and what we consider to
be technically impossible today (such as the reli-
able automated conversion of scanned images to
well-formed, quality-controlled and richly-tagged
XML), may in ten or twenty years be a different
story. The work performed to bring legacy content
to present-day users should be conducted very
much with an eye for the possibilities of the
future.
Converting from paper to XML, SGML, TeX,
or other specialized tagging formats requires com-
plete proofreading of the original content and
some manually intense tagging work. Full scale
tagging is rarely cost-effective in legacy conver-
sions of scholarly journals. Typically, article-level
metadata is deployed within the PDF document
information fields and XMPmetadata, captured to
SGML or XML header files, or otherwise made
deliverable to indexing systems such as CrossRef.
Conversion of the full text into SGMLor XML
is significantly more expensive than conversion to
PDF and rarely does not add value to the on-line
experience  in  proportion  to  the  added  cost.
Creating rich, densely tagged XMLfrom unstruc-
tured source documents, especially paper origi-
nals, is still a specialized task. Basic PDF conver-
sion is generally necessary, in any event, as a stag-
ing and reference point for XMLconversions.
Circumstances indicating full text SGML/XML
as an initial goal of conversion:
Ahigh degree of interoperability is required
with other documents or datasets.
The content is dynamic in nature or would
clearly  benefit  in  material  ways  from  the
advantages of XMLtagging (large volumes of
tabular data, for example).
Documents you may be interested
Documents you may be interested