itextsharp pdf to xml c# : Bookmarks in pdf files SDK Library service wpf asp.net winforms dnn dollarrpt20-part1695

ARCHIVAL PRESERVATION OF WEB RESOURCES: HTML to XHTML Migration Test Technical Considerations, Evaluation, and Recommendations
ARCHIVAL PRESERVATION OF WEB RESOURCES:
HTML to XHTML Migration Test Technical Considerations, 
Evaluation, and Recommendations
Produced by Dollar Consulting
July 1, 2002
PREFACE
EXECUTIVE SUMMARY
1. INTRODUCTION
1.1 Purpose
1.2 Scope
1.3 Methodology
1.4 Report Organization
2. TECHNICAL CONSIDERATIONS
2.1 Introduction to migration tools
2.1.1 HTML Tidy Utility
2.1.2 HTML-Kit
2.2 Tidy Utility - Migration of Web Pages from HTML to XHTML
2.2.1 Setting Up and Running Tidy Utility
2.2.2 Validation with Tidy Utility
2.3 HTML-Kit Migration of HTML Pages to XHTML
2.3.1 Setting Up and Running HTML-Kit
2.3.2 Validation with HTML-Kit
2.4 Encapsulation of HTML/XHTML Pages TAR (Tape archive)
2.4.1 TAR Encapsulation Process
2.4.2 TAR Encapsulation Issues
3. SPECIAL HARDWARE/SOFTWARE REQUIREMENTS
3.1 Migration of HTML Pages in TAR to XHTML
3.2 Knowledge of TAR Format and Procedures
3.3 Scalability of TAR
http://www.si.edu/archives/archives/dollarrpt2.html (1 of 26)11/18/2004 7:31:54 AM
Bookmarks in pdf files - add, remove, update PDF bookmarks in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Empower Your C# Project with Rapid PDF Internal Navigation Via Bookmark and Outline
create bookmarks in pdf reader; bookmarks pdf reader
Bookmarks in pdf files - VB.NET PDF bookmark library: add, remove, update PDF bookmarks in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Empower Your VB.NET Project with Rapid PDF Internal Navigation Via Bookmark and Outline
how to add bookmarks to a pdf; convert excel to pdf with bookmarks
ARCHIVAL PRESERVATION OF WEB RESOURCES: HTML to XHTML Migration Test Technical Considerations, Evaluation, and Recommendations
3.4 Writing TAR Files to Tape
3.5 Confirming the Content of a TAR Encapsulation
3.6 Proprietary Issues Associated with the use of TAR
4. EVALUATION OF TIDY UTILITY AND HTML-KIT
4.1 Evaluation of Tidy Utility
4.1.1 Ease of Use
4.1.2 Scalability
4.1.3 Data Anomalies
4.1.4 Architecture
4.1.5 Web Page Text/Script Presentation
4.1.6 Web Page Image Presentation
4.1.7 Web Browser Presentation
4.1.8 Computer Execution Time
4.2 Evaluation of HTML Kit
4.2.1 Ease of Use
4.2.2 Scalability
4.2.3 Data Anomalies
4.2.4 Architecture
4.2.5 Web Page Text/Script Presentation
4.2.6 Web Page Image Presentation
4.2.7 Web Browser Presentation
4.2.8 Migration Execution Time
4.3 W3C Validation Service
5. FINDINGS AND RECOMMENDATIONS
5.1 Summary of Findings
5.2 Recommendations
PREFACE
This report presents the results of a study undertaken by Dollar Consulting for the Smithsonian Institution 
Archives (SIA) as part of a larger effort to test and evaluate the feasibility of preserving Web sites and HTML 
pages in an accessible, usable and trustworthy form for as far into the future as is necessary. Specifically, this 
report presents the results of migrating a sample of 1,844 Smithsonian Institution pages from HTML to XHTML 
and storing these migrated pages in the TAR format. The target audience is the Smithsonian Institution Archives. 
This report reflects the Archives' understanding of its mission, requirements, and technology infrastructure. 
Nonetheless, it is hoped that other archivists, librarians, and preservationists concerned with preserving their 
Web sites and HTML pages will find this study useful as they develop their own digital preservation programs.
EXECUTIVE SUMMARY
http://www.si.edu/archives/archives/dollarrpt2.html (2 of 26)11/18/2004 7:31:54 AM
C# PDF File Split Library: Split, seperate PDF into multiple files
C# codes explain how to split a PDF file into multiple ones by PDF bookmarks or outlines. This is an C# example of splitting a PDF to two new PDF files.
pdf create bookmarks; edit pdf bookmarks
VB.NET PDF File Split Library: Split, seperate PDF into multiple
VB.NET codes explain how to split a PDF file into multiple ones by PDF bookmarks or outlines This is an VB.NET example of splitting a PDF to two new PDF files.
adding bookmarks in pdf; how to create bookmark in pdf with
ARCHIVAL PRESERVATION OF WEB RESOURCES: HTML to XHTML Migration Test Technical Considerations, Evaluation, and Recommendations
Since 1995, when the Smithsonian Institution created its first Web site, it has increasingly employed Internet 
technology to inform the public of various activities and facilitated greater access to its wide ranging resources 
programs by offering "virtual exhibits," which only exist in electronic form. As a result, in 2002 the Smithsonian 
Institution has more than seventy-five (75) Web sites and thousands of HTML pages. These pages comprise a 
vital component of the documentary history of the nation's leading cultural research center and museum that 
enriches the lives of Americans and others throughout the world. The Smithsonian Institution's use of Internet 
technology to carry out the diffusion of knowledge is likely to expand substantially in the future, particularly in 
the National Museum of American History, as additional funding and support are made available.
Current and future Smithsonian Institution Web sites and HTML pages are at risk of being lost forever because 
of technology obsolescence. If unchecked, future generations of Americans will be deprived of the opportunity 
to view these original Web sites, and understand, and appreciate the vital role of the Smithsonian Institution in 
the diffusion of knowledge in the late 20th and early 21st centuries.
In 2001 the Smithsonian Institution Archives (SIA) commissioned a high-level requirements assessment for the 
archival preservation of Smithsonian Institution Web sites and HTML pages. This assessment also developed 
strategies, guidelines, and best practices to facilitate access to usable and trustworthy Web sites and HTML 
pages for as long into the future as necessary. One recommendation to help mitigate some of the effects of 
technological obsolescence was for the SIA to develop a program to transfer a copy of each Web site and 
associated HTML pages to an electronic archival repository and adopt a migration strategy to repackage these 
pages in World Wide Web Consortium (W3C) compliant XHTML, a technology neutral format.
Very little is known about the utility and cost-effectiveness of migration software in an on-going large-scale 
migration project or the resources required to implement such a program. Therefore, in 2002 the Smithsonian 
Institution Archives commissioned a follow-on study to assess the utility and cost-effectiveness of currently 
available software migration and validation tools and to develop a metric to estimate the resources necessary to 
undertake such a project. During the course of the study, TAR (Tape Archive), a technology neutral electronic 
format to encapsulate migrated and validated XHTML pages, was also explored.
The study employed an HTML test bed from the 
Archives Center of the National Museum of American History 
Web site that consisted of 1,844 HTML pages for a three-part analysis. The first part of the analysis focused on 
the actual migration of HTML pages to XHTML pages. With a completed time of 57 minutes or slightly less 
than 2 seconds per HTML page, Tidy.exe should be the preferred software package used to migrate HTML 
pages to XHTML.
The second part of the analysis examined the validation of XHTML pages to ensure they comply with the World 
Wide Web Consortium (W3C) XHTML standards. Users may access a W3C validation service either by 
opening the URL or by opening the HTML-Kit, which is an integrated software package. Two pages that were 
migrated from HTML to XHTML were sent to the W3C validation service using the two approaches described 
above. The HTML-Kit required 2 minutes and 5 seconds to complete validation of a single XHTML page while 
the same validation process using the W3C validation service required 2 minutes and 28 seconds.
The use of TAR to encapsulate validated XHTML pages was not directly done because no tape drives were 
available but estimates were extrapolated from other studies that suggest validation would be very speedy and its 
http://www.si.edu/archives/archives/dollarrpt2.html (3 of 26)11/18/2004 7:31:54 AM
C# PDF File Compress Library: Compress reduce PDF size in C#.net
method, TIFF files compression and decompression method and Image files compression and size, images size reducing can help to reduce PDF file size Bookmarks.
add bookmarks to pdf file; how to create bookmark in pdf automatically
C# PDF Convert to HTML SDK: Convert PDF to html files in C#.net
converter toolkit SDK, preserves all the original anchors, links, bookmarks and font How to Use C#.NET Demo Code to Convert PDF Document to HTML5 Files in C#
create bookmark pdf; acrobat split pdf bookmark
ARCHIVAL PRESERVATION OF WEB RESOURCES: HTML to XHTML Migration Test Technical Considerations, Evaluation, and Recommendations
overall cost negligible. For example, the data transfer rate in a TAR encapsulation would be on the order of 1 
MB per second so actual processing time would not be great even for a Web Site of 10,000 pages. Correct 
execution of TAR requires knowledge of the software and understanding of DOS command structure.
The results of these analyses were integrated into a resource allocation metric that the Smithsonian Institution 
Archives can use to estimate the resources required to migrate, validate, and encapsulate a specific number of 
HTML pages. Use of this resource allocation metric suggests that there are three implementation options:
1.  CombineTidy.exe with direct access to W3C validation service. Use of this option would take 
approximately 520 hours or 13 weeks to complete the migration, validation, and encapsulation of 10,000 
HTML pages.
2.  Combine Tidy GUI with direct access to W3C validation service. This combination of software tools 
would take approximately 1100 hours or 28 weeks to migrate, validate, and encapsulate 10,000 HTML 
pages.
3.  Combine Tidy.exe with HTML-Kit integration of W3C validation service. With this combination of 
software tools the migration, validation, and encapsulation of 10,000 HTML pages would take 
approximately 442 hours or 11 weeks.
The recommendation to the Smithsonian Institution Archives is to implement Option 3.
1. INTRODUCTION
1.1 Purpose
In 2001 the Smithsonian Institution Archives (SIA) commissioned a white paper on "
Archival Preservation of 
Smithsonian Institution Web Sites and HTML Pages." Among other issues, the white paper addressed the issue 
of long-term access to usable and trustworthy SI Web Sites and HTML pages and called for the SIA to adopt a 
policy of converting SI Web sites and HTML pages from HTML 4.0 (or earlier) to XHTML when they are 
accessioned into the archives. This report is a follow-on to the white paper recommendation. It provides the SIA 
with a metric for assessing the cost and feasibility of adopting and implementing an archival preservation policy 
that mandates converting Web Sites and HTML pages to XHTML once the SIA accessions them.
1.2 Scope 
The overall scope of this report was set by the terms of reference for the study, which stipulated the following:
1.  Review relevant literature and World Wide Web Consortium publications on XHTML,
2.  Identify software, including the "Tidy Utility," for converting HTML 4.0 (and earlier) pages to XHTML,
3.  Acquire or gain access to the appropriate migration software,
4.  Use the SI Web "test bed" to determine the level of technical expertise required,
5.  The through-put rate, and the accuracy of migration to XHTML, and
6.  Prepare a final report that presents findings and recommendations.
http://www.si.edu/archives/archives/dollarrpt2.html (4 of 26)11/18/2004 7:31:54 AM
.NET PDF SDK - Description of All PDF Processing Control Feastures
View,Convert,Edit,Process,Protect,SignPDF Files. in HTML5; Outstanding rendering of PDF documents; Full Outlines, bookmarks, & thumbnail display; Integrated text
create bookmarks in pdf from excel; create pdf bookmarks online
.NET PDF SDK | Read & Processing PDF files
Simple to convert PDF files to raster images (color or Able to convert PDF documents into other formats extraction of text, hyperlinks, bookmarks and metadata;
how to add bookmarks to pdf files; excel pdf bookmarks
ARCHIVAL PRESERVATION OF WEB RESOURCES: HTML to XHTML Migration Test Technical Considerations, Evaluation, and Recommendations
The test bed referred to above consists of 135 MB of HTML pages, GIF and JPEG images, and AVI material 
from the Archives Center of the National Museum of American History. The HTML pages (1,844 pages in 14 
folders) represent about one-third (45.6 MB) of the test bed. The migration of the HTML pages to XHTML has 
no affect on the GIF and JPEG images or AVI material, which means that as those formats become obsolescent 
they must be updated to successor formats.
During the course of the study, it became apparent that the Tape Archive (TAR) format, which is a well-
established technology neutral encapsulation storage format, should be included in the study, and after 
consultation with the Project Director the study was expanded to include it. Hence, the report examines both the 
migration of HTML pages to XHTML and the encapsulation of HTML/XHTML pages in TAR. TAR and 
XHTML are not mutually exclusive so TAR can be used to supplement XHTML.
One other key scope consideration is that the focus of this migration project is archival preservation, not 
operational management of Smithsonian Web sites and HTML pages. Some Smithsonian Institution Webmasters 
may choose to convert their current HTML pages to XHTML but this an operational issue and is beyond the 
scope of this study.
1.3 Methodology 
The methodology employed in producing this report includes three components. The first component is a 
literature review and analysis of relevant source material relating to migration of HTML pages to XHTML pages 
and to software tools currently available that support this migration. The second component is the design of 
evaluation criteria that could be mapped against the requirements for technical expertise required, the throughput 
rate, and the accuracy of migration. The third component is the migration of 1,844 static HTML pages in the 
Smithsonian Institution Web test bed taken from the Archives Center of the National Museum of American 
History. This project focuses on the static HTML pages, which require 45.6 MB of storage. Many of these 
HTML pages include GIF and JPEG images or links to them along with links to audio data.
Milovan Misic, Head of Document Management and Archives at the World Intellectual Property Organization in 
Geneva, Switzerland handled the computational aspects of the test bed migrations. Limited resources precluded 
an actual encapsulation of the SI test bed in TAR. Rather, documentation manuals and several published reports 
on the use of TAR in different technology settings were the sources for the assessment of TAR.
1.4 Report Organization 
This report consists of five chapters and one appendix. It begins with an introduction to the study and delineates 
briefly the purpose, scope, and methodology of the study. Chapter 2 provides technical details on two HTML to 
XHTML migration tools, HTML Tidy Utility and HTML-Kit, and TAR encapsulation of HTML/XHTML 
pages. Chapter 3 addresses special hardware and software requirements. Chapter 4 addresses eight specific 
migration issues involved in using Tidy Utility and HTML-Kit and reviews the use of the World Wide Web 
Consortium (W3C) Data Validation Service to confirm accuracy of converted XHTML pages. The final chapter 
presents findings and recommendations. There is one appendix, Appendix A [not included in this Web 
document], which allows readers to actually compare the HTML code in the source documents with the XHTML 
code in the migrated documents as well as browser presentations.
http://www.si.edu/archives/archives/dollarrpt2.html (5 of 26)11/18/2004 7:31:54 AM
XDoc.Excel for .NET, Comprehensive .NET Excel Imaging Features
navigation, zooming & rotation; Outlines, bookmarks, & thumbnail Convert Excel to PDF; Convert Excel to HTML5; Combine and merge multiple Excel files; Append Excel
convert word to pdf with bookmarks; bookmarks pdf
XDoc.Word for .NET, Advanced .NET Word Processing Features
page navigation, zooming & rotation; Outlines, bookmarks, & thumbnail Convert Word to PDF; Convert Word to HTML5; combine, and append multiple Word files into one
bookmarks in pdf reader; how to add bookmarks on pdf
ARCHIVAL PRESERVATION OF WEB RESOURCES: HTML to XHTML Migration Test Technical Considerations, Evaluation, and Recommendations
2. TECHNICAL CONSIDERATIONS
2.1 Introduction to migration tools
This chapter focuses upon two software migration tools. Tidy Utility and HTML-Kit can "clean up" HTML 
pages and convert these "cleaned up" HTML pages to XHTML, which is a technology neutral file format. The 
following diagram provides an overview of these two tools and their functions in the migration process:
Figure 2.1 Software HTML to XHTML Migration Tools
2.1.1 HTML Tidy Utility
There are two different HTML Tidy Utility tools that can be used to "tidy up" HTML pages by fixing a host of 
problems, including:
l
Misplacement of elements
l
Uppercase versus lowercase elements and attributes
l
Quotes around attribute values
l
Adding correct XHTML declarations when prompted.
http://www.si.edu/archives/archives/dollarrpt2.html (6 of 26)11/18/2004 7:31:55 AM
ARCHIVAL PRESERVATION OF WEB RESOURCES: HTML to XHTML Migration Test Technical Considerations, Evaluation, and Recommendations
As noted above, Tidy Utility software is available in two different modes. The first is Tidy.exe, which is 
command line (DOS) software initially developed by David Raggett for the World Wide Web Consortium. Tidy.
exe supports 43 different options or parameters that allow users to customize clean up and migration. Selecting 
these options is cumbersome for people unfamiliar with DOS so in general, Tidy.exe is not user friendly. One of 
the Tidy.exe options is to display a message log of warnings that identifies each instance where Tidy.exe 
corrected or cleaned up HTML code to comply with XHTML requirements. This message log allows users to 
review each instance of corrected HTML code and accept or reject the correction, which is analogous to the 
"find and replace" functionality of MS-Word. This is a time consuming process that is likely to be useful only 
for the authors of HTML pages who want to post "valid," interoperable HTML pages on a Web site.
One very useful feature of Tidy.exe is that it can clean up and convert single HTML pages or multiple pages. 
The latter requires that all of the "related" HTML pages be cleaned up and converted to a separate directory. 
Although batch processing of HTML pages containing both text and images could result in text being 
overwritten on an image or some other form of misalignment, there were no instances of text being overwritten 
on an image as a result of batch migration of the test bed. In addition, Tidy.exe migration of HTML pages to 
XHTML may not consistently produce 100 per cent valid and well-formed XHTML pages in every instance, so 
some form of visual inspection may be prudent. Interestingly, the DOS tool in Windows 98 runs in a Windows 
environment where drag and drop functionalities are supported.
The second mode of the Tidy Utility is Tidy GUI, which is an adaptation of David Raggett's HTML Tidy.exe. 
Tidy GUI has familiar Window features that make it relatively user friendly. Tidy GUI supports all of the Tidy.
exe options, which can be selected by clicking on pull-down menus. Although Tidy GUI is a significant 
improvement over Tidy.exe, it processes only one HTML page at a time, which can become quite tedious when 
thousands of HTML pages are to be converted to XHTML. Like Tidy.exe, Tidy GUI migration of HTML pages 
to XHTML may not consistently produce 100 per cent valid and well-formed XHTML pages, so W3C provides 
an on-line validation service to identify and correct errors. The W3C Validation Service is not integrated into 
Tidy GUI.
2.1.2 HTML-Kit 
HTML-Kit, which includes a full-featured text editor, was designed to assist authors of HTML XML script to 
create, edit, format, validate, preview, and publish Web pages. HTML-Kit is a native 32-bit Windows program 
that currently runs on Windows 95, 98, XP, and ME, NT, 2000 or any other platform that emulates 32-bit 
Windows functionality. HTML-Kit executes the following migration and validation functions within the same 
software:
l
Opens an original HTML page,
l
Starts Tidy GUI, selects options, and executes "clean up,"
l
Converts the cleaned up page to XHTML,
l
Saves the newly created XHTML page,
l
Validates the newly created XHTML page, and
l
Obtains on-line certification that a converted XHTML page is compliant with the W3C standard.
HTML-Kit supports all of the Tidy Utility functions menus, and as a windows application, it allows the opening 
of multiple pages or documents at the same time but the migration process deals with one document or page at a 
http://www.si.edu/archives/archives/dollarrpt2.html (7 of 26)11/18/2004 7:31:55 AM
ARCHIVAL PRESERVATION OF WEB RESOURCES: HTML to XHTML Migration Test Technical Considerations, Evaluation, and Recommendations
time. More importantly, it integrates the validation service into the migration so that it can be activated through 
the graphical user interface. Once validation is completed, the automatically corrected code is displayed in a 
window for side-by-side comparison with the original converted XHTML page or file. HTML-Kit supports a 
plugin interface functionality using third-party plugins such as JavaScript, XSLT, SMIL, MathML, WML, 
WMLScript, Perl, PHP and others. No programming experience is required to install plugins. All of these 
features combined make the HTML-Kit the most comprehensive, user-friendly, and up-to-date GUI tool to 
support HTML Tidy.
2.2 Tidy Utility - Migration of Web Pages from HTML to XHTML
2.2.1 Setting Up and Running TIDY Utility
To use Tidy.exe to convert HTML pages to XHTML, the software must be installed in the same directory as the 
HTML files ready for migration. Tidy GUI on the other hand works from within its own directory and can 
execute all functions on any HTML file regardless of where it is stored.
Using Tidy.exe requires opening a DOS screen, which can be the DOS Prompt under Windows or exit from 
Windows and start-up of DOS operating system. It is better to work in the Windows environment because Tidy.
exe can be started through the DOS Prompt under Windows. The DOS Prompt is available as shown on the 
following screen shot.
http://www.si.edu/archives/archives/dollarrpt2.html (8 of 26)11/18/2004 7:31:55 AM
ARCHIVAL PRESERVATION OF WEB RESOURCES: HTML to XHTML Migration Test Technical Considerations, Evaluation, and Recommendations
Once within the DOS environment all DOS commands are available. Begin by switching to the directory where 
HTML pages to be converted are located, and then initiate Tidy.exe commands. The following captured screens 
provide guidelines for setup of the Tidy.exe
http://www.si.edu/archives/archives/dollarrpt2.html (9 of 26)11/18/2004 7:31:55 AM
ARCHIVAL PRESERVATION OF WEB RESOURCES: HTML to XHTML Migration Test Technical Considerations, Evaluation, and Recommendations
A typical Tidy user command is: C:\migration\tidy *.htm -f errs.txt This command will list all (-e) errors on the 
screen and save them in the text file. The migration can be initiated with the following line: Tidy -as xml -clean 
filename.html > filename.xhtml
Using Tidy GUI is exactly the same as starting any other Windows application (program). After double clicking 
on the Tidy GUI icon, the software will appear on the screen. It is ready to execute the selected action 
immediately upon the selection of the HTML page by entering its file name or by using the browse on the Tidy 
GUI screen. The Tidy GUI configuration page identifies options that may be selected. The following screen 
represents Tidy GUI functions:
http://www.si.edu/archives/archives/dollarrpt2.html (10 of 26)11/18/2004 7:31:55 AM
Documents you may be interested
Documents you may be interested