c# pdf to image : Export excel to pdf form software Library cloud windows .net wpf class final0-part322

CS310: Third Year Project 2002/3 
University of Warwick 
Coventry, West Midlands, UK 
PDF to HTML Conversion
Tamir Hassan 
University Number: 0006417 
Degree Course: Computer Science 
Supervisor: Dr Ranko Lazic 
Export excel to pdf form - extract form data from PDF in C#.net, ASP.NET, MVC, Ajax, WPF
Help to Read and Extract Field Data from PDF with a Convenient C# Solution
pdf data extraction to excel; filling out pdf forms with reader
Export excel to pdf form - VB.NET PDF Form Data Read library: extract form data from PDF in vb.net, ASP.NET, MVC, Ajax, WPF
Convenient VB.NET Solution to Read and Extract Field Data from PDF
pdf form save in reader; how to extract data from pdf file using java
C# WPF PDF Viewer SDK to convert and export PDF document to other
PDF from Word. Create PDF from Excel. Create PDF PDF from RTF. Create PDF from Text. PDF Export. Convert PDF Edit, Delete Metadata. Watermark: Add Watermark to PDF
extracting data from pdf files; extracting data from pdf into excel
C# PDF Converter Library SDK to convert PDF to other file formats
Able to export PDF document to HTML file. for C#.NET supports file conversion between PDF and various and images, like Microsoft Office (Word, Excel, and PPT
extract data from pdf table; extract pdf data into excel
Final Report                           PDF
TO 
HTML
C
ONVERSION
Page i 
Abstract 
This report details the work carried out over the last six months to investigate the 
problem of converting from PDF to HTML and to develop a piece of software to 
perform this task.  A number of different layouts were investigated, including multi-
column newsprint, and the software has been written to understand these layouts and 
extract the text accordingly.  Due to time constraints, certain page features, such as 
tables, were not studied.  Suggestions are included for further development of the 
project. 
Keywords 
•  PDF 
•  HTML 
•  conversion 
•  Java 
•  CSS 
•  paragraph 
•  formatting 
•  columns 
•  layout 
Note to the reader 
All words in bold italics are described in the Glossary. 
Acknowledgements 
I would like to thank the people at IDR solutions for publishing JPedal as a free, open 
source library, without which the project would not have been possible.  I would also 
like to thank Dr Ranko Lazic, my supervisor, for giving me guidance when I needed it 
and Andrew, for letting me know about JPedal in the first place. 
VB.NET PDF - Convert PDF with VB.NET WPF PDF Viewer
Create PDF from Word. Create PDF from Excel. Create PDF Create PDF from Text. PDF Export. Convert PDF to Word (.docx to PDF. Image: Remove Image from PDF Page. Image
extract pdf data to excel; extract pdf form data to excel
VB.NET Create PDF from Excel Library to convert xlsx, xls to PDF
Create PDF from Word. Create PDF from Excel. Create PDF Create PDF from Text. PDF Export. Convert PDF to Word (.docx to PDF. Image: Remove Image from PDF Page. Image
exporting pdf form to excel; using pdf forms to collect data
PDF
TO 
HTML
C
ONVERSION
           Final Report 
Page ii 
VB.NET PDF Converter Library SDK to convert PDF to other file
PDF Export. |. Home ›› XDoc.PDF ›› VB.NET PDF: PDF Export. for converting MicroSoft Office Word, Excel and PowerPoint document to PDF file in VB
extract table data from pdf to excel; extract data from pdf file
C# Create PDF from Excel Library to convert xlsx, xls to PDF in C#
Merge all Excel sheets to one PDF file. Export PDF from Excel with cell border or no border. Free online Excel to PDF converter without email.
how to save a filled out pdf form in reader; how to save a pdf form in reader
Final Report                           PDF
TO 
HTML
C
ONVERSION
Page iii 
Table of Contents 
1  I
NTRODUCTION
.............................................................................................1 
1.1 
Background to PDF .......................................................................................1 
1.2 
Background to HTML...................................................................................2 
1.3 
Motivation.....................................................................................................3 
2  I
NVESTIGATION OF EXISTING SOLUTIONS
.........................................................5 
2.1 
Results with PDF to HTML Recastor ............................................................5 
2.1.1  Problems with converted output................................................................6 
2.2 
Results with pdftohtml...................................................................................7 
2.3 
Results with pdf2html converter....................................................................8 
2.4 
Results with Google.......................................................................................9 
2.5 
Areas of possible improvement......................................................................9 
2.6 
Conclusion...................................................................................................10 
3  P
ROJECT DECISIONS
.....................................................................................11 
3.1 
Change of aims and objectives.....................................................................11 
3.2 
Implementation decisions ............................................................................11 
3.3 
Conversion material.....................................................................................12 
3.4 
Program output...........................................................................................13 
3.5 
Choice of language and platform.................................................................13 
3.6 
The JPedal Library.......................................................................................13 
3.7 
The front end ..............................................................................................14 
4  D
ESIGN AND IMPLEMENTATION
.....................................................................15 
4.1 
Class hierarchy.............................................................................................15 
4.2 
Text extraction principles............................................................................16 
4.3 
Text merging principles...............................................................................17 
4.3.1  Simple text merging.................................................................................18 
4.3.2  Sorting text fragments..............................................................................18 
4.3.3  Merging process.......................................................................................19 
4.3.4  nextChar and nextLine methods..............................................................20 
4.4 
Column-based layouts..................................................................................21 
4.4.1  Original column detection algorithm.......................................................21 
4.4.2  Improved column detection algorithm.....................................................22 
4.4.3  Ordering of text in columns.....................................................................24 
4.5 
Other layout features...................................................................................25 
C# HTML5 PDF Viewer SDK to convert and export PDF document to
PDF Create. Create PDF from Word. Create PDF from Excel. PDF from RTF. Create PDF from Text. PDF Export. Convert PDF Image to PDF. Image: Remove Image from PDF Page
pdf form save in reader; extract table data from pdf to excel
C# WPF PDF Viewer SDK to view, annotate, convert and print PDF in
PDF Create. Create PDF from Word. Create PDF from Excel. PDF from RTF. Create PDF from Text. PDF Export. Convert PDF Image to PDF. Image: Remove Image from PDF Page
extract table data from pdf; how to save fillable pdf form in reader
PDF
TO 
HTML
C
ONVERSION
           Final Report 
Page iv 
4.5.1  Line spacing.............................................................................................25 
4.5.2  Styles and formatting...............................................................................27 
4.5.3  Symbols...................................................................................................28 
4.5.4  Hyphenated text......................................................................................29 
4.5.5  Indentations.............................................................................................29 
4.5.6  Forced carriage returns............................................................................30 
4.5.7  Raised and dropped capitals ....................................................................31 
4.5.8  Miscellaneous text fragments...................................................................31 
4.5.9  Empty text fragments ..............................................................................32 
4.6 
The front end..............................................................................................32 
4.6.1  The -c option...........................................................................................32 
4.6.2  Multiple pages.........................................................................................33 
5  P
ERFORMANCE EVALUATION
.........................................................................34 
5.1 
Analysis of converted output.......................................................................34 
5.2 
Comparison with other methods.................................................................35 
5.3 
Examples of converted output.....................................................................35 
5.3.1  Simple letter example..............................................................................36 
5.3.2  E-book example.......................................................................................38 
5.3.3  Simple newsletter example.......................................................................40 
5.3.4  Complex newsletter example...................................................................42 
6  C
ONCLUSION
...............................................................................................44 
6.1 
Limitation of the implementation................................................................44 
6.2 
Author’s assessment of the project...............................................................44 
7  F
UTURE DEVELOPMENT
................................................................................46 
7.1 
Conversion to RTF format..........................................................................46 
7.2 
Using graphical data on the page.................................................................46 
7.3 
Understanding tabular data..........................................................................46 
7.4 
Inclusion of graphics in converted output....................................................46 
7.5 
Detection of multi-level styles......................................................................47 
G
LOSSARY OF TERMS
..........................................................................................48 
R
EFERENCES
......................................................................................................49 
B
IBLIOGRAPHY
..................................................................................................49 
C
ONTENTS OF 
I
NCLUDED 
CD .............................................................................50 
Final Report                           PDF
TO 
HTML
C
ONVERSION
Page 1 
 Introduction 
1.1  Background to PDF 
PDF started off as an internal project at Adobe based on the early ’90s dream of the 
paperless office.  The objective was to create a file format that would allow documents 
to be distributed throughout the company and viewed on any computer running any 
operating system.  Adobe already had a more or less fitting technology; PostScript, a 
device  and  platform  independent  page  description  language  that  was  already  in 
widespread use in the printing industry.  It was therefore natural that PDF was based 
on PostScript.  Before its official release, PDF was even referred to as Interchange 
PostScript (IPS) by Adobe.
[1]
Version 1.0 of PDF was formally released in 1992.  Although very similar to PostScript 
there  were  a  number  of  differences.    One  of  the  most  important  features  was 
compression,  which  could  typically  reduce  file  size  by  an  order  of  magnitude, 
facilitating  storage  and  transmission.    Bookmarks  and  links  were  also  included, 
although you could only link internally to another page in the document at that time.  
The Acrobat suite of products followed in 1993 and, at the time, you had to pay £50 
for a copy of Acrobat Reader. 
During the 1990s the use of the Internet became more widespread and Adobe were in a 
position to take advantage of this.  Future incarnations of the PDF format enabled 
Adobe to take advantage of the growth of the Internet.  Adobe dropped the £50 charge 
for Acrobat Reader and over 100 million copies were downloaded from the web.
[1]
Support for hyperlinks, scripting and, more recently, tagging were added; the latter 
being a system of inserting metadata about the paragraph structure to enable re-flowing 
of text on hand-held devices such as PDAs and e-books. 
PDF’s biggest advantage is that it is based on a page description language.  Therefore 
any PDF file should display identically on any computer system irrespective of the 
hardware or operating system  being used.   Acrobat’s printer drivers,  Distiller  and 
PDFWriter, have made creating a PDF as easy as printing a document.  This has enabled 
documents created in a word processor, such as Microsoft Word, to be converted to 
PDF in a single keystroke, ready for transmission or publication to the Web. 
PDF
TO 
HTML
C
ONVERSION
           Final Report 
Page 2 
1.2  Background to HTML 
In 1989, Tim Berners-Lee proposed a global hypertext project, to be known as the 
World Wide Web, while he was working at the CERN particle physics laboratory in 
Geneva, Switzerland.  He wrote the first web server, httpd, and the first browser, 
WorldWideWeb, in late 1990, and these programs became available on the Internet at 
large in the summer of 1991.
[2]
The language used for document exchange was HTML, 
HyperText Markup Language, and was invented by Berners-Lee for this particular 
purpose. 
As a structured hypertext language, HTML is worlds apart from PDF.  Based upon the 
notion of separating content from presentation, it includes tags to denote paragraphs, 
heading levels and lists.  These tags are understood by the client’s browser and used to 
render the page in an appropriate form on the screen.  This is why HTML files often 
look different when displayed on different platforms or different browsers.  HTML 
even allows the use of external style sheets which separate the formatting information 
in a different file, making it possible to alter the presentation of a whole web site by 
changing only the style sheet, independently of the content. 
As time has passed, technology has moved on and web designers, particularly when 
working on commercial sites, felt the need to give their sites an original, distinguished 
look.  This required playing tricks with tables and tags such as 
<BR>
(break) and 
&nbsp
(space) to subvert HTML’s principles and get the site to display how they wish.  Even 
then, different browsers often interpreted the HTML differently and it was necessary to 
design separate sites for different browsers!  The “browser war” in the late ’90s only 
added to the confusion as both Microsoft and Netscape invented their own tags, such 
as the ubiquitous 
<BLINK>
, in a hope to gain market share. 
Today, HTML is used alongside other technologies, proprietary and open, such as 
scripting, Flash, streaming audio and video and even PDF, to create the very rich 
content that we now see on the web.  Very often, HTML is not used in the way it was 
originally intended, and modern HTML files include so much formatting, metadata and 
other information that they are very difficult to edit.  The advent of HTML editing 
tools, such as Dreamweaver, has improved this situation somewhat, but it is still true 
that editing a modern web site is usually more difficult and time-consuming than it 
needs to be. 
Final Report                           PDF
TO 
HTML
C
ONVERSION
Page 3 
This project has aimed to adhere to HTML’s original principles as far as was reasonably 
practical.  For example, the program generates an internal style sheet in the header of 
the HTML file.  However, there is one case where it has been necessary to produce a 
“fudge”: indentations are not supported in HTML (other than in complete paragraphs) 
and most browsers simply ignore the 
<TAB>
tag.  Therefore it has been necessary to 
simulate an indentation by including four spaces (
&nbsp
).  For more information, see 
section 4.5.5. 
1.3  Motivation 
This motivation for this project arises from the need to convert PDF files to HTML for 
publishing on a web site.  Although PDF files can be viewed with an appropriate plug-
in or reader, it is often more appropriate to publish shorter documents in HTML for 
the following reasons: 
•  The client must have a copy of a PDF viewer such as Acrobat Reader, which must 
be executed to view the PDF.  Although Adobe’s plug-in for popular browsers aims 
to integrate seamlessly with browsers, there are many inconsistencies between the 
user interface of a web browser and Acrobat which can be confusing to the user.  
For example, to print the document the user must click the “printer” icon on the 
Acrobat toolbar, not the Print button on the browser. 
•  Although PDF files feature compression they are, in general, still significantly larger 
than the equivalent HTML content.  This raises a problem for users with slower 
Internet connections, particularly those  who  regularly  view  web  pages  without 
images. 
•  HTML files can have a “house style” applied to them to allow them to maintain a 
consistent appearance for a professional appearance.  Due to the page-based nature 
of PDF files, they will always look different to HTML pages, and this gives the 
impression that they are not part of the main web site.  PDF files also do not (and 
can not) support style sheets and will have to be updated separately if, for example, 
the web site adopts a new image. 
•  As the layout of a HTML file is flexible (and dependent on the system on which it is 
being rendered), it is much easier to edit HTML files, and  even make drastic 
alterations, without impairing the appearance of the page. 
PDF files are usually only more appropriate if the content is to be printed, rather than 
to be viewed on screen.  Even in newsprint, which has a very complicated layout that 
PDF
TO 
HTML
C
ONVERSION
           Final Report 
Page 4 
cannot easily or practically be replicated in HTML, it is best to extract separate articles 
and publish them in HTML, making the PDF available for download solely for printing 
purposes. 
Unfortunately, the ease of creating PDF files has led to the creation of many PDF 
documents on the web that would be more appropriate in HTML.  This is because 
many documents are created in word processing packages such as Microsoft Word and 
converted to PDF simply by “printing” them to an Acrobat printer driver. 
Documents you may be interested
Documents you may be interested