Chapter 6 - HTML Reference
This chapter defines all of the HTML elements and attributes that are recognized and supported by
HTMLDOC.
General Usage
There are two types of HTML files - structured documents using headings (H1, H2, etc.) which HTMLDOC
calls "books", and unstructured documents that do not use headings which HTMLDOC calls "web pages".
A very common mistake is to try converting a web page using:
htmldoc -f filename.pdf filename.html
which will likely produce a PDF file with no pages. To convert web page files you must use the 
--webpage
option at the command-line or choose Web Page in the input tab of the GUI.
Note:
HTMLDOC does not support HTML 4.0 elements, attributes, stylesheets, or scripting.
Chapter 6 - HTML Reference
6-1
Pdf form data extraction - extract form data from PDF in C#.net, ASP.NET, MVC, Ajax, WPF
Help to Read and Extract Field Data from PDF with a Convenient C# Solution
how to fill pdf form in reader; html form output to pdf
Pdf form data extraction - VB.NET PDF Form Data Read library: extract form data from PDF in vb.net, ASP.NET, MVC, Ajax, WPF
Convenient VB.NET Solution to Read and Extract Field Data from PDF
how to fill out a pdf form with reader; change font size pdf form reader
VB.NET PDF Text Extract Library: extract text content from PDF
control provides text extraction from PDF images and image files. Enable extracting PDF text to another PDF file, and other formats such as TXT and SVG form.
pdf data extraction to excel; extracting data from pdf forms
C# PDF Text Extract Library: extract text content from PDF file in
Image text extraction control provides text extraction from PDF images and image files. Best C#.NET PDF text extraction library and component for free download.
pdf data extractor; how to save a pdf form in reader
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
image extraction from multiple page adobe PDF file in VB.NET. Extract multiple types of image from PDF file in VB.NET, like XObject Image, XObject Form, Inline
extract data from pdf using java; how to save a filled out pdf form in reader
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
Support PDF Image Extraction from a Page, a Region on a Page Extract various types of image from PDF file, like XObject Image, XObject Form, Inline Image
extracting data from pdf files; edit pdf form in reader
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
VB.NET PDF - PDF File Pages Extraction Guide. Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc. Free PDF document
how to save filled out pdf form in reader; extract data from pdf table
VB.NET PDF Library SDK to view, edit, convert, process PDF file
PDF Text Extraction. Mature and robust APIs are provided for programmers to integrate and perform PDF text extraction feature in .NET windows and web project.
how to flatten a pdf form in reader; c# read pdf form fields
<!-- HEADER RIGHT "foo" -->
Sets the right header text; the test is applied to the current page if empty, or the next page otherwise.
<!-- MEDIA BOTTOM nnn -->
Sets the bottom margin of the page. The "nnn" string can be any standard measurement value, e.g.
0.5in, 36, 12mm, etc. Breaks to a new page if the current page is already marked.
<!-- MEDIA COLOR "foo" -->
Sets the media color attribute for the page. The "foo" string is any color name that is supported by the
printer, e.g. "Blue", "White", etc. Breaks to a new page or sheet if the current page is already marked.
<!-- MEDIA DUPLEX NO -->
Chooses single-sided printing for the page; breaks to a new page or sheet if the current page is already
marked.
<!-- MEDIA DUPLEX YES -->
Chooses double-sided printing for the page; breaks to a new sheet if the current page is already
marked.
<!-- MEDIA LANDSCAPE NO -->
Chooses portrait orientation for the page; breaks to a new page if the current page is already marked.
<!-- MEDIA LANDSCAPE YES -->
Chooses landscape orientation for the page; breaks to a new page if the current page is already
marked.
<!-- MEDIA LEFT nnn -->
Sets the left margin of the page. The "nnn" string can be any standard measurement value, e.g. 0.5in,
36, 12mm, etc. Breaks to a new page if the current page is already marked.
<!-- MEDIA POSITION nnn -->
Sets the media position attribute (input tray) for the page. The "nnn" string is an integer that usually
specifies the tray number. Breaks to a new page or sheet if the current page is already marked.
<!-- MEDIA RIGHT nnn -->
Sets the right margin of the page. The "nnn" string can be any standard measurement value, e.g. 0.5in,
36, 12mm, etc. Breaks to a new page if the current page is already marked.
<!-- MEDIA SIZE foo -->
Sets the media size to the specified size. The "foo" string can be "Letter", "Legal", "Universal", or
"A4" for standard sizes or "WIDTHxHEIGHTunits" for custom sizes, e.g. "8.5x11in"; breaks to a new
page or sheet if the current page is already marked.
<!-- MEDIA TOP nnn -->
Sets the top margin of the page. The "nnn" string can be any standard measurement value, e.g. 0.5in,
36, 12mm, etc. Breaks to a new page if the current page is already marked.
<!-- MEDIA TYPE "foo" -->
Sets the media type attribute for the page. The "foo" string is any type name that is supported by the
printer, e.g. "Plain", "Glossy", etc. Breaks to a new page or sheet if the current page is already
marked.
<!-- NEED length -->
Break if there is less than 
length
units left on the current page. The 
length
value defaults to lines of
text but can be suffixed by 
in
mm
, or 
cm
to convert from the corresponding units.
<!-- NEW PAGE -->
Break to the next page.
<!-- NEW SHEET -->
Break to the next sheet.
<!-- NUMBER-UP nn -->
Sets the number of pages that are placed on each output page. Valid values are 1, 2, 4, 6, 9, and 16.
<!-- PAGE BREAK -->
Break to the next page.
HTMLDOC 1.8.29 Software Users Manual
Comments
6-5
C# PDF File Permission Library: add, remove, update PDF file
Data. Data: Auto Fill-in Field Data. Field: Insert Choose to offer PDF annotation and content extraction Enable or disable copying and form filling functions.
extract data from pdf into excel; extract data from pdf form
VB.NET PDF File Permission Library: add, remove, update PDF file
Data. Data: Auto Fill-in Field Data. Field: Insert Choose to offer PDF annotation and content extraction Enable or disable copying and form filling functions.
extracting data from pdf forms to excel; extract table data from pdf to excel
Header/Footer Strings
The 
HEADER
and 
FOOTER
comments allow you to set an arbitrary string of text for the left, center, and right
headers and footers. Each string consists of plain text; special values or strings can be inserted using the dollar
sign (
$
):
$$
Inserts a single dollar sign in the header.
$CHAPTER
Inserts the current chapter heading.
$CHAPTERPAGE
$CHAPTERPAGE(format)
Inserts the current page number within a chapter or file. When a format is specified, uses that numeric
format (1 = decimal, i = lowercase roman numerals, I = uppercase roman numerals, a = lowercase
ascii, A = uppercase ascii) for the page numbers.
$CHAPTERPAGES
$CHAPTERPAGES(format)
Inserts the total page count within a chapter or file. When a format is specified, uses that numeric
format (1 = decimal, i = lowercase roman numerals, I = uppercase roman numerals, a = lowercase
ascii, A = uppercase ascii) for the page count.
$DATE
Inserts the current date.
$HEADING
Inserts the current heading.
$LOGOIMAGE
Inserts the logo image; all other text in the string will be ignored.
$PAGE
$PAGE(format)
Inserts the current page number. When a format is specified, uses that numeric format (1 = decimal, i
= lowercase roman numerals, I = uppercase roman numerals, a = lowercase ascii, A = uppercase ascii)
for the page numbers.
$PAGES
$PAGES(format)
Inserts the total page count. When a format is specified, uses that numeric format (1 = decimal, i =
lowercase roman numerals, I = uppercase roman numerals, a = lowercase ascii, A = uppercase ascii)
for the page count.
$TIME
Inserts the current time.
$TITLE
Inserts the document title.
HTMLDOC 1.8.29 Software Users Manual
6-6
Header/Footer Strings
C# PDF File Merge Library: Merge, append PDF files in C#.net, ASP.
Merge Microsoft Office Word, Excel and PowerPoint data to PDF form. PDF page deleting, PDF document splitting, PDF page reordering and PDF page image and
exporting pdf data to excel; pdf data extraction tool
VB.NET PDF Password Library: add, remove, edit PDF file password
passwordSetting.IsAnnot = True ' Allow to fill form. passwordSetting.IsFillForm = True ' Content extraction is allowed. True ' Add password to PDF file.
extract data from pdf; extract pdf form data to excel
FONT Attributes
Limited typeface specification is currently supported to ensure portability across platforms and for older
PostScript printers:
Requested Font
Actual Font
Arial
Helvetica
Courier
Courier
Dingbats
Dingbats
Helvetica
Helvetica
Monospace
DejaVu Sans Mono
Sans
DejaVu Sans
Serif
DejaVu Serif
Symbol
Symbol
Times
Times
All other unrecognized typefaces are silently ignored.
Headings
Currently HTMLDOC supports a maximum of 1000 chapters (H1 headings). This limit can be increased by
changing the 
MAX_CHAPTERS
constant in the config.h file included with the source code.
All chapters start with a top-level heading (H1) markup. Any headings within a chapter must be of a lower
level (H2 to H15). Each chapter starts a new page or the next odd-numbered page if duplexing is selected.
Note:
Heading levels 7 to 15 are not standard HTML and will not likely be recognized by
most web browsers.
The headings you use within a chapter must start at level 2 (H2). If you skip levels the heading will be shown
under the last level that was known. For example, if you use the following hierarchy of headings:
<H1>Chapter Heading</H1>
...
<H2>Section Heading 1</H2>
...
<H2>Section Heading 2</H2>
...
<H3>Sub-Section Heading 1</H3>
...
<H4>Sub-Sub-Section Heading 1</H4>
...
<H4>Sub-Sub-Section Heading 2</H4>
...
<H3>Sub-Section Heading 2</H3>
...
<H2>Section Heading 3</H2>
HTMLDOC 1.8.29 Software Users Manual
FONT Attributes
6-7
...
<H4>Sub-Sub-Section Heading 3</H4>
...
the table-of-contents that is generated will show:
Chapter Heading
Section Heading 1
¤ 
Section Heading 2
¤ 
Sub-Section Heading 1
à 
Sub-Sub-Section Heading 1
× 
Sub-Sub-Section Heading 2
× 
Sub-Section Heading 2
à 
Sub-Sub-Section Heading 3
× 
Section Heading 3
¤ 
Numbered Headings
When the numbered headings option is enabled, HTMLDOC recognizes the following additional attributes for
all heading elements:
VALUE="#"
Specifies the starting value for this heading level (default is "1" for all new levels).
TYPE="1"
Specifies that decimal numbers should be generated for this heading level.
TYPE="a"
Specifies that lowercase letters should be generated for this heading level.
TYPE="A"
Specifies that uppercase letters should be generated for this heading level.
TYPE="i"
Specifies that lowercase roman numerals should be generated for this heading level.
TYPE="I"
Specifies that uppercase roman numerals should be generated for this heading level.
Images
HTMLDOC supports loading of BMP, GIF, JPEG, and PNG image files. EPS and other types of image files
are not supported at this time.
Links
External URL and internal (
#target
and 
filename.html
) links are fully supported for HTML and PDF
output.
When generating PDF files, local PDF file links will be converted to external file links for the PDF viewer
instead of URL links. That is, you can directly link to another local PDF file from your HTML document
with:
<A HREF="filename.pdf">...</A>
HTMLDOC 1.8.29 Software Users Manual
6-8
Headings
META Attributes
HTMLDOC supports the following 
META
attributes for the title page and document information:
<META NAME="AUTHOR" CONTENT="..."
Specifies the document author.
<META NAME="COPYRIGHT" CONTENT="..."
Specifies the document copyright.
<META NAME="DOCNUMBER" CONTENT="..."
Specifies the document number.
<META NAME="GENERATOR" CONTENT="..."
Specifies the application that generated the HTML file.
<META NAME="KEYWORDS" CONTENT="..."
Specifies document search keywords.
<META NAME="SUBJECT" CONTENT="..."
Specifies document subject.
Page Breaks
HTMLDOC supports four new page comments to specify page breaks. In addition, the older 
BREAK
attribute is
still supported by the 
HR
element:
<HR BREAK>
Support for the 
BREAK
attribute is deprecated and will be removed in a future release of HTMLDOC.
Tables
Currently HTMLDOC supports a maximum of 200 columns within a single table. This limit can be increased
by changing the 
MAX_COLUMNS
constant in the config.h file included with the source code.
HTMLDOC does not support HTML 4.0 table elements or attributes, such as 
TBODY
THEAD
TFOOT
, or
RULES
.
HTMLDOC 1.8.29 Software Users Manual
META Attributes
6-9
HTMLDOC 1.8.29 Software Users Manual
7-10
Tables
Documents you may be interested
Documents you may be interested