Older Book Files
Prior to HTMLDOC version 1.8.12, the book file format was slightly different:
#HTMLDOC version
file count
file(s)
options
While HTMLDOC still supports reading this format, we do not recommend using it for new books. In
particular, when generating a document using the 
--batch
option, some options may not be applied correctly
since the files are loaded prior to setting the output options in the old format.
HTMLDOC 1.8.29 Software Users Manual
Older Book Files
B-3
Pdf form save in reader - extract form data from PDF in C#.net, ASP.NET, MVC, Ajax, WPF
Help to Read and Extract Field Data from PDF with a Convenient C# Solution
export pdf data to excel; exporting pdf form to excel
Pdf form save in reader - VB.NET PDF Form Data Read library: extract form data from PDF in vb.net, ASP.NET, MVC, Ajax, WPF
Convenient VB.NET Solution to Read and Extract Field Data from PDF
online form pdf output; exporting pdf data to excel
HTMLDOC 1.8.29 Software Users Manual
C-4
Older Book Files
C# PDF: PDF Document Viewer & Reader SDK for Windows Forms
SaveFile(String filePath): Save PDF document file to a specified path form (Here, we take a blank form as an open a file dialog and load your PDF document in
how to type into a pdf form in reader; extracting data from pdf forms
VB.NET Image: How to Save Image & Print Image Using VB.NET
printing multi-page document files, like PDF and Word is used to illustrate how to save a sample RE__Test Public Partial Class Form1 Inherits Form Public Sub New
save pdf forms in reader; how to make pdf editable form reader
Appendix C - Release Notes
This appendix provides the release notes for each version of HTMLDOC.
Changes in HTMLDOC v1.8.29
Changes
Updated local PNG library to version 1.6.20.
• 
Updated local JPEG library to version 9b.
• 
Dropped support for OpenSSL.
• 
Added configure script support for libjpeg-turbo.
• 
Updated HTTP code to latest CUPS/ippsample sources.
• 
Duplex PDF output incorrectly forced an even number of pages (Bug #525)
• 
Bug Fixes
The table of contents showed the wrong page numbers after headings containing the
_HD_OMIT_TOC attribute.
• 
Fixed reported build issues (Bug #500, Bug #507, Bug #510, Bug #533)
• 
The configure script's --enable-local* options did not work.
• 
Changes in HTMLDOC v1.8.28
Appendix C - Release Notes
C-1
C# PDF File Merge Library: Merge, append PDF files in C#.net, ASP.
Merge Microsoft Office Word, Excel and PowerPoint data to PDF form. Append one PDF file to the end of another and save to a single PDF file.
how to extract data from pdf file using java; extract table data from pdf to excel
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
this RasterEdge XDoc.PDF SDK, you can simply delete a single page from a PDF document using VB.NET or remove any page from a PDF document and save to local
how to fill in a pdf form in reader; extract data from pdf to excel
Changes
Updated local zlib to version 1.2.3.
• 
Updated local PNG library to version 1.4.0.
• 
Updated local JPEG library to version 7.
• 
Updated default PDF version to 1.4.
• 
Bug Fixes
SECURITY: Fixed three buffer overflow issues when reading AFM files and parsing page sizes.
• 
Fixed incompatibility with Fortify's version of strcpy, which does not work properly with
variable-length arrays (STR #235)
• 
Fixed documentation errors (PR #6593, PR #6595)
• 
Marked Zapf-Dingbats as a standard font (STR #198)
• 
Fixed GPL license text in GUI (STR #222)
• 
Fixed a table formatting problem when a column has multiple colspan values (PR #6709)
• 
Fixed parsing of HTML comments (STR #181)
• 
Fixed potential out-of-bounds read in table-of-contents rendering code (STR #183)
• 
Fixed handling of image URLs with ampersands in them (STR #186)
• 
Fixed top/bottom margins for logo and header/footer images (STR #174)
• 
Fixed image alignment bug (Bug #231)
• 
Fixed X11 build problem (Bug #243)
• 
Changes in HTMLDOC v1.8.27
Bug Fixes
Fixed a crash bug that appeared when more than 10 blank pages were present in a document (PR
#6223)
• 
Color changes were not reflected in PRE text (STR #129)
• 
Remote URLs did not always work on older operating systems (PR #6179)
• 
Image filenames using % escapes were not decoded properly.
• 
Rows using BGCOLOR that spanned across multiple pages did not render properly (PR #6149)
• 
Rows no longer start on a new page due to a cell with both HEIGHT and ROWSPAN specified (PR
#6086)
• 
CMYK JPEG images caused HTMLDOC to crash (PR #6106)
• 
Table cell width calculations didn't always account for the proper minimum width (STR #121)
• 
Images were not copied when generating indexed HTML output to a directory (STR #117)
• 
Changing the bottom margin resulted in text that was formatted below the bottom margin.
• 
The Monospace-Oblique font was not embedded properly in PDF files.
• 
Changes in HTMLDOC v1.8.26
Bug Fixes
Outline and keyword strings in PDF files are now stored as Unicode (STR #113)
• 
The Flate compression code could get in an infinite loop if it ran out of memory (STR #101)
• 
Book files saved from the GUI did not handle filenames with spaces (STR #105)
• 
Fixed and re-enabled the ASCII85Device filter support in PostScript Level 2/3 output (STR #116)
• 
Character entities in the first word of a file were not rendered properly (STR #111)
• 
Fixed-size table columns were incorrectly resized when a table width was also specified and there was
extra space to distribute (PR #6062)
• 
Text could "walk" up or down when in-line images were used (PR #6034)
• 
HTMLDOC 1.8.29 Software Users Manual
C-2
Changes
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
to extract single or multiple pages from adobe PDF file and save into a The portable document format, known as PDF document, is a widely-used form of file
export pdf form data to excel spreadsheet; how to save editable pdf form in reader
C# Image: Save or Print Document and Image in Web Viewer
or image, you can easily save the changes to DLL Library, including documents TIFF, PDF, Excel, Word string fileName = Request.Form["saveFileName"]; string fid
how to fill out a pdf form with reader; extract data from pdf file
Row backgrounds incorrectly replaced cell backgrounds when the first cell in a row used ROWSPAN
(PR #6033, PR #6036)
• 
HTMLDOC did not correctly parse FONT FACE attributes (PR #6006)
• 
Images in Level 2/3 PostScript output did not work on some printers (PR #6000)
• 
The GUI did not use the first page header (PR #5978)
• 
Changes in HTMLDOC v1.8.25
New Features
Added "--overflow" and "--no-overflow" command-line options to show or hide the content-too-large
errors; the default is "--no-overflow".
• 
Added "--header1" command-line option and "HEADER1" page comments to set the page header for
the first page of each chapter.
• 
Added "timing" and "remotebytes" debug data generation.
• 
Added DejaVu font collection to better support Cyrillic and Greek text; the new fonts are available
under the generic names "monospace", "sans", and "serif".
• 
Added "--referer" command-line option and corresponding CGI-mode support to pass Referer:
information in HTTP requests (STR #91)
• 
Changes
On Windows, HTMLDOC now logs CGI mode errors to a file called "htmldoc.log" in the Windows
temporary directory.
• 
HTMLDOC no longer uses Base-85 encoding for image data when producing Level 2 and 3
PostScript output. It appears that many printers and PostScript interpreters cannot properly decode
this data when the original image data is not a multiple of 8 bits.
• 
HTMLDOC now renders STRONG elements in boldface instead of bold-italic to match the W3C
recommendations.
• 
HTMLDOC now automatically inserts a TR element before a TD or TH element as needed to
improve web site compatibility; this also triggers a HTML error in --strict mode.
• 
Bug Fixes
"$HFIMAGEn" didn't work in a header/footer string.
• 
HTMLDOC could crash when rendering a table.
• 
Book files were not used in CGI mode (STR #69)
• 
Cookies were not sent in HTTP requests (STR #71)
• 
Table cells were not aligned properly when the ROWSPAN attribute was set to 1 (STR #73)
• 
HTMLDOC crashed when rendering unresolved hyperlinks in aligned images (STR #62)
• 
Documented the HTMLDOC_NOCGI environment variable (STR #63)
• 
HTMLDOC sometimes crashed when rendering tables with background colors (STR #65)
• 
HTMLDOC would crash when writing encrypted strings longer than 1024 bytes (STR #66)
• 
HTMLDOC didn't set the data directory when running in CGI mode on Windows.
• 
HTMLDOC could crash when loading the Symbol.afm file (STR #93)
• 
HTMLDOC did not always honor HEIGHT attributes in table rows.
• 
Tables with a mix of colspan and rowspan sometimes caused cells to be moved vertically outside the
cell.
• 
Changes in HTMLDOC v1.8.24
HTMLDOC 1.8.29 Software Users Manual
Bug Fixes
C-3
C# PDF Convert to Tiff SDK: Convert PDF to tiff images in C#.net
Description: Convert to DOCX/TIFF with specified zoom value and save it into stream. Parameters: zoomValue, The magnification of the original PDF page size.
extract pdf data into excel; extract data from pdf forms
C# Create PDF from Tiff Library to convert tif images to PDF in C#
Description: Convert to PDF and save it on the disk. Parameters: Name, Description, Valid Value. Description: Convert to PDF and save it into stream. Parameters:
extract data from pdf table; extract table data from pdf
New Features
HTMLDOC now provides limited cookie support via the "--cookies" command-line option and via
the cookies passed by a browser in CGI mode.
• 
HTMLDOC now features a CGI mode which provides PDF conversion functionality for web servers.
• 
HTMLDOC now generates a document outline for each input file or URL in webpage mode; the
outline shows the title for the file and links to the first page containing that file.
• 
HTMLDOC now offers an "htmlsep" output type which generates HTML output with a separate file
for each heading in the table of contents.
• 
HTMLDOC now includes LINK elements in generated HTML so that intelligent browsers like
Mozilla can show next/prev/contents/top buttons.
• 
HTMLDOC now supports the BORDERCOLOR attribute for tables, a MSIE extension.
• 
The "strict HTML" mode now reports unresolved local links.
• 
Added support for HP LaserJet 5000 and Xerox DocuPrint 2000/100 printer commands.
• 
Added multiple header/footer image support.
• 
Links to external URLs are now resolved so that the output file can be moved without affecting them.
• 
Changes
The command-line now allows --fontsize values from 4 to 26 to match the GUI.
• 
Now use a 0.001 point tolerance when checking for content that overflows the page/cell.
• 
HTMLDOC no longer enables interpolation of 2-color images.
• 
The default vertical alignment of images is "BOTTOM" to match the HTML specification.
• 
Paragraph spacing is only applied to the first table after a paragraph.
• 
The tabloid media size was 10 points too short in length.
• 
The table formatter now subtracts the outside border and padding widths for percentage-based widths.
This helps to eliminate "truncation or overlapping" errors.
• 
Dropped support for FLTK 1.0.x when building the GUI.
• 
The default vertical alignment is now "bottom" inside paragraphs to correctly align different sized text
and images to the baseline.
• 
Indexed images are now written as PDF image objects when encryption is enabled; this works around
a serious bug in Acrobat 6 which tries to decrypt the colormap of in-line images twice, causing some
very strange colors!
• 
Table captions can now be bottom aligned.
• 
Blocks now break at the bottom of a page if the current line height + standard line height goes below
the bottom of the page; this prevents images with captions from getting erroneously moved to the top
of the next page.
• 
Character entities are now supported in HTML attributes and unknown or invalid character entities
are left as plain text.
• 
Changed handling of NOWRAP for some tables.
• 
The --permissions option now supports multiple permission keywords in a single invocation.
• 
Dropped support for MacOS 9 and earlier.
• 
HTMLDOC now breaks between images that are too large to fit on a single line, to match the
behavior of Mozilla/Netscape (STR #7).
• 
HTMLDOC now handles XHTML input more cleanly.
• 
HTMLDOC no longer specifies an interpolation preference for images in PostScript or PDF output
(STR #8)
• 
The DT element no longer applies an italic style (PR #5178)
• 
HTMLDOC now ignores content inside a STYLE element (PR #5183)
• 
Bug Fixes
Switching between landscape and portrait orientations would cause margin creepage.
• 
Images did not default to align=bottom, and the align=bottom line spacing calculation was incorrect.
• 
Whitespace before a link was underlined.
• 
HTMLDOC 1.8.29 Software Users Manual
C-4
New Features
C# PDF Convert to Word SDK: Convert PDF to Word library in C#.net
key. Quick to remove watermark and save PDF text, image, table, hyperlink and bookmark to Word without losing format. Powerful components
pdf data extraction to excel; edit pdf form in reader
C# Create PDF from PowerPoint Library to convert pptx, ppt to PDF
Description: Convert to PDF/TIFF and save it on the disk. Parameters: Description: Convert to PDF/TIFF and save it into stream. Parameters:
make pdf form editable in reader; how to save fillable pdf form in reader
Fixed a table column sizing bug.
• 
HTMLDOC didn't read back the HTTP response properly in all situations.
• 
Fixed some more PNG transparency cases.
• 
The PageBoundingBox comments in PostScript output did not account for the back page when
duplexing was enabled.
• 
HTMLDOC generated an incorrect image mask for some images.
• 
The first page of each chapter did not use the custom page number if it was placed inside the heading.
• 
HTMLDOC did not reset the rendering cache before each page when producing N-up output; this
caused font errors in some cases that prevented the document from printing or displaying properly.
• 
Eliminated a common cause of "table too wide" formatting errors,
• 
Fixed a bug when applying a table background color to a cell without a border that cross a page
boundary.
• 
Fixed some calls to strcpy with overlapping arguments.
• 
The names object was never set when the name objects were written.
• 
Character entities were not decoded/encoded inside HTML comments.
• 
The current heading was not always correctly substituted when used in the page header or footer.
• 
When converting web pages from the GUI, the table-of-contents page number preferences were
incorrectly used.
• 
PDF page effects/transitions were not put in the right part of the page dictionary, causing them not to
be used by the PDF reader application.
• 
The _HD_OMIT_TOC attribute was not being honored for HTML output.
• 
HTMLDOC now handles "open" messages from the MacOS X Finder (STR #3)
• 
The GUI did not load or save the "strict HTML" setting (STR #6)
• 
The HTML version of the title page did not set the ALT attribute for the title image (STR #10)
• 
The HTML version of the table of contents did not correctly nest the lists in the parent items (STR
#10)
• 
Borders around left and right-aligned images were not drawn properly (PR #5112)
• 
Grayscale PDF output was not truly grayscale (STR #32)
• 
Fixed a table-of-contents bug introduced in 1.8.24rc1 which caused the PDF document outline and
actual TOC pages were not rendered properly (STR #37)
• 
Links were not rendered due to a bug that was introduced in 1.8.24rc2 (STR #41)
• 
Changes in HTMLDOC v1.8.23
New Features
HTMLDOC now supports a full alpha channel in PNG files.
• 
HTMLDOC now reports an error when a table, image, or section of text overflows into an adjacent
table cell or off the right edge of the page.
Changes
• 
The NEW SHEET page comment now breaks on N-up boundaries when N is greater than 1.
Bug Fixes
• 
HTMLDOC tried to format tables with no rows or columns. While the HTML in technically not in
error, it is not exactly something you'd expect someone to do.
• 
HTMLDOC didn't report an error when it could not find the specified title page file.
• 
HTMLDOC could crash if it was unable to create its output files.
• 
HTMLDOC could crash when writing HTML output containing unknown HTML elements.
• 
HTMLDOC could crash when writing HTML output if the output document had no title.
• 
The htmlGetText() function used a fixed-size (10k) buffer which allowed for a buffer overflow. The
new code (from HTMLDOC 1.9) allocates its buffer instead.
• 
The header/footer text was not centered properly if the header/footer font size was different than the
default body font size.
• 
HTMLDOC 1.8.29 Software Users Manual
Bug Fixes
C-5
The GUI interface incorrectly localized URLs when doing a "save as" operation.
• 
The PNG background color was not correct for PNG files using <= 8 bits per pixel.
• 
Changes in HTMLDOC v1.8.22
New Features
Now support many Windows code pages in addition to ISO charsets.
Bug Fixes
• 
HTMLDOC could crash when checking if a URL is already cached.
• 
HTMLDOC didn't adjust the top margin when changing the page header if the comment didn't appear
at the top of a page.
• 
HTMLDOC didn't initialize the right number of TOC headings.
• 
When using a logo image in the header, the header was placed too low on the page.
• 
Changes in HTMLDOC v1.8.21
New Features
HTMLDOC now supports heading levels 1 to 15.
• 
HTMLDOC now allows the author to omit headings from the TOC using the _HD_OMIT_TOC
attribute.
• 
HTMLDOC now supports remote book files when running from the command-line.
• 
HTMLDOC now supports hexadecimal character constants (&#xFF)
Changes
• 
HTMLDOC now calculates the resolution of the body image using the printable width instead of the
page width.
• 
HTMLDOC should now compile out-of-the-box using the Cygwin tools.
• 
HTMLDOC no longer inserts whitespace between text inside DIV elements.
• 
HTMLDOC now supports quoted usernames and passwords in URLs.
• 
HTMLDOC now defaults unknown colors to white for background colors and black for foreground
colors. This should make documents that use non-standard color names still appear readable.
Bug Fixes
• 
"make install" didn't work in the fonts directory.
• 
"&euro;" didn't work, while "&#128;" did: the character name table was not sorted properly...
• 
Links didn't always point to the right page in PDF output.
• 
XRX comment output could crash HTMLDOC.
• 
Fixed-width columns in tables could be resized by HTMLDOC.
• 
When writing PostScript commands, some printers reset their duplexing state when a new
setpagedevice command is received; we now cache the current duplex state and change it only as
needed.
• 
The MEDIA SIZE comment didn't adjust the printable size for the current landscape setting.
• 
HTMLDOC placed the header one line too high.
• 
When continuing a chapter onto the next page, H3 and higher headings would be indented the wrong
amount.
• 
Changes in HTMLDOC v1.8.20
HTMLDOC 1.8.29 Software Users Manual
C-6
Bug Fixes
New Features
New --nup and NUMBER-UP options for PostScript and PDF output.
• 
HTMLDOC now logs HTML errors.
• 
HTMLDOC now supports the A3, B, Legal, and Tabloid size names.
• 
HTMLDOC now supports embedding of the base Type1 fonts in PostScript and PDF output.
Changes
• 
The HTML parser now allows BODY to auto-close HEAD and visa-versa.
Bug Fixes
• 
HTMLDOC wouldn't compile using GCC under HP-UX due to a badly "fixed" system header file
(vmtypes.h).
• 
Generating a book without a table-of-contents would produce a bad PDF file.
• 
The Xerox XRX comments used the wrong units for the media size, points instead of millimeters.
• 
IMG elements with links that use the ALIGN attribute didn't get the links.
• 
Header and footer comments would interfere with the top and bottom margin settings.
• 
Fixed a bug in the htmlReadFile() function which caused user-provided title pages not to be displayed
in PS or PDF output.
• 
The table-of-contents would inherit the last media settings in the document, but use the initial settings
when formatting.
• 
Changes in HTMLDOC v1.8.19
New Features
Now support the "subject" meta variable.
• 
Changes
Updated the HTML parser to use HTML 4.0 rules for embedding elements inside a LI.
• 
Now check for a TYPE attribute on EMBED elements, so that embedded Flash files do not get treated
as HTML.
• 
Now put the COPYRIGHT meta data in the Author field in a PDF file along with the AUTHOR meta
data (if any).
• 
No longer embed the prolog.ps command header when PostScript commands are not being embedded
in the output.
• 
HTMLDOC now properly ignores the HTML 4.0 COL element.
• 
Bug Fixes
Squeezed tables were not centered or right-aligned properly.
• 
Cells didn't align properly if they were the first things on the page, or if there were several intervening
empty cells.
• 
The preferred cell width handling didn't account for the minimum cell width, which could cause some
tables to become too large.
• 
Remote URLs didn't always resolve properly (like the images from the Google web page...)
• 
The font width loading code didn't force the non-breaking space to have the same width as a regular
space.
• 
PRE text didn't adjust the line height for the tallest fragment in the line.
• 
HTMLDOC tried to seek backwards when reading HTML from the standard input.
• 
The media margin comments did not work properly when the current media orientation was
landscape.
• 
HTMLDOC 1.8.29 Software Users Manual
New Features
C-7
Changes in HTMLDOC v1.8.18
New Features
Added support for remote HTML title pages.
• 
Changes
Now accept all JPEG files, even if they don't start with an APPn marker.
• 
Now only start a new page for a chapter/filter if we aren't already at the top of a page.
• 
Bug Fixes
ROWSPAN handling in tables has been updated to match the MSIE behavior, where the current
rowspan is reduced by the minimum rowspan in the table; that is, if you use "ROWSPAN=17" for all
cells in a row, HTMLDOC now treats this as if you did not use ROWSPAN at all. It is unclear if this
is what the W3C intends.
• 
The "--webpage" option didn't force toc levels to 0, which caused a bad page object reference to be
inserted in the PDF output file.
• 
Background colors in nested tables didn't always get drawn in the right order, resulting in the wrong
colors showing through.
• 
The HEADER page comment didn't set the correct top position in landscape orientation.
• 
Changes in HTMLDOC v1.8.17
New Features
Improved table-of-contents generation, with chapter headings at the top of new TOC pages and page
numbers based on the header/footer string.
• 
Added new "--no-localfiles" option to disable access to local files for added security in web services.
• 
Long lines in book files can not be broken up using a trailing backslash.
• 
Added a modern "skin" to the GUI interface.
• 
Changes
Made some changes in how COLSPAN and ROWSPAN are handled to better match how Netscape
and MSIE format things.
• 
HTMLDOC now handles .book files with CR, LF, or CR LF line endings.
• 
Changed the TOC numbering to use 32-bit integers instead of 8-bit integers...
• 
Now handle local links with quoted (%HH) characters.
• 
The command-line interface no longer sets PDF output mode when using --continuous or --webpage.
• 
HTMLDOC now opens HTML output files in binary mode to prevent extra CR's under Windows, and
strips incoming CR's from PRE text.
• 
Now support inserting the current chapter and heading in the table-of-contents headers and footers.
• 
Bug Fixes
The table cell border and background were offset by the cellpadding when they should only be offset
by the cellspacing.
• 
The buffer used for periods that lead up to the page number in the table-of-contents was not large
enough for a legal-size document in landscape format.
• 
If a book only contained chapter headings, the PDF bookmarks would be missing the last chapter
heading.
• 
HTMLDOC 1.8.29 Software Users Manual
C-8
Changes in HTMLDOC v1.8.18
Documents you may be interested
Documents you may be interested