This is a primer for producing documents in HTML, the hypertext markup language used on the World Wide
Web. This guide is intended to be an introduction to using HTML and creating files for the Web. You should
also check your local bookstore; there are many volumes about the Web and HTML that could be useful. 
This guide is copyright by the Board of Trustees of the University of Illinois. All rights reserved. The guide
may not be reproduced without written permission from the National Center for Supercomputing
Applications and it may not be sold. 
Getting Started 
Terms to Know 
What Isn't Covered 
HTML Version 
HTML Documents 
What an HTML Document Is 
HTML Editors 
Getting Your Files on a Server 
Tags Explained 
The Minimal HTML Document 
A Teaching Tool 
Markup Tags 
HTML 
HEAD 
TITLE 
BODY 
Headings 
Paragraphs 
Lists 
Preformatted Text 
Extended Quotations 
Addresses 
Forced Line Breaks/Postal Addresses 
Horizontal Rules 
Character Formatting 
Logical Versus Physical Styles 
Escape Sequences 
Linking 
Relative Pathnames Versus Absolute Pathnames 
URLs 
Links to Specific Sections 
Mailto 
Inline Images 
Pdf data extraction - extract form data from PDF in C#.net, ASP.NET, MVC, Ajax, WPF
Help to Read and Extract Field Data from PDF with a Convenient C# Solution
export pdf data to excel; pdf data extraction
Pdf data extraction - VB.NET PDF Form Data Read library: extract form data from PDF in vb.net, ASP.NET, MVC, Ajax, WPF
Convenient VB.NET Solution to Read and Extract Field Data from PDF
extract data from pdf forms; extract data from pdf to excel
Image Size Attributes 
Aligning Images 
Alternate Text for Images 
Background Graphics 
Background Color 
External Images, Sounds, and Animations 
Tables 
Table Tags 
General Table Format 
Tables for Nontabular Information 
Fill-out Forms 
Troubleshooting 
Avoid Overlapping Tags 
Embed Only Anchors and Character Tags 
Do the Final Steps 
Commenting Your Files 
For More Information 
Style Guides 
Other Introductory Documents 
Additional Online References 
Thanks 
Getting Started
Terms to Know
WWW World Wide Web 
Web World Wide Web 
SGML Standard Generalized Markup Language--a standard for describing markup languages 
DTD Document Type Definition--this is the formal specification of a markup language, written using SGML
HTML HyperText Markup Language--HTML is an SGML DTD 
In practical terms, HTML is a collection of platform-independent styles (indicated by markup tags) that
define the various components of a World Wide Web document. HTML was invented by Tim
Berners-Lee while at CERN, the European Laboratory for Particle Physics in Geneva. 
What Isn't Covered
This primer assumes that you: 
know how to use NCSA Mosaic or some other Web browser 
have a general understanding of how Web servers and client browsers work 
have access to a Web server (or that you want to produce HTML documents for personal use in
local-viewing mode) 
HTML Version
This guide reflects the most current specification--HTML Version 2.0-- plus some additional features that have
been widely and consistently implemented in browsers. Future versions and new features for HTML are under
development. 
HTML Documents
What an HTML Document Is
HTML documents are plain-text (also known as ASCII) files that can be created using any text editor (e.g.,
Emacs or vi on UNIX machines; BBEdit on a Macintosh; Notepad on a Windows machine). You can also use
VB.NET PDF Text Extract Library: extract text content from PDF
Application. Advanced Visual Studio .NET PDF text extraction control, built in .NET framework 2.0 and compatible with Windows system.
extract pdf data to excel; make pdf form editable in reader
C# PDF Text Extract Library: extract text content from PDF file in
Image text extraction control provides text extraction from PDF images and image files. Best C#.NET PDF text extraction library and component for free download.
save data in pdf form reader; java read pdf form fields
word-processing software if you remember to save your document as "text only with line breaks." 
HTML Editors
Some WYSIWYG editors are available (e.g., HotMetal, which is available for several platforms or Adobe
PageMill for Macintoshes). You may wish to try one of them after you learn some of the basics of HTML
tagging. It is useful to know enough HTML to code a document before you determine the usefulness of a
WYSIWYG editor. 
If you haven't already selected your software, refer to an online listing of HTML editors (organized by
platform) to help you in your search for appropriate software. 
Getting Your Files on a Server
If you have access to a Web server at school or work, contact your webmaster (the individual who maintains
the server) to see how you can get your files on the Web. If you do not have access to a server at work or
school, check to see if your community operates a FreeNet, a community-based network that provides free
access to the Internet. Lacking a FreeNet, you may need to contact a local Internet provider that will post your
files on a server for a fee. (Check your local newspaper for advertisements or with your Chamber of
Commerce for the names of companies.) 
Tags Explained
An element is a fundamental component of the structure of a text document. Some examples of elements are
heads, tables, paragraphs, and lists. Think of it this way: you use HTML tags to mark the elements of a file for
your browser. Elements can contain plain text, other elements, or both. 
To denote the various elements in an HTML document, you use tags. HTML tags consist of a left angle
bracket (
<
), a tag name, and a right angle bracket (
>
). Tags are usually paired (e.g., 
<H1>
and 
</H1>
) to start
and end the tag instruction. The end tag looks just like the start tag except a slash (/) precedes the text within
the brackets. HTML tags are listed below. 
Some elements may include an attribute, which is additional information that is included inside the start tag.
For example, you can specify the alignment of images (top, middle, or bottom) by including the appropriate
attribute with the image source HTML code. Tags that have optional attributes are noted below. 
NOTE: HTML is not case sensitive. 
<title>
is equivalent to 
<TITLE>
or 
<TiTlE>
. There are a few
exceptions noted in Escape Sequences below. 
Not all tags are supported by all World Wide Web browsers. If a browser does not support a tag, it (usually)
just ignores it. 
The Minimal HTML Document
Every HTML document should contain certain standard HTML tags. Each document consists of head and
body text. The head contains the title, and the body contains the actual text that is made up of paragraphs, lists,
and other elements. Browsers expect specific information because they are programmed according to HTML
and SGML specifications. 
Required elements are shown in this sample bare-bones document: 
<html> 
<head> 
<TITLE>A Simple HTML Example</TITLE> 
</head> 
<body> 
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document in VB.NET Project. DLLs for PDF Image Extraction in VB.NET.
extracting data from pdf forms to excel; extracting data from pdf files
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
VB.NET PDF - PDF File Pages Extraction Guide. Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc. Free PDF document
extracting data from pdf to excel; how to extract data from pdf to excel
<H1>HTML is Easy To Learn</H1> 
<P>Welcome to the world of HTML.  
This is the first paragraph. While short it is  
still a paragraph!</P> 
<P>And this is the second paragraph.</P> 
</body> 
</html> 
The required elements are the <html>, <head>, <title>, and <body> tags (and their corresponding end tags).
Because you should include these tags in each file, you might want to create a template file with them. (Some
browsers will format your HTML file correctly even if these tags are not included. But some browsers won't!
So make sure to include them.) 
Click to see the formatted version of the example. A longer example is also available but you should read
through the rest of the guide before you take a look. This longer-example file contains tags explained in the
next section. 
A Teaching Tool
To see a copy of the file that your browser reads to generate the information in your current window, select
View Source (or the equivalent) from the browser menu. The file contents, with all the HTML tags, are
displayed in a new window. 
This is an excellent way to see how HTML is used and to learn tips and constructs. Of course, the HTML
might not be technically correct. Once you become familiar with HTML and check the many online and
hard-copy references on the subject, you will learn to distinguish between "good" and "bad" HTML. 
Remember that you can save a source file with the HTML codes and use it as a template for one of your Web
pages or modify the format to suit your purposes. 
Markup Tags
HTML
This element tells your browser that the file contains HTML-coded information. The file extension 
.html
also
indicates this an HTML document and must be used. (If you are restricted to 8.3 filenames (e.g.,
LeeHome.htm
, use only 
.htm
for your extension.) 
HEAD
The head element identifies the first part of your HTML-coded document that contains the title. The title is
shown as part of your browser's window (see below). 
TITLE
The title element contains your document title and identifies its content in a global context. The title is displayed
somewhere on the browser window (usually at the top), but not within the text area. The title is also what is
displayed on someone's hotlist or bookmark list, so choose something descriptive, unique, and relatively
short. A title is also used during a WAIS search of a server. 
For example, you might include a shortened title of a book along with the chapter contents: NCSA Mosaic
Guide (Windows): Installation. This tells the software name, the platform, and the chapter contents, which is
more useful than simply calling the document Installation. Generally you should keep your titles to 64
characters or fewer. 
BODY
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
Document. Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document. C# Project: DLLs for PDF Image Extraction. In
exporting data from pdf to excel; pdf form field recognition
VB.NET PDF Library SDK to view, edit, convert, process PDF file
PDF Text Extraction. Mature and robust APIs are provided for programmers to integrate and perform PDF text extraction feature in .NET windows and web project.
pdf form save with reader; extracting data from pdf forms
The second--and largest--part of your HTML document is the body, which contains the content of your
document (displayed within the text area of your browser window). The tags explained below are used within
the body of your HTML document. 
Headings
HTML has six levels of headings, numbered 1 through 6, with 1 being the most prominent. Headings are
displayed in larger and/or bolder fonts than normal body text. The first heading in each document should be
tagged 
<H1>
The syntax of the heading element is: 
<H
y
>
Text of heading
</H
y
>
where y is a number between 1 and 6 specifying the level of the heading. 
Do not skip levels of headings in your document. For example, don't start with a level-one heading (<H1>)
and then next use a level-three (<H3>) heading. 
Paragraphs
Unlike documents in most word processors, carriage returns in HTML files aren't significant. So you don't
have to worry about how long your lines of text are (better to have them fewer than 72 characters long
though). Word wrapping can occur at any point in your source file, and multiple spaces are collapsed into a
single space by your browser. 
In the bare-bones example shown in the Minimal HTML Document section, the first paragraph is coded as 
<P>Welcome to the world of HTML.  
This is the first paragraph.  
While short it is 
still a paragraph!</P> 
In the source file there is a line break between the sentences. A Web browser ignores this line break and starts
a new paragraph only when it encounters another 
<P>
tag. 
Important: You must indicate paragraphs with <P> elements. A browser ignores any indentations or blank
lines in the source text. Without <P> elements, the document becomes one large paragraph. (One exception is
text tagged as "preformatted," which is explained below.) For example, the following would produce identical
output as the first bare-bones HTML example: 
<H1>Level-one heading</H1> 
<P>Welcome to the world of HTML. This is the  
first paragraph. While short it is still a 
paragraph! </P> <P>And this is the second paragraph.</P> 
To preserve readability in HTML files, put headings on separate lines, use a blank line or two where it helps
identify the start of a new section, and separate paragraphs with blank lines (in addition to the 
<P>
tags). These
extra spaces will help you when you edit your files (but your browser will ignore the extra spaces because it
has its own set of rules on spacing that do not depend on the spaces you put in your source file). 
NOTE: The 
</P>
closing tag can be omitted. This is because browsers understand that when they encounter a
<P> tag, it implies that there is an end to the previous paragraph. 
Using the <P> and </P> as a paragraph container means that you can center a paragraph by including the
ALIGN=
alignment attribute in your source file. 
C#: Demos and Sample Codes for Image Content Extraction Using OCR
C# Sample Code for Png Image Text Extraction. This C# OCR demo code illustrates how to extract text from Png and save to png.pdf. // Set the training data path.
how to save filled out pdf form in reader; how to make a pdf form fillable in reader
C# PDF File Permission Library: add, remove, update PDF file
Form Process. Data: Read, Extract Field Data. Data: Auto Fill-in Field Data. Field: Insert Choose to offer PDF annotation and content extraction functions.
extract data from pdf form; using pdf forms to collect data
<P ALIGN=CENTER> 
This is a centered paragraph. 
[See the formatted version below.] 
</P> 
This is a centered paragraph. 
Lists
HTML supports unnumbered, numbered, and definition lists. You can nest lists too, but use this feature
sparingly because too many nested items can get difficult to follow. 
Unnumbered Lists
To make an unnumbered, bulleted list, 
1. start with an opening list 
<UL>
(for unnumbered list) tag 
2. enter the 
<LI>
(list item) tag followed by the individual item; no closing 
</LI>
tag is needed 
3. end the entire list with a closing list 
</UL>
tag 
Below is a sample three-item list: 
<UL> 
<LI> apples 
<LI> bananas 
<LI> grapefruit 
</UL> 
The output is: 
apples 
bananas 
grapefruit 
The 
<LI>
items can contain multiple paragraphs. Indicate the paragraphs with the 
<P>
paragraph tags. 
Numbered Lists 
A numbered list (also called an ordered list, from which the tag name derives) is identical to an unnumbered
list, except it uses 
<OL>
instead of 
<UL>
. The items are tagged using the same 
<LI>
tag. The following HTML
code: 
<OL> 
<LI> oranges 
<LI> peaches 
<LI> grapes 
</OL> 
produces this formatted output: 
1. oranges 
2. peaches 
3. grapes 
Definition Lists 
A definition list (coded as 
<DL>
) usually consists of alternating a definition term (coded as 
<DT>
) and a
VB.NET PDF File Permission Library: add, remove, update PDF file
Data: Read, Extract Field Data. Data: Auto Fill-in Field Data. Field: Insert, Delete, Update Choose to offer PDF annotation and content extraction functions.
html form output to pdf; extract data from pdf form to excel
C# PDF File Merge Library: Merge, append PDF files in C#.net, ASP.
Merge Microsoft Office Word, Excel and PowerPoint data to PDF form. PDF document splitting, PDF page reordering and PDF page image and text extraction.
save pdf forms in reader; export excel to pdf form
definition definition (coded as 
<DD>
). Web browsers generally format the definition on a new line. 
The following is an example of a definition list: 
<DL> 
<DT> UIUC 
<DD> University of Illinois at Urbana-Champaign is one of 
three campuses of the University of Illinois system  
<DT> UIC 
<DD> University of Illinois at Chicago is another campus  
<DT> UIS 
<DD> University of Illinois at springfield is the newest
campus in the system  
</DL> 
The output looks like: 
UIUC 
University of Illinois at Urbana-Champaign is one of three campuses of the University of Illinois
system 
UIC 
University of Illinois at Chicago is another campus 
UIS 
University of Illinois at Springfield is the newest campus in the system 
The 
<DT>
and 
<DD>
entries can contain multiple paragraphs (indicated by 
<P>
paragraph tags), lists, or other
definition information. 
The 
COMPACT
attribute can be used routinely in case your definition terms are very short. If, for example, you
are showing some computer options, the options may fit on the same line as the start of the definition. 
<DL COMPACT> 
<DT> -i 
<DD>invokes NCSA Mosaic for Microsoft Windows 
using the initialization file defined in the path 
<DT> -k 
<DD>invokes NCSA Mosaic for Microsoft Windows in 
kiosk mode 
</DL> 
The output looks like: 
-i 
invokes NCSA Mosaic for Microsoft Windows using the initialization file defined in the path. 
-k 
invokes NCSA Mosaic for Microsoft Windows in kiosk mode. 
Nested Lists 
Lists can be nested. You can also have a number of paragraphs, each containing a nested list, in a single list
item. 
Here is a sample nested list: 
<UL> 
<LI> A few New England states: 
<UL> 
<LI> Vermont 
<LI> New Hampshire 
<LI> Maine 
</UL> 
<LI> Two Midwestern states: 
<UL> 
<LI> Michigan 
<LI> Indiana 
</UL> 
</UL> 
The nested list is displayed as 
A few New England states: 
Vermont 
New Hampshire 
Maine 
Two Midwestern states: 
Michigan 
Indiana 
Preformatted Text
Use the
<PRE>
tag (which stands for "preformatted") to generate text in a fixed-width font. This tag also
makes spaces, new lines, and tabs significant (multiple spaces are displayed as multiple spaces, and lines break
in the same locations as in the source HTML file). This is useful for program listings, among other things. For
example, the following lines: 
<PRE> 
#!/bin/csh                            
cd $SCR                              
cfs get mysrc.f:mycfsdir/mysrc.f    
cfs get myinfile:mycfsdir/myinfile    
fc -02 -o mya.out mysrc.f            
mya.out                               
cfs save myoutfile:mycfsdir/myoutfile  
rm *                                 
</PRE> 
display as: 
#!/bin/csh                            
cd $SCR                              
cfs get mysrc.f:mycfsdir/mysrc.f    
cfs get myinfile:mycfsdir/myinfile    
fc -02 -o mya.out mysrc.f            
mya.out                               
cfs save myoutfile:mycfsdir/myoutfile  
rm * 
The 
<PRE>
tag can be used with an optional 
WIDTH
attribute that specifies the maximum number of characters
for a line. 
WIDTH
also signals your browser to choose an appropriate font and indentation for the text. 
Hyperlinks can be used within 
<PRE>
sections. You should avoid using other HTML tags within 
<PRE>
sections, however. 
Note that because <, >, and & have special meanings in HTML, you must use their escape sequences (
&lt;
,
&gt;
, and 
&amp;
, respectively) to enter these characters. See the section Escape Sequences for more
information. 
Extended Quotations
Use the 
<BLOCKQUOTE>
tag to include lengthy quotations in a separate block on the screen. Most browsers
generally change the margins for the quotation to separate it from surrounding text. 
In the example: 
<BLOCKQUOTE> 
<P>Omit needless words.</P> 
<P>Vigorous writing is concise. A sentence should 
contain no unnecessary words, a paragraph no unnecessary 
sentences, for the same reason that a drawing should have 
no unnecessary lines and a machine no unnecessary parts.
</P> 
--William Strunk, Jr., 1918 
</BLOCKQUOTE> 
the result is: 
Omit needless words.
Vigorous writing is concise. A sentence should contain no unnecessary words, a paragraph
no unnecessary sentences, for the same reason that a drawing should have no unnecessary
lines and a machine no unnecessary parts.
--William Strunk, Jr., 1918 
Addresses
The 
<ADDRESS>
tag is generally used to specify the author of a document, a way to contact the author (e.g., an
email address), and a revision date. It is usually the last item in a file. 
For example, the last line of the online version of this guide is: 
<ADDRESS> 
A Beginner's Guide to HTML / NCSA / 
pubs@ncsa.uiuc.edu / revised April 96 
</ADDRESS> 
The result is: 
A Beginner's Guide to HTML / NCSA / pubs@ncsa.uiuc.edu / revised April 96
NOTE: 
<ADDRESS>
is not used for postal addresses. See "Forced Line Breaks" below to see how to format
postal addresses. 
Forced Line Breaks/Postal Addresses
The 
<BR>
tag forces a line break with no extra (white) space between lines. Using 
<P>
elements for short lines
of text such as postal addresses results in unwanted additional white space. For example, with <BR>: 
National Center for Supercomputing Applications<BR> 
605 East Springfield Avenue<BR> 
Champaign, Illinois 61820-5518<BR> 
The output is:
National Center for Supercomputing Applications
605 East Springfield Avenue
Champaign, Illinois 61820-5518
Horizontal Rules
The 
<HR>
tag produces a horizontal line the width of the browser window. A horizontal rule is useful to
separate sections of your document. For example, many people add a rule at the end of their text and before the
<address> 
information. 
You can vary a rule's size (thickness) and width (the percentage of the window covered by the rule).
Experiment with the settings until you are satisfied with the presentation. For example: 
<HR SIZE=4 WIDTH="50%"> 
displays as: 
Character Formatting
HTML has two types of styles for individual words or sentences: logical and physical. Logical styles tag text
according to its meaning, while physical styles indicate the specific appearance of a section. For example, in
the preceding sentence, the words "logical styles" was tagged as a "definition." The same effect (formatting
those words in italics) could have been achieved via a different tag that tells your browser to "put these words
in italics." 
NOTE: Some browsers don't attach any style to the 
<DFN>
tag, so you might not see the indicated phrases in
the previous paragraph in italics. 
Logical Versus Physical Styles
If physical and logical styles produce the same result on the screen, why are there both? 
In the ideal SGML universe, content is divorced from presentation. Thus SGML tags a level-one heading as a
level-one heading, but does not specify that the level-one heading should be, for instance, 24-point bold Times
centered. The advantage of this approach (it's similar in concept to style sheets in many word processors) is
that if you decide to change level-one headings to be 20-point left-justified Helvetica, all you have to do is
change the definition of the level-one heading in your Web browser. Indeed many browsers today let you
define how you want the various HTML tags rendered on-screen. 
Another advantage of logical tags is that they help enforce consistency in your documents. It's easier to tag
something as 
<H1>
than to remember that level-one headings are 24-point bold Times centered or whatever.
For example, consider the 
<STRONG>
tag. Most browsers render it in bold text. However, it is possible that a
reader would prefer that these sections be displayed in red instead. Logical styles offer this flexibility. 
Of course, if you want something to be displayed in italics (for example) and do not want a browser's setting
to display it differently, use physical styles. Physical styles, therefore, offer consistency in that something you
tag a certain way will always be displayed that way for readers of your document. 
Try to be consistent about which type of style you use. If you tag with physical styles, do so throughout a
document. If you use logical styles, stick with them within a document. Keep in mind that future releases of
HTML might not support physical styles, which could mean that browsers will not display physical style
coding. 
Logical Styles
Documents you may be interested
Documents you may be interested