c# pdfsharp example : Cannot save pdf form in reader SDK application service wpf windows azure dnn html0-part1017

1
An Introduction to XML and Web Technologies
An Introduction to XML and Web Technologies
HTML and Web Pages
HTML and Web Pages
Anders Møller & Michael I. Schwartzbach
©2006Addison-Wesley
2
An Introduction to XML and Web Technologies
Objectives
Objectives
ɷ The history of HTML
ɷ URLs and related schemes
ɷ Survivor's guides to HTML and CSS
ɷ Limitations of HTML
ɷ Unicode
ɷ The World Wide Web Consortium (W3C)
3
An Introduction to XML and Web Technologies
Hypertext
Hypertext
ɷ Collections ofdocument connected by hyperlinks
ɷ Paul Otlet, philosophicaltreatise (1934)
ɷ Vannevar Bush, hypothetical Memex system (1945)
ɷ Ted Nelson introduced hypertext(1968)
ɷ Hypermediageneralizes hypertext beyondtext
4
An Introduction to XML and Web Technologies
Markup
Markup
Languages
Languages
ɷ Notation for adding formal structure to text
ɷ Charles Goldfarb, theINLINE system (1970)
ɷ Standard GeneralizedMarkup Language, SGML (1986)
ɷ DTD, element, attribute, tag, entity:
<!DOCTYPE greeting [
<!ELEMENT greeting (#PCDATA)>
<!ATTLIST greeting style (big|small) "small">
<!ENTITY hi "Hello">
]>
<greeting style="big"> &hi; world! </greeting>
Cannot save pdf form in reader - extract form data from PDF in C#.net, ASP.NET, MVC, Ajax, WPF
Help to Read and Extract Field Data from PDF with a Convenient C# Solution
how to fill out a pdf form with reader; how to flatten a pdf form in reader
Cannot save pdf form in reader - VB.NET PDF Form Data Read library: extract form data from PDF in vb.net, ASP.NET, MVC, Ajax, WPF
Convenient VB.NET Solution to Read and Extract Field Data from PDF
vb extract data from pdf; extract data out of pdf file
2
5
An Introduction to XML and Web Technologies
The
The
Origins
OriginsofofthetheWWW
WWW
ɷ WWW was invented by Tim Berners-Lee at CERN (1989)
ɷ Hypertextacross the Internet (replacingFTP)
ɷ Threeconstituents: HTML + URL + HTTP
ɷ HTML is an SGML language for hypertext
ɷ URL is an notation for locating files on serves
ɷ HTTP is a high-level protocolfor file transfers
6
An Introduction to XML and Web Technologies
The
The
Design 
Design ofofHTML
HTML
ɷ Simple, purist design principles
ɷ HTML describes thelogicalstructure of a document
ɷ Browsers are free to interprettags differently
ɷ HTML is a lightweightfile format
ɷ Size offile containing just ”Hello World!”:
28 bytes
HTML
19,456 bytes
MS Word
4,915 bytes
PDF
11,274 bytes
Postscript
7
An Introduction to XML and Web Technologies
The
The
History
History
of
of
HTML
HTML
ɷ 1992: HTML 1.0, Tim Berners-Lee original proposal
ɷ 1993: HTML+, some physicallayout
ɷ 1994: HTML 2.0, standard with bestfeatures
ɷ 1995: Non-standard Netscape features
ɷ 1996: Competing Netscape and Explorer features
ɷ 1996: HTML 3.2, the Browser Wars end
ɷ 1997: HTML 4.0, stylesheets are introduced
ɷ 1999: HTML 4.01, we have a winner!
ɷ 2000: XHTML 1.0, an XML version ofHTML 4.01
ɷ 2001: XHTML 1.1, modularization
ɷ 2002: XHTML 2.0, simplified and generalized
8
An Introduction to XML and Web Technologies
Uniform Resource 
Uniform Resource 
Locator
Locator
ɷ A Web resourceis locatedby a URL
http://www.w3.org/TR/html4/
ɷ Relative URL
sgml/dtd.html
ɷ Fragment identifier
http://www.w3.org/TR/HTML4/#minitoc
s
c
h
e
m
e
s
e
r
v
e
r
p
a
t
h
C# PDF: PDF Document Viewer & Reader SDK for Windows Forms
SaveFile(String filePath): Save PDF document file to a specified path in a file dialog and load your PDF document in will be a pop-up window "cannot open your
extract data from pdf using java; exporting pdf form to excel
VB.NET Create PDF Library SDK to convert PDF from other file
because you can make sure that the PDF file cannot be altered pages Dim doc As PDFDocument = PDFDocument.Create(2) ' Save the new created PDF document into
extract data from pdf file to excel; filling out pdf forms with reader
3
9
An Introduction to XML and Web Technologies
URIs
URIs
URNs
URNs, and 
, and 
IRIs
IRIs
ɷ Uniform Resource Identifier (URI)
s
c
h
e
m
e
:
s
c
h
e
m
e
-
s
p
e
c
i
f
i
c
-
p
a
r
t
Conventions aboutuse of /, #, and ?
ɷ Uniform Resource Name (URN)
urn:isbn:0-471-94128-X
ɷ International Resource Identifier (IRI)
http://www.blåbærgrød.dk/blåbærgrød.html
http://www.xn--blbrgrd-fxak7p.dk/bl%E5b%E6rgr%F8d.html
10
An Introduction to XML and Web Technologies
Survivor
Survivor
s
sGuide to HTML
Guide to HTML
ɷ Overall structureofan HTML document
<html>
<head>
<title>The Title of the Document</title>
</head>
<body bgcolor="white">
...
</body>
</html>
11
An Introduction to XML and Web Technologies
Simple Formatting (1/2)
Simple Formatting (1/2)
<html>
<head>
<title>Good Advice</title>
</head>
<body>
<h1>Good Advice for Everyday Life</h1>
<h2>For UNIX programmers</h2>
<b>Never</b> type: 
<p><tt>rm -rf /*</tt><p> 
on your computer.
<h2>For Nuclear Scientists</h2>
<b>Never</b> press the
<i>Big <font color="red">Red</font> Button</i>.
</body>
</html>
12
An Introduction to XML and Web Technologies
Simple Formatting (2/2)
Simple Formatting (2/2)
C# Image: How to Use C# Code to Capture Document from Scanning
installed on the client as browsers cannot interface directly Save a the customized multi-page document to a a multi-page document (including PDF, TIFF, Word
exporting pdf data to excel; saving pdf forms in acrobat reader
VB.NET Image: VB.NET Code to Add Rubber Stamp Annotation to Image
designed image and document, then you cannot miss RasterEdge image or document files; Able to save created rubber Suitable for VB.NET PDF, Word & TIFF document
c# read pdf form fields; export pdf form data to excel
4
13
An Introduction to XML and Web Technologies
More Formatting
More Formatting
<html>
<head>
<title>Things To Do</title>
</head>
<body>
<ol>
<li>Feed the cat.
<li>Try out the shell command:
<pre>foreach x ( `ls` )
cat $x | tr "aeiouy" "x" > $x
end</pre>
<li>Buy ticket for Timbuktu.
</ol>
</body>
</html>
14
An Introduction to XML and Web Technologies
Hyperlinks: 
Hyperlinks: Source
Source
Document
Document
<html>
<head>
<title>Source Document</title>
</head>
<body>
<a href="target.html#danger">Better look here</a>.
</body>
</html>
15
An Introduction to XML and Web Technologies
Hyperlinks: 
Hyperlinks: 
Target
Target
Document
Document
<html>
<head>
<title>Target Document</title>
</head>
<body>
...
<a name="danger"></a>
<h2>Chapter 17: Dangerous Shell Commands</h2>
Never execute a shell command that inadvertently changes
all vowels to the character 'x'.
</body>
</html>
16
An Introduction to XML and Web Technologies
Tables
Tables
<table border="1">
<tr>
<td>PostScript</td>
<td align="right">11,274 bytes</td>
</tr>
<tr>
<td>PDF</td>
<td align="right">4,915 bytes</td>
</tr>
<tr>
<td>MS Word</td>
<td align="right">19,456 bytes</td>
</tr>
<tr>
<td>HTML</td>
<td align="right">28 bytes</td>
</tr>
</table>
VB.NET TIFF: VB.NET Sample Codes to Add Watermark in a TIFF Image
would not be obscured and cannot be removed for TIFF watermark embedding; Easily save updated TIFF powerful & profession imaging controls, PDF document, image
how to fill in a pdf form in reader; how to make pdf editable form reader
VB.NET Word: .NET Project for Merging Two or More Microsoft Word
REDocument), fileNameMerged, New DOCXEncoder()) 'save new word Unfortunately, it cannot be used in commercial profession imaging controls, PDF document, image
how to save filled out pdf form in reader; pdf data extraction tool
5
17
An Introduction to XML and Web Technologies
Tables
Tablesfor for Alignment
Alignment
<table width="100%">
<tr>
<td align="left">
<a href="index.html"><img src="home.gif" border="0"></a>
<a href="info.html"><img src="info.gif" border="0"></a>
</td>
<td align="right">
<a href="links.html"><img src="left.gif" border="0"></a>
<a href="survivor.html"><img src="right.gif” border="0"></a>
</td>
</tr>
</table>
<h1>Using Tables</h1>
18
An Introduction to XML and Web Technologies
Fill
Fill
-
-OutOutForms
Forms
Collects named values from the client:
<form method="get" action="http://www.google.com/search">
<input type="text" name="q">
<input type="submit" name="btnG" value="Google Search">
</form>
19
An Introduction to XML and Web Technologies
GUI Elements
GUI Elements
<input name="foo" type="text" size="20">
<hr>
<input name="bar" type="radio" value="s">Small
<input name="bar" type="radio" value="m">Medium
<input name="bar" type="radio" value="l">Large
<hr>
<input name="baz" type="checkbox" value="c">Cheese
<input name="baz" type="checkbox" value="p">Pepperoni
<input name="baz" type="checkbox" value="a">Anchovies
<hr>
<select name="bar">
<option value="s">Small
<option value="m">Medium
<option value="l">Large
</select>
<hr>
<select name="baz" multiple>
<option value="c">Cheese
<option value="p">Pepperoni
<option value="a">Anchovies
</select>
<hr>
<textarea name="foo" rows="5" cols="20">
Write something here...
</textarea>
<hr>
<input name="foo" type="password" value="tomato">
<hr>
<input name="foo" type="file">
<hr>
<input name="foo" type="hidden" value="you can't see e this">
<hr>
<input name="qux" type="image" src="Denmark.gif">
<hr>
<input type="submit" value="Submit this form">
<hr>
<input type="reset" value="Reset this form"
20
An Introduction to XML and Web Technologies
Logical
Logical
Versus 
Versus 
Physical
Physical
Logicalstructure
•the page starts with a header
•the entries are written in a list
•numbers are emphasized
Physicallayout
•headers are centered, huge, and grey
•lists have square bullets
•emphasis is rendered in bold-style italics
C# TIFF: C#.NET Code to Create Windows TIFF Viewer | Online
document annotating support; Simple to save and output would be an notice with "cannot open your file powerful & profession imaging controls, PDF document, image
how to extract data from pdf file using java; pdf data extraction
C# Image: Create C#.NET Windows Document Image Viewer | Online
viewing multiple document & image formats (PDF, MS Word SaveFile(String filePath): Save loaded file to a specified there will prompt a window "cannot open your
pdf data extraction to excel; pdf form field recognition
6
21
An Introduction to XML and Web Technologies
Survivor
SurvivorssGuide to CSS
Guide to CSS
ɷ Cascading Stylesheets separate structurefrom layout
ɷ The essential concepts are selectors and properties
ɷ Properties may have differentvalues:
block, inline, list-item, none
display
normal, 1.2em, 120%
line-height
left, right, center, justify
text-align
12pt, larger, 150%, 1.5em
font-size
normal, italics, oblique
font-style
red, yellow, rgb(212,120,20)
color
22
An Introduction to XML and Web Technologies
Structure
StructureofofStylesheet
Stylesheet
ɷ A selector is a list of tag names
ɷ For each selector, some properties are assigned
values:
b {color: red; font-size: 12pt}
i {color: green}
ɷ Longer selectors give context sensitivity:
table b {color: red; font-size: 12pt}
form b {color: yellow; font-size: 12pt}
i {color: green}
ɷ The most specific selector is chosen to apply
23
An Introduction to XML and Web Technologies
Specificity
Specificity
in Action
in Action
<head>
<style type="text/css">
b {color: red;}
b b {color: blue;}
b.foo {color: green;}
b b.foo {color: yellow;}
b.bar {color: maroon;}
</style>
<title>CSS Test</title>
</head>
<body>
<b class=foo>Hey!</b>
<b>Wow!
<b>Amazing!</b>
<b class=foo>Impressive!</b>
<b class=bar>k00l!</b>
<i>Fantastic!</i>
</b>
</body>
Hey! Wow! Amazing! Impressive! K00l!
F
a
n
t
a
s
t
i
c
!
24
An Introduction to XML and Web Technologies
Applying
Applying
Stylesheet
Stylesheet
h1 { color: #888; font: 50px/50px "Impact"; text-align: center; }
ul { list-style-type: square; }
em { font-style: italic; font-weight: bold; }
<html>
<head>
<title>Phone Numbers</title>
<link href="style.css" rel="stylesheet" type="text/css">
</head>
<body>
<h1>Phone Numbers</h1>
<ul>
<li>John Doe, <em>(202) 555-1414</em>
<li>Jane Dow, <em>(202) 555-9132</em>
<li>Jack Doe, <em>(212) 555-1742</em>
</ul>
</body>
</html>
C# Excel: View Excel File in Window Document Viewer Control
Easy to view, edit, annotate and save Excel (.xlsx there will prompt a window "cannot open your file powerful & profession imaging controls, PDF document, image
extract data from pdf to excel; extracting data from pdf to excel
C# PowerPoint: Document Viewer Creating in Windows Forms Project
C#.NET users to edit, annotate and save PowerPoint document NET tutorial, we will take a blank form as an control, there will prompt a window "cannot open your
extract pdf form data to xml; how to flatten a pdf form in reader
7
25
An Introduction to XML and Web Technologies
HTML 
HTML Validity
Validity
ɷ HTML has a formal syntax specification
ɷ 800 lines ofDTD notation
ɷ A validator gives syntax errors for invalid documents
ɷ Most HTML documents onthe Web are invalid:
ɷ Valid documents may contain this logo:
19 errors
www.sun.com
27 errors
www.google.com
30 errors
www.ibm.com
58 errors
www.cnn.com
123 errors
www.microsoft.com
26
An Introduction to XML and Web Technologies
Validation
ValidationErrors
Errors
Line 3, column 7: document type does not allow element "BODY" here.
<body>
^
Line 4, column 13: document type does not allow element "B" here; assuming missing "CAPTION" start-tag
<table><b>123</i></table>
^
Line 4, column 20: end tag for element "I" which is not open.
<table><b>123</i></table>
^
Line 4, column 28: end tag for "B" omitted, but its declaration does not permit this.
<table><b>123</i></table>
^
Line 4, column 11: start tag was here.
<table><b>123</i></table>
^
Line 4, column 28: end tag for "CAPTION" omitted, but its declaration does not permit this.
<table><b>123</i></table>
^
Line 4, column 11: start tag was here.
<table><b>123</i></table>
^
Line 4, column 28: end tag for "TABLE" which is not finished.
<table><b>123</i></table>
^
Line 6, column 6: end tag for "HTML" which is not finished.
</html>
<html>
<body>
<table><b>123</i></table>
</body>
</html>
27
An Introduction to XML and Web Technologies
Reasons
Reasons
for 
for 
Invalidity
Invalidity
ɷ Ignorance of the HTML standard
ɷ Lack oftesting
• ”This page is optimizedfor the XYZ browser”
• ”This page is best viewedin 1024x768”
ɷ Automatic tools generate invalid HTML output
ɷ Forgiving browsers try to interpretinvalid input
<h2>Lousy HTML</h1>
<li><a>This is not very</b> good.
<li><i>In fact, it is quite bad</em>
</ul>
But the browser does <a naem="goof">something.
28
An Introduction to XML and Web Technologies
Problems 
Problems 
with
with
Invalidity
Invalidity
ɷ There are severaldifferentbrowsers
ɷ Eachbrowsers has many differentimplementations
ɷ Eachimplementationmust interpretinvalid HTML
ɷ There are many arbitrary choices to make
ɷ The HTML standard has been undermined
ɷ HTML renders differently for most clients
8
29
An Introduction to XML and Web Technologies
A Standard for Invalid HTML
A Standard for Invalid HTML
ɷ The HTML Tidy tooltries to save thesituation
ɷ Invalid HTML is transformed to (almost) valid HTML
ɷ Still many arbitrary choices, but now we agree
<html>
<head>
<title></title>
</head>
<body>
<h2>Lousy HTML</h2>
<ul class="noindent">
<li><a>This is not very good.</a></li>
<li><i>In fact, it is quite bad</i></li>
</ul>
But the browser does <a naem="goof">something.</a>
</body>
</html>
<h2>Lousy HTML</h1>
<li><a>This is not very</b> good.
<li><i>In fact, it is quite bad</em>
</ul>
But the browser does <a naem="goof">something.
30
An Introduction to XML and Web Technologies
HTML for 
HTML for Recipes
Recipes
<h1>Rhubarb Cobbler</h1>
<h2>Wed, 4 Jun 95</h2>
This recipe is suggested d by Jane Dow.
Rhubarb Cobbler r made with h bananas as the main sweetener.
It was s delicious.
<table>
<tr><td> 2 1/2 cups <td> diced rhubarb
<tr><td> 2 tablespoons s <td> sugar
<tr><td> 2 <td> fairly y ripe bananas
<tr><td> 1/4 teaspoon <td> cinnamon
<tr><td> dash h of <td> nutmeg
</table>
<i>Combine all and use as cobbler, pie, or r crisp.</i>
<p>
This recipe has 170 calories, 28% from fat,
58% from carbohydrates, and 14% from protein.
<p>
Related recipes: <a href="#GardenQuiche">Garden Quiche</a>
is also yummy.
31
An Introduction to XML and Web Technologies
Limitations
Limitations
of
of
HTML
HTML
ɷ HTML is designed for hypertext, not for recipes
ɷ Structure and presentation is intertwined
ɷ HTML validation is less than recipe validation
ɷ HTML standards have been undermined
ɷ Weneed a specialRecipe MarkupLanguage!
32
An Introduction to XML and Web Technologies
Bytes vs. Characters
Bytes vs. Characters
ɷ HTML files are represented as text files
ɷ A text file is logically a sequence of characters
but physically a sequence of bytes
ɷ Several mappings exist:
• ASCII
• EBCDIC
• Unicode
ɷ Unicode aims to cover all characters in all past or 
present written languages
9
33
An Introduction to XML and Web Technologies
Unicode Characters
Unicode Characters
ɷ A character is a symbol that appears in a text
• letters of the alphabet
• pictograms (like ©)
• accents
ɷ Unicode characters are abstract entities:
•LATIN CAPITAL LETTER A
•LATIN CAPITAL LETTER A WITH RING ABOVE
•HIRAGANA LETTER SA
•RUNIC LETTER THURISAZ THURS THORN
34
An Introduction to XML and Web Technologies
Unicode Glyphs
Unicode Glyphs
ɷ A glyph is a graphical presentation
ɷ A typical example is: Å
ɷ This may represent several characters:
•LATIN CAPITAL LETTER A WITH RING ABOVE
•ANGSTROM SIGN
ɷ Or even a sequence of characters:
•LATIN CAPITAL LETTER A
COMBINING RING ABOVE
ɷ Some characters even result in several glyphs
35
An Introduction to XML and Web Technologies
Unicode Code Points
Unicode Code Points
ɷ A code point is a unique number assigned to 
every Unicode character
ɷ Code points are between 0 and 1,114,112
ɷ Only around 100,000 are used today
ɷ The character HIRAGANA LETTER SA is 
assigned the code point 12,373
ɷ Code point 0 through 127 coincide with ASCII
ɷ Some code point are never assigned
36
An Introduction to XML and Web Technologies
Unicode Character Encoding
Unicode Character Encoding
ɷ A character encoding interprets a sequence of 
bytes as a sequence of code points
ɷ The bytes are first parsed into code units
ɷ Code units have a fixed length
ɷ One or more code units may be required to 
denote a code point
ɷ Examples are UTF-8, UTF-16, UTF-32
10
37
An Introduction to XML and Web Technologies
UTF
UTF
-
-
8
8
ɷ A code unit is a single byte
ɷ A code point is from 1 to 4 code units
ɷ Code units between 0 and 127 directly represent 
the corresponding code points
ɷ 110XXXXX indicates that 2 code units are used
ɷ 1110XXXX indicates that 3 code units are used
ɷ 11110XXX indicates that 4 code units are used
ɷ The remaining code units looks like 10XXXXXX
38
An Introduction to XML and Web Technologies
UTF
UTF--8 Example
8 Example
ɷ 11100011 10000001 10010101
ɷ 11100011 10000001 10010101
ɷ 11000001010101
ɷ 12,373
ɷ HIRAGANA LETTER SA
39
An Introduction to XML and Web Technologies
UTF
UTF
-
-
16
16
ɷ A code unit consists of 2 bytes
ɷ Code points below 65,536 are in a single code unit
ɷ Higher code points are represented as:
•110110XXXXXXXXXX 110111XXXXXXXXXX
(after subtracting 65,536)
ɷ This makes sense because Unicode assign no 
code points between the numbers: 
1101100000000000 (55,296)
and 
1101111111111111 (57,343)
40
An Introduction to XML and Web Technologies
Byte Order
Byte Order
ɷ When reading several bytes at once, we must 
consider the byte order of the architecture
ɷ UTF-16 starts any text with the special code point:
1111111011111111 (65,279)
called zero-width non-breaking space
ɷ The dual code point
1111111111111110 (65,534)
is never assigned
ɷ UTF-16LE and UTF-16BE may avoid this
Documents you may be interested
Documents you may be interested