pdf viewer control in asp net c# : Add picture to pdf form SDK control project wpf azure html UWP PDF32000_200858-part2378

© 
Adobe Systems Incorporated 2008 – All rights reserved
573
PDF 32000-1:2008
>>
/K  [ 1  2 ]
% Marked-content sequences 1 and 2
>>
endobj
305  0  obj
% Attribute class
<<  /O  /Layout
% Owned by Layout
/EndIndent 0
/StartIndent 0
/WritingMode /LrTb
/TextAlign /Start
>>
endobj
400  0  obj
% Parent tree
<<  /Nums  [  0  401 0 R
% Parent elements for first page
 402 0 R
% Parent elements for second page
 ]
>>
endobj
401  0  obj
% Array of parent elements for first page
 302 0 R
% Parent of marked-content sequence 0
 303 0 R
% Parent of marked-content sequence 1
]
endobj
402  0  obj
% Array of parent elements for second page
 303 0 R
% Parent of marked-content sequence 0
 304 0 R
% Parent of marked-content sequence 1
 304 0 R
% Parent of marked-content sequence 2
]
endobj
403  0  obj
% ID tree root node
<<  /Kids  [ 404 0 R ]  >>
% Reference to leaf node
endobj
404  0  obj
% ID tree leaf node
<<  /Limits
[  ( Chap1 )  ( Sec1.3 )  ]
% Least and greatest keys in tree
/Names [  ( Chap1 )  301 0 R
% Mapping from element identifiers
 ( Sec1.1 )  302 0 R
    to structure elements
( Sec1.2 )  303 0 R
( Sec1.3 )  304 0 R
]
>>
endobj
14.8 Tagged PDF
14.8.1
General
Tagged PDF (PDF 1.4) is a stylized use of PDF that builds on the logical structure framework described in 14.7, 
“Logical  Structure.”  It defines  a  set  of standard  structure  types and  attributes that  allow  page content  (text, 
graphics, and images) to be extracted  and reused for other purposes. A  tagged PDF document is one that 
conforms to the rules described in this sub-clause. A conforming writer is not required to produce tagged PDF 
documents; however, if it does, it shall conform to these rules.
NOTE 1
It is intended for use by tools that perform the following types of operations: 
• Simple extraction of text and graphics for pasting into other applications 
Add picture to pdf form - insert images into PDF in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Sample C# code to add image, picture, logo or digital photo into PDF document page using PDF page editor control
acrobat insert image into pdf; acrobat insert image in pdf
Add picture to pdf form - VB.NET PDF insert image library: insert images into PDF in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Guide VB.NET Programmers How to Add Images in PDF Document
add a picture to a pdf file; add picture to pdf online
PDF 32000-1:2008
574
© 
Adobe Systems Incorporated 2008 – All rights reserved
• Automatic reflow of text and associated graphics to fit a page of a different size than was assumed for the 
original layout 
• Processing text for such purposes as searching, indexing, and spell-checking 
• Conversion to other common file formats (such as HTML, XML, and RTF) with document structure and 
basic styling information preserved 
• Making content accessible to users with visual impairments (see 14.9, “Accessibility Support”)
A tagged PDF document shall conform to the following rules: 
Page  content (14.8.2, “Tagged PDF and Page Content”). Tagged PDF defines a set of rules for 
representing text in the page content so that characters, words, and text order can be determined reliably. 
All text shall be represented in a form that can be converted to Unicode. Word breaks shall be represented 
explicitly. Actual content shall  be  distinguished from  artifacts  of layout and pagination.  Content  shall be
given in an order related to its appearance on the page, as determined by the conforming writer. 
basic layout model  (14.8.3,  “Basic  Layout  Model”).  A  set  of  rules  for  describing the  arrangement  of 
structure elements on the page.
Structure types (14.8.4, “Standard Structure Types”). A set of standard structure types define the meaning 
of structure elements, such as paragraphs, headings, articles, and tables. 
Structure attributes (14.8.5, “Standard Structure Attributes”). Standard structure attributes preserve styling 
information used by the conforming writer in laying out content on the page. 
A Tagged PDF document shall also contain a mark information dictionary (see Table 321) with a value of true
for the Marked entry.
NOTE 2
The types and attributes defined for Tagged PDF are intended to provide a set of standard fallback roles and 
minimum guaranteed attributes to enable conforming readers to perform operations such as those mentioned 
previously. Conforming writers are free to define additional structure types as long as they also provide a role 
mapping  to  the  nearest  equivalent  standard  types,  as  described  in  14.7.3,  “Structure  Types.”  Likewise,
conforming writers can define additional structure attributes using any of the available extension mechanisms. 
14.8.2
Tagged PDF and Page Content
14.8.2.1
General
Like  all PDF documents, a Tagged PDF document consists of a sequence of self-contained pages, each of 
which shall be described by one or more page content streams (including any subsidiary streams such as form 
XObjects and annotation appearances). Tagged PDF defines some  further rules for organizing and marking 
content streams so that additional information can be derived from them: 
Distinguishing between the author’s original content and artifacts of the layout process (see 14.8.2.2, “Real 
Content and Artifacts”).
Specifying a content order to guide the layout process if the conforming reader reflows the page content
(see 14.8.2.3, “Page Content Order”).
Representing text in a form from which a Unicode representation and information about font characteristics 
can be unambiguously derived (see 14.8.2.4, “Extraction of Character Properties”).
Representing word breaks unambiguously (see 14.8.2.5, “Identifying Word Breaks”).
Marking  text  with  information  for  making  it  accessible  to  users  with  visual  impairments  (see  14.9, 
“Accessibility Support”).
VB.NET Image: Image Cropping SDK to Cut Out Image, Picture and
VB.NET image cropping method to crop picture / photo; size of created cropped image file, add antique effect Public Partial Class Form1 Inherits Form Public Sub
add an image to a pdf with acrobat; how to add an image to a pdf file
VB.NET Image: Image Scaling SDK to Scale Picture / Photo
VB.NET DLLs to Scale Image / Picture. There are two this VB.NET image scaling control add-on, we RE__Test Public Partial Class Form1 Inherits Form Public Sub New
how to add image to pdf document; add jpg signature to pdf
© 
Adobe Systems Incorporated 2008 – All rights reserved
575
PDF 32000-1:2008
14.8.2.2
Real Content and Artifacts
14.8.2.2.1
General
The graphics objects in a document can be divided into two classes: 
The real content  of  a  document  comprises  objects  representing  material  originally  introduced  by  the 
document’s author.
Artifacts are graphics objects that are not part of the author’s original content but rather are generated by 
the conforming writer in the course of pagination, layout, or other strictly mechanical processes. 
NOTE
Artifacts may also be used to describe areas of the document where the author uses a graphical background, 
with  the  goal  of  enhancing  the  visual  experience.  In  such  a  case,  the  background  is  not  required  for 
understanding the content.
The document’s logical structure encompasses all graphics objects making up the real content and describes 
how those objects relate  to one another.  It  does  not  include  graphics objects that  are  mere artifacts of the 
layout and production process.
A document’s real content includes not only the page content stream and subsidiary form XObjects but also 
associated annotations that meet all of the following conditions: 
The annotation has an appearance stream (see 12.5.5, “Appearance Streams”) containing a normal (N) 
appearance. 
The annotation’s Hidden flag (see 12.5.3, “Annotation Flags”) is not set. 
The annotation is included in the document’s logical structure (see 14.7, “Logical Structure”). 
14.8.2.2.2
Specification of Artifacts
An artifact shall be explicitly distinguished from real content by enclosing it in a marked-content sequence with 
the tag Artifact: 
/Artifact
/Artifact  propertyList
BMC
BDC
or
EMC
EMC
The  first form  shall  be  used  to identify a generic  artifact; the second  shall be  used  for those  that have  an 
associated property list. Table 330 shows the properties that can be included in such a property list. 
NOTE 1
To  aid in  text  reflow,  artifacts should be defined  with  property lists whenever  possible. Artifacts lacking  a 
specified bounding box are likely to be discarded during reflow. 
Table 330 –  Property list entries for artifacts  
Key
Type
Value
Type
name
(Optional) The type of artifact that this property list describes; if present, 
shall  be  one  of  the  names PaginationLayout, Page,  or (PDF 1.7)
Background
BBox
rectangle
(Optional; required for background artifacts) An array of four numbers in 
default user space units giving the coordinates of the left, bottom, right, 
and top edges, respectively, of the artifact’s bounding box (the rectangle 
that completely encloses its visible extent). 
C# TIFF: How to Insert & Burn Picture/Image into TIFF Document
Support adding image or picture to an existing or new new REImage(@"c:\ logo.png"); // add the image powerful & profession imaging controls, PDF document, tiff
add photo pdf; add jpeg to pdf
VB.NET Image: Image Resizer Control SDK to Resize Picture & Photo
NET Method to Resize Image & Picture. Here we this VB.NET image resizer control add-on, can provide powerful & profession imaging controls, PDF document, image
add photo to pdf file; add image to pdf form
PDF 32000-1:2008
576
© 
Adobe Systems Incorporated 2008 – All rights reserved
The following types of artifacts can be specified by the Type entry:
Pagination artifacts. Ancillary page features such as running heads and folios (page numbers). 
Layout artifacts. Purely cosmetic typographical or design elements such as footnote rules or background 
screens. 
Page artifacts. Production aids extraneous to the document itself, such as cut marks and colour bars. 
Background artifacts. Images, patterns or coloured blocks that either run the entire length and/or width of 
the  page  or  the  entire  dimensions  of  a  structural  element.  Background  artifacts  typically  serve  as  a 
background for content shown either on top of or placed adjacent to that background.
A background artifact can further be classified as visual content that serves to enhance the user experience, 
that lies under the actual content, and that is not required except to retain visual fidelity. 
NOTE 2
Examples of this include a coloured background, pattern, blend, or image that resides under main body text. In 
the case of white text on a black background, the black background is absolutely necessary to be able to read 
the white text; however, the background itself is merely there to enhance the visual experience. However, a 
draft or other identifying watermark is classified as a pagination artifact because it does not serve to enhance 
the experience; rather, it serves as a running artifact typically used on every page in the document. As a further 
example, a Figure differs from a background artifact in that removal of the graphics objects from a Figure 
would detract from the overall contextual understanding of the Figure as an entity.
• Tagged conforming readers may have their own ideas abo
ut what page content to consider relevant. A 
text-to-speech engine, for instance, probably should not speak running heads or page numbers when the 
page is turned. In general, conforming readers can do any of the following: 
• Disregard elements of page content (for example, specific types of artifacts) that are not of interest 
• Treat  some page elements as terminals  that are not to be examined further  (for example, to treat  an 
illustration as a unit for reflow purposes) 
• Replace an element with alternate text (see 14.9.3, “Alternate Descriptions”) 
NOTE 3
Depending  on  their  goals,  different  conforming  readers  can  make  different  decisions  in  this  regard.  The 
purpose of Tagged PDF is not to prescribe what the conforming reader should do, but to provide sufficient 
declarative  and descriptive  information  to allow  it  to make appropriate choices about  how  to process the 
content. 
To  support conforming  readers in  providing  accessibility  to  users  with  disabilities,  Tagged  PDF  documents 
should  use  the  natural  language  specification  (Lang),  alternate  description  (Alt),  replacement  text 
(ActualText), and abbreviation expansion text (E) facilities described in 14.9, “Accessibility Support.” 
Attached
array
(Optional; pagination and full-page background artifacts only) An array of 
name objects containing one to four of the names Top, Bottom, Left, and 
Right,  specifying the edges of the page, if any, to which the artifact is 
logically attached. Page edges shall be defined by the page’s crop box 
(see 14.11.2, “Page Boundaries”). The ordering of names within the array 
is  immaterial.  Including  both  Left  and  Right  or  both  Top  and  Bottom 
indicates a full-width or full-height artifact, respectively.
Use  of  this  entry  for  background  artifacts  shall be  limited  to  full-page 
artifacts. Background artifacts that are not full-page take their dimensions 
from their parent structural element. 
Subtype
name
(Optional; PDF 1.7) The subtype of the artifact. This entry should appear 
only when the Type entry has a value of Pagination. Standard values are 
Header, Footer, and 
Watermark.  Additional  values  may  be specified for  this  entry, provided 
they comply with the naming conventions described in Annex E.
Table 330 –  Property list entries for artifacts  (continued)
Key
Type
Value
VB.NET Image: How to Save Image & Print Image Using VB.NET
of saving and printing multi-page document files, like PDF and Word, in assembly with VB.NET web image viewer add-on, you VB.NET Method to Save Image / Picture.
adding jpg to pdf; adding image to pdf in preview
VB.NET PowerPoint: Add Image to PowerPoint Document Slide/Page
image, clip art or screenshot, the picture will be AddPage", "InsertPage" and "DeletePage" to add, insert or & profession imaging controls, PDF document, tiff
how to add image to pdf; add image to pdf online
© 
Adobe Systems Incorporated 2008 – All rights reserved
577
PDF 32000-1:2008
14.8.2.2.3
Incidental Artifacts
In addition to objects that are explicitly marked as artifacts and excluded from the document’s logical structure, 
the  running  text  of  a  page  may  contain  other  elements  and  relationships  that  are  not  logically  part  of  the 
document’s real content, but merely incidental results of the process of laying out that content into a document. 
They may include the following elements:
Hyphenation. Among the artifacts introduced by text layout is the hyphen marking the incidental division of 
a word at the end of a line. In Tagged PDF, such an incidental word division shall be represented by a soft 
hyphen character, which the Unicode mapping algorithm (see “Unicode Mapping in Tagged PDF” in 
14.8.2.4, “Extraction of Character Properties”) translates to the Unicode value U+00AD. (This character is 
distinct from an ordinary hard hyphen, whose Unicode value is U+002D.) The producer of a Tagged PDF 
document shall distinguish explicitly between soft and hard hyphens so that the consumer does not have 
to guess which type a given character represents.
NOTE 1
In  some  languages,  the  situation  is  more  complicated:  there  may  be  multiple  hyphen  characters,  and 
hyphenation may change the spelling of words. See the Example in 14.9.4, “Replacement Text.”
Text discontinuities. The running text of a page, as expressed in page content order (see 14.8.2.3, “Page 
Content  Order”),  may  contain  places  where  the  normal  progression  of  text  suffers  a  discontinuity. 
Conforming readers may recognize such discontinuities by examining the document’s logical structure. 
NOTE 2
For example, the page may contain the beginnings of two separate articles (see 12.4.3, “Articles”), each of 
which is continued onto a later page of the document. The last words of the first article appearing on the page 
should not be run together with the first words of the second article.
Hidden page elements. For a variety of reasons, elements of a document’s logical content may be invisible 
on the page: they may be clipped, their colour may match the background, or they may be obscured by 
other, overlapping objects. For the purposes of Tagged PDF, page content shall be considered to include 
all  text  and  illustrations  in  their  entirety,  regardless  of  whether  they  are  visible  when  the  document  is 
displayed or printed. 
NOTE 3
For example, formerly invisible elements may become visible when a page is reflowed, or a text-to-speech 
engine may choose to speak text that is not visible to a sighted reader.
14.8.2.3
Page Content Order
14.8.2.3.1
General
When dealing with material on a page-by-page basis, some Tagged PDF conforming readers may choose to 
process elements  in page content order,  determined by the sequencing  of graphics objects within a  page’s 
content stream and of characters within a text object, rather than in the logical structure order defined by a 
depth-first traversal of the page’s logical structure hierarchy. The two orderings are logically distinct and may or 
may not coincide. In particular, any artifacts the page may contain shall be included in the page content order 
but not in the logical structure order, since they are not considered part of the document’s logical structure. The
conforming writer is responsible for establishing both an appropriate page content order for each page and an 
appropriate logical structure hierarchy for the entire document. 
Because  the primary requirement for page  content  order is to enable  reflow to maintain elements in proper 
reading  sequence,  it should  normally  (for  Western  writing  systems)  proceed  from  top  to  bottom  (and,  in  a 
multiple-column layout,  from  column to  column), with artifacts in  their correct relative  places. In  general, all 
parts of an article that appear on a given page should be kept together, even if the article flows to scattered 
locations on the page. Illustrations or footnotes may be interspersed with the text of the associated article or 
may appear at the end of its content (or, in the case of footnotes, at the end of the entire page’s logical content). 
In some situations, conforming  writer  may  be  unable  to determine correct  page  content order  for  part of a 
document’s contents. In such cases, tag suspects (PDF 1.6) can be used. The conforming writer shall identify 
suspect content by using marked content (see 14.6, “Marked Content”) with a tag of TagSuspect, as shown in 
next Example. The marked content shall have a properties dictionary with an entry whose name is TagSuspect
C# Image: How to Add Antique & Vintage Effect to Image, Photo
function to add antique charm to picture & photo C#.NET antique effect creating control add-on is powerful & profession imaging controls, PDF document, tiff
add jpg to pdf form; add photo to pdf form
VB.NET Image: VB.NET Codes to Add Antique Effect to Image with .
mature technology to replace a picture's original colors add the glow and noise, and add a little powerful & profession imaging controls, PDF document, image
add image pdf acrobat; adding image to pdf file
PDF 32000-1:2008
578
© 
Adobe Systems Incorporated 2008 – All rights reserved
and whose value is Ordering, which indicates that the ordering of the enclosed marked content does not meet 
Tagged PDF specifications.
NOTE
This can occur, for example, if content was extracted from another application, or if there are ambiguities or 
missing information in text output.
EXAMPLE
/TagSuspect <</TagSuspect /Ordering>> 
BDC
....
% Problem page contents
EMC
Documents containing tag suspects shall contain a Suspects entry with a value of true  in the mark information 
dictionary (see Table 321). 
14.8.2.3.2
Sequencing of Annotations
Annotations associated with a page are not interleaved within the page’s content stream but shall be placed in 
the Annots array in  its  page  object  (see 7.7.3.3, “Page Objects”). Consequently,  the  correct position  of an 
annotation in the page content order is not readily apparent but shall be determined from the document’s logical 
structure. 
Both page content  (marked-content  sequences)  and  annotations  may be  treated  as  content items  that  are 
referenced from structure elements (see 14.7.4, “Structure Content”). Structure elements of type Annot (PDF 
1.5), Link, or Form (see 14.8.4.4, “Inline-Level Structure Elements,” and 14.8.4.5, “Illustration Elements”) 
explicitly specify the association between a marked-content sequence and a corresponding annotation. In other 
cases, if the structure element corresponding to an annotation immediately precedes or follows (in the logical 
structure order) a structure element corresponding to a marked-content sequence, the annotation is considered 
to precede or follow the marked-content sequence, respectively, in the page content order. 
NOTE
If necessary,  a  conforming writer may introduce  an empty marked-content sequence solely to  serve as a 
structure element for the purpose of positioning adjacent annotations in the page content order. 
14.8.2.3.3
Reverse-Order Show Strings
NOTE 1
In writing systems that are read from right to left (such as Arabic or Hebrew), one might expect that the glyphs 
in  a font  would  have their origins  at  the  lower  right  and their widths  (rightward horizontal  displacements) 
specified as negative. For various technical and historical reasons, however, many such fonts follow the same 
conventions as those designed for Western writing systems, with glyph origins at the lower left and positive 
widths, as shown in Figure 39. Consequently, showing text in such right-to-left writing systems requires either 
positioning each glyph individually (which is tedious and costly) or representing text with show strings (see 9.2, 
“Organization and Use of Fonts”) whose character codes are given in reverse order. When the latter method is 
used, the character codes’ correct page content order is the reverse of their order within the show string. 
The  marked-content  tag  ReversedChars informs  the  conforming reader  that  show strings within a marked-
content  sequence  contain  characters  in  the  reverse  of  page  content  order.  If  the  sequence  encompasses 
multiple show strings, only the individual characters within each string shall be reversed; the strings themselves 
shall be in natural reading order. 
EXAMPLE
The sequence
/ReversedChars
BMC
(  olleH )  Tj
200  0  Td
( . dlrow )  Tj
EMC
represents the text
Hello world .
© 
Adobe Systems Incorporated 2008 – All rights reserved
579
PDF 32000-1:2008
The show strings may have a SPACE (U+0020) character at the beginning or end to indicate a word break (see 
14.8.2.5, “Identifying Word Breaks”) but shall not contain interior SPACEs. 
NOTE 2
This limitation is not serious, since a SPACE provides an opportunity to realign the typography without visible 
effect, and it serves the valuable purpose of limiting the scope of reversals for word-processing conforming 
readers. 
14.8.2.4
Extraction of Character Properties
14.8.2.4.1
General
Tagged  PDF  enables  character  codes  to  be  unambiguously  converted  to  Unicode  values  representing  the 
information  content  of  the  text.  There  are  several  methods  for  doing  this;  a  Tagged  PDF  document  shall
conform to at least one of them (see “Unicode Mapping in Tagged PDF” in 14.8.2.4, “Extraction of Character 
Properties”). In addition, Tagged PDF enables some characteristics of the associated fonts to be deduced (see 
“Font Characteristics” in 14.8.2.4, “Extraction of Character Properties”). 
NOTE
These Unicode values and font characteristics can then be used for such operations as cut-and-paste editing, 
searching, text-to-speech conversion, and exporting to other applications or file formats. 
14.8.2.4.2
Unicode Mapping in Tagged PDF
Tagged PDF requires that every character code in a document can be mapped to a corresponding Unicode 
value. 
NOTE 1
Unicode defines scalar values for most of the characters used in the world’s languages and writing systems, as 
well as providing a private use  area for application-specific  characters. Information about Unicode  can be 
found in the Unicode Standard, by the Unicode Consortium (see the Bibliography). 
The methods for mapping a character code to a Unicode value are described in 9.10.2, “Mapping Character 
Codes to Unicode Values.” A conforming writer shall ensure that the PDF file contains enough information to 
map all character codes to Unicode by one of the methods described there. 
NOTE 2
An AltActualText, or E entry specified in a structure element dictionary or a marked-content property list (see 
14.9.3,  “Alternate Descriptions,”  14.9.4, “Replacement Text,”  and 14.9.5, “Expansion  of Abbreviations and 
Acronyms”) may affect the character stream that some conforming readers actually use. For example, some 
conforming readers may  choose to  use the Alt or ActualText value and ignore all text  and other content 
associated with the structure element and its descendants. 
NOTE 3
Some uses of Tagged PDF require characters that may not be available in all fonts, such as the soft hyphen 
(see 14.8.2.2.3, “Incidental Artifacts”). Such characters may be represented either by adding them to the font’s 
encoding  or  CMap  and  using ToUnicode  to  map  them  to  appropriate  Unicode  values,  or  by  using  an 
ActualText entry in the associated structure element to provide substitute characters. 
14.8.2.4.3
Font Characteristics
In  addition  to  a  Unicode  value,  each  character  code  in  a  content  stream  has  an  associated  set  of  font 
characteristics. These characteristics are not specified explicitly in the PDF file. Instead, the conforming reader 
derives  the  characteristics  from  the  font  descriptor  for  the  font  that  is  set  in  the  text  state  at  the  time  the 
character is shown.
NOTE
These characteristics are useful when exporting text to another application or file format that has a limited 
repertoire of available fonts. 
Table 331 lists a common set of font characteristics corresponding to those used in CSS and XSL; the W3C 
document Extensible Stylesheet Language (XSL) 1.0 provides more information (see the Bibliography). Each 
of the characteristics shall be derived from information available in the font descriptor’s Flags entry (see 9.8.2, 
“Font Descriptor Flags”). 
PDF 32000-1:2008
580
© 
Adobe Systems Incorporated 2008 – All rights reserved
The characteristics shown in the table apply only to character codes contained in show strings within content 
streams. They do not exist for alternate description text (Alt), replacement text (ActualText), or abbreviation 
expansion text (E). 
For the standard 14 Type 1 fonts, the font descriptor may be missing; the well-known values for those fonts 
shall be used. 
Tagged PDF  in PDF 1.5 defines  a wider set of font  characteristics, which provide information needed when 
converting PDF to other files formats such as RTF, HTML, XML, and OEB, and also improve accessibility and 
reflow of tables. Table 332 lists these font selector attributes  and shows how their values shall be derived. 
If the FontFamilyFontWeight and FontStretch fields are not present in the font descriptor, these values shall be 
derived from the font name in a manner of the conforming reader’s choosing.
Table 331 –  Derivation of font characteristics  
Characteristic
Type
Derivation
Serifed
boolean
The value of the Serif flag in the font descriptor’s Flags entry 
Proportional
boolean
The complement of the FixedPitch flag in the font descriptor’s Flags
entry 
Italic
boolean
The value of the Italic flag in the font descriptor’s Flags entry 
Smallcap
boolean
The value of the SmallCap flag in the font descriptor’s Flags entry 
Table 332 –  Font selector attributes  
Attribute
Description 
FontFamily
A string specifying the preferred font family name. Derived from the FontFamily
entry in the font descriptor (see Table 122).
GenericFontFamily
A general font classification, used if FontFamily is not found. Derived from the 
font descriptor’s Flags entry as follows:
Serif
Chosen if the Serif flag is set and the FixedPitch and Script flags 
are not set
SansSerif
Chosen if the FixedPitch, Script and Serif flags are all not set
Cursive
Chosen if the Script flag is set and the FixedPitch flag is not set
Monospace Chosen if the FixedPitch flag is set
NOTE
The values Decorative and Symbol cannot be derived
FontSize
The size of the font: a positive number specifying the height of the typeface in 
points. Derived from the a, b, c, and d fields of the current text matrix.
FontStretch
The stretch value of the font. Derived from FontStretch in the font descriptor 
(see Table 122).
FontStyle
The italicization value of the font. It shall be Italic if the Italic flag is set in the 
Flags field of the font descriptor; otherwise, it shall be Normal.
FontVariant
The small-caps value of the font. It shall be SmallCaps if the SmallCap flag is set 
in the Flags field of the font descriptor; otherwise, it shall be Normal.
FontWeight
The weight (thickness) value of the font. Derived from FontWeight in the font 
descriptor (see Table 122).
The ForceBold flag and the StemV field should not be used to set this attribute.
© 
Adobe Systems Incorporated 2008 – All rights reserved
581
PDF 32000-1:2008
14.8.2.5
Identifying Word Breaks
NOTE 1
A  document’s  text  stream  defines  not  only  the  characters  in  a page’s  text  but  also  the words.  Unlike  a 
character, the notion of a word is not precisely defined but depends on the purpose for which the text is being 
processed. A reflow tool needs to determine where it can break the running text into lines; a text-to-speech 
engine needs to identify the words to be vocalized; spelling checkers and other applications all have their own 
ideas of what constitutes a word. It is not important for a Tagged PDF document to identify the words within the 
text stream according to a single, unambiguous definition that satisfies all of these clients. What is important is 
that there be enough information available for each client to make that determination for itself. 
 conforming  reader  of  a  Tagged  PDF  document  may  find  words  by  sequentially  examining  the  Unicode 
character  stream,  perhaps  augmented  by  replacement  text  specified  with ActualText  (see  14.9.4, 
“Replacement Text”). For this purpose the spacing  characters that would be present to separate words in a 
pure text representation shall be present in the Tagged PDF representation of the text. 
NOTE 2
The  conforming  reader does  not  need  to  guess  about word  breaks  based  on information  such  as  glyph 
positioning on the page, font changes, or glyph sizes.
NOTE 3
The identification of what constitutes a word is unrelated to how the text happens to be grouped into show 
strings. The division into show strings has no semantic significance. In particular, a SPACE (U+0020) or other 
word-breaking character is still needed even if a word break happens to fall at the end of a show string. 
NOTE 4
Some conforming readers may identify words by simply separating them at every SPACE character. Others 
may be slightly more  sophisticated and treat  punctuation marks such  as  hyphens  or em dashes as  word 
separators as well. Still others may identify possible line-break opportunities by using an algorithm similar to 
the one in Unicode Standard Annex #29, Text Boundaries, available from the Unicode Consortium (see the 
Bibliography). 
14.8.3
Basic Layout Model
The basic layout model begins with the notion of a reference area . This is a rectangular region used as a frame 
or  guide  in  which  to  place  the  document’s  content.  Some  of  the  standard  structure  attributes,  such  as 
StartIndent and  EndIndent (see 14.8.5.4.3, “Layout Attributes for BLSEs”), shall be measured from the 
boundaries of  the reference  area. Reference  areas are not specified explicitly but are inferred from  context. 
Those of interest are generally the column area or areas in a general text layout, the outer bounding box of a 
table and those of its component cells, and the bounding box of an illustration or other floating element. 
NOTE 1
Tagged PDF’s  standard structure types and attributes shall be interpreted in the  context of  a basic  layout 
model that describes the arrangement of structure elements on the page. This model is designed to capture 
the general intent of the document’s underlying  structure and does  not necessarily correspond to  the one 
actually used for page layout by the application creating the document. (The PDF content stream specifies the 
exact appearance.) The goal is to provide sufficient information for conforming readers  to  make their own 
layout decisions while preserving the authoring application’s intent as closely as their own layout models allow. 
NOTE 2
The Tagged PDF layout model resembles the ones used in markup languages such as HTML, CSS, XSL, and 
RTF, but does  not correspond exactly to  any  of them.  The  model  is deliberately defined  loosely  to allow 
reasonable  latitude  in  the  interpretation  of  structure  elements  and  attributes  when  converting  to  other 
document  formats.  Some  degree  of  variation  in  the  resulting  layout from  one  format  to another  is to  be 
expected. 
The  standard  structure  types are divided into  four main categories  according to the roles they  play in page 
layout: 
Grouping  elements (see 14.8.4.2, “Grouping Elements”) group other elements into sequences or 
hierarchies but hold no content directly and have no direct effect on layout. 
Block-level  structure  elements (BLSEs) (see 14.8.4.3, “Block-Level Structure Elements”) describe the 
overall layout of content on the page, proceeding in the block-progression direction. 
Inline-level structure elements (ILSEs) (see 14.8.4.4, “Inline-Level Structure Elements”) describe the layout 
of content within a BLSE, proceeding in the inline-progression direction . 
PDF 32000-1:2008
582
© 
Adobe Systems Incorporated 2008 – All rights reserved
Illustration elements (see 14.8.4.5, “Illustration Elements”) are compact sequences of content, in page 
content order, that are considered to be unitary objects with respect to page layout. An illustration can be 
treated as either a BLSE or an ILSE. 
The meaning of the terms block-progression direction and inline-progression direction  depends on the writing 
system  in  use,  as  specified  by  the  standard  attribute WritingMode  (see  14.8.5.4.2,  “General  Layout 
Attributes”). In Western writing systems, the block direction is from top to bottom and the inline direction is from 
left to right. Other writing systems use different directions for laying out content. 
Because the progression directions can vary depending on the writing system, edges of areas and directions 
on the page are identified by terms that are neutral with respect to the progression order rather than by familiar 
terms  such as updownleft, and right. Block layout proceeds from before to after, inline from start to end. 
Thus, for example, in Western writing systems, the before and after edges of a reference area are at the top 
and bottom, respectively, and the start and end edges are at the left and right. Another term, shift direction (the 
direction of shift for a superscript), refers to the direction opposite that for block progression—that is, from after 
to before (in Western writing systems, from bottom to top). 
BLSEs shall be stacked within a reference area in block-progression order. In general, the first BLSE shall be
placed against the before edge of the reference area. Subsequent BLSEs shall be stacked against preceding 
ones, progressing toward the after edge, until no more BLSEs fit in the reference area. If the overflowing BLSE 
allows itself to be split—such as a paragraph that can be split between lines of text—a portion of it may  be 
included in the current reference area and the remainder carried over to a subsequent reference area (either 
elsewhere on the same page or on another page of the document). Once the amount of content that fits in a 
reference area is determined, the placements of the individual BLSEs may be adjusted to bias the placement 
toward the before edge, the middle, or the after edge of the reference area, or the spacing within or between 
BLSEs may be adjusted to fill the full extent of the reference area. 
BLSEs may be nested, with child BLSEs stacked within a parent BLSE in the same manner as BLSEs within a 
reference  area.  Except  in a few  instances noted  (the BlockAlign and  InlineAlign  elements), such  nesting of 
BLSEs does not result in the nesting of reference areas; a single reference area prevails for all levels of nested 
BLSEs. 
Within a BLSE, child ILSEs shall be packed into lines . Direct content items—those that are immediate children 
of a BLSE rather than contained within a child ILSE—shall be implicitly treated as ILSEs for packing purposes. 
Each line shall be treated as a synthesized BLSE and shall be stacked within the parent BLSE. Lines may be 
intermingled with other BLSEs within the parent area. This line-building process is analogous to the stacking of 
BLSEs  within  a  reference  area,  except  that  it  proceeds  in  the  inline-progression  rather  than  the  block-
progression direction: a line shall be packed with ILSEs beginning at the start edge of the containing BLSE and 
continuing until the end edge shall be reached and the line is full. The overflowing ILSE may allow itself to be 
broken at linguistically determined or explicitly marked break points (such as hyphenation points within a word), 
and the remaining fragment shall be carried over to the next line. 
Certain values of an element’s Placement attribute remove the element from the normal stacking or packing 
process and allow it instead to float to a specified edge of the enclosing reference area or parent BLSE; see 
“General Layout Attributes” in 14.8.5.4, “Layout Attributes,” for further discussion. 
Two enclosing rectangles shall be associated with each BLSE and ILSE (including direct content items that are
treated implicitly as ILSEs): 
The content rectangle  shall be derived from the shape of the enclosed content  and defines the  bounds 
used for the layout of any included child elements. 
The allocation rectangle includes any additional borders or spacing surrounding the element, affecting how 
it shall be positioned with respect to adjacent elements and the enclosing content rectangle or reference 
area. 
The  definitions  of  these  rectangles  shall  be  determined  by  layout  attributes  associated  with  the  structure 
element; see 14.8.5.4.5, “Content and Allocation Rectangles” for further discussion.
Documents you may be interested
Documents you may be interested