open pdf file in new tab in asp.net c# : How to delete text from a pdf in acrobat software application dll windows html asp.net web forms PDFlib-manual8-part1376

4.4  Encoding Details 81
4.4 Encoding Details
4.4.1 8-Bit Encodings
Table 4.2 lists the predefined encodings in PDFlib, and details their use with several im-
portant classes of fonts. It is important to realize that certain scripts or languages have 
requirements which cannot be met by common fonts. For example, Acrobat’s core fonts 
do not contain all characters required for ISO 8859-2, while PostScript 3, OpenType Pro, 
and TrueType »big fonts« do.
Note The chartab example contained in the PDFlib distribution can be used to easily print character 
tables for arbitrary font/encoding combinations.
Notes on the macroman encoding. This encoding reflects the Mac OS character set, al-
beit with the old currency symbol at position 219 = 0xDB, and not the Euro glyph as re-
defined by Apple (this incompatibility is dictated by the PDF specification). Also, this 
encoding does not include the Apple glyph and the mathematical symbols as defined in 
the Mac OS character set. The macroman_euro encoding is identical to macroman except 
that position 219 = 0xDB holds the Euro glyph instead of the currency symbol.
Host encoding. The special encoding host does not have any fixed meaning, but will be 
mapped to another 8-bit encoding depending on the current platform as follows:
> on Mac OS 9 it will be mapped to macroman;
> on IBM eServer iSeries and zSeries with MVS or USS it will be mapped to ebcdic;
> on Windows, Linux, Mac OS X and all other systems it will be mapped to winansi;
Host encoding is primarily useful for writing platform-independent test programs (like 
those contained in the PDFlib distribution and other simple applications. Host encod-
ing is not recommended for production use, but should be replaced by whatever encod-
ing is appropriate.
Automatic encoding. PDFlib supports a mechanism which can be used to specify the 
most natural encoding for certain environments without further ado. Supplying the 
keyword auto as an encoding name specifies a platform- and environment-specific 8-bit 
encoding as follows:
> On Windows: the current system code page (see below for details)
> On Unix and Mac OS X: iso8859-1
> On Mac OS Classic: macroman
> On IBM eServer iSeries: the current job’s encoding (IBMCCSID000000000000)
> On IBM eServer zSeries: ebcdic (=code page 1047).
While automatic encoding is convenient in many circumstances, using this method will 
make your PDFlib client programs inherently non-portable.
Tapping system code pages. PDFlib can be instructed to fetch code page definitions 
from the system and transform it appropriately for internal use. This is very convenient 
since it frees you from implementing the code page definition yourself. Instead of sup-
plying the name of a built-in or user-defined encoding for PDF_load_font( ), simply use 
an encoding name which is known to the system. This feature is only available on se-
lected platforms, and the syntax for the encoding string is platform-specific:
How to delete text from a pdf in acrobat - delete, remove text from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
remove text watermark from pdf online; erase pdf text
How to delete text from a pdf in acrobat - VB.NET PDF delete text library: delete, remove text from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
how to delete text from pdf document; delete text from pdf online
82
Chapter 4:  Text Handling
Table 4.2 Predefined encodings and their use with several classes of fonts
code page
supported languages
PS Level 1/2, 
Acrobat 4/5
1
PostScript 3
2
OpenType 
Pro Fonts
»Big Fonts«, 
e.g., Tahoma
winansi
identical to cp1252, a superset of 
ISO 8859-1
yes
yes
yes
yes
macroman
Mac Roman encoding, i.e., the 
default Macintosh character set
yes
yes
yes
yes
macroman_
euro
similar to macroman, but includes 
the Euro glyph instead of currency
yes
yes
yes
yes
ebcdic
EBCDIC code page 1047
yes
yes
yes
yes
pdfdoc
PDFDocEncoding
yes
yes
yes
yes
iso8859-1 
(Latin-1)
Western European languages 
(implemented as winansi)
yes
yes
yes
yes
iso8859-2 
(Latin-2)
Slavic languages of Central Europe
no
yes
yes
yes
iso8859-3 
(Latin-3)
Esperanto and Maltese
no
no
yes
yes
iso8859-4 
(Latin-4)
Estonian, the Baltic languages, and 
Greenlandic
no
no
yes
yes
iso8859-5
Bulgarian, Russian, and Serbian
no
no
yes
yes
iso8859-6
Arabic
no
no
no
yes
iso8859-7
Modern Greek
no
no
1 missing
yes
iso8859-8
Hebrew and Yiddish
no
no
no
yes
iso8859-9 
(Latin-5)
Western European and Turkish
5 missing
yes
yes
yes
iso8859-10 
(Latin-6)
Nordic languages (variation of 
Latin-4)
no
no
1 missing
yes
iso8859-13 
(Latin-7)
Baltic languages
no
yes
yes
yes
iso8859-14 
(Latin-8)
Celtic
no
no
no
no
iso8859-15 
(Latin-9)
Adds the Euro and some French and 
Finnish characters to Latin-1
Euro missing
yes
yes
yes
iso8859-16 
(Latin-10)
Hungarian, Polish, Romanian, and 
Slovenian
no
yes
yes
yes
cp1250
Central European
no
yes
yes
yes
cp1251
Cyrillic
no
no
yes
yes
cp1252
Western European (implemented as 
winansi)
yes
yes
yes
yes
cp1253
Greek
no
no
1 missing
yes
cp1254
Turkish
5 missing
yes
yes
yes
cp1255
Hebrew
no
no
no
yes
cp1256
Arabic
no
no
no
5 missing
cp1257
Baltic
no
yes
yes
yes
cp1258
Viet Nam
no
no
no
yes
1. Original Adobe Latin character set (Type 1 Fonts since 1982)
2. Extended Adobe Latin character set (CE-Fonts) (Type 1 Fonts since PostScript 3)
.NET PDF Document Viewing, Annotation, Conversion & Processing
Redact text content, images, whole pages from PDF file. Annotate & Comment. Edit, update, delete PDF annotations from PDF file. Print.
how to remove highlighted text in pdf; how to delete text in pdf file online
C# PDF Converter Library SDK to convert PDF to other file formats
Allow users to convert PDF to Text (TXT) file. can manipulate & convert standard PDF documents in other external third-party dependencies like Adobe Acrobat.
delete text pdf file; how to erase text in pdf
4.4  Encoding Details 83
> On Windows the encoding name is cp<number>, where <number> is the number of 
any code page installed in the system:
PDF_load_font(p, "Helvetica", 0, "cp1250", "");
Single-byte code pages will be transformed into an internal 8-bit encoding, while 
multi-byte code pages will always be mapped to unicode. This means that all strings 
for page descriptions must be supplied in Unicode by the client programmer.
> On IBM eServer iSeries any Coded Character Set Identifier (CCSID) can be used. The 
CCSID must be supplied as a string, and PDFlib will apply the prefix IBMCCSID to the 
supplied code page number. PDFlib will also add leading 0 characters if the code page 
number uses fewer than 5 characters. Supplying 0 (zero) as the code page number 
will result in the current job’s encoding to be used:
PDF_load_font(p, "Helvetica", 0, "273", "");
> On IBM eServer zSeries with USS or MVS any Coded Character Set Identifier (CCSID) can 
be used. The CCSID must be supplied as a string, and PDFlib will pass the supplied 
code page name to the system literally without applying any change:
PDF_load_font(p, "Helvetica", 0, "IBM-273", "");
User-defined 8-bit encodings. In addition to predefined encodings PDFlib supports 
user-defined 8-bit encodings. These are the way to go if you want to deal with some 
character set which is not internally available in PDFlib, such as EBCDIC character sets 
different from the one supported internally in PDFlib. PDFlib supports encoding tables 
defined by PostScript glyph names, as well as tables defined by Unicode values.
The following tasks must be done before a user-defined encoding can be used in a 
PDFlib program (alternatively the encoding can also be constructed at runtime using 
PDF_encoding_set_char( )):
> Generate a description of the encoding in a simple text format.
> Configure the encoding in the PDFlib resource file (see Section 3.1.6, »Resource Con-
figuration and File Searching«, page 45) or via PDF_set_parameter( ).
> Provide a font (metrics and possibly outline file) that supports all characters used in 
the encoding.
The encoding file simply lists glyph names and numbers line by line. The following ex-
cerpt shows the start of an encoding definition:
% Encoding definition for PDFlib, based on glyph names
% name
code
Unicode (optional)
space
32
0x0020
exclam
33
0x0021
...
The next example shows a snippet from a Unicode code page:
% Code page definition for PDFlib, based on Unicode values
% Unicode
code
0x0020
32
0x0021
33
...
More formally, the contents of an encoding or code page file are governed by the follow-
ing rules:
C# powerpoint - PowerPoint Conversion & Rendering in C#.NET
documents in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat. PowerPoint to PDF Conversion.
how to delete text from a pdf; remove text from pdf online
C# Word - Word Conversion in C#.NET
Word documents in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat. Word to PDF Conversion.
how to delete text from a pdf document; delete text from pdf with acrobat
84
Chapter 4:  Text Handling
> Comments are introduced by a percent ’%’ character, and terminated by the end of 
the line.
> The first entry in each line is either a PostScript glyph name or a hexadecimal Uni-
code value composed of a 0x prefix and four hex digits (upper or lower case). This is 
followed by whitespace and a hexadecimal (0xoo–0xFF) or decimal (0–255) character 
code. Optionally, name-based encoding files may contain a third column with the 
corresponding Unicode value.
> Character codes which are not mentioned in the encoding file are assumed to be un-
defined. Alternatively, a Unicode value of 0x0000 or the character name .notdef can 
be provided for unused slots.
As a naming convention we refer to name-based tables as encoding files (*.enc), and Uni-
code-based tables as code page files (*.cpg), although PDFlib treats both kinds in the 
same way, and doesn’t care about file names. In fact, PDFlib will automatically convert 
between name-based encoding files and Unicode-based code page files whenever it is 
necessary. This conversion is based on Adobe’s standard list of PostScript glyph names 
(the Adobe Glyph List, or AGL
1
), but non-AGL names can also be used. PDFlib will assign 
free Unicode values to these non-AGL names, and adjusts the values when reading an 
OpenType font file which includes a mapping from glyph names to Unicode values.
The AGL is built into PDFlib, and contains more than 1000 glyph names. Encoding 
files are required for PostScript fonts with non-standard glyph names, while code pages 
are more convenient when dealing with Unicode-based TrueType or OpenType fonts.
4.4.2 Symbol Fonts and Font-specific Encodings
Since Symbol or logo fonts (also called pi fonts) do not usually contain standard charac-
ters they must use a different encoding scheme compared to text fonts.
The builtin encoding for PostScript fonts. The encoding name builtin doesn’t describe a 
particular character ordering but rather means »take this font as it is, and don’t mess 
with the character set«. This concept is sometimes called a »font-specific« encoding and 
is very important when it comes to non-text fonts (such as logo and symbol fonts). It is 
also widely used (somewhat inappropriately) for non-Latin text fonts (such as Greek 
and Cyrillic). Such fonts cannot be reencoded using one of the standard encodings since 
their character names don’t match those in these encodings. Therefore builtin must be 
used for all symbolic or non-text PostScript fonts, such as Symbol and ZapfDingbats. Non-
text fonts can be recognized by the following entry in their AFM file:
EncodingScheme FontSpecific
Text fonts can be reencoded (adjusted to a certain code page or character set), while 
symbolic fonts can’t, and must use builtin encoding instead.
The builtin encoding can not be used for user-defined (Type 3) fonts since these do 
not include any default encoding.
Note Unfortunately, many typographers and font vendors didn’t fully grasp the concept of font spe-
cific encodings (this may be due to less-than-perfect production tools). For this reason, there 
are many Latin text fonts labeled as FontSpecific encoding, and many symbol fonts incorrectly 
labeled as text fonts.
1. The AGL can be found at http://partners.adobe.com/asn/developer/type/glyphlist.txt 
VB.NET PDF: How to Create Watermark on PDF Document within
create a watermark that consists of text or image (such And with our PDF Watermark Creator, users need no external application plugin, like Adobe Acrobat.
erase text from pdf; delete text pdf preview
C# Windows Viewer - Image and Document Conversion & Rendering in
standard image and document in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat. Convert to PDF.
how to delete text in pdf preview; how to edit and delete text in pdf file online
4.4  Encoding Details 85
Builtin encoding for TrueType fonts. TrueType fonts with non-text characters, such as 
the Wingdings font, must be used with builtin encoding. If a font requires builtin encod-
ing but the client requested a different encoding PDFlib will enforce builtin encoding 
nevertheless.
Builtin encoding for OpenType fonts with PostScript outlines (*.otf). OTF fonts with 
non-text characters must be used with builtin encoding. Some OTF fonts contain an in-
ternal default encoding. PDFlib will detect this case, and dynamically construct an en-
coding which is suited for this particular font. The encoding name builtin will be modi-
fied to builtin_<fontname>. Although this new encoding name can be used in future calls 
to PDF_load_font( ) it is only reasonable for use with the same font.
4.4.3 Glyph ID Addressing for TrueType and OpenType Fonts
In addition to 8-bit encodings, Unicode, and CMaps PDFlib supports a method of ad-
dressing individual characters within a font called glyph id addressing. In order to use 
this technique all of the following requirements must be met:
> The font is available in the TrueType or OpenType format.
> The font must be embedded in the PDF document (with or without subsetting).
> The developer is familiar with the internal numbering of glyphs within the font.
Glyph ids (GIDs) are used internally in TrueType and OpenType fonts, and uniquely ad-
dress individual glyphs within a font. GID addressing frees the developer from any re-
striction in a given encoding scheme, and provides access to all glyphs which the font 
designer put into the font file. However, there is generally no relationship at all be-
tween GIDs and more common addresssing schemes, such as Windows encoding or Uni-
code. The burden of converting application-specific codes to GIDs is placed on the 
PDFlib user.
GID addressing is invoked by supplying the keyword glyphid as the encoding parame-
ter of PDF_load_font( ). GIDs are numbered consecutively from 0 to the last glyph id val-
ue, which can be queried with the fontmaxcode parameter.
4.4.4 The Euro Glyph
The symbol denoting the European currency Euro raises a number of is-
sues when it comes to properly displaying and printing it. In this section 
we’d like to give some hints so that you can successfully deal with the 
Euro character. First of all you’ll have to choose an encoding which in-
cludes the Euro character and check on which position the Euro is located. 
Some examples:
> With unicode encoding use the character U+20AC.
> In winansi encoding the location is 0x80 (hexadecimal) or 128 (decimal).
> The common iso8859-1 encoding does not contain the Euro character. However, the 
iso8859-15 encoding is an extension of iso8859-1 which adds the Euro character at 
0xA4 (hexadecimal) or 164 (decimal).
> The original macroman encoding, which is still the same in PDF, does not contain the 
Euro character. However, Apple modified this encoding and replaced the old curren-
cy glyph which the Euro glyph at 0xDB (hexadecimal) or 219 (decimal). In order to 
use this modified Mac encoding use macroman_euro instead of macroman.
C# Excel - Excel Conversion & Rendering in C#.NET
Excel documents in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat. Excel to PDF Conversion.
how to delete text in pdf acrobat; how to delete text in pdf converter
VB.NET PowerPoint: VB Code to Draw and Create Annotation on PPT
other documents are compatible, including PDF, TIFF, MS free hand, free hand line, rectangle, text, hotspot, hotspot more plug-ins needed like Acrobat or Adobe
delete text pdf file; how to delete text in pdf document
86
Chapter 4:  Text Handling
Next, you must choose a font which contains the Euro glyph. Many modern fonts in-
clude the Euro glyph, but not all do. Again, some examples:
> The built-in fonts in PostScript Level 1 and Level 2 devices do not contain the Euro 
character, while those in PostScript 3 devices usually do.
> If a font does not contain the Euro character you can use the Euro from the Symbol 
core font instead, which is located at position 0xA0 (hexadecimal) or 160 (decimal). It 
is available in the version of the Symbol font shipped with Acrobat 4.0 and above, 
and the one built into PostScript 3 devices.
4.5  Unicode Support 87
4.5 Unicode Support
PDFlib supports the Unicode standard
1
, almost identical to ISO 
10646, for a variety of features related to page content and hy-
pertext elements.
4.5.1 Unicode for Page Descriptions
Unicode strings can be supplied directly in page descriptions for 
use with the following kinds of fonts:
> PostScript fonts with unicode encoding. Up to 255 distinct Unicode values can be 
used. If more are requested they will be replaced with the space character. Since PFM 
metrics files support only winansi or builtin encoding, unicode encoding will always 
be mapped to winansi if a font with a PFM metrics file is used.
> TrueType and OpenType fonts with unicode encoding. For TrueType and OpenType 
fonts this will force font embedding.
> Standard CJK fonts with a Unicode-based CMap. Unicode-compatible CMaps are easi-
ly identified by the Uni prefix in their name (see Table 4.6). 
> Custom CJK fonts with unicode encoding.
In addition to unicode encoding PDFlib supports several other methods for selecting 
Unicode characters.
Unicode code pages for PostScript and TrueType fonts. PDFlib supports Unicode ad-
dressing for characters within the Adobe Glyph List (AGL). This kind of Unicode support 
is available for Unicode-based TrueType fonts and PostScript fonts with glyph names in 
the AGL.
This feature can be activating by using any of PDFlib’s internal code pages, or supply-
ing a suitable custom encoding or code page file (see Section 4.4.1, »8-Bit Encodings«, 
page 81).
8-Bit strings for addressing Unicode segments. PDFlib supports an abbreviated format 
which can be used to address up to 256 consecutive Unicode characters starting at an ar-
bitrary offset between U+0000 and U+FFFF. This can be used to easily access a small 
range of Unicode characters while still working with 8-bit characters.
This feature can be activated by using the string U+XXXX as the encoding parameter 
for PDF_load_font( ), where XXXX denotes a hexadecimal offset. The 8-bit character val-
ue will be added to the supplied offset. For example, using the encoding
U+0400
will select the Cyrillic Unicode section, and 8-bit strings supplied to the text functions 
will select the Unicode characters U+0400, U+0401, etc.
Proper Unicode values for cut-and-paste and find operations. PDFlib will include addi-
tional information (a ToUnicode CMap) in the PDF output which helps Acrobat in assign-
ing proper Unicode values for exporting text (e.g., via the clipboard) and searching for 
text. By default ToUnicode CMaps will be generated for all supported font types, but 
they can only be included if Unicode information is available for a given font/encoding 
1. See http://www.unicode.org 
88
Chapter 4:  Text Handling
combination. While this is case for most font/encoding combinations, user-defined 
Type 3 fonts, for example, may be missing Unicode information. In this case PDFlib will 
not be able to generate a ToUnicode CMap, and text export or searching will not work in 
Acrobat.
Generation of a ToUnicode CMap can be globally disabled with the unicodemap pa-
rameter, or on a per-font basis with the PDF_load_font( ) option of the same name. The 
default of this parameter/option is true. Setting it to false will decrease the output file 
size while potentially disabling proper cut-and-paste support in Acrobat.
4.5.2 Unicode Text Formats
The Unicode standard supports several transformation formats for storing the actual 
byte values which comprise a Unicode string. These vary in the number of bytes per 
character and the ordering of bytes within a character. Unicode strings in PDFlib can be 
supplied in UTF-8 or UTF-16 formats with any byte ordering. This can be controlled with 
the textformat parameter for all text on page descriptions, and the hypertextformat pa-
rameter for all hypertext elements. The following values are supported for both of these 
parameters:
> bytes: one byte in the string corresponds to one character. This is mainly useful for 8-
bit encodings.
> utf8: strings are expected in UTF-8 format.
> utf16: strings are expected in UTF-16 format. A Unicode Byte Order Mark (BOM) at the 
start of the string will be evaluated and then removed. If no BOM is present the 
string is expected in the machine’s native byte ordering (on Intel x86 architectures, 
for example, the native byte order is little-endian, while on Sparc and PowerPC sys-
tems it is big-endian).
> utf16be: Strings are expected in UTF-16 format in big-endian byte ordering. There is 
no special treatment for Byte Order Marks.
> utf16le: Strings are expected in UTF-16 format in little-endian byte ordering. There is 
no special treatment for Byte Order Marks.
> auto: equivalent to bytes for 8-bit encodings, and utf16 for wide-character addressing 
(unicode, glyphid, or a UCS2 CMap). This setting will provide proper text interpreta-
tion in most environments which do not use Unicode natively.
The default setting for the textformat parameter is utf16 for Unicode-capable language 
bindings, and auto otherwise.
Although the textformat setting is in effect for all encodings, it will be most useful for 
unicode encoding. Table 4.3 details the interpretation of text strings for various combi-
nations of font encodings and textformat settings.
Table 4.3 Relationship of font encodings and text format
font encoding
textformat = bytes
textformat = utf8, utf16, utf16be, or utf16le
8-bit, or builtin en-
coding for TTF/OTF
8-bit codes
convert Unicode values to 8-bit codes according to 
the chosen encoding
1
builtin encoding for 
PostScript
8-bit codes
only in Unicode-capable language bindings. PDFlib 
will throw an exception otherwise
U+XXXX
8-bit codes will be added to the off-
set XXXX to address Unicode values
convert Unicode values to 8-bit codes according to 
the chosen Unicode offset
glyphid
8-bit codes address glyph ids from 0 
to 255
Unicode values will be interpreted as glyph ids
2
4.5  Unicode Support 89
4.5.3 Unicode for Hypertext Elements
Unicode can be supplied for various hypertext elements, such as bookmarks, contents 
and title of note annotations (see Figure 4.1), standard and user-defined document in-
formation field contents, description and author of file attachments. For details on Uni-
code-enable hypertext items please review the respective function descriptions in Sec-
tion 7.9, »Hypertext Functions«, page 191.
Note The usability of Unicode in hypertext elements heavily depends on the Unicode support avail-
able on the target system. Unfortunately, most systems today are far from being fully Unicode-
enabled in their default configurations. Although Windows NT/2000/XP and Mac OS support 
Unicode internally, availability of appropriate Unicode fonts is still an issue.
Hypertext encoding. PDF supports only two encoding schemes for hypertext ele-
ments:
> Unicode in big-ending UTF-16 format.
> PDFDocEncoding, (see Figure 4.2), which is a superset of ISO 8859-1 (Latin 1). Although 
PDFDocEncoding and the Windows code page 1252 are quite similar, they differ sub-
stantially in the character range 128-160 (0x80–0xA0).
unicode and
UCS2-based CMaps
8-bit codes address Unicode values 
from U+0000 to U+00FF
any Unicode value, encoded according to the 
chosen text format
1
any other CMap
(not UCS2-based)
any single- or multibyte codes 
according to the chosen CMap
only in Unicode-capable language bindings. PDFlib 
will throw an exception otherwise
1.  If the Unicode character is not available in the font PDFlib will issue a warning and replace it with the space character. (this
can be controlled via the glyphwarning parameter).
2.  If the glyph id is not available in the font PDFlib will issue a warning and replace it with glyph id 0.
Table 4.3 Relationship of font encodings and text format
font encoding
textformat = bytes
textformat = utf8, utf16, utf16be, or utf16le
Fig. 4.1
Unicode bookmarks (left) and Unicode 
text annotations (right)
90
Chapter 4:  Text Handling
While PDF allows only Unicode and PDFDocEncoding, PDFlib supports all 8-Bit and Uni-
code-based encodings which are allowed for PDF_load_font( ), and will automatically ap-
ply any required conversions.
The hypertextencoding parameter works analogous to the encoding parameter of PDF_
load_font( ), and controls the 8-bit encoding of hypertext strings. It can attain any name 
of an 8-bit encoding known to PDFlib, including auto (see Section 4.4, »Encoding De-
tails«, page 81). Note that glyphid, builtin, and CMap names are not allowed for this pa-
rameter. The default is auto.
Hypertext format. Similar to the textformat parameter, the format of hypertext 
strings can be controlled with the hypertextformat parameter. However, interpretation 
of the allowed values is somewhat different for the hypertextformat parameter. While 
utf8, utf16, utf16be, and utf16le have the same meaning as for the textformat parameter, 
the behavior of bytes and auto is slightly different:
> auto: UTF-16 strings with big-endian BOM will be detected (in C such strings must be 
terminated with a double-null), and Unicode output will be generated. If the string 
does not start with a big-endian BOM it will be interpreted as an 8-bit encoded string 
according to the hypertextencoding parameter (see above). If it contains at least one 
character which is not contained in PDFDocEncoding, the complete string will be 
converted to a big-endian UTF-16 string, and written to the PDF output as Unicode. 
Otherwise it will be written to the PDF output as 8-bit encoded PDFDocEncoding text.
000
001
002
003
004
005
006
007
010
011
012
013
014
015
016
017
020
021
022
023
024
025
026
027
030
031
032
033
034
035
036
037
040
041
042
043
044
045
046
047
050
051
052
053
054
055
056
057
060
061
062
063
064
065
066
067
070
071
072
073
074
075
076
077
100
101
102
103
104
105
106
107
110
111
112
113
114
115
116
117
120
121
122
123
124
125
126
127
130
131
132
133
134
135
136
137
140
141
142
143
144
145
146
147
150
151
152
153
154
155
156
157
160
161
162
163
164
165
166
167
170
171
172
173
174
175
176
177
200
201
202
203
204
205
206
207
210
211
212
213
214
215
216
217
220
221
222
223
224
225
226
227
230
231
232
233
234
235
236
237
240
241
242
243
244
245
246
247
250
251
252
253
254
255
256
257
260
261
262
263
264
265
266
267
270
271
272
273
274
275
276
277
300
301
302
303
304
305
306
307
310
311
312
313
314
315
316
317
320
321
322
323
324
325
326
327
330
331
332
333
334
335
336
337
340
341
342
343
344
345
346
347
350
351
352
353
354
355
356
357
360
361
362
363
364
365
366
367
370
371
372
373
374
375
376
377
0 1 2 3 4 5 6 7 8 9 A B C D E F
0
1
H I J K L M N O
2
! " # $ % &  ( ) * + , - . /
3 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4 @ A B C D E F G H I J K L M N O
5 P Q R S T U V W X Y Z [ \ ] ^ _
6  a b c d e f g h i j k l m n o
7 p q r s t u v w x y z { | } ~
8                
9               
A
 
          
 
B                
C                
D                
E                
F                
Fig. 4.2
The PDFDocEncoding 
character set with hexa-
decimal and octal codes.
Documents you may be interested
Documents you may be interested