mvc view pdf : Convert pdf file to text document software SDK cloud windows winforms azure class mwg_guidance3-part1969

Guidelines For Handling Image Metadata 
Metadata Working Group 
Page 31 
TIFF file format 
Figure 9 - TIFF file format 
The TIFF IFD0 contains “Exif” (34665), “IPTC” (33723) and “XMP” (700) and SHOULD be used. The 
IPTC-IIM checksum is stored within the “PSIR” block (34377). 
PSD file format 
Figure 10 - PSD file format 
The respective PSIRs - “Exif” (1058), “IPTC” (1028) and “XMP” (1060) SHOULD be accessed directly 
to read and write the various metadata formats. 
Obviously, there are other file formats used by consumers including GIF, PNG, DNG, JPEG XR, etc. 
These files will not be discussed in this document. 
Convert pdf file to text document - software SDK cloud:C# PDF Convert to Text SDK: Convert PDF to txt files in, ASP.NET MVC, WinForms, WPF application
C# PDF to Text (TXT) Converting Library to Convert PDF to Text
Convert pdf file to text document - software SDK cloud:VB.NET PDF Convert to Text SDK: Convert PDF to txt files in, ASP.NET MVC, WinForms, WPF application
VB.NET Guide and Sample Codes to Convert PDF to Text in .NET Project
Guidelines For Handling Image Metadata 
Metadata Working Group 
Page 32 
Text encodings in read and write scenarios 
It is important to understand text encoding issues when reading and writing string metadata properties. 
The encoding defines the mapping between numerical byte values and user-readable glyphs. It also 
defines the limits on what glyphs of which languages a byte sequence can represent. It is critical to 
know the encoding of a string property in order to correctly display the string to the user. If a string is 
displayed with the wrong encoding it will likely appear as a nonsensical string of glyphs. 
The text encoding guidelines for writing metadata are simple and provide Unicode output in all cases. 
XMP metadata MUST be written as Unicode in the form appropriate to the file. For 
JPEG, TIFF and PSD files this is UTF-8. 
IPTC-IIM metadata MUST be written as UTF-8, and MUST include a 1:90 DataSet 
indicating the use of UTF-8. 
Exif tags documented in the Exif specification as type ASCII SHOULD be written as 
UTF-8. Note that 7-bit ASCII is a proper subset of UTF-8. They MAY be written as 7-
bit ASCII, with appropriate trimming for out of range bytes. These tags MUST NOT be 
written in some other encoding. 
Exif tags such as UserComment that have an encoding prefix SHOULD be written as 
ASCII if all bytes fit in the 7-bit range 0..127, and MUST be written in some other 
encoding if any byte is outside the 7-bit range. When not using ASCII, Unicode UTF-
16 SHOULD be written. The UTF-16 byte order nature SHOULD match the containing 
TIFF stream, big endian if the TIFF begins with “MM” and little endian if the TIFF 
begins with “II”. 
Of course, a device or application could have a mode of operation that writes text in other encodings 
for compatibility with older workflows. Such older workflows are, by definition, not MWG-compliant 
The text encoding guidelines for reading metadata recognize the desired Unicode and also 
accommodate other cases for IIM and Exif that might be written by non-compliant devices or 
XMP metadata MUST be read as Unicode in the form appropriate to the file. For 
JPEG, TIFF and PSD files this is UTF-8. 
IPTC-IIM metadata MUST be read as UTF-8 if a 1:90 DataSet is present indicating the 
use of UTF-8. 
IIM metadata MUST be read using the appropriate encoding if a 1:90 DataSet is 
present indicating the use of an encoding other than UTF-8, otherwise it MAY be 
IIM metadata SHOULD be read as described below when no 1:90 DataSet is present. 
Exif tags of type ASCII SHOULD be read as described below. 
Exif tags such as UserComment that have an encoding prefix MUST be read as UTF-
16 if the encoding is Unicode, and the UTF-16 byte order nature SHOULD be 
determined as described below. These tags SHOULD be read as described below if 
the encoding is ASCII. These tags MUST be read as JIS X208-1990 if the encoding is 
software SDK cloud:C# PDF Text Extract Library: extract text content from PDF file in
XDoc.PDF for .NET offers advanced & mature APIs for developers to extract text content from PDF document file in C#.NET class application.
software SDK cloud:VB.NET PDF Text Extract Library: extract text content from PDF
this advanced PDF Add-On, developers are able to extract target text content from source PDF document and save extracted text to other file formats through VB
Guidelines For Handling Image Metadata 
Metadata Working Group 
Page 33 
JIS, otherwise they MAY be ignored. These tags SHOULD be ignored if the encoding 
is Undefined. 
All Unicode characters MUST be allowed when reading or writing UTF-16. The use of 16-bit Unicode 
MUST NOT be restricted to the UCS-2 subset. 
A leading U+FEFF byte order mark (BOM) SHOULD be written as part of a UTF-16 value for Exif tags 
such as UserComment. A U+FEFF BOM SHOULD NOT be written for individual UTF-8 metadata 
items. A U+FEFF BOM SHOULD be ignored if encountered when reading UTF-16 or UTF-8, except 
for use in determining UTF-16 byte order as described below. A U+FEFF BOM SHOULD be removed 
from the value for encoding conversion, display, and editing purposes. 
The following heuristics SHOULD be applied when an 8-bit character encoding is not known. This 
applies to the case of IIM without a 1:90 DataSet, to Exif tags of type ASCII, and to Exif tags such as 
UserComment when the encoding is reported as ASCII. 
If all bytes are in the range 0..127 then the encoding is ASCII. 
If the entire sequence is valid UTF-8 then the encoding is UTF-8. 
Otherwise assume some reasonable fallback encoding, or ignore the value. 
The choice of a reasonable fallback encoding is application and workflow dependent. It can be 
determined by querying the locale information of the host device or the user's preference. 
It is also worth mentioning that a byte sequence appearing to be valid UTF-8 is not 100% guaranteed 
to actually be UTF-8. There are possible edge cases where other encodings might produce such a 
byte sequence. Nevertheless, the UTF-8 test is highly reliable and allowing use of UTF-8 as described 
above is very beneficial to users. 
The following heuristics SHOULD be applied when the big or little endian nature of UTF-16 text needs 
to be determined. These apply to a single item at a time, not uniformly to all UTF-16 text. 
If a leading U+FEFF BOM is present, that indicates the byte order. 
If only one of the byte orders is valid UTF-16, the valid form is the byte order. This 
MUST take into account surrogate pairs, and it MAY take into account specific invalid 
Unicode characters. 
Count the number of unique values in the first and second bytes of the 16-bit storage 
units. The correct byte order is the one with the fewer unique values in the high order 
Otherwise use the overall TIFF stream byte order. 
Time-zone handling 
The handling of date/time values, and especially time zones, is conceptually easy but requires some 
care to avoid confusing users. The potential problems typically stem from the differing representations 
of date/time values in Exif and XMP. (For our purposes here the Exif sub-seconds portions are ignored, 
but they are, of course, taken into account in software conversions.) 
software SDK cloud:VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
All object data. File attachment. Hidden layer content. Convert smooth lines to curves. VB.NET Demo Code to Optimize An Exist PDF File in Visual C#.NET Project.
software SDK cloud:C# PDF File Split Library: Split, seperate PDF into multiple files
Visual C# .NET PDF document splitter control toolkit SDK can not only offer C# developers a professional .NET solution to split PDF document file but also
Guidelines For Handling Image Metadata 
Metadata Working Group 
Page 34 
Exif date/time values such as DateTimeOriginal do not contain time zone information. The camera is 
presumably in an appropriate local time when a photograph is taken, but there is no indication in the 
Exif metadata of what that time zone was. The photograph's time zone MUST NOT be presumed to be 
the same as that of a computer later used to process the photograph. 
The XMP specification formats date/time values according to the Date and Time (W3C) document. In 
this standard, a time zone designator is required if any time information is present. A date-only value is 
allowed. The XMP specification has been recently revised to make the time zone designator be 
The representation of time zone as an offset from UTC can be ambiguous with regard to daylight 
savings time (DST). While date information can provide a strong hint, the use of DST is not universal 
and the date checking is complicated by changing rules for the start and end of DST in various 
locations. While these issues are beyond the scope of this document, they may be addressed in a 
future revision. 
The following general behaviors are recommended for time zone handling: 
Consumer MUST NOT arbitrarily add a time zone. E.g. when importing Exif 
DateTimeOriginal to XMP (xmp:CreateDate), use a zone-less form for the 
corresponding XMP value. 
Changer MUST NOT implicitly add a time zone when editing values. It is okay to be 
explicit about time zones if desired. Consider the typical case of correcting 
DateTimeOriginal values for an incorrectly set camera time. This must not be implicitly 
done as though the new time were in the computer's time zone. 
If the Exif contains the GPSDateStamp and GPSTimeStamp tags, software MAY use 
that information to infer a time zone. This should be done with care, e.g. verifying that 
the DateTimeOriginal plus inferred offset is within a few seconds of the GPS date and 
When time zone information is available, XMP values SHOULD be stored using the 
local+offset form rather than the “Zulu” form (for example, use “2008-04-30T12:34:56-
06:00” instead of “2008-04-30T18:34:56Z”). The local+offset form carries additional 
information and the Zulu value can easily be determined as required, e.g. for sorting in 
a UI. 
A user interface MAY display time zone information if available; however, related 
functionality MUST NOT convert a time to the computer's local time for display. 
According to the Exif specification, missing information SHOULD be filled up with 
spaces in the Exif values. 
In summary, time-zone information MUST NOT be implicitly added and existing values should be 
software SDK cloud:C# PDF File Compress Library: Compress reduce PDF size in
All object data. File attachment. Hidden layer content. Convert smooth lines to curves. Flatten visible layers. C#.NET DLLs: Compress PDF Document.
software SDK cloud:VB.NET PDF File Merge Library: Merge, append PDF files in
VB.NET Demo code to Append PDF Document. In addition, VB.NET users can append a PDF file to the end of a current PDF document and combine to a single PDF file.
Guidelines For Handling Image Metadata 
Metadata Working Group 
Page 35 
This section will discuss some of the most relevant metadata areas in the consumer workflow today. 
The selection will mainly serve the purpose of discussing the most important metadata fields, but due 
to the fact that information in these areas can be found in multiple metadata sources, it will also act as 
a model for other properties as defined in Exif, IPTC-IIM and XMP. Each section will provide detailed 
guidance on how to handle related metadata containers. 
5.1 Keywords 
Keywords are widely used across software applications today and are also called “tags” by some 
applications and services. Since so many existing applications allow for keyword display and editing it 
is now often misused. Keyword properties are no longer strictly for keywords; applications overload 
them with general-purpose information for purposes such as workflow or task management. Recent 
cameras also have the ability to assign tags automatically while shooting pictures. Keywords tend to 
be user customizable, although in the case of devices they are sometimes fixed. 
Information for the keyword property is available in: 
IPTC Keywords (IIM 2:25, 0x0219) and 
XMP (dc:subject[*]) 
IPTC Keywords is mapped to XMP (dc:subject). 
IPTC Keywords MAY be repeated, each mapping to one of the elements in the XMP (dc:subject) array. 
Keyword lists SHOULD be completely replaced while reconciling.  
For more information see chapter “Handling IPTC-IIM and XMP” earlier in this document. 
Each IPTC-IIM keyword is limited to 64 bytes. 
Keyword properties usually do not retain the semantics of the keyword value itself. E.g. the information 
that “San Francisco” is a location will be lost. XMP provides the ability to add qualifiers for each 
keyword to define such a semantic. For future extensibility, these attributes SHOULD be preserved on 
any keyword manipulation. 
For more details such as type information and syntax, see the respective specifications. 
software SDK cloud:VB.NET PDF File Split Library: Split, seperate PDF into multiple
Separate source PDF document file by defined page range in VB.NET class application. Divide PDF file into multiple files by outputting PDF file size.
software SDK cloud:C# PDF File Merge Library: Merge, append PDF files in, ASP.
document file, and choose to create a new PDF file in .NET deleting, PDF document splitting, PDF page reordering and PDF page image and text extraction.
Guidelines For Handling Image Metadata 
Metadata Working Group 
Page 36 
5.2 Description 
This area defines the textual description of a resource's content. Also known as “user comment”, 
“caption”, “abstract” or “description”. Today, this information is represented in different ways; 
sometimes integrated and displayed as one field – at other times revealed separately. This document 
combines the different sources into one overall representation, called “Description”.  
Information for the description property is available in the following properties:  
Exif ImageDescription (270, 0x010E) 
IPTC Caption (IIM 2:120, 0x0278)  
XMP (dc:description[“x-default”]) 
Exif ImageDescription, IPTC Caption, and XMP (dc:description) are mapped together.  
For more information see chapter “Handling Exif/TIFF, IPTC-IIM and XMP metadata” earlier in this 
Length limitation in IPTC-IIM is 2000 bytes. 
In XMP, the description can be represented in multiple languages. In this document only the “x-default” 
value will be discussed and used. Clients MAY support the full range of localized values. 
For more details such as type information and syntax, see the respective specifications. 
Guidelines For Handling Image Metadata 
Metadata Working Group 
Page 37 
5.3 Date/Time 
There's a lot of confusion about date/time handling. In addition to a variety of date/time values stored 
within a file's metadata, creation and modification values are also stored by the file system - both the 
computer's file system and that of a camera's media card. 
In general, date/time metadata is being used to describe the following scenarios: 
Date/time original specifies when a photo was taken 
Date/time digitized specifies when an image was digitized 
Date/time modified specifies when a file was modified by the user 
Date/time original and date/time digitized are usually added by the devices (cameras, scanners, etc.) 
but in other scenarios the user needs to define these values manually. This can happen, for example, 
if an old photograph is scanned-in (digitized) and the user wishes to specify in the metadata the date 
the original photo was taken. The date/time modified value will be changed by software and operating 
systems on subsequent edits of the file. 
This document focuses on the date/time original value, since that is generally the most important 
aspect for the consumer. 
Information for Date/Time (Original) is available in the following properties: 
Original Date/Time – Creation date of the intellectual content (e.g. the photograph), 
rather than the creation date of the content being shown 
Exif DateTimeOriginal (36867, 0x9003) and SubSecTimeOriginal (37521, 0x9291) 
IPTC DateCreated (IIM 2:55, 0x0237) and TimeCreated (IIM 2:60, 0x023C) 
XMP (photoshop:DateCreated) 
Digitized Date/Time – Creation date of the digital representation 
Exif DateTimeDigitized (36868, 0x9004) and SubSecTimeDigitized (37522, 0x9292) 
IPTC DigitalCreationDate (IIM 2:62, 0x023E) and DigitalCreationTime (IIM 2:63, 0x023F) 
XMP (xmp:CreateDate) 
Modification Date/Time – Modification date of the digital image file 
Exif DateTime (306, 0x132) and SubSecTime (37520, 0x9290) 
XMP (xmp:ModifyDate) 
The general mapping is described above. For more information, see chapter “Handling Exif/TIFF, 
IPTC-IIM and XMP metadata” earlier in this document. 
Guidelines For Handling Image Metadata 
Metadata Working Group 
Page 38 
Exif DateTime does not contain time-zone information. 
Changes to XMP (xmp:CreateDate), for example to fix an incorrect camera setting, SHOULD be 
exported to Exif. If both XMP (xmp:CreateDate) and Exif DateTimeOriginal are missing, but Exif 
DateTimeDigitized (36868, 0x9004) exists, Exif DateTimeDigitized SHOULD be used to create an 
initial XMP (xmp:CreateDate). This is also true in the case that only IPTC DateCreated is available. 
Exif DateTime is mapped to XMP (xmp:ModifyDate). Any change to the file SHOULD cause both to be 
The above guidance implies that Exif sub-second and IPTC-IIM time properties are being handled 
according to the corresponding main properties. DCF specification requires DateTimeOriginal and 
DateTimeDigitized; the Exif specification recommends DateTime. 
For more details such as type information and syntax, see the respective specifications. 
Guidelines For Handling Image Metadata 
Metadata Working Group 
Page 39 
5.4 Orientation 
A major sticking point in image-based workflows is the correct handling of orientation. Today, various 
software tools do not follow a consistent set of rules in interpreting and changing the related metadata 
field in conjunction with the primary and/or thumbnail images - this leads to an incorrectly rotated 
display of the image. There are three scenarios of interest: 
Capturing orientation information on the devices 
Changing the orientation of an image by using an asset management tool 
Editing the image and rotating the pixels 
The Orientation is represented in Exif Orientation (274, 0x0112). 
An image Creator MUST include an orientation tag in the Primary Image if the image raster data is 
intended to be displayed in any orientation other than the Normal (value 1) case where the 0th row 
represents the visual top of the image, and the 0th column represents the visual left-hand side.  
An image Creator MAY include an optional Thumbnail Image in the file. In this case, the Creator 
SHOULD write the Thumbnail Image in the same orientation as the Primary Image. If the Thumbnail 
Image is not written with the same orientation, then the creator MUST include an appropriate 
orientation tag value in the thumbnail IFD. 
Consumer MAY choose to respect the orientation metadata included in a file when presenting an 
image or its thumbnail to the user. If a Consumer chooses to respect orientation metadata, it 
Treat the Primary Image orientation as Normal (value 1) if the Orientation tag of the 
Primary Image is missing. 
Treat the Thumbnail Image orientation as the same as the Primary Image if the 
Orientation tag of the Thumbnail Image is missing. 
If a Changer alters the pixel content of the Primary Image, it SHOULD update or remove the 
Thumbnail Image (if previously present) so that a Consumer does not display an inappropriate 
If a Changer alters the orientation metadata of the Primary Image, the Changer should also update 
the orientation metadata (if previously present) of the Thumbnail Image (if previously present) so that 
Consumer does not display an inappropriate thumbnail.  
The DCF specification states that a thumbnail MUST be stored in a fixed size of 160x120 pixels. The 
thumbnail MUST be cropped or padded with black to meet the 160x120 pixel size requirement 
regardless of the aspect ratio of the primary image.  
Guidelines For Handling Image Metadata 
Metadata Working Group 
Page 40 
Please consult the DCF specification for further details and restriction on JPEG images and 
For more details such as type information and syntax, see the respective specifications. 
Documents you may be interested
Documents you may be interested