The following diagram describes how Xena attempts to identify the file format of an input 
file in the first instance:
How Xena performs file format identification
Page 11 of 20
Diagram 3: Initial identification attempt
Convert pdf file into ppt - control software platform:C# Create PDF from PowerPoint Library to convert pptx, ppt to PDF in C#.net, ASP.NET MVC, WinForms, WPF
Online C# Tutorial for Creating PDF from Microsoft PowerPoint Presentation
www.rasteredge.com
Convert pdf file into ppt - control software platform:VB.NET Create PDF from PowerPoint Library to convert pptx, ppt to PDF in vb.net, ASP.NET MVC, WinForms, WPF
VB.NET Tutorial for Export PDF file from Microsoft Office PowerPoint
www.rasteredge.com
5.2 Best guess identification
Xena performs a best guess file format identification if the initial identification attempt fails 
to determine the file format of the input file. The best guess identification process involves 
passing the input file to each guesser in turn. The input file is analysed by each guesser 
and a score is generated. The highest score is taken as the most probable indication of the 
file format.
1. The Plugin Manager passes the input file to each of the guessers in each loaded 
plugin.
2. Each guesser attempts to determine the likelihood of the input file being a particular 
format. The guesser compares attributes of the input file against the attributes of the 
guesser file type. Depending on the nature of the guesser, one or more of the 
following file attributes may form part of the comparison: MIME type; file extension; 
magic number; data in the body of the file (such as UTF-8 character encoding).
3. Each guesser returns a score which represents how closely the input file matched 
the attributes of the guesser file type (see Section 4 for more information).
4. A list of the scores from all guessers are ordered from highest to lowest.
5. The guesser with the highest score indicates the input file's most likely file type.
6. Based on the predicted file format, the corresponding normaliser is selected to 
normalise the input file.
How Xena performs file format identification
Page 12 of 20
control software platform:Online Convert PowerPoint to PDF file. Best free online export
Convert a PPTX/PPT File to PDF. Just upload your file by clicking on the blue button or drag-and-drop your pptx or ppt file into the drop area.
www.rasteredge.com
control software platform:How to C#: Convert PDF, Excel, PPT to Word
Program.RootPath + "\\" Output.docx"; // Load a PDF document How to C#: Convert Excel to Word. RootPath + "\\" Output.docx"; // Load an Excel (.xlsx) file.
www.rasteredge.com
The following diagram describes how Xena generates a best guess identification of file 
format:
How Xena performs file format identification
Page 13 of 20
Diagram 4: Best guess identification
control software platform:How to C#: Convert Word, Excel and PPT to PDF
Program.RootPath + "\\" Output.pdf"; // Load an Excel (.xlsx) file. XLSXDocument doc = new XLSXDocument(inputFilePath); // Convert Excel to PDF.
www.rasteredge.com
control software platform:C# TIFF: Learn to Convert MS Word, Excel, and PPT to TIFF Image
In order to convert Microsoft Word, Excel, and PowerPoint to Tiff image file Visual C#.NET It is quiet easy to integrate this SDK into your C# program, by
www.rasteredge.com
6 Appendix A – Xena plugins
The plugins in Xena version 5.0.0 are listed in the following table.
7
Plugin
Handles these types of files ...
archive
• Compressed archives (gzip, bzip2, war, zip)
• Uncompressed archives (jar, tar, zip)
audio
• Free Lossless Audio Codec (flac)
• Audio Interchange File Format (aiff)
• Broadcast Wave File (bwf)
• MPEG-2 audio layer 3 (mp3)
• Speex (spx)
• Vorbis (ogg, oga)
• Wave Audio File (wav)
csv
Text files consisting of comma-separated values
email
• Email (eml)
• Mailbox (mbx, mbox)
• Outlook Mail Message (msg)
• Outlook Personal Information Store (pst)
html
• Active Server Page (asp, aspx)
• HTML (htm, html)
• XHTML
image
• Portable Network Graphics (png)
• Bitmap (bmp, gif, pcx, pnm, ras, xbm)
• Photoshop (psd)
• Tagged Image File Format (tiff)
• Windows Cursor (cur)
• Open Document Graphics (odg)
• Joint Photographic Experts Group (jpeg)
• Scalable Vector Graphics (svg)
multipage
Multipage images (such as multipage tif or animated gif)
7
Video formats are currently not supported. Video files are normalised using the binary normaliser.
How Xena performs file format identification
Page 14 of 20
control software platform:VB.NET PowerPoint: Convert & Render PPT into PDF Document
image source into PDF document file which may be to save converted image source to PDF format, RasterEdge offers other encoding APIs to convert rendered image
www.rasteredge.com
control software platform:VB.NET PowerPoint: Process & Manipulate PPT (.pptx) Slide(s)
how to split one PPT (.pptx) document file into smaller sub slides and merge/split PPT file without depending & profession imaging controls, PDF document, image
www.rasteredge.com
Plugin
Handles these types of files ...
office
• Open Document Format (odf)
• Open Document XML (fodt)
• OpenOffice.org XML (stw, stc, std, sti, sxg, sxm)
• Excel (xls, xlsx, xlt)
• PowerPoint (pot, pps, ppt, pptx)
• Rich Text Format (rtf)
• Symbolic Link (slk)
• StarOffice (sdd, sdc, sdw, sxc, sxi, sxw)
• Word (doc, docx, dot)
• Windows Write Document (wri)
• Word Perfect (wpd)
pdf
Portable Document Format (pdf)
plaintext
Plain text in Unicode or ASCII
project
Project (mpp)
website
• ARC file format (arc)
• MIME HTML (mht)
• Web ARChive (warc)
xml
• Extensible Markup Language (xml)
• Extensible Stylesheet Language (xsl)
• XSL Transformations (xslt)
How Xena performs file format identification
Page 15 of 20
control software platform:C# PDF Convert: How to Convert MS PPT to Adobe PDF Document
VB.NET Read: PDF Image Extract; VB.NET Write: Insert text into PDF; FILE_TYPE_UNSUPPORT: Console.WriteLine("Fail: can not convert to PDF, file type unsupport
www.rasteredge.com
control software platform:VB.NET PowerPoint: Read & Scan Barcode Image from PPT Slide
barcode scanning SDK to detect PDF-417 barcode advanced Codabar barcode scanning function into PPT processing projects that is contained in .pptx document file.
www.rasteredge.com
7 Appendix B - Glossary
Term
Definition
ASCII
American Standard Code for Information Interchange. A 
character encoding scheme for representing the English 
alphabet and punctuation (limited to 128 characters). Common 
character encoding format for plain text files (see also Unicode).
Base64
Representation of binary data in an ASCII string format.
Binary
A system of counting using 1s and 0s. A binary file is a computer 
file which may contain any type of data for computer processing 
and storage.
Binary Normalisation
Base64 encoding of the content of a digital object, which is then 
wrapped in XML metadata.
Bit
A binary digit. In computing, a bit can either be a 1 or a 0.
BMP
Bitmap image file format. 
BWF
Broadcast Wave Format. An extension of the Microsoft WAVE 
audio format.
Character Encoding
A system for representing individual characters with a code, such 
as a sequence of numbers. ASCII, ISO 8859 and Unicode are 
some popular character encoding schemes.
CSS
Cascading Style Sheets. A style sheet language used to 
describe the formatting of a document written in a markup 
language, such as XML or HTML.
CSV
Comma-separated values
DOC
Microsoft Word Document.
DOCX
Microsoft Office Open XML Document.
EPS
Encapsulated PostScript. A file format containing vector and 
sometimes bitmap data. 
File 
For the purposes of this document, a file is a digital file or 
computer file.
The term, Digital Object (from the Open Archival Information 
Systems Reference Model), has not been used in order to 
prevent confusion with the term Object.
FLAC
Free Lossless Audio Codec. A free and open source software 
tool and file format for lossless audio data compression.
GIF
Graphics Interchange Format.
GZIP
A software application used for file compression.
HTML
HyperText Markup Language. The main markup language for 
web pages.
JAR
Java Archive. A JAR file combines many other files into one.
How Xena performs file format identification
Page 16 of 20
Term
Definition
JPEG
Joint Photographic Experts Group file. A file format which 
employs a lossy compression for digital images. 
Magic Number
A numeric or text value used to identify a file format.
Metadata
Data about other data. 
MBX
Mailbox message file. A mailbox or mail folder that contains 
Microsoft Outlook Express e-mail messages.
MIME type
Multi-purpose Internet Mail Extensions. RFC2045 Internet 
standard allowing email to support attachments and non ASCII 
text.
Defines the kind of data formatting used by a particular file.
MP3
MPEG-2 audio layer 3 (mp3) audio file. A lossy compressed 
audio format developed by the Moving Picture Experts Group.
MPP
Microsoft Project file. 
Normalisation
Normalisation is the process of converting input files to an 
appropriate preservation file format. Conversion to the 
appropriate preservation file format depends on accurate 
detection of the input file format.
Normaliser
The normaliser is a component (Java object) of a Xena plugin 
responsible for taking an input file and transforming it into a Xena 
file. 
Object
An object is a cohesive cluster of data and behaviour - an object 
contains information and can perform functions.
8
In object-oriented programming terms, an object is an instance of 
a class.
ODF
Open Document Format. An XML-based file format for 
representing spreadsheet, text or presentation data.
ODG
Open Document Graphics file. 
PDF
Portable Document Format.
Plugin
Plugins are a set of software components that add specific 
capabilities to a larger software application. 
Xena plugins are one or more compiled Java classes that may 
be bundled in a Java Archive (JAR). To process digital records, 
Xena utilises plugins for various categories of file types. For 
example, audio, email and image.
PNG
Portable Network Graphics file. An image format that employs 
lossless data compression.
PSD
Adobe Photoshop document. An image file created by Adobe 
Photoshop.
PPT
Microsoft Powerpoint Presentation.
8
J. Arlow and I. Neustadt, UML 2 and the Unified Process 2nd Edition, Addison-Wesley, 2005
How Xena performs file format identification
Page 17 of 20
Term
Definition
PPTX
Microsoft Powerpoint Office Open XML Presentation.
PST
Personal Storage Table. A Microsoft Outlook file format used to 
store email messages, contacts other data.
RTF
Rich Text Format file.  A method for encoding formatted text and 
graphics for transfer between applications.
SQL
Structured Query Language. A database computing language for 
managing the contents of a relational database. Includes 
insertion, query, update and deletion of data.
SVG
Scalable Vector Graphics. An XML-based file format for 
describing two-dimensional vector graphics.
TAR
Consolidated Unix File Archive. A file archive in an 
uncompressed format created by the Unix Tar utility. 
TIFF
Tagged Image File Format. Graphics container that can store 
both raster and vector images.
Unicode
Industry standard for encoding text characters from most of the 
world's languages. It is a common character encoding format for 
plain text files.
UTF-8
An 8-bit character encoding for Unicode, which is backwards 
compatible with the ASCII standard.
WAV
Waveform Audio file. 
Xena
Digital preservation software developed by the National Archives 
of Australia.
Xena File
An XML file containing base64 encoded source file content, 
wrapped in metadata. 
XHTML
eXtensible HyperText Markup Language.
XLS
Microsoft Excel Spreadsheet format.
XLSX
Microsoft Office Open XML Workbook.
XML
eXtensible Markup Language.
XSL
eXtensible Stylesheet Language.
XSLT
XSL Transformations. An XML language for transforming XML 
documents.
ZIP
A lossless compressed file archive format.
How Xena performs file format identification
Page 18 of 20
8 Appendix C – File identification example
This example shows how three types of files are treated by three Xena guessers. 
The files used in this example are described in the following table. Just to make things 
harder for our guessers, none of the files in this example have file extensions.
File
MIME type File extension Magic No.
Data
Plaintext
N/A
N/A
File starts with 
EF BB BF
UTF-8 character set
HTML
text/html N/A
Contains 
<html> tag
ASCII character 
encoding
Contains <html> tag in 
first 100 lines
Word Document N/A
N/A
File starts with 
D0 CF 11 E0
ISO/IEC 8859-1 (Latin 1) 
character encoding
Attributes of three sample files
The following sections show how each of the guessers generates a score for each of the 
three sample files (see Section 4 for the weightings used to calculate the various scores for 
each attribute); the highest positive score indicates the most likely file format.
8.1 HTML Guesser
File
MIME type 
score
File 
extension 
score 
Magic No. 
score
Data score
Total score
Plaintext
0
0
-10000
-30
-10030
HTML
60
0
50
30
140
Word
0
0
-10000
-30
-10030
Scores given by the HTML guesser for three sample files
How Xena performs file format identification
Page 19 of 20
8.2 Plaintext Guesser
File
MIME type 
score
File 
extension 
score
Magic No. 
score
Data score
Total score
Plaintext
0
0
50
30
80
HTML
-10000
0
0
30
-9970
Word
0
0
-10000
30
-9970
Scores given by the Plaintext guesser for three sample files
8.3 Word Guesser
File
MIME type 
score
File 
extension 
score 
Magic No. 
score
Data score
Total score
Plaintext
0
0
-10000
30
-9970
HTML
-10000
0
0
30
-9970
Word
0
0
50
30
80
Scores given by the Word guesser for three sample files
How Xena performs file format identification
Page 20 of 20
Documents you may be interested
Documents you may be interested