Harvard Library 
2D and 3D Format Selection and 
Metadata Analysis 
FINAL REPORT 
Submitted By: 
Drexel University 
3141 Chestnut Street, 
Philadelphia, PA 19104 
June 30
th
, 2015 
Isaac Simmons 
Drag and drop pdf into powerpoint - application Library tool:C# Create PDF from PowerPoint Library to convert pptx, ppt to PDF in C#.net, ASP.NET MVC, WinForms, WPF
Online C# Tutorial for Creating PDF from Microsoft PowerPoint Presentation
www.rasteredge.com
Drag and drop pdf into powerpoint - application Library tool:VB.NET Create PDF from PowerPoint Library to convert pptx, ppt to PDF in vb.net, ASP.NET MVC, WinForms, WPF
VB.NET Tutorial for Export PDF file from Microsoft Office PowerPoint
www.rasteredge.com
Primary Objectives 
The chief objective is to assist in identifying 2D and 3D file formats for acceptance into and preservation 
within the Harvard Digital Repository Service. We will accomplish this by: 
Surveying available formats in this domain and describing the best candidates for curation. 
Identifying useful metadata for extraction and mapping that metadata into larger schema. 
Integrating these results with the tools and policies surrounding ingest of a new dataset into the 
DRS.  
Work will be conducted in collaboration with Harvard Libraries and weekly teleconferences will be held 
to report progress updates and receive feedback on deliverables. The overall project will be organized 
into 4 main phases:  
1.
Format Analysis 
2.
Metadata Analysis 
3.
Content Modeling 
4.
Tool Analysis 
Project Status 
High Level Summary 
The allotted hours have been exhausted and work on the project is completed as of June 30
th
, 2015. 
Phase 1 and Phase 2 tasks are completed, but outstanding deliverables remain in the Phase 3 and 4 
tasks. See below for status of specific deliverables. 
Task Details 
Phase 1: Format Analysis 
Intermediate deliverables (candidate format list, format properties) have been rolled into the 2D and 3D 
format matrix and form the basis for the selected rows and columns. Additionally, the “acceptance 
summary” row summarizes the recommended selections. The “Format Profiles” are what was referred 
to as “Format Descriptions” in the list of deliverables. 
All products are available online in Google drive, and selected documents are included in the appendices 
of this report. 
Phase 2: Metadata Analysis 
Metadata analysis has been concluded. The inclusion of the document MD fields is recommended, and 
for additional Computer Aided Drafting (CAD) specific fields, no suitable existing schema was found, so 
the “cad-md” schema is proposed. For most deliverables in this phase, the 2D and 3D products have 
been combined into a single document which then makes that distinction rather than including two 
separate schema. 
application Library tool:Online Convert PowerPoint to PDF file. Best free online export
clicking on the blue button or drag-and-drop your pptx or ppt file into the drop area. Then just wait until the conversion from Powerpoint to PDF is complete
www.rasteredge.com
application Library tool:C# Image: How to Use C# Code to Capture Document from Scanning
capture a multi-page document (including PDF, TIFF, Word Drag a SaveFileDialog from the Visual Studio Toolbox Uses should populate the drop-down box previously
www.rasteredge.com
Recommendations, schema documentation, the XSD schema, and example outputs associated with a 
few specific sample files are included both on Google Drive and in the appendices of this report. 
Phase 3: Content Modeling 
Content modeling efforts are ongoing. Preliminary products and a draft content model description are 
available in Google Drive. 
Phase 4 Tool Analysis 
Tool analysis efforts are ongoing. Sample files have been gathered and preliminary FITS identification 
results on those files have been evaluated. A survey of possible tools for integration with the DRS for 
either file identification, metadata extraction, or format conversion has been begun. 
FITS has been tested against all of the sample files and those outputs are available in Google Drive. 
Conferences Meetings and Demonstrations 
Meeting 
Location 
Date 
Weekly Status Meetings  
Skype   
Weekly, Variable 
Kickoff Meeting  
Cambridge, MA  
January 26
th
, 2015 
Issues 
Some Task 3 and 4 Deliverables remain uncompleted. A separate proposal will be developed to cover 
these. 
Deliverables 
Name 
Description 
Phase 
Status 
Weekly Updates 
Verbal updates given in 
teleconferences 
ALL 
Completed 
2D Candidate List 
Document 
Column 1 of Format 
Matrices (below) 
3D Candidate List 
Document 
2D Format Properties 
Document 
Row 1 Labels in Format 
Matrices (below) 
3D Format Properties 
Document 
2D Format Matrix 
Access to document in 
Google Drive 
“2D Matrix” in Google 
Drive 
3D Format Matrix 
Access to document in 
Google Drive 
“3D Matrix” in Google 
Drive 
2D Class A and B 
Descriptions 
Access to document in 
Google Drive 
“Acceptance Summary” 
row in Format Matrices 
and Format Profiles 
(Google Drive, Appendix 
A) 
3D Class A and B 
Descriptions 
Access to document in 
Google Drive 
2D Metadata Elements  Document 
Combined with Schema 
Recommendations 
3D Metadata Elements  Document 
application Library tool:C# PDF: PDF Document Viewer & Reader SDK for Windows Forms
adding WinViewer DLL into Visual Studio Toolbox, you can directly drag and drop the control you can easily open a file dialog and load your PDF document in
www.rasteredge.com
application Library tool:Online Convert Word to PDF file. Best free online export docx, doc
your file by clicking on the blue button or drag-and-drop your doc or docx file into the drop area. By integrating XDoc.PDF SDK into your C#.NET project
www.rasteredge.com
(below) 
2D Schema 
Recommendations 
Document 
“Metadata 
Recommendations” and 
“Metadata 
Recommendations – 
Schema” in Google 
Drive or Appendix B, C 
3D Schema 
Recommendations 
Document 
2D Sample Files and 
Metadata 
Access to online file 
collection 
“Sample Files” 
subdirectory and 
“Metadata 
Recommendations – 
Sample Files” in Google 
Drive or Appendix D 
3D Sample Files and 
Metadata 
Access to online file 
collection 
2D and 3D Content 
Models 
Document 
Incomplete. 
FITS current 
performance report 
Spreadsheet 
Incomplete 
FITS Configuration and 
Tool Recommendations 
Document (access to 
software if required for 
recommendations) 
Incomplete 
FITS Schema 
Recommendations 
Updated schema file 
plus descriptive 
document 
Incomplete 
Sample Files and FITS 
output 
Access to online file 
collection 
“Sample Files” and 
“sample_results” 
subdirectories in Google 
Drive 
All documents have also been delivered via. Google Drive in the shared folder named “2D3DFormats”  
application Library tool:VB.NET Image: VB Tutorial to View Document Online with Imaging Web
including png, jpeg, gif, tiff, bmp, PDF, Microsoft Word Drag your WebThumnailViewer & WebAnnotationViewer from your MS a new document when the drop-down list
www.rasteredge.com
application Library tool:VB.NET Image: Capture and View Document Through Scanning in VB.NET
to your Visual Studio Toolbox and drag an OpenFileDialog Users must populate the drop-down box with powerful & profession imaging controls, PDF document, image
www.rasteredge.com
Personnel and Contacts 
Drexel Faculty 
Jane Greenberg 
Drexel Staff 
Isaac Simmons 
Research Engineer 
Adrian Ogletree 
Research Program Manager – Metadata Research Center 
Colleen Kavanaugh 
Program Administrator 
Harvard 
Andrea Goethals 
application Library tool:How to C#: Quick to Start Using XImage.Raster
Add necessary XImage.Raster DLL libraries into your created C# application as references. RasterEdge.Imaging.Basic.dll. Just drag and drop the “ImageView
www.rasteredge.com
application Library tool:How to C#: Set Image Thumbnail in C#.NET
VB.NET How-to, VB.NET PDF, VB.NET Word, VB.NET Excel, VB.NET PowerPoint, VB.NET Tiff, VB.NET Imaging, VB.NET OCR, VB.NET Just drag and drop the “ImageView
www.rasteredge.com
Appendix A - Format Profiles 
application Library tool:VB.NET Image: Web Image and Document Viewer Creation & Design
It is easy to drag and drop thumbnail images to for VB.NET can be used to view and print such documents and images as JPEG, BMP, GIF, PNG, TIFF, PDF, etc.
www.rasteredge.com
application Library tool:Install Winforms .NET Imaging SDK| Online Tutorials
Drag and drop controls right onto your Design PRODUCTS: XDoc.HTML5 Viewer for .NET; XDoc.Windows Viewer for .NET; XDoc.Converter for .NET; XDoc.PDF for .NET;
www.rasteredge.com
AutoCAD Drawing Format Profile - 2D/3D
Full name (taken from the specification if applicable) and common aliases
AutoCAD Drawing, AutoCAD Drawing Database File, DWG, AutoCAD .dwg File, AutoDesk’s Drawing File
Brief description
The .dwg file format is one of the most commonly used design data formats, found in nearly every design 
environment. It signifies compatibility with AutoCAD technology. Autodesk created .dwg in 1982 with the 
launch of its first version of AutoCAD software. There have been 19 revisions of the format since then, the 
latest in 2013.
There are several claims to control of the DWG format. As the biggest and most influential creator of DWG 
files it is Autodesk who designs, defines, and iterates the DWG format as the native format for their CAD 
applications. Autodesk sells a read/write library, called RealDWG, under selective licensing terms for use in 
non-competitive applications. Several companies have attempted to reverse engineer Autodesk's DWG 
format, and offer software libraries to read and write Autodesk DWG files. The most successful is OpenDWG / 
Open Design Alliance, a non-profit consortium created in 1998 by a number of software developers, released 
a read/write/view library called the OpenDWG Toolkit.
It is the native format for several CAD packages including DraftSight, AutoCAD, IntelliCAD (and its variants), 
Caddie and Open Design Alliance compliant applications . In addition, DWG is supported non-natively by 
many other CAD applications.
Structure of the current DWG format
Header
Version
Magic Number
Simple metadata
Classes, Objects, Images 
Encoded binary data
Checksums
Key adopters of the format (e.g. large repositories or academic libraries, domains)
DWG is among the most widely used CAD formats in the field. It is a preferred preservation format for CAD 
data (2D and 3D) with the Archaeology Data Service and is a preferred format for CAD data by the Library and 
Archives of Canada.
Applicable MIME media types
application/acad, application/x-acad, application/autocad_dwg, image/x-dwg, application/dwg, 
application/x-dwg, application/x-autocad, image/vnd.dwg, drawing/dwg
Applicable file extensions
.dwg
The organization/individual/company that originally developed it 
Autodesk
The organization/individual/company that currently maintains it
Autodesk, Open Design Alliance
Availability and location of specifications (direct URLs if available)
Not officially available from Autodesk
Available from Open Design Alliance
http://www.opendesign.com/files/guestdownloads/OpenDesign_Specification_for_.dwg_files.pdf
Brief information about patent/license issues
Proprietary. Multiple claims to control. Autodesk licenses RealDWG libraries. However, the Open Design 
Alliance also maintains the OpenDWG toolkit.
Key related links (Websites describing it, documentation, etc.)
http://fileinfo.com/extension/dwg
http://en.wikipedia.org/wiki/.dwg
http://www.opendesign.com/
http://www.autodesk.com/products/dwg
Risk summary
Proprietary Format
All generations are proprietary, with single vendor support, closed source, closed 
specification, and almost no viable open source implementations at this time
Encryption
In AutoCAD 2004 version files and later, password protection can be enabled
New Versions
New versions are published about once a year
While backwards compatibility remains good, software will need to be updated to deal with 
ingest of newer versions
Mitigation of key risks
Mitigating proprietary format risk
Convert to other formats:
Convert DWG artifacts to other more open formats (though some detail may be lost 
in the process), keeping originals
Access via emulation:
Maintain copies of free viewing and conversion tools in an emulation environment
Mitigating encryption risks
Disallow password protected files
Remove encryption and re-save files
Mitigating new versions risk
Periodically update software tools for dealing with DWG files in archive
Re-save files in latest versions when possible, keeping originals
(Current) strong backwards compatibility for reading files means this is not an immediate 
danger
References
Archaeology Data Service. (n.d.). Archaeology Data Service / Digital Antiquity Guides to Good Practice. 
Retrieved from http://guides.archaeologydataservice.ac.uk/g2gp/Cad_3-2, 
http://guides.archaeologydataservice.ac.uk/g2gp/LaserScan_3-1
Library and Archives Canada. (n.d.). Guidelines on File Formats for Transferring Information Resources of 
Enduring Value. Retrieved from http://www.bac-lac.gc.ca/eng/services/government-information-
resources/guidelines/Pages/guidelines-file-formats-transferring-information-resources-enduring-
value.aspx#u
Drawing Interchange Format Profile - 2D/3D
Full name (taken from the specification if applicable) and common aliases
Drawing eXchange Format, Drawing Interchange Format, AutoCAD DXF (AutoCAD DXB, Drawing eXchange 
Binary)
Brief description
AutoCAD DXF is a CAD data file format developed by Autodesk for enabling data interoperability between 
AutoCAD and other programs.
DXF was originally introduced in December 1982 as part of AutoCAD 1.0, and was intended to provide an 
exact representation of the data in the AutoCAD native file format, DWG, for which Autodesk for many years 
did not publish specifications. Because of this, correct imports of DXF files have been difficult. Autodesk now 
publishes the DXF specifications as a PDF on its website.
Versions of AutoCAD from Release 10 (October 1988) and up support both ASCII and binary forms of DXF. 
Earlier versions support only ASCII. DXB is the binary version of a DXF file, which is text-based. DXB files are 
smaller and load faster than DXF files, but are not as compatible with other programs as DXF files are.
As AutoCAD has become more powerful, supporting more complex object types, DXF has become less useful. 
Certain object types, including ACIS solids and regions, are not documented. Other object types, including 
AutoCAD 2006's dynamic blocks, and all of the objects specific to the vertical market versions of AutoCAD, 
are partially documented, but not well enough to allow other developers to support them. For these reasons 
many CAD applications use the DWG format which can be licensed from AutoDesk or non-natively from the 
Open Design Alliance.
Structure of the current DXF format
Header
Classes 
Tables 
Blocks 
Entities 
Objects 
Thumbnail Image 
Key adopters of the format (e.g. large repositories or academic libraries, domains)
DXF is a preferred preservation format for CAD data (2D and 3D) with the Archaeology Data Service and is a 
preferred format for CAD data by the Library and Archives of Canada.
Applicable MIME media types
application/dxf, application/x-autocad, application/x-dxf, drawing/x-dxf, image/vnd.dxf, image/x-autocad, 
image/x-dxf, zz-application/zz-winassoc-dxf, (application/dxb, application/x-dxb, drawing/x-dxb, image/x-
dxb)
Applicable file extensions
.dxf, (.dxb)
The organization/individual/company that originally developed it 
Autodesk
Documents you may be interested
Documents you may be interested