Islam, Sidra. 2010. Provenance, Lineage, and Workflows. Master Thesis. Computer Science 
Department, Brown University, RI, USA.  
International Organization for Standardization (ISO). 2009. ISO 19115-2:2009, Geographic 
information -- Metadata -- Part 2: Extensions for imagery and gridded data.
Inter-university Consortium for Political and Social Research (ICPSR). (2009). Guide to Social 
Science Data Preparation and Archiving: Best Practice Throughout the Data Life Cycle (4th ed.). 
Ann Arbor, MI. 
Karasti, H. and Baker, K.S. "Digital Data Practices and the Long Term Ecological Research 
Program Growing Global." International Journal of Digital Curation. Vol. 3, No.2, (2008)
Knowledge Network for Biocomplexity (KNB). 2010. Ecological Metadata Language (EML)
Kanciruk, P., R.J. Olson, and R.A. McCord. 1986. Quality Control in Research Databases: The 
US Environmental Protection Agency National Surface Water Survey Experience. In: W.K. 
Michener (ed.). Research Data Management in the Ecological Sciences. The Belle W. Baruch 
Library in Marine Science, No. 16, 193-207.  
Michener, W. K., J. W. Brunt, J. Helly, T. B. Kirchner, and S. G. Stafford. 1997. Non-Geospatial 
Metadata for Ecology. Ecological Applications. 7:330-342.  
Michener, W.K. and J.W. Brunt (ed.). 2000. Ecological Data: Design, Management and 
Processing, Methods in Ecology, Blackwell Science. 180p.  
Michener, W K. 2006. Meta-information concepts for ecological data management. Ecological 
Informatics. 1:3-7. 
MIT Libraries.  2010.  Data Management and Publishing, Massachusetts Institute of Technology.
. Accessed 20100830. 
National Science Foundation. 2010. Scientists Seeking NSF Funding Will Soon Be Required to 
Submit Data Management Plans.
Press Release 10-077, 
May 10, 2010. 
Olsen, L.M., G. Major, K. Shein, J. Scialdone, R. Vogel, S. Leicester, H. Weir, S. Ritz, T. 
Stevens, M. Meaux, C.Solomon, R. Bilodeau, M. Holland, T. Northcutt, and R. A. Restrepo. 
2007. NASA/Global Change Master Directory (GCMD) Earth Science Keywords. Version Available on-line at:
Science Environment for Ecological Knowledge (SEEK) 2007. Introduction to Ecoinformatics.
Thornton, P.E., R.B. Cook, B.H. Braswell, B.E. Law, W. M. Post, H. H. Shugart, B.T. Rhyne, 
and L.A. Hook. 2005. Archiving Numerical Models of Biogeochemical Dynamics. Eos, Vol. 86, 
No. 44, 1 November 2005. 
UK Data Archive. 2010. The Data Lifecycle.
.   Accessed 
UK Data Archive. 2009. Managing and Sharing Data: a best practice guide for researchers.
Unidata. 2005. NetCDF Attribute Convention for Dataset Discovery.
Unidata. 2007. NetCDF (network Common Data Form) with CF (Climate and Forecast) 
Conventions - Units. Accessed August 2010.
U.S. EPA. 2007. Environmental Protection Agency Substance Registry System (SRS). SRS 
provides information on substances and organisms and how they are represented in the EPA 
information systems. Available on-line at:
USGS. 2000. Metadata in plain language. Available on-line at:
Appendix A 
Suggested tabular, image, and GIS data file formats suitable for long-term archiving. 
File Extension Reference Table 
File Format Description
ASCII Text or Raster Grid file
Tabular data provided as comma-separated values
Vector shape file attribute data file in tabular format
HDF is a physical file format for storing scientific data. It features a collection of tools for 
writing, manipulating, viewing, and analyzing data across diverse computing platforms.
HDF-EOS supports three geospatial data types (grid, point, and swath), providing uniform 
access to diverse data types in a geospatial context. The HDF-EOS software library allows a 
user to query or subset the contents of a file by earth coordinates and time (if there is a spatial 
dimension in the data). Tools that process standard HDF files will also read HDF-EOS files; 
however, standard HDF library calls cannot access geolocation data, time data, and product 
metadata as easily as with HDF-EOS library calls.
Raster Image (Many format types)
Graphics Interchange Format 
.jpg (.jpeg)
Joint Photographic Experts Group
raster image 
Keyhole markup language XML file 
NetCDF (network Common Data Form) [
Portable Network Graphic
raster image (
Projection information, which is a text file that you can read.
Vector shape file spatial index for read-write shapefiles
Vector shape file spatial index for read-write shapefiles.
Vector shape file feature geometry
Vector shape file lookup index
TIF world file of projection information
.tif (.tiff)
Tagged Image File Format
raster image 
GeoTIFF – Geographic tagged image file format  [
Text file  
XML based text file 
Appendix B
Applicable data and time standards suitable for long-term archiving of environmental data. 
Applicable Date and Time Standards
The ISO 8601 international standard date notation is YYYY-MM-DD:
where YYYY is the year in the usual Gregorian calendar, MM is the month of the year 
between 01 (January) and 12 (December), and DD is the day of the month between 01 
and 31.
For example, the fourth day of February in the year 1995 is written in the standard 
notation as 1995-02-04 
The hyphens can be omitted if compactness of the representation is more important 
than human readability, for example as in 19950204
If only the month or only the year is of interest:  1995-02 or 1995
ISO 8601 uses the 24-hour clock system that is used by most of the world. 
The basic format is [hh][mm][ss] and the extended format is [hh]:[mm]:[ss]. [hh] refers to a zero-padded 
hour between 00 and 24, where 24 is only used to notate the midnight at the end of a calendar date. 
[mm] refers to a minute between 00 and 59. [ss] refers to a second between 00 and 59. So a time might 
appear as "13:47:30" or "134730".
Fractions may also be used with any of the three time elements. These are indicated by using the 
decimal point. A fraction may only refer to the most precise component of a time representation – that 
is, to denote "14 hours, 30 and one half minutes", do not include a seconds figure. Represent it as 
"14:30.5" or "1430.5".
Midnight is reported as "00:00". A time of  "00:00" is used at the beginning of the day, and is the most 
frequently used notation.
ISO 8601:2004, Data elements and interchange formats—Information interchange—
Representation of dates and times.  
ISO publications are available from the International Organization for Standardization, 
Summarized in Wikipedia:
Summarized in Wikipedia:
Appendix C  
Applicable spatial coordinate standards suitable for long-term archiving of image and GIS data.  
Applicable Spatial Coordinate Standards 
Global Positioning System derived coordinates may use additional reference datum:  
ETRS89 (European Terrestrial Reference System 1989) WGS84 (World Geodetic System 1984) 
WGS84 (G730) (World Geodetic System 1984, upgrade G730) WGS84 (G873) (World Geodetic 
System 1984, upgrade G873)  
Applicable Standards  
FGDC Spatial Data Transfer Standard (SDTS), Part 6: Point Profile, FGDC-STD-002.6. 
ISO DIS 6709, Standard Representation of Geographic Point Location by Coordinates.  
ISO publications are available from the International Organization for Standardization, 
Summarized in Wikipedia: 
Decimal Degrees  
Decimal degrees (DD) express latitude and longitude geographic coordinates as decimal 
fractions and are used in many Geographic Information Systems (GIS), web mapping 
applications such as Google Maps, and GPS devices. Decimal degrees are an alternative 
to using degrees, minutes, and seconds (DMS). As with latitude and longitude, the values 
are bounded by ±90° and ±180° each.  
Positive latitudes are north of the equator, negative latitudes are south of the equator. 
Positive longitudes are east of Prime Meridian, negative longitudes are west of the Prime 
Meridian. Latitude and longitude are usually expressed in that sequence, latitude before 
The radius of the semi major axis of the Earth at the equator is 6,378,160.0 meters 
resulting in a circumference of 40,075,161.2 meters. The equator is divided into 360 
degrees of longitude, so each degree at the equator represents 111,319.9 metres or 
approximately 111 km. As one moves away from the equator towards a pole, however, 
one degree of  
longitude represents a diminishing number of meters, approaching zero at the pole.  
The length of a degree of longitude and the number of decimal places required for a 
particular accuracy at the equator are:  
Accuracy versus decimal places 
111  km 
11.1 km 
1.11 km 
111 m 
11.1 m 
1.11 m 
0.111 m 
1.11 cm 
1.11 mm 
A value in decimal degrees to an accuracy of 4 decimal places is accurate to 11.1 meters 
(+/- 5.55 m) at the equator. A value in decimal degrees to 5 decimal places is accurate to 
1.11 meter at the equator. Because the earth is a spheroid and not flat, the accuracy of the 
longitude part of the coordinates increases the further from the equator you get. The 
accuracy of the latitude part does not increase.  
Calculate the length of a degree of longitude and the number of decimal places 
required for a particular accuracy at your specific latitude.
Appendix D
Additional information for reporting elevations. 
Additional Information on Vertical Datum
Vertical Datum 
Vertical datums are a considerable challenge for cartographers in the marine world. Ultimately all datasets 
should refer all depths to WGS84 Datum (or equivalent) to create a seamless database. This is relatively 
straightforward for land data as geoidal models can be used to derive the separation between local land datum 
and a global reference surface. However, Chart Datum, to which all soundings are referred, is not a coherent 
surface. It is certainly not easy to model.  (
The National Geodetic Survey (NGS) develops and maintains the current national geodetic vertical datum, 
NAVD 88. In addition, NGS provides the relationships between past and current geodetic vertical datums, e.g., 
NGVD 29 and NAVD 88. However, another part of our parent organization, NOS (National Ocean Service), is 
the Center for Operational Oceanographic Products and Services (CO-OPS). CO-OPS publishes tidal bench 
mark information and the relationship between NAVD 88 and various water level/tidal datums (e.g., Mean 
Lower Low Water, Mean High Water, Mean Tide Level, etc.). (
Appendix E 
Checksum Java Application 
JDigest is an open source graphical file MD5 / SHA-1 digest calculator and verifier, written in Java for cross-
platform portability.  
Windows version has an installer that creates the necessary Explorer associations so that you can calculate / verify 
checksums by right clicking on files or folders. In other platforms it can be run by double-clicking the .jar file and 
going through the wizard-style interface
File Checksum Integrity Verifier (FCIV) utility 
The File Checksum Integrity Verifier (FCIV) is a command-prompt utility that computes and verifies cryptographic 
hash values of files. FCIV can compute MD5 or SHA-1 cryptographic hash values. These values can be displayed 
on the screen or saved in an XML file database for later use and verification.
File Difference Applications 
To document changes between versions of tabular data files consider using file difference applications, such as: 
ExamDiff Pro
Appendix F 
Typical Discovery Metadata Elements 
Metadata for Data 
A concise description of the data set. 
A paragraph describing the data set. 
The scientific project that produced the data. 
The data set generator/provider. 
Investigator contact 
Contact for additional information. 
Date created 
The date on which the data set was created or last updated. Used 
for versioning of updates. 
A list of key words and phrases that describe the data set and that 
will be meaningful for searching for the data set. Metadata 
standards may require that you select from a defined vocabulary. 
For example, GCMD science keywords (cite). 
Quality or processing level 
A textual description of the processing or quality control level of 
the data. 
Name of site or study area.  Not applicable for global data sets. 
Westernmost longitude 
Easternmost longitude 
Northernmost latitude 
Southernmost latitude 
Elevation minimum 
Elevation maximum 
Describes a simple latitude, longitude, and vertical bounding box. 
Decimal degrees and meters above mean sea level. 
Start date 
End date 
Describes the temporal coverage of the data set as a time range. 
Archive function 
Access to data 
Archive function 
Appendix G
Data Citations
To ensure that the scientists and institutions who have provided data are properly credited and acknowledged for 
their efforts, construct a bibliographic citation for the data set.  
Citations will help others find the data products and should be included as a reference in any synthesis product 
and resulting publication.  
The content of Citations should include as much of the following information as possible:  
contributing investigators/authors 
year of publication 
product title 
medium (for items other than printed text) 
online location (i.e., URL) 
publisher's location 
date accessed 
digital object identifier (archive function) 
Citations with Digital Object Identifiers at the ORNL DAAC 
The ORNL DAAC is a permanent data archive that enables users to search for, access, and download published 
data sets. The finalized and published data sets can be cited, giving the data producers credit. Citations to these 
published data sets enable a student or a researcher to obtain the actual published data files from the archive to 
reproduce the results from papers or to conduct further analyses. 
The ORNL DAAC adds Digital Object Identifiers (DOIs) to our data set citations. For example,  
Asner, G.P., K.M. Carlson, and D.E. Knapp. 2008. LBA-ECO LC-18 Hyperion 30-m Surface Reflectance, Mato 
Grosso, Brazil: July 2004. Data set. Available online ( from Oak Ridge National Laboratory 
Distributed Active Archive Center, Oak Ridge, Tennessee, U.S.A. doi:10.3334/ORNLDAAC/889. 
The use of DOIs facilitates the ability of authors to cite data in refereed journals and elsewhere. Many journal 
publishers now require the use of DOIs when citing online material. DOI’s enable users to locate published data 
sets regardless of where it is stored. This immutable identifier is part of the DOI system and the Asner et al. data 
set can be found by searching for the DOI (10.3334/ORNLDAAC/889) or by searching at the DOI System’s 
Web site:
Additional discussion of “Best Practices for Publishing Journal Articles” 
.) can be found on the National Federation of 
Advanced Information Services (NFAIS) web site.
