Researchers consulted during the audit:  
Dr Jeffrey Walker, Project Leader  
Mr. Rodger Young 
Dr. Olivier Merlin 
Mr. Rocco Panciera 
Ms Clara Draper 
Funding sources are   
ARC grants  
Departmental/University funds  
The financial sustainability of this group is an issue with it relying on small annual grants to maintain the 
collection and management of the data. It relies heavily on access to limited faculty resources and post-
graduate student involvement to ensure the maintenance of the dataset. 
Data Management Processes 
This project collects and manages data from a network of sensor instruments at multiple locations in the 
field. Significant resources are involved in this data collection including the maintenance of the 
instruments. The data collected is spatial soil moisture and ground-based soil moisture data; assembling it 
in different regions and in different spatial resolutions and scales. 
Data Acquisition: Raw data are acquired via ground-based sensor instruments, field based weather 
instruments and aircraft surveys. Sensors take very intensive ground-based measurements of soil moisture 
on a continual basis. Satellite data and data from Bureau of meteorology 
Instruments are mostly maintained manually and data are uploaded at the remote field through a phone 
modem and transferred back to computers for downloading. For half the sites (18) researchers have to 
physically go to the instruments to download data while remainder is phoned in remotely, which still takes 
around 10 hours to complete for remaining sites. This download occurs every 20 to 30 days and is 
managed manually with no automated or scripted processes; something the project is keen to explore to 
increase project efficiency. 
Air campaigns are usually an annual event involving around 30 people from Europe, the US and Australia 
helping with the aircraft and collecting ground-based data.  
IP/Copyright of Data and scholarly output: All IP is owned by the researchers and post graduate 
students conducting the research. Property owners where instruments are maintained are provided with 
detailed monitoring data from their properties on request. 
Data Quantities:  Long term monitoring data generates about 1 GB of raw data per year. Airborne studies 
generate about 100GB of raw data. All scholarly outputs from this data are additional. 
Data storage and Backup: Sensor instrument setups are able to store between 36 and 90 days of data 
depending on the instruments and configurations. Once downloaded, raw data and associated project 
scholarly output is currently stored on Faculty servers.  
There are multiple copies of the data.  Faculty web server has a weekly tape backup and a copy on web 
server, our group’s server and on researcher PCs. For the airborne data there are 2 copies on DVD and on 
2 hard drives. Uncertainty about the back up processes for other project output was evident and the need 
for strategies for more regular archiving of data onto different media was raised. 
Data formats:  Commercial formats and software is used by this project. Raw data off the instruments is 
in DB4 and CSV. Data are stored and accessed in Microsoft Excel spreadsheets with macros. Some data 
are ar
chived using zip files. Images are stored and accessed in JPEG format. 
21
Pdf metadata online - add, remove, update PDF metadata in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata
pdf remove metadata; modify pdf metadata
Pdf metadata online - VB.NET PDF metadata library: add, remove, update PDF metadata in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Enable VB.NET Users to Read, Write, Edit, Delete and Update PDF Document Metadata
edit pdf metadata online; search pdf metadata
Metadata:  Information about the data, including technical, environmental and provenance information, is 
contained within the excel file that stores the data. The team is currently looking at ways to incorporate 
metadata software with the project’s image collection. 
There are no set standards for metadata schema for this research community with little coordination of 
efforts around data management at a national or international level. 
Data Access, Authentication, Authorisation and Security: Data are accessed via the project website. 
The top layers are open access but the data are currently in a secured passworded area. The intention is to 
open this up once the site is working properly.  
Authentication process is a rudimentary password control on this.  And there are two levels of control: the 
contact details and locations of the monitoring sites and the actual data itself. Only core project staff is 
able to access the location and contact details for the properties and property owners. Researchers who 
want to use the data are issued with a password for access. Access to airborne data is closed for two years 
and will then by made available to other researchers. 
PHASE TWO CONSULTATION 
This project expressed interest in further consultation around the areas of: 
The telemetry underlying the sensor data transfer from APAC 
Web publishing of integrated multimedia data 
Digital asset management systems 
Activity included: 
54
Dr Gerard Borg , ANU/APAC has made some initial communications with the project team 
regarding the project’s telemetry set up at the field site. Some investigation of their software is 
underway. Delays have been caused by the heavy field demands on the project team resources. 
Information about DigiTool will be made available when the software because available for 
university users. 
3.1.7 
Molecular Medicine Informatics Model – Bio21  
INITIAL AUDIT   
55
The focus of this audit was the Bio21: Molecular Medicine Informatics Model (MMIM) . MMIM is a 
platform which provides clinical researchers with access to data from disparate existing databases across 
multiple disease types at multiple institutions, co-located in a virtual repository and which can be linked 
with publicly available research and genetic profiling data.  The data has been collected by participating 
researchers over 20-30 years, but most is more recently acquired. During the pilot the data included data 
from researchers in the fields of Epilepsy, Diabetes, Oncology, and the Tissue Bank. The next phase of the 
project will see expansion in these datasets; particularly for oncology and neuroscience as well as the new 
disease set of Cystic Fibrosis. 
Project team members consulted were:  
Dr Marienne Hibbert, MMIM Senior Project Manager 
Mrs. Naomi Rafael, Senior Database Administrator  
Mr. Henry Gasko, Image Project Manager and Research Data Coordinator 
Mr.
Frank Devuono, Melbourne Health. 
54
Plasma Research Laboratory, Research School of Physical Sciences and Engineering 
55
http://mmim.ssg.org.au/
22
VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
add metadata to pdf; remove metadata from pdf file
VB.NET PDF - Create PDF Online with VB.NET HTML5 PDF Viewer
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
online pdf metadata viewer; pdf metadata viewer online
Project Partners/Collaborators: 
The initial MMIM project was a pilot collaboration with: Melbourne Health; Western Hospital; 
Austin Health; Peter McCallum Cancer Centre; The Alfred Hospital; The Ludwig Institute for 
Cancer Research; Bio21 Institute; The University of Melbourne, and Victorian Partnership for 
Advanced Computing (VPAC). 
Successful outcomes from the pilot resulted in securing federal funding to expand partnership to: 
Royal Children’s Hospital; St Vincent’s Hospital; Monash Medical Centre; Box Hill Hospital; 
Cabrini Hospital; Royal Hobart Hospital; Menzies Centre for Population Research; Murdoch 
Children
’s Research Institute; South Australia (Flinders RAH, QE) and APAC. 
Funding sources:    
Phase 1: Science, Technology and Innovation (STI) Initiative, Victorian Government 
Phase 2: Department Education, Science and Technology (DEST), Australian Government 
Phase 3: STI/DIIRD (Department of Innovation, Industry and Regional Development, Victorian 
Govern
ment 
Data Management Processes 
Data are essentially patient/subject records and a variety of supporting information: Patient histories, 
including demographics and health issues; Pathology and radiology test results; Tissue sample analyses; 
Genomic data – biomarkers microarray, and various Images. The MIMM system maintains a database of 
these records which can be integrated across each LRR (Local Research Repositories). The data on the 
LRR is in the original format as per the institution of origin. The FDI (Federated Data Integrator) converts 
for access mode when interrogated but this is not stored by the system. The output of the FDI query would 
be stored by the researcher in that version, and may undergo further conversion post hoc. 
This architecture is illustrated below and represents the MMIM model for the second phase the project. 
The LRRs are physically co-located with the original data source (e.g. hospital). 
ETL
LRR
ETL
LRR
ETL
LRR
LRR at 
other 
Hospital
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
PeterMac
•Oncology
•Tissues Bank
•PET images
•Miccroarray
Alfred
Respiratory
Neuroscience
Oncology
Austin
Oncology
Tissues Bank
Diabwetes
Melbourne  + 
Western
Oncology
Tissues Bank
Diabwetes
Neuroscience 
MRI Images
St Vincents
Neuroscience
Diabwetes
Monash MC
Oncology
Tissue Bank
Respiratory
RCH/ MCRI
Respiratory
Diabetes
Crohns
RHH/ 
Menzies
Respiratory
Diabetes
Oncolology
Box Hill
Neuroscience
Oncology
Cabrini
Oncology
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
ETL
LRR
ETL
ETL
Federated 
Data 
Integrator
VPN
GenBank
UniProt
PubMed
LocusLink
Public Data Sources
GenBank
UniProt
PubMed
LocusLink
Public Data Sources
Internet
Metadata
Repository
South Aust
Oncology 
RAH
•Q Elizabeth
•Flinders MC
SAS
Queries
Statistical 
analysis
Reports
ETL
LRR
ETL
LRR
Authorised  researchers and 
applications query the Federated 
Data Repository for analysis.
Institute-specific data 
loaded into institute-specific 
Local Research Repository
Institute-specific data 
loaded into institute-specific 
Local Research Repository
Bio21:MMIM
Unique
Subject 
Index
© 2006 Bio21: MMIM
Data Acquisition:  
The form and content of the data ingested is determined by the host institute.
Researchers access data by interrogating the system with a query at the Federated Data Integrator (FDI). 
All the data are based on research outputs from individuals participating in various research 
23
C# HTML5 PDF Viewer SDK to create PDF document from other file
C#.NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET C#.NET read barcodes from PDF, C#.NET OCR scan PDF. C# ASP.NET Document Viewer, C# Online Dicom Viewer
preview edit pdf metadata; adding metadata to pdf files
VB.NET PDF Library SDK to view, edit, convert, process PDF file
PDF Metadata Edit. Offer professional PDF document metadata editing APIs, using which VB.NET developers can redact, delete, view and save PDF metadata.
endnote pdf metadata; change pdf metadata creation date
projects conducted at the partner institutions. Subjects participating in this research must agree to 
have their data re-used before it can be included in the MMIM FDI.  
IP/Copyright of Data and scholarly output:  IP/Copyright of data is a complex area with current 
legislation stating that the hospitals are custodians of data collected from subjects and that information 
belongs to the subject. The MMIM model was structured to ensure that data remains on hospital property.  
There are currently no processes for tracking scholarly output produced using MMIM data.   
Data Quantities:  Rough estimates of the number of data records in the MMIM Federated Data Integrator 
(FDI) over a 12 month period are:  
Pilot, 2005:  2,129.919 
April 2006:  2,192,439 
Essentially the growth amounts to 70,000 new records added to the ~80,000 patient records that were 
originally loaded. A lot of the records in the FDI are public data records and not patient records. These 
data estimates reflect the static nature of MMIM so far after the initial loading in 2005. The growth in 
2006 will be directly related to the new databases to be federated into MMIM.  After that, organic growth 
is expected as existing databases increase their volumes.  
The FDI has approximately 286 MB of data and the capacity in the present configuration is 119,003 MB 
(116 GB). The Local Research Repository (LRR) at Melbourne Health is 1,075 MB (1GB) volume with a 
77,497 MB (76 GB) capacity. Each partner LRR is currently of similar capacity. 
Data storage and Backup:  This is an ongoing federated collection that alters on a daily basis (updating 
and adding) which creates some problems for dataset access. Data that may have been accessed at a 
particular point in time cannot actually get replicated by the system as these data are not stored by the 
system. It is reliant on the researcher who uses this dataset to maintain this version of the data used – 
particularly if this has been used for some scholarly output. 
More specifically, LRRs are maintained on the site of the host organization, i.e. each hospital. The FDI is 
maintained and hosted at Melbourne Health (MH). Data are updated on a daily basis and as such a new 
version of all data is created at the LRR daily. The FDI output is not kept – except by the researcher who 
would be expected to save this to his/her remote site. All servers are backed up nightly by MH who 
manages the server. 
Data formats:  All software and formats used directly by the project are Commercial. IBM DB2 UDB is 
the MMIM database but the institutional data could be in any type of database as the source data are 
extracted into a DB2 repository at each site. The system can determine what this is when initially 
integrating a new database. Data transfer is then automatic. Data are stored however it was originally 
stored it does an extract transform load (ETL) between the source and site’s and database. 
IBM Websphere Information Integrator is the federator. The databases at the sites use whatever they like 
whether DB2, Sybase, Oracle etc. 
Metadata:  The current phase of the project is focusing on the common standards across all the databases 
to be accessed within MMIM; mapping to standards, getting the glossaries and metadata dictionary right 
and making it searchable. Existing standards in health will be used as much as possible. SNOMED-CT
56
is 
one that’s been accepted as the standard for health federally, but each medical discipline may have 
different standards.  
Technical metadata items will be annotated and the hierarchy is being developed to enable item discovery 
using MeSH
57
terminology. The metadata is stored in a relational database and stored in a metadata 
repository which is currently under development.  
Metadata creation is the responsibility of data owner in conjunction with the MMIM team 
56
More information about this International standard is available at: http://www.snomed.org
57
National Library of Medicine, US. More information about these medical subject headings is available at:  
http://www.nlm.nih.gov/mesh/
24
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
zonal information, metadata, and so on. Extract image from PDF free in .NET framework application with trial SDK components for .NET. Online source codes for
read pdf metadata java; edit pdf metadata acrobat
C# HTML5 PDF Viewer SDK to view, annotate, create and convert PDF
C#.NET users and developers can view PDF online with convenient manipulation, add varieties of annotations to PDF freely online, create PDF document from
bulk edit pdf metadata; clean pdf metadata
Data Access, Authentication, Authorisation and Security:  Access to data is via a secured web 
interface to enable access to the IBM – DB2 database using a SAS (terminal server) as the query and 
analysis tool. The project is currently looking at Grid technologies to assess if they can provide increased 
services. 
Security of subject identity/privacy is managed within the system by the IBM Websphere Data Integrator
It’s a two-stage process. It’s a virtual repository. The critical stage is the first part when the identifying 
information first passes through a virtual private network through the federator to a record linkage 
program that checks if the individual exists. If not, a unique number gets sent back to be stored on the 
local research repository at that site, so the data query that a researcher does against the system, only has 
data attached to a unique subject index and no identifying information. This also allows for possible re-
identification of that subject if ethically you need to do so. 
Authorisation is required for researchers to use MMIM data. Researchers apply via an Access Request 
Form
58
providing details of investigators, clear description of the Research Project for which the data are 
to be used, including the science behind it, the databases required and how the data accessed will be stored 
and archived for the term of the project and beyond (including when it will be destroyed). These forms go 
to the MMIM Management Committee and to the Ethics committee if required. 
PHASE TWO CONSULTATION 
This project expressed interest in further consultation to identify and review their data management 
processes. The focus of this follow up was particularly around middleware selection, metadata schema 
frameworks and open access publications.  
This activity has commenced and will continue as part of 
the services provided by Information Services personnel at Research Computing and Information 
Management. 
Activity included: 
Consultation about various middleware for supporting distributed and Grid technologies 
Involvement with the SRB testbed at Research Computing 
Exploration of MAMS project outputs around identity and access management for web 
applications/interfaces including open source software, Shibboleth. 
Consultation about metadata schemas 
Connecting with Experimental Particle Physics team to look at how they are using the Multi-
disciplinary Scientific Metadata Management
59
framework developed by CCLRC in the UK and 
to assess utility for MMIM metadata framework development. 
Working with Digital Repository Coordinator to identify how preservation metadata frameworks 
like PREMIS
60
can be used within the MMIM database to ensure sustainability. 
Consultation about Open Access Publication 
Working with Digital Repository Coordinator to develop strategies for increasing exposure of the 
MMIM data via publications of scholarly outputs using this data into UMER, the University of 
Melbourne ePrints repository. 
58
Access Request Form can be viewed at: http://mmim.ssg.org.au/join.htm
59
Discussions held with project leader, Dr Kerstin Kleese van Dam at the UK eScince Centre has facilitated collaboration with 
Melbourne scientists wishing to use this framework. More information about the schema is available at: http://www.e-
science.clrc.ac.uk/web/projects/scientific_metadatamgnt
60
Maintenance of activity around this international standard is managed by RLG-OCLC. More information available from 
Library of Congress site: http://www.loc.gov/standards/premis/
25
VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
Document and metadata. All object data. File attachment. Flatten visible layers. VB.NET Demo Code to Optimize An Exist PDF File in Visual C#.NET Project.
pdf metadata reader; pdf xmp metadata
C# HTML5 PDF Viewer SDK to view PDF document online in C#.NET
Create PDF Online. Convert PDF Online. WPF PDF Viewer. View Image to PDF. Image: Remove Image from PDF Page. Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
get pdf metadata; view pdf metadata
3.1.8 
PARADISEC and EthnoER  
61
62
The focus of this audit was the two projects, PARADISEC  and EthnoER . PARADISEC is an archive 
that offers a facility for digital conservation and access for endangered materials from the Pacific region. 
EthnoER is particularly focused on supporting secure and distributed collaborative research based on 
digital media and data repositories. Part of the project scope is to support interoperability of datasets and 
research tools. 
Researchers consulted during the audit:  
Dr Nick Thieberger, Project Manager, Department of Linguistics and Applied Linguistics 
Associate Professor Steven Bird, Department of Computer Science and Software Engineering 
Project Partners/Collaborations: 
PARADISEC: 
University of Melbourne 
University of Sydney 
University of New England 
Australian National University 
GrangeNet 
EthnoER 
University of Melbourne 
University of Sydney 
Australian National University 
Macquarie University 
Queensland University 
CSIRO 
Australian Institute of Aboriginal and Torres Strait Islander Studies (AIATSIS) 
Galiwin’ku Indigenous Knowledge Centre, NT 
School of Oriental and African Studies, London 
University of Alaska at Fairbanks 
University of Texas at Austin 
Funding sources are   
ARC grants  
Departmental/University funds  
Grangenet 
Financial sustainability is an issue for this research community. “With a secure bloc of funding over five 
years the current staff could establish processes that would secure the collection, and workflows could be 
disseminated through the research community to enable automated data ingestion. Current annual grants 
place pressure on the project and do not allow us to guarantee staff longevity of employment, risking a 
loss of skills that jeopardize ongoing operations.” (Thieberger) 
Data Management Processes 
Issues across both projects will be highlighted though more emphasis will be placed on those associated 
with PARADISEC. 
Data Acquisition: Data are deposited by contributors for conservation. Acquiring data from remote 
locations, particularly when not digitized, e.g. tapes, are typically sent with a trusted agent someone is 
61
Pacific and Regional Archive for Digital Source in Endangered Cultures, http://www.paradisec.org.au/
62
Ethnographic Eresearch, http://ethnoer.unimelb.edu.au
26
traveling to these locations. Items have also be transferred by registered mail when necessary but this is 
not the preferred option given risks of damage to items. 
The collection is three years old but original data are typically as old as 50 years. Non-digital data are 
digitized; a backlog has resulted in part from our high profile. Priceless tapes and transcripts from 
researchers in other countries have been deposited with no similar facility available elsewhere in the 
region. There are problems with interoperability of formats particularly in relation to metadata.  
There are insufficient resources to meet the current and growing demand for digitization prior to data 
ingestion into the collection. AUSTEHC
63
has assisted with some of this. 
IP/Copyright of Data and scholarly output:  For the PARADISEC collection there are moral and ethical 
issues associated with the deposit and ownership of materials. The overall mission is to ensure 
preservation of the item by the legal custodian who may not necessarily by the ‘owner’ of the IP or 
cultural IP of the item as such
64
. Researchers using data are expected to acknowledge the owners and the 
collection as outlined in the Conditions of Access
65
policy. 
Data Quantities: The PARADISEC collection is an ongoing and growing collection which currently 
holds about 3813 items comprising 2.6TB. Recently the collection has increased the amount of video data 
deposited which will increase the data storage demands. 
Data storage and Backup:  The PARADISEC archive is a collection of National and International 
significance which intended for long term preservation.  
The server in Sydney is treated the official storage point of the definitive copy (on disc). The back up data 
are held by APAC at the Peta-Store at ANU. Ideally Melbourne would also have a mirror of the data, and 
funds are being sought from the ARC-LIEF scheme in 2006 to establish such a server at Melbourne.  
Data are backed weekly onto tape with a full set of tapes in a fireproof cupboard in the PARADISEC lab 
in the Transient building at the University of Sydney. If the tape robot in Canberra failed there would still 
be the original sitting on backed up tape from the server, Azoulay in Sydney  
In Sydney, when Azoulay:Archive partition gets to 60% full it triggers an automotive archive process to 
remove the oldest files in order, to take capacity down to 20%. Archive process stores batch of files on 
200GB digital tape under a single archive tag. The tag and file names are emailed to project members. 
Data formats: The preferred formats for both projects are for open source however there is some reliance 
on commercial software and formats within the broader researcher community. With PARADISEC, 
formats vary for different data. Digitisation is a major part of this project and current formats are limited 
to the following: 
Text: RTF, PDF, TXT, XML (Text character content - ASCII, Unicode) 
Images: TIFF, JPEG, PDF 
Video: .dv, MPEG3, MPEG 4 
Audio: PCM, MPEG3 
With EthnoER the focus is more on the collaborative platforms and tools for the conduct of the research; 
including working with data in the field and held within digital repositories like PARADISEC. Links to 
various annotation and editing tools are provided on the project website including: Elan, CLAN, and 
Annodex. Supporting researchers in the use of these tools is a core objective of this project. 
EthnoER is developing an online presentation and annotation system for archiving data; aimed also at 
providing a workflow for researchers that ensures they are using annotation tools to provide standards 
63
Refer 3.1.2 for more information about AUSTEHC. 
64
More information about the IP/Copyright policy is available at: http://www.paradisec.org.au/PdsCdeposit.rtf
65
More information about the Conditions of Access policy is available at: http://www.paradisec.org.au/PDSCaccess.rtf
27
conformant and interoperable outputs. A problem with current work methods is that many tools are 
relatively new and each has its own characteristics; not all of which constrain the user to provide well-
formed data as an output. 
66
67
Metadata : Current standards are based on those established by Open Languages Archives Community  
(OLAC), the Broadcast Wave Format (BWF) metadata, and the National Library of Australia (NLA) 
metadata set. BEXT is the metadata encapsulated in Broadcast Wave Format (BWF) audio files. 
EthnoER is mapping relationships between parts of the data as Dublin Core struggles with this aspect of 
data. The project is also looking at RDF metadata schema and Semantic-web technologies to manage 
archival objects in multiple parts. 
The collection catalogue distinguishes three levels: the collection, item and file. Due to time and funding 
limitations PARADISEC records the bare minimum of metadata focusing on: rights and permissions; 
technical metadata; administrative/management and researcher annotations. The metadata is managed in 
an open source relational database - MySQL/PHP. 
There are regular exports of parts of the metadata providing XML encoded data for an OLAC-compliant 
static repository, a generic catalogue listing for the APAC data store, and header information that is 
encapsulated into the BWF audio files. 
Data Access, Authentication, Authorisation and Security: APAC manages the web presentation of the 
collection which is where the data access occurs. Anyone with access to a web browser is able to 
anonymously conduct a “Quick Catalogue Search” by clicking on this icon on the login page
68
. This 
search 
provides a listing of the entire collection with the following information: 
t
he item’s unique identifier  
the item title (variable detail)  
the collector’s name 
source language (as given) 
the country 
whether the item is digitized  
date when last modified 
details of the item (varies across items with most items allowing access to this description) 
Researchers/users who wish to access the items apply for access to the collection via an access request 
downloaded from the PARADISEC website. 
69
3.1.9 
Household Income and Labour Dynamics in Australia (HILDA) Survey  
The focus of this audit was the HILDA Survey, a nation-wide household panel survey that focuses on 
issues relating to families, income, employment and well-being. The survey began in 2001 with a large 
national probability sample of around 14,000 individuals in almost 8000 Australian households and aims 
to provide, on an annual basis, longitudinal panel statistics describing the ways in which people’s lives are 
changing in Australia
70
.  
The Project Director of the HILDA is Professor Mark Wooden. Two members of the project team were 
consulted during the audit: Ms. Nicole Watson, HILDA Deputy Director, Survey Management and Mr. 
Simon Freidin, HILDA Survey Research Database Manager and Analyst. 
66
Detailed information about project metadata is located at: http://www.paradisec.org.au/PARADISECMetadataset.rtf
67
More information about the Open Language Archive Community and standards is located at: http://www.language-
archives.org/
and http://www.language-archives.org/tools/search/
68
PARADISEC login at: http://azoulay.arts.usyd.edu.au/paradisec/login.php
69
Project website is located at: http://www.melbourneinstitute.com/hilda/
70
Headey, B., Warren, D., and Harding, G., (2006) Families, Incomes and Jobs: A Statistical Report of the HILDA Survey
Melbourne: Melbourne University Press. Available at:   http://www.melbourneinstitute.com/hilda/statreport/statreport2005.pdf
28
Project Partners: 
Melbourne Institute, Faculty of Economics & Commerce, University of Melbourne 
Australian Council for Educational Research 
Australian Institute of Family Studies  
The Australian Government Department of Families, Community Services and Indigenous Affairs 
(FaCSIA)
71
The project is funded solely by the Australian Government Department of Families, Community Services 
and Indigenous Affairs (FaCSIA). 
Data Management Processes 
The dataset associated with this project is not typical of ‘data-intensive’ projects as such. However, from a 
social science perspective, the size of this dataset is significant, particularly as it is expected to be an 
indefinite life panel of the Australian population with a current funding commitment of $40 million.  
Data Acquisition: Raw data are collected by ACNielson (ACN) via face-to-face interviews in participant 
homes; a process taking up to 8 months. Most of the data collected is manually entered on paper 
questionnaires by these interviewers and later punched into SurveyCraft and later converted to SPSS data 
files. One questionnaire is scanned and converted into TIFF files via Hands and Eyes, then imported into 
SurveyCraft and later converted to SPSS data files. Data from ACN is ingested into the HILDA server as 
SPSS files. Data are cross-checked and cleaned  
IP/Copyright of Data and scholarly output:  All IP and Copyright of the data belongs to the Australian 
Government. Scholarly output from the data is owned by the researcher.  
Data Quantities: 
For each annual Wave around 40,000 questionnaires are completed with the project 
currently completing its sixth Wave. Data are pre and post processed resulting in a current data store, 
including raw data, analyses and associated programs, of about 200GB.  
The datasets going to users, including all Wave Releases and some programs, can be managed on a single 
CD. 
Data storage and Backup: All completed paper questionnaires are archived by ACN until the end of the 
life of the project. ACN also maintains copies of the raw digital data and a database of the personal 
information of participants including their contact details. Other project digital data are stored on the 
HILDA server which is maintained behind a firewall to meet the “In Confidence” security requirements 
stipulated by the Government contract. The work area for the data must also be located in an environment 
with secure access only to HILDA team members.  
Data are updated with each Wave using cross Wave checking techniques and where errors or 
discrepancies are found datasets are updated and the previous Waves are re-released. Data are therefore 
not constant which may have implications for researchers who use older versions of the data for scholarly 
output.  
Storage and back up procedures:  
All raw data are stored on Database Manager’s removable hard disk. 
All original CD/DVDs from ACN are locked in secure cabinet.  
All the programs are backed up locally by the Institute using their back process. 
One external firewire drive used to backup the data several times a year.  
Full back up made on DVD annually and stored off-site with Information Services.  
Disaster Recovery:   
Access to individual team member backups, including off-site copies of the data and programs.  
Access to ACN data (in Sydney) of original raw data sent to the project. 
71
http://www.facsia.gov.au/
29
Long term preservation of the data: 
Current project funding is sufficient to sustain the existing data for the life of the project. 
When the project ends the Government will decide whether the data should be preserved. Current 
contract states that once the project ends and there is no future for further surveys that all paper 
base questionnaires would have to be shredded and that all the data would be returned to the 
FaCSIA. No decision has been made regarding that long term. It is possible that some version of 
the Confidentialised dataset may go into a National Archive like the Social Science Archive at 
ANU. 
Data are available to approved users in one of two versions: 
Confidentialised Dataset – some information is removed from the dataset to make it less likely 
for someone to be identified as a respondent e.g. taking away CD level, geographic information, 
SLA, postcode, detailed occupational and industry codes. Only have State or part of State 
identified.  
Unconfidentialised Dataset – still does not include names and addresses of participants but all 
geographic information, postcode, CD, top level coding on income and wealth and puts back 4 
digits occupation and industry coding. 
Data formats:  All formats and software used by the project are commercial. The data formats include 
SAS datasets, SPSS datasets, PDF of the Code Frames, a set of frequencies, and PDF of the marked up 
questionnaires which are produced in QUARKexpress.  
Metadata: SPSS creates the metadata framework and it is stored with the numeric data and the numeric 
context data so we can manage the whole data dictionary simultaneously with the whole collected data. 
MSAccess database is used to manipulate the metadata and produces PDF Code Frames which are 
different ways of looking at the metadata. 
Data Access, Authentication, Authorisation and Security: There are currently about 650 direct users of 
the data. To gain authorization to access the data prospective users must submit application
72
to gain 
access the data.
If the application is approved the user must sign contract/deed of confidentiality
73
with 
FaCSIA, Commonwealth Government. This will provide access to the Confidentialised version of the 
data. Very few users are able to access the unconfidentialised dataset and they must provide a secure 
facility to access that data and sign a different deed. Audits of security arrangements must be made on an 
annual basis to a selection of the users. The Melbourne facility has also been audited by security 
consultants.  
74
3.1.10 
Australian Sound and Design Project  
INITIAL AUDIT 
The focus of this audit was the Australian Sound Design Project; an integrated archive of Australian 
interdisciplinary sound design of public space. This is a collection of national and international 
significance, being the first auditory archive of sound design in public space. An important feature of this 
collection is that many of the items within it represent ephemeral, spatial architectures in time. The 
project works to bring these installations via an integrated multi-media web presentation to expose and 
preserve them. 
Project team members consulted during the audit were:  
Dr Ros Bandt, Project Leader 
Mr. Iain Mott, Technical Manager 
Mr. Gavan McCarthy, Director AUSETHC  
72
The Application form can be viewed at:  http://www.melbourneinstitute.com/hilda/data/OrderAustR4Confid.doc
73
The Deed of Confidentiality can be viewed at: http://www.melbourneinstitute.com/hilda/data/DeedAustR4Confid.pdf
74
The project website is located at: http://www.sounddesign.unimelb.edu.au/site/index1.html
30
Documents you may be interested
Documents you may be interested