how to download pdf file in c# windows application : Remove metadata from pdf application Library cloud windows asp.net html class sustainable_paths0-part115

Sustainable paths for Data-intensive Research 
Communities at the University of Melbourne:  
A Report for the Australian Partnership for  
Sustainable Repositories. 
Anna Shadbolt, University of Melbourne 
Dirk van der Knijff, University of Melbourne 
Eve Young, University of Melbourne 
Lyle Winton, University of Melbourne 
http://www.apsr.edu.au
August 21 2006
Remove metadata from pdf - add, remove, update PDF metadata in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata
rename pdf files from metadata; add metadata to pdf programmatically
Remove metadata from pdf - VB.NET PDF metadata library: add, remove, update PDF metadata in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Enable VB.NET Users to Read, Write, Edit, Delete and Update PDF Document Metadata
adding metadata to pdf; pdf metadata editor
Executive Summary 
1
The Australian Partnership for Sustainable Repositories (APSR ) is a DEST funded project that brings 
together a group of committed stakeholders in the field of higher education digital sustainability and 
preservation. In 2005 APSR proposed to offer a "sustainability consultancy" service to selected research 
communities whose work is data-intensive and who have an identified need to store and share that data.  
2
The Melbourne-based APSR project forms a subset of a national (AERES ) project which aims to make 
APSR's resources relevant to the day to day work of these data-intensive research communities with core 
outcomes of that project being the development of a base framework for analysing a research community's 
systems and procedures for data management and archiving. Findings from the Melbourne project will 
feed into the national AERES project report. 
The purpose of this report is to present the local project findings with a view to identifying how these 
findings may add to the knowledge base for informing an e-research strategy for the University of 
Melbourne. It also provides important considerations for how major Government initiatives in research 
policy and funding might impact on research data and records management requirements.  
Eleven research communities from diverse disciplines were consulted for an audit of their data 
management practices. Researchers from these communities represent a number of diverse disciplines: 
Applied Economics; Astrophysics; Computer Science and Software Engineering; Education; 
Ethnography; Experimental Particle Physics; Humanities informatics; Hydrology and Environmental 
Engineering; Linguistics; Medical informatics; Neuroscience and the Performing Arts. 
In addition to the specific findings for each group audited, the project findings also provide information 
about sustainability issues around research data management practices at the university.  
Meeting the needs 
of the researchers interviewed will take resources, and at present much is left to 
academic departments; often leading to either no or limited action or to 'reinventing the wheel'. 
These findings point to a number of issues that can help to inform an e-research strategy for the university. 
Eight recommendations have been formulated for consideration by key stakeholders. 
ISSUE 1: The importance of an institution-wide strategy for eResearch. 
The findings from this project reinforce the work of Professor Geoff Taylor, Ms Linda O’Brien and the 
eResearch Advisory Group, identifying the need for an institution-wide strategy to progress and manage 
eResearch engagement and support. In particular, the findings demonstrate that when it comes to digital 
data management, there is variable capability among our research communities to comply with the 
University’s Policy on the Management of Research Data and Records
3
and the (consultation draft) 
Australian Code for the Responsible Conduct of Research.
4
Data management, including access, 
discovery and storage, must be a fundamental component of such an institution-wide strategy. A broad 
eResearch strategy can also position the University to meet the challenges of the Research Quality and 
Research Accessibility Frameworks
5
Recommendations three to eight below provide some of the essentials for such strategic planning. The 
Research and Research Training Committee (R&RT) would provide the governance for enabling its 
implementation. 
Recommendation 1
: That the University develops a strategy that broadly addresses the 
policy, infrastructure, support and training needs of eResearch. 
1
http://www.apsr.edu.au
2
Sustainable Paths for Data-intensive Research Communities, APSR AERES Project Proposal 2006 
http://www.apsr.edu.au/currentprojects/sustainable_paths.htm
3
http://www.unimelb.edu.au/records/research.html
4
http://www.research.unimelb.edu.au/hot/current.html#draft
5
http://www.research.unimelb.edu.au/hot/current.html#quality
2
VB.NET PDF remove image library: remove, delete images from PDF in
Insert Image to PDF. Image: Remove Image from PDF Page. Image: Copy, Paste, Cut Image in Page. Link: Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
edit pdf metadata; pdf metadata viewer
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
Able to remove a single page from adobe PDF document in VB.NET. Ability to remove consecutive pages from PDF file in VB.NET. Enable
c# read pdf metadata; google search pdf metadata
Recommendation 2
: That the University’s R&RT Committee consider forming a 
subcommittee to provide governance for enabling eResearch at the university. This 
committee should have broad representation and include Information Services and 
eResearch leaders. 
ISSUE 2: A lack of information policy and guidelines. 
There is a lack of best practice guidelines and policy statements available to support researchers with their 
data management decision making processes. Areas of need include: implementation of research record 
keeping principles and requirements; data management for short term sustainability and long term 
preservation; metadata standards, principles and systems, standards for authentication and authorization, 
and systems for access and storage of scholarly IP.  
Recommendation 3
: That Information Services initiate a consultative process for the 
development of appropriate guidelines and, where relevant, policy statements, to 
support researchers with the management of their research data and records. 
ISSUE 3: Absence of a coordinated data management infrastructure for research. 
The findings suggest a need for centrally supported flexible data management, authentication and 
access systems. Groups audited were found to be managing their own data and developing their 
own access and presentation systems.  The need was also identified by several groups for 
managed data storage facilities. Groups are supporting a variety of software. Needs around 
authentication and access differed; requiring a variety of public, local, national and international 
collaborator access. The need for a data management capability that is internationally 
interoperable; allowing for local storage and collections to federate internationally was 
highlighted. 
There will also be a need to promote among the University research community, our 
capacity for digital data management. This emphasis on developing and marketing ‘platforms for 
collaboration’ through ICT within and across institutions is a key aspect of the National Collaborative 
Research Infrastructure Strategy (see capability area 16).
6
Recommendation 4
:  To review ICT infrastructure for research, paying urgent 
attention to data management infrastructure. 
ISSUE 4: Capabilities needed by e-Researchers. 
The audit identified expertise used in the conduct of eResearch across a variety of disciplines. The 
findings show that an eResearch consultation service needs to include at a minimum, information and 
access to expertise in: Database management; Middleware development, management and support (Data 
management systems, Grid and other distributed systems, Authentication and Authorisation management); 
XML advice and expertise; Metadata advice: metadata systems, schema and taxonomy development; 
Curation and Preservation advice and support for raw data and scholarly output (Business case 
development advice and support, Discipline based advice and support around sustainable data format 
selection, and Obsolescence planning). 
Recommendation 5
:  To establish a structured consultation process for eResearch 
support 
6
See
http://www.dest.gov.au/sectors/research_sector/policies_issues_reviews/key_issues/ncris/platforms_for_collaboration.htm
3
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
console application. Able to remove a single page from PDF document. Ability to remove a range of pages from PDF file. Free trial package
change pdf metadata creation date; pdf metadata extract
C# PDF Password Library: add, remove, edit PDF file password in C#
String outputFilePath = Program.RootPath + "\\" Remove.pdf"; // Remove password in the input file and output to a new file. int
remove pdf metadata; acrobat pdf additional metadata
ISSUE 5: Difficulty accessing information about eResearch activity and capability. 
This project has identified problems around access to information about eResearch activity, capability and 
support; with much information exchange occurring fortuitously. It is recommended that an information 
exchange strategy be established to increase the dissemination of information about support for 
eResearchers. A springboard to this process could be the delivery of an eResearch Expo in December 
2006 to showcase university-wide activity and resources for eResearch.  
Recommendation 6
 To establish an Information Exchange Strategy around eResearch.     
Part of the information exchange strategy is a registry of research capability across the university which 
would facilitate the dissemination of this information. The feasibility of linking such a registry to the 
Themis Research Management System should also be established; minimizing the need for duplication of 
data entry by our researchers. 
Recommendation 7
 To establish a Registry of e-research expertise. 
ISSUE 6: Implications for education and training. 
Project findings reinforce the view expressed by the Australian Government’s e-Research Coordinating 
Committee that “The ultimate success of the implementation of a strategic e-Research framework will be 
dependent on people with attitudes, skills and an understanding of the benefits that the framework can 
deliver”:  
Three groups of skills development are needed to hasten the adoption of e-
Research methodologies. Firstly, researchers need easy and structured ways of 
acquiring basic e-Research skills. Secondly, researchers need a researcher/skilled 
IT interface, to provide them with day-to-day support. Thirdly, researchers need 
high level ICT and information management professional support.
7
We need to look at how we can assist University researchers (staff and students) to acquire and develop 
skills in e-Research to facilitate their research and to ensure compliance with data management 
requirements (incl. University Policy on the Management of Research Data and Records).  This would 
include an understanding of research data policies, responsibilities, collections, curation, preservation, 
copyright/IP, metadata and standards. We need then to ensure they know to access skilled support and 
high-level infrastructure. 
Recommendation 8
 To review the implications of project findings for researcher education 
and training. 
7
An e-Research Strategic Framework: Interim Report of the e-Research Coordinating Committee, 30 September 2005 – see 
http://www.dest.gov.au/sectors/research_sector/policies_issues_reviews/key_issues/e_research_consult/
4
C# PDF bookmark Library: add, remove, update PDF bookmarks in C#.
Ability to remove and delete bookmark and outline from PDF document. Merge and split PDF file with bookmark. Save PDF file with bookmark open.
modify pdf metadata; remove metadata from pdf
C# PDF remove image library: remove, delete images from PDF in C#.
Insert Image to PDF. Image: Remove Image from PDF Page. Image: Copy, Paste, Cut Image in Page. Link: Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
add metadata to pdf file; metadata in pdf documents
CONTENTS 
Executive Summary.................................................................................................................................2 
1. Introduction..........................................................................................................................................6 
1.1 Objectives.......................................................................................................................................6 
1.2 Steering Committee........................................................................................................................6 
2. Methodology........................................................................................................................................7 
2.1 Participating projects......................................................................................................................7 
2.2 Procedure........................................................................................................................................7 
2.2.1 
The audit process..............................................................................................................7 
2.2.2 
Phase two consultations...................................................................................................8 
3. Project Findings....................................................................................................................................8 
3.1 Overview of participating projects.................................................................................................8 
3.1.1 
Experimental Particle Physics..........................................................................................8 
3.1.2 
Australian Science and Technology Heritage Centre (AUSTEHC)..............................11 
3.1.3 
Learners’ Perspective Study, ICCR...............................................................................13 
3.1.4 
Neuroscience MRI Computational Facility....................................................................16 
3.1.5 
Astrophysics - Australian Virtual Observatory..............................................................18 
3.1.6 
Hydrological Measurement and Monitoring..................................................................20 
3.1.7 
Molecular Medicine Informatics Model – Bio21...........................................................22 
3.1.8 
PARADISEC and EthnoER...........................................................................................26 
3.1.9 
Household Income and Labour Dynamics in Australia (HILDA) Survey.....................28 
3.1.10  Australian Sound and Design Project.............................................................................30 
3.1.11  The Kidneyome project..................................................................................................32 
3.2 Researcher Capabilities and Expertise.........................................................................................36 
3.3 Sustainability considerations........................................................................................................36 
3.3.1 
Technology Issues..........................................................................................................36 
3.3.2 
Curation/Archiving Issues..............................................................................................36 
3.3.3 
Data Storage Issues........................................................................................................37 
3.3.4 
Sustainability Risk Factors.............................................................................................37 
4. Discussion and recommendations......................................................................................................38 
4.1 The importance of an institution-wide strategy for eResearch....................................................38 
4.2 A lack of information policies and guidelines.............................................................................38 
4.3 Absence of a coordinated data management infrastructure for research.....................................39 
4.3.1 
A case for centrally supported data management, authentication and access systems..39 
4.3.2 
The need for flexible infrastructure................................................................................39 
4.4 Capabilities needed by eResearchers...........................................................................................40 
4.5 Difficulty accessing information about eResearch activity and capability..................................40 
4.6 Implications for education and training.......................................................................................40 
5. Appendices.........................................................................................................................................42 
5.1 Audit questionnaire......................................................................................................................42 
5.2 Data Process Classifiers...............................................................................................................47  
5
C# TIFF: TIFF Metadata Editor, How to Write & Read TIFF Metadata
You can also update, remove, and add metadata. List<EXIFField> exifMetadata = collection.ExifFields; You can also update, remove, and add metadata.
extract pdf metadata; batch update pdf metadata
VB.NET PDF delete text library: delete, remove text from PDF file
projects. Basically, you can use robust APIs to select a PDF page, define the text character position, and remove it from PDF document.
view pdf metadata; pdf metadata online
1. Introduction 
8
The Australian Partnership for Sustainable Repositories (APSR) is a DEST  funded project that brings 
together a group of committed stakeholders in the field of higher education digital sustainability and 
preservation
9.
APSR’s scope covers aspects of data management, including the establishment, usability, 
curation, governance, and sustainability of repository and preservation environments used in research and 
higher education generally. Through its university partners, APSR is interested in tracking the data 
management needs of data-intensive e-research and the role that repositories may play within the 
infrastructure support for these research communities. 
This project grew out of APSR’s proposal to offer a "sustainability consultancy" service to selected 
research communities whose work is data-intensive and who have an identified need to store and share 
that data. The national AERES
10
project aimed to make APSR's resources relevant to the day to day work 
of these data-intensive research communities with core outcomes of that project being the development of 
a base framework for analysing a research community's systems and procedures for data management and 
archiving.   
The University of Melbourne project provided a coordination base for the research communities based at 
University of Melbourne
11
. Its goal is to ensure that APSR’s resources are relevant to the day to day work 
of these data-intensive communities by working in a manner that is “embedded” within the communities 
to document their research data infrastructure; incorporating their systems and procedures for data 
management, dissemination, and archiving.  
The purpose of this report is to present the local project findings with a view to identifying how these 
findings may add to the knowledge base for informing an e-research strategy for the University of 
Melbourne. Results from this project will also be reported to the National APSR AERES project. 
1.1 Objectives 
The objectives of this project were: 
to conduct an audit of ten to twelve data-intensive research communities across a variety of 
disciplines; 
to document the data management issues for each community as identified during the audit;  
to develop a framework for progress for each community;  
to work closely with three to six communities to implement change, and 
to draw
broader conclusions from these sample communities 
1.2 Steering Committee 
The project was guided by a steering committee comprised of a number of key stakeholders: 
Ms Nicki McLaurin Smith, (Chair) Director, Information Management and Project Sponsor. 
Ms Anna Shadbolt, (Secretary) Project Manager. 
Dr Angela Bridgland, Deputy Principal, Information (Services). 
Mr. Andrew Yeoh, Director, IT User Services. 
Ms Sally-Anne Leigh, Director, Information and Education Services. 
Ms Martine Booth, Manager, Information Planning and Architecture, Information Management. 
Mr. Devendra Nambiar, Manager, Infrastructure Planning and Architecture, Information 
Infrastructure. 
Dr Glenn Swafford, V
ice Principal (Research). 
8
Department of Education, Science and Technology, Federal Government. 
9
More information about the project is available at: www.apsr.edu.au
10
Sustainable Paths for Data-intensive Research Communities, APSR AERES Project Proposal 2006 
http://www.apsr.edu.au/currentprojects/sustainable_paths.htm
11
Please note that several of the proposed research communities are multi-institutional, however all include the University of 
Melbourne as one of the core collaborators. 
6
Mr. Gavan McCarthy, Member, e-Research Advisory Group and member of participant research 
community. 
2. Methodology 
2.1 Participating projects 
Thirteen research communities from the University of Melbourne were approached between January and 
July 2006. Eleven projects or groups were selected based on diversity, availability and project resources. 
Experimental Particle Physics, School of Physics, Faculty of Science. 
Australian Science and Technology Heritage Centre, Faculty of Arts. 
Learners’ Perspective Study, International Centre for Classroom Research (ICCR), Faculty of 
Education. 
Neuroscience MRI Computational Facility, Howard Florey Institute. 
Australian Virtual Observatory, Astrophysics Group, School of Physics, Faculty of Science. 
Hydrological Measurement and Monitoring, Faculty of Engineering. 
Molecular Medicine Informatics Model (MMIM). Bioinformatics, Bio 21 Institute. 
PARADISEC and EthnoER, Department of Linguistics and Applied Linguistics, and the Language 
Technology Group, Department of Computer Science and Software Engineering. 
Household Income and Labour Dynamics in Australia (HILDA), Melbourne Institute of Applied 
Economic and Social Research, Faculty of Economics and Commerce. 
Australian Sound and Design Project. Centre for Ideas, The Australia Centre, Faculty of Arts. 
The Kidneyome project, Faculty of Medicine, Dentistry and Health Sciences and Department of 
Information Systems, Faculty of Science. 
2.2 Procedure        
The project was intended to have two distinct parts: phase one which entailed an audit of the data 
management issues of the research groups; and phase two, which would identify gaps around data 
management practices for a selection of discipline-based and multi-disciplinary research communities 
participating in the initial audit process. It was anticipated that the outcome of this gap analysis by the 
local APSR team may lead to changes in practice. The reality found that these two phases were not so 
discreet, but rather merged as part of an ongoing consultative relationship between the local APSR team 
and the research groups. Ongoing contact with a number of the groups audited enabled a more detailed 
description of their data issues and their responses to the input and recommendations from the local APSR 
project team. Consequently, the methodology was a reflection of this active engagement where 
participation in the audit had some influence on practice and in some cases resulted in change. The local 
APSR team documented much of these processes. 
The information gathered during the audit and subsequent meetings with research project teams is 
intended to feed into the national AERES
12 
project. 
2.2.1 
The audit process 
13
The audit process was loosely modelled on that used by Bradley and Henty (2005) .  Some amendments 
were made. The Data Process Classifiers
14
was developed by the local APSR and National AERES project 
teams to assist in the data process mapping.  
12
More information about the AERES project is available on the APSR website at: 
http://www.apsr.edu.au/currentprojects/sustainable_paths.htm
13
Refer Appendix 5.1 for a copy of the survey. Report by Bradley, K. and Henty, M. (2005) Survey of data collections: a research 
project undertaken for the Australian Partnership for Sustainable Repositories, available at: 
http://www.apsr.edu.au/publications/data_collections.htm
14
The Data Process Classifiers tool is located in Appendix 5.2. 
7
2.2.2 
Phase two consultations 
A number of criteria were developed for selecting projects interested in further consultation with the 
project:  
Ensuring diversity of discipline areas. 
Ability to resource the intervention/support. 
Willingness of the research group to participate in the process. 
Reusability of intervention/resource within other research communities. 
Identifiable public knowledge component (i.e. research knowledge that has external value and can 
be shar
ed). 
The process of identifying communities moving into further consultation occurred both as an intentional 
project decision to work with a group and as a natural progression from the team engagement with the 
researchers during the audit process. Both approaches were considered valid and represented a service 
delivery strategy for Information Services. Notably the timeframes of this current project did not match 
those required for real time consultation around the complex technology and sustainability needs of our 
eResearch communities. Consequently these Phase Two consultations are ongoing and this report 
identifies the activities commenced and not necessarily their outcomes. 
Four projects participated: Learners’ Perspective Study (ICCR-Education); the Molecular Medical 
Informatics Model (MMIM) Bio 21; the Hydrology Research Group (Environmental Engineering), and 
the Australian Sound Design Project (Centre for Ideas – The Australia Centre). 
3. Project Findings 
The findings are presented in three parts; the first (3.1) provides specific information about each project, 
the second (3.2) highlights the specialist eResearch capabilities identified during the audit, and the third 
(3.3) focuses on the infrastructure implications of the consultations during the project. 
3.1 Overview of participating projects 
This section provides a brief overview of each project audited. It includes the names of researchers 
consulted, project partners, funding sources, general project information and details of their data 
management processes. Links to more detailed information are also provided if deemed appropriate. 
15
3.1.1 
Experimental Particle Physics  
16
The focus of this audit was the Large Hadron Collider (LHC) project, the ATLAS experiment  located 
with the Experimental Particle Physics Research Group in the School of Physics. This experiment is still 
at the preparation/build up stage and is expected to commence in 2007 and continue until 2017. It is based 
in Geneva; the location of a very large instrument (LHC Accelerator) that will, once the experiment 
begins, produce tens of petabytes of data per year for distribution around the world across multiple 
collaborator sites. The project at Melbourne is part of Australia’s participation as a Tier 2 facility in this 
experiment. The Melbourne ATLAS project has also contributed by participation in the detector 
technology development and constructing on a number of components and has participated heavily in the 
operation of the ATLAS test beam (scaled down detector test) and in a number of aspects of software 
development. 
15
http://epp.ph.unimelb.edu.au/EPP/AtlasActivities
16
More information about this global experiment is available at: http://atlasexperiment.org/
8
The Melbourne Project Leader is Professor Geoff Taylor. This team includes 19 researchers and four were 
consulted during the audit:  
Associate Professor Martin Sevior 
Dr Glenn Moloney 
Dr Lyle Winton 
Dr Marco La Rosa 
17
Project Partners/Collaborators in Australian Tier 2 data processing facility
Falkiner High Energy Physics group, University of Sydney. 
18
The ATLAS collaboration (includes 4682 participants from 100s of institutions) . 
19
20
CERN (European Organisation for Nuclear Research ) and the LCG (LHC Computing Grid )  
APAC and VPAC. 
Funding sources are numerous and include funding agencies and institutions around the world associated 
with each member group. At the local level funding has been sourced over the years from:  
ARC grants. 
Departmental/University funds.  
Externa
l grants, including DEST, APAC and VPAC. 
Data Management Processes 
This project represents a highly specialized technology and data management skills set. 
Data Acquisition: Experimental data are archived at the Tier 0 in CERN, distributed to a global 
federation of ten Tier 1 sites, and then partially distributed or accessed from Tier 2/3 sites within the 
ATLAS collaboration. Simulation data are generated throughout the collaboration and collected and 
archived by Tier 1 sites. This transfer of data requires advanced file transferring services, and high speed, 
well tuned network connections at every site. A key problem in this transfer which is unique to Australia 
is bandwidth and overcoming the big international latencies that are involved in the data transfer. 
IP/Copyright of Data and scholarly output: Prime responsibility for the data remains with the global 
collaboration. Post-processing, including analysis of the data at Tier 3, that is, the places where Melbourne 
physicists will be doing their data analysis as individuals, remains with the individual and the local team. 
This is essentially where researchers try and compete with the rest of the collaboration to be the first to 
make these discoveries that come about. Where individual researchers generate output from shared data it 
is considered individual IP, but publications coming from this data must include the collaboration on the 
author list.  So the researcher can never truly claim this as solely his/her own work. 
21
Data Quantities: This information is provided to illustrate the current  and projected storage levels 
required by the local team.  
Current usage at the local level fluctuates depending on where Melbourne ATLAS researchers are located. 
For instance, in July 2006 there is little data for the ATLAS experiment with one student running locally: 
has downloaded 60 GB from the collaboration (simulation data set) and is processing this data down to 
about 30 GB.  This researcher is conducting some private simulation of data, currently of the order of a 
GB or two, but this could become 10 GB. Two other main software users (a post-doc and another student) 
are at CERN so are currently using disk space offsite. This current usage does not reflect the storage needs 
when all our ATLAS researchers (19) are on site in Melbourne.  
17
Probably hosted at an APAC type facility 
18
This global collaboration comprises 4682 participants from 100s of institutions; 3 being in Australia with 24 participants 
(http://graybook.cern.ch/programmes/experiments/lhc/ATLAS.html
)  
19
CERN is the European Organization for Nuclear Research; the world's largest particle physics centre. It sits astride the Franco-
Swiss border near Geneva. More information about CERN is available at: http://public.web.cern.ch/Public/Welcome.html
20
The LHC Computing Project (LCG) is building and maintaining a data storage and analysis infrastructure for the entire high 
energy physics community that will use the LHC: http://lcg.web.cern.ch/
21
This is based on information provided in July 2006. 
9
The projected data quantities are based on meeting dual obligations as part of the collaboration at both 
Tiers 2 and 3. Once the experiment has commenced
22
the data quantities will continue to increase over the 
ten to fifteen year life of the experiment. For individual researchers at the Tier 3 level, there is a data 
storage allocation of 1 terabyte per user per year. This will start off at 40 terabytes for 2007; increasing to 
300 terabytes by 2012.  The Tier 2 facility is aiming at starting in 2007 with 100 terabytes going up to 1.5 
petabytes by 2012; and the Melbourne group must contribute to this requirement.  
Data storage and Backup: Most of the existing collaboration data are stored at CERN; the host 
institution for the ATLAS experiment.  But much is also stored across institutions throughout the ATLAS 
collaboration and is available via RLS,
LFC, and DQ2
; all somewhat integrated Grid enabled replica 
catalogues. This agreement will continue when the experiment commences in 2007. Backup is through 
local facility resources and replication. Local TIER 3 data will be backed up using departmental and 
institutional servers and remains the responsibility of the individual researcher.  
Data formats: Open standard or locally produced (de facto community standard) formats are utilized for 
all stages of the data life cycle. This is Root/IO (C++ based) and includes tables of information with a 
data/field dictionary.  Tables conform to the ATLAS EDM (event data model). The data formats are 
summarised or processed to varying levels with different EDM versions.  The output remains in the 
Root/IO format. These processes are coded and these various code versions are kept indefinitely.  
The Root format is used to access data; providing a fast and flexible framework for the researcher to 
construct any analysis with access to all available/converted/derived data. The Gaudi/Athena tools contain 
the data dictionary or meaning of the data. Athena is the preferred analysis tool. Different versions of the 
software are stored using the CMT computer system based on Concurrent Versions System
23
. The data are 
available in different versions which correspond to the software versions of Athena; the analysis tool. 
Metadata: The collaboration uses the
Pool Catalog (XML) standard but unclear about a fixed 
schema as such. The metadata is u
sed to describe the technical and structural attributes of the data. It is 
recorded around the files. The primary creator (the global collaboration) has responsibility for generating 
this metadata.  
Data Access, Authentication, Authorisation and Security: Membership of the ATLAS collaboration 
entitles researchers to data access. Each institution or group has a head/contact.  Membership approval 
must come from a group head.  Membership size of a group determines the group's annual maintenance 
and operations contribution cost which can be offset by the quantity of ‘in-kind’ contribution over the 
years. Collaboration members contribute towards the cost of detector development, deployment, operation 
and infrastructure as well as investing years
24
of effort. Without such fees and effort the experiment would 
not exist and if access to research data were allowed without contribution, this would actively discourage 
the levels of contribution required to make the experiment possible. Melbourne currently has a 
membership of 19 researchers. 
For data management only traditional authentication (UNIX username password) exists. Some Grid (PKI) 
authentication is being used. Interpretation of data can be difficult so security is not a major concern. It is 
possible to get tapes from CERN if you do it yourself.  However, when data becomes larger and more 
distributed this may be difficult. Access to tape making facilities is pass worded. 
There may be some risk associated with the protection of work in the Grid context. Where there is data 
which is not open to others in the collaboration, it would need to be placed on a storage resource (Grid 
enabled) that is secure.  Access policy can be determined using the Grid tools, but this can be difficult 
with the current ATLAS Grid middleware as it is designed for massive data production. The user analysis 
part is still being worked out.  
22
The experiment will start an estimated 10 PB data production per year in 2008 (both experimental and simulation) that will be 
managed at Tiers 0 and 1 levels, with limited production commencing in 2007.  This is when both the LHC and ATLAS detectors 
are operating at full capacity. 
23
CVS – open source version control 
24
The Melbourne team has been involved in the preparation of this experiment for the past 17 years. 
10
Documents you may be interested
Documents you may be interested