free pdf viewer c# winform : Extract text from pdf with formatting software control dll windows web page wpf web forms managingsharing1-part1642

ROLES AND RESPONSIBILITIES
Data management is not always simply the responsibility
of the researcher; various parties are involved in the
research process and may play a role in ensuring good
quality data and reducing any limitations on data sharing.
It is crucial that roles and responsibilities are assigned and
not simply presumed. For collaborative research, assigning
roles and responsibilities across partners is important.
People involved in data management and sharing may
include:
• project director designing research
• research staff collecting, processing and analysing data
• external contractors involved in data collection, data
entry, processing or analysis
• support staff managing and administering research and
research funding 
• institutional IT services staff providing data storage and
back-up services
• external data centres or web services archives who
facilitate data sharing
COSTING DATA MANAGEMENT
To cost research data management in advance of research
starting, e.g. for inclusion in a data management plan or in
preparation for a funding application, two approaches can
be taken.
• Either all data-related activities and resources for the
entire data cycle – from data creation, through
processing, analyses and storage to sharing and
preservation – can be priced, to calculate the total cost
of data generation, data sharing and preservation.
• Or one can cost the additional expenses – above
standard research procedures and practices – that are
needed to make research data shareable beyond the
primary research team. This can be calculated by first
listing all data management activities and steps required
to make data shareable (e.g. based on a data
management checklist), then pricing each activity in
terms of people’s time or physical resources needed
such as hardware or software.
The UK Data Archive has developed a simple tool that can
be used for the latter option of costing data
management.13
7
DATA MANAGEMENT PLANNING
CREATING A DATA MANAGEMENT
PLAN
In April 2010, the Digital Curation
Centre (DCC) launched DMP Online,
a web-based tool designed to help
researchers and other data
stakeholders develop data management
plans according to the requirements of major research
funders.14
Using the tool researchers can create, store and update
multiple versions of a data management plan at the
grant application stage and during the research cycle.
Plans can be customised and exported in various
formats. Funder- and institution-specific best practice
guidance is available. 
The tool combines the DCC’s comprehensive ‘Checklist
for a Data Management Plan’ with an analysis of
research funder requirements. The DCC is working with
partner organisations to include domain- and subject-
specific guidance in the tool.
ROLES AND RESPONSIBILITIES
SomnIA: Sleep in Ageing, a project co-ordinated by the
University of Surrey as part of the New Dynamics of
Ageing Programme, employed a research officer with
dedicated data management responsibilities.15
This multidisciplinary project with research teams based
at four UK universities, created a wide range of data
from specialised actigraphy and light sensor
measurements, self-completion surveys, randomised
control clinical trials and qualitative interviews. 
Besides undertaking research on the project, the
research officer co-ordinated the management of
research data created by each work package via
SharePoint Workspace 2010. This allowed controlled
permission-levels of access to data and documentation
and provided encryption and automated version
control.
The officer was also responsible for operating a daily
back-up of all data and documentation to an off-site
server. Individual researchers themselves were
responsible for other data management tasks.
CASE 
STUDY
Extract text from pdf with formatting - extract text content from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Feel Free to Extract Text from PDF Page, Page Region or the Whole PDF File
delete text from pdf with acrobat; extract text from pdf open source
Extract text from pdf with formatting - VB.NET PDF Text Extract Library: extract text content from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
How to Extract Text from PDF with VB.NET Sample Codes in .NET Application
copy text from encrypted pdf; extract all text from pdf
DOCUMENTING 
YOUR DATA
MAKE DATA CLEAR TO
UNDERSTAND AND
EASY TO USE
8
C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net
other C# .NET PDF to text conversion controls, RasterEdge C# PDF to text converter control toolkit can convert PDF document to text file with good formatting.
copy pdf text with formatting; copy paste text pdf
VB.NET Create PDF from PowerPoint Library to convert pptx, ppt to
VB.NET read PDF, VB.NET convert PDF to text, VB.NET extract PDF pages, VB Turn all PowerPoint presentation into high quality PDF without losing formatting.
export highlighted text from pdf; extract text from pdf to word
9
DATA DOCUMENTATION
Data documentation explains how data were created or
digitised, what data mean, what their content and
structure are and any data manipulations that may have
taken place. Documenting data should be considered best
practice when creating, organising and managing data
and is important for data preservation. Whenever data are
used sufficient contextual information is required to make
sense of that data. 
Data-level descriptions can be embedded within a data
file itself. Many data analysis software packages have
facilities for data annotation and description, as variable
attributes (labels, codes, data type, missing values), data
type definitions, table relationships, etc.
Other documentation may be contained in publications,
final reports, working papers and lab books or created as
a data collection user guide. 
DOCUMENTING YOUR DATA
Good data documentation includes information on: 
• the context of data collection: project history, aim,
objectives and hypotheses 
• data collection methods: sampling, data collection
process, instruments used, hardware and software
used, scale and resolution, temporal and geographic
coverage and secondary data sources used 
• dataset structure of data files, study cases,
relationships between files 
• data validation, checking, proofing, cleaning and
quality assurance procedures carried out 
• changes made to data over time since their original
creation and identification of different versions of
data files
• information on access and use conditions or data
confidentiality 
At the data-level, documentation may include: 
• names, labels and descriptions for variables, records
and their values 
• explanation or definition of codes and classification
schemes used 
• definitions of specialist terminology or acronyms
used
• codes of, and reasons for, missing values 
• derived data created after collection, with code,
algorithm or command file 
• weighting and grossing variables created 
• data listing of annotations for cases, individuals or
items
DOCUMENTING DATA IN NVIVO
Researchers using qualitative data
analysis packages, such as NVivo 9,
to analyse data can use a range of
the software’s features to describe
and document data. Such descriptions
both help during analysis and result in
essential documentation when data are shared, as they
can be exported from the project file alongside data at
the end of research.
Researchers can create classifications for persons (e.g.
interviewees), data sources (e.g. interviews) and coding.
Classifications can contain attributes such as the
demographic characteristics of interviewees,
pseudonyms used, and the date, time and place of
interview. If researchers create generic classifications
beforehand, attributes can be standardised across all
sources or personsthroughout the project. Existing
template and pre-populated classification sheets can be
imported into NVivo.
Documentation files likethe methodology description,
project plan, interview guidelines and consent form
templates can be imported into the NVivo project file
and stored in a ‘documentation’ folder in the Memos
folder or linked from NVivo 9 externally. Additional
documentation about analyses or data manipulations can
be created in NVivo as memos.
A date- and time-stamped project event log can record all
project events carried out during the NVivo project cycle.
Additional descriptions can be added to all objects
created in, or imported to, the project file such as the
project file itself, data, documents, memos, nodes and
classifications.
All textual documentation compiled during the NVivo
project cycle can later be exported as textual files;
classifications and event logs can be exported as
spreadsheets to document preserved data collections. The
structure of the project objects can be exported in groups
or individually. Summary information about the project as
a whole or groups of objects can be exported via project
summary extract reports as a text, MS Excel or XML file.
CASE 
STUDY
A CRUCIAL PART OF MAKING DATA USER-FRIENDLY, SHAREABLE AND WITH LONG-LASTING
USABILITY IS TO ENSURE THEY CAN BE UNDERSTOOD AND INTERPRETED BY ANY USER. 
THIS REQUIRES CLEAR AND DETAILED DATA DESCRIPTION, ANNOTATION AND CONTEXTUAL
INFORMATION. 
VB.NET Create PDF from Word Library to convert docx, doc to PDF in
VB.NET read PDF, VB.NET convert PDF to text, VB.NET extract PDF pages, VB Export all Word text and image content into high quality PDF without losing
copy text from pdf; export text from pdf to excel
VB.NET Image: Robust OCR Recognition SDK for VB.NET, .NET Image
only PDF or Bmp. OCR software retains original layout and formatting of scanned images, fax documents or screen shots. VB.NET Sample Codes to Extract Text from
extract text from pdf; extracting text from pdf
10
METADATA 
In the context of data management, metadata are a
subset of core standardised and structured data
documentation that explains the origin, purpose, time
reference, geographic location, creator, access conditions
and terms of use of a data collection. Metadata are
typically used:
• for resource discovery, providing searchable information
that helps users to easily find existing data 
• as a bibliographic record for citation 
Metadata for online data catalogues or discovery portals
are often structured to international standards or schemes
such as Dublin Core, ISO 19115 for geographic information,
Data Documentation Initiative (DDI), Metadata Encoding
and Transmission Standard (METS) and General
International Standard Archival Description (ISAD(G)). 
The use of standardised records in eXtensible Mark-up
Language (XML) brings key data documentation together
into a single document, creating rich and structured
content about the data. Metadata can be viewed with web
browsers, can be used for extract and analysis engines
and can enable field-specific searching. Disparate
catalogues can be shared and interactive browsing tools
can be applied. In addition, metadata can be harvested for
data sharing through the Open Archives Initiative Protocol
for Metadata Harvesting (OAI-PMH). 
Researchers typically create metadata records for their
data by completing a data centre’s data deposit form or
metadata editor, or by using a metadata creation tool, like
Go-Geo! GeoDoc16 or the UK Location Metadata Editor17.
Providing detailed and meaningful dataset titles,
descriptions, keywords and other information enables
data centres to create rich resource-discovery metadata
for archived data collections.
Data centres accompany each dataset with a bibliographic
citation that users are required to cite in research outputs
to reference and acknowledge accurately the data source
used. A citation gives credit to the data source and
distributor and identifies data sources for validation.
DOCUMENTING YOUR DATA
DATA DOCUMENTATION
Online documentation for a data
collection in the UK Data Archive
catalogue can include project
instructions, questionnaires,
technical reports, and user guides.
CASE 
STUDY
FORMAT
NAME
SIZE IN KB
DESCRIPTION
PDF
6713dataset_documentati
on.pdf
1403
Dataset Documentation
(variable list, derived
variables, variables used
in report tables)
PDF
6713project_instructions.
pdf
1998
Project instructions
(interviewer, nurse and
coding and editing
instructions)
PDF
6713questionnaires.pdf
2010
Questionnaires (CAPI
and self-completion
questionnaires and
showcards)
PDF
6713technical_report.pdf
6056
Technical Report
PDF
6713userguide.pdf
256
User Guide
PDF
UKDA_Study_6713_Infor
mation.htm
19
Study information and
citation
CREATING METADATA
Go-Geo! GeoDoc is an online
metadata creation tool that
researchers can use to create
metadata records for spatial data. 
The metadata records are compliant
with the UK GEMINI standard, the European INSPIRE
directive and the international ISO 19115 geospatial
metadata standard.18
Researchers can create metadata records, export them
in a variety of formats - UK AGMAP 2, UK GEMINI 2, ISO
19115, INSPIRE, Data Federal Geographic Data
Committee, Dublin Core and Data Documentation
Initiative (DDI) - or publish them in the Go-Geo! portal,
a discovery portal for geospatial data.
CASE 
STUDY
VB.NET Create PDF from Excel Library to convert xlsx, xls to PDF
& pages edit, C#.NET PDF pages extract, copy, paste C#.NET rotate PDF pages, C#.NET search text in PDF all Excel spreadsheet into high quality PDF without losing
copy text from pdf in preview; delete text from pdf file
C# PDF Convert to HTML SDK: Convert PDF to html files in C#.net
file. Besides, the converted HTML webpage will have original formatting and interrelation of text and graphical elements of the PDF.
find and replace text in pdf; copy pdf text with formatting
FORMATTING 
YOUR DATA
CREATE WELL ORGANISED AND LONGER-LASTING DATA 
11
VB.NET PDF Convert to Word SDK: Convert PDF to Word library in vb.
application. In addition, texts, pictures and font formatting of source PDF file are accurately retained in converted Word document file.
extract text from image pdf file; copy text from locked pdf
C# Create PDF from Word Library to convert docx, doc to PDF in C#.
A convenient C#.NET control able to turn all Word text and image content into high quality PDF without losing formatting. Convert
copy and paste text from pdf to excel; copying text from pdf to excel
12
FILE FORMATS 
The format and software in which research data are
created and digitised usually depend on how researchers
plan to analyse data, the hardware used, the availability of
software, or can be determined by discipline-specific
standards and customs. 
All digital information is designed to be interpreted by
computer programs to make it understandable and is – by
nature – software dependent. All digital data may thus be
endangered by the obsolescence of the hardware and
software environment on which access to data depends. 
Despite the backward compatibility of many software
packages to import data created in previous software
versions and the interoperability between competing
popular software programs, the safest option to guarantee
long-term data access is to convert data to standard
formats that most software are capable of interpreting,
and that are suitable for data interchange and
transformation. 
FORMATTING YOUR DATA
TYPE OF DATA
RECOMMENDED FILE FORMATS FOR SHARING, 
RE-USE AND PRESERVATION
Quantitative tabular data with extensive metadata
a dataset with variable labels, code labels, and defined
missing values, in addition to the matrix of data
SPSS portable format (.por)
delimited text and command (‘setup’) file 
(SPSS, Stata, SAS, etc.) containing metadata information
some structured text or mark-up file containing metadata
information, e.g. DDI XML file
Quantitative tabular data with minimal metadata
a matrix of data with or without column headings or
variable names, but no other metadata or labelling
comma-separated values (CSV) file (.csv)
tab-delimited file (.tab)
including delimited text of given character set with SQL
data definition statements where appropriate
Geospatial data
vector and raster data
ESRI Shapefile 
(essential: .shp, .shx, .dbf ; optional: .prj, .sbx, .sbn)
geo-referenced TIFF (.tif, .tfw)
CAD data (.dwg)
tabular GIS attribute data
Qualitative data
textual
eXtensible Mark-up Language (XML) text according to an
appropriate Document Type Definition (DTD) or schema
(.xml)
Rich Text Format (.rtf)
plain text data, ASCII (.txt)
Digital image data
TIFF version 6 uncompressed (.tif)
Digital audio data
Free Lossless Audio Codec (FLAC) (.flac)
Digital video data
MPEG-4 (.mp4)
motion JPEG 2000 (.jp2)
Documentation
Rich Text Format (.rtf)
PDF/A or PDF (.pdf)
OpenDocument Text (.odt)
FILE FORMATS CURRENTLY RECOMMENDED BY THE UK DATA ARCHIVE FOR LONG-TERM PRESERVATION 
OF RESEARCH DATA
Note that other data centres or digital archives may recommend different formats. 
USING STANDARD AND INTERCHANGEABLE OR OPEN LOSSLESS DATA FORMATS ENSURES
LONG-TERM USABILITY OF DATA. HIGH QUALITY DATA ARE WELL ORGANISED, STRUCTURED,
NAMED AND VERSIONED AND THE AUTHENTICITY OF MASTER FILES IDENTIFIED.
C# Create PDF from PowerPoint Library to convert pptx, ppt to PDF
Excellent .NET control for turning all PowerPoint presentation into high quality PDF without losing formatting in C#.NET Class. Convert
can't copy text from pdf; copy pdf text to word
C# Create PDF from Excel Library to convert xlsx, xls to PDF in C#
Turn all Excel spreadsheet into high quality PDF without losing formatting. Evaluation library and components for PDF creation from Excel in C#.NET framework.
copy text from pdf with formatting; copy highlighted text from pdf
13
This typically means using open standard formats – such as
OpenDocument Format (ODF), ASCII, tab-delimited format,
comma-separated values, XML – as opposed to proprietary
ones. Some proprietary formats, such as MS Rich Text
Format and MS Excel, are widely used and are likely to be
accessible for a reasonable, but not unlimited, time. 
Thus, whilst researchers should use the most suitable data
formats and software according to planned analyses, once
data analysis is completed and data are prepared for
storing, researchers should consider converting their
research data to standard, interchangeable and longer-
lasting formats. Similarly for back-ups of data, standard
formats should be considered. 
For long-term digital preservation, data archives hold data
in such standard formats. At the same time, data may be
offered to users by conversion to current common and
user-friendly data formats. Data may be migrated forward
when needed. 
DATA CONVERSIONS
When researchers offer data to data archives for
preservation, researchers themselves should convert data
to a preferred data preservation format, as the person
who knows the data is in the best position to ensure data
integrity during conversions. Advice should be sought on
up-to-date formats from the intended place of deposit. 
When data are converted from one format to another –
through export or by using data translation software –
certain changes may occur to the data. After conversions,
data should be checked for errors or changes that may be
caused by the export process:
• for data held in statistical packages, spreadsheets or
databases, some data or internal metadata such as
missing value definitions, decimal numbers, formulae or
variable labels may be lost during conversions to
another format, or data may be truncated 
• for textual data, editing such as highlighting, bold text or
headers/footers may be lost
ORGANISING FILES AND FOLDERS
Well-organised file names and folder structures make it
easier to find and keep track of data files. Develop a
system that works for your project and use it consistently.
Good file names can provide useful cues to the content
and status of a file, can uniquely identify a file and can
help in classifying files. File names can contain project
acronyms, researchers’ initials, file type information, a
version number, file status information and date.
Whilst computers add basic information and properties to
a file, such as file type, date and time of creation and
modification, this is not reliable data management. It is
better to record and represent such essential information
in file names or through the folder structure.
FORMATTING YOUR DATA
PRESERVING AND SHARING MODELS 
Various initiatives aim to preserve
and share modelling software and
code. 
In biology, the BioModels Database of
the European Bioinformatics Institute
(EBI) is a repository for peer-reviewed, published,
computational models of biological processes and
molecular functions.19 All models are annotated and
linked to relevant data resources. Researchers are
encouraged to deposit models written in an open source
format, the Systems Biology Markup Language (SBML),
and models are curated for long-term preservation.
FILE FORMATTING 
The Wessex Archaeology Metric Archive Project has
brought together metric animal bone data from a range
of archaeological sites in England into a single database
format.20
The dataset contains a selection of measurements
commonly taken during Wessex Archaeology zoo-
archaeological analysis of animal bone fragments found
during field investigations. It was created by the
researchers in MS Excel and MS Access formats and
deposited with the Archaeology Data Service (ADS) in
the same formats. 
ADS has preserved the dataset in Oracle and in comma-
separated values format (CSV) and disseminates the
data via both as an Oracle/Cold Fusion live interface
and as downloadable CSV files. 
CASE 
STUDY
Best practice is to:
• create meaningful but brief names
• use file names to classify broad types of files
• avoid using spaces and special characters
• avoid very long file names
FILE CONVERSIONS
The JISC-funded Data Management
for Bio-Imaging project at the John
Innes Centre developed
BioformatsConverter software to
batch convert bio images from a
variety of proprietary microscopy image
formats to the Open Microscopy Environment format,
OME-TIFF.21 OME-TIFF, an open file format that enables
data sharing across platforms, maintains the original
image metadata in the file in XML format.
CASE 
STUDY
14
Think carefully how best to structure files in folders, in
order to make it easy to locate and organise files and
versions. When working in collaboration the need for an
orderly structure is even higher.
Consider the best hierarchy for files, deciding whether a
deep or shallow hierarchy is preferable. Files can be
organised in folders according to types of: data –
databases, text, images, models, sound; research
activities –interviews, surveys, focus groups; or material –
data, documentation, publications.
QUALITY ASSURANCE 
Quality control of data is an integral part of all research
and takes place at various stages: during data collection,
data entry or digitisation, and data checking. It is
important to assign clear roles and responsibilities for data
quality assurance at all stages of research and to develop
suitable procedures before data gathering starts. 
During data collection, researchers must ensure that the
data recorded reflect the actual facts, responses,
observations and events.
Quality control measures during data collection may
include:
• calibration of instruments to check the precision, bias
and/or scale of measurement 
• taking multiple measurements, observations or samples 
• checking the truth of the record with an expert
• using standardised methods and protocols for capturing
observations, alongside recording forms with clear
instructions
• computer-assisted interview software to: standardise
interviews, verify response consistency, route and
customise questions so that only appropriate questions
are asked, confirm responses against previous answers
where appropriate and detect inadmissible responses
The quality of data collection methods used strongly
influences data quality and documenting in detail how
data are collected provides evidence of such quality.
When data are digitised, transcribed, entered in a
database or spreadsheet, or coded, quality is ensured and
error avoided by using standardised and consistent
procedures with clear instructions. These may include:
• setting up validation rules or input masks in data entry
software
• using data entry screens
• using controlled vocabularies, code lists and choice lists
to minimise manual data entry
• detailed labelling of variable and record names to avoid
confusion
• designing a purpose-built database structure to
organise data and data files
During data checking, data are edited, cleaned, verified,
cross-checked and validated. 
Checking typically involves both automated and manual
procedures. These may include: 
• double-checking coding of observations or responses
and out-of-range values
• checking data completeness
• verifying random samples of the digital data against the
original data
• double entry of data
• statistical analyses such as frequencies, means, ranges
or clustering to detect errors and anomalous values
• peer review
Researchers can add significant value to their data by
including additional variables or parameters that widen
the possible applications. Including standard parameters
or generic derived variables in data files may substantially
increase the potential re-use value of data and provide
new avenues for research. For example, geo-referencing
data may allow other researchers to add value to data
more easily and apply the data in geographical
information systems. Equally, sharing field notes from an
interviewing project can help enrich the research context. 
VERSION CONTROL AND AUTHENTICITY
A version is where a file is closely related to another file in
terms of its content. It is important to ensure that different
versions of files, related files held in different locations,
and information that is cross-referenced between files are
all subject to version control. It can be difficult to locate a
correct version or to know how versions differ after some
time has elapsed.23
A suitable version control strategy depends on whether
files are used by single or multiple users, in one or multiple
locations and whether or not versions across users or
locations need to be synchronised or not.
FORMATTING YOUR DATA
ADDING VALUE TO DATA 
The Commission for Rural
Communities (CRC) often use
existing survey data to undertake
rural and urban analysis of national
scale data in order to analyse policies
related to deprivation. 
In order to undertake this type of spatial analysis, original
postcodes need to be accessed and retrospectively
recoded according to the type of rural or urban
settlements they fall into. This can be done with the use
of products such as the National Statistics Postcode
Directory, which contains a classification of rural and
urban settlements in England. 
The task of applying these geographical markers to
datasets can often be a long and sometimes unfruitful
process – sometimes the CRC have to go through this
process to just find that the data do not have a
representative rural sample frame. 
If rural and urban settlement markers, such as the
Rural/Urban Definition for England and Wales were
included in datasets, this would be of great benefit to
those undertaking rural and urban analysis.22
CASE 
STUDY
15
It is important to keep track of master versions of files, for
example the latest iteration, especially where data files are
shared between people or locations, e.g. on both a PC and
a laptop. Checks and procedures may also need to be put in
place to make sure that if the information in one file is
altered, the related information in other files is also updated.
The version of a file can be identified via:
• date recorded in file name or within file
• version numbering in file name (v1, v2, v3 or 00.01, 01.00)
• version description in file name or within file (draft, final)
• file history, version control table or notes included within
a file, where versions, dates, authors and details of
changes to the file are recorded
Version control can also be maintained through:
• version control facilities within software used
• using versioning software, e.g. Subversion (SVN)
• using file sharing services such as Dropbox, Google
Docs or Amazon S3 
• controlling rights to file editing 
• manual merging of entries or edits by multiple users
Because digital information can be copied or altered so
easily, it is important to be able to demonstrate the
authenticity of data and to be able to prevent
unauthorised access to data that may potentially lead to
unauthorised changes.
TRANSCRIPTION 
Good quality and consistent transcription that matches
the analytic and methodological aims of the research is
part of good data management planning. Attention needs
to be given to transcribing conventions needed for the
research, transcription instructions or guidelines and a
template to ensure uniformity across a collection. 
Transcription is a translation between forms of data, most
commonly to convert audio recordings to text in
qualitative research. Whilst transcription is often part of
the analysis process, it also enhances the sharing and re-
use potential of qualitative research data. Full
transcription is recommended for data sharing.
If transcription is outsourced to an external transcriber,
attention should be paid to:
• data security when transmitting recordings and
transcripts between researcher and transcriber
• data security procedures for the transcriber to follow
• a non-disclosure agreement for the transcriber
• transcriber instructions or guidelines, indicating required
transcription style, layout and editing
Transcription of statistical tables from historical sources
into spreadsheets requires the digital data to be as close to
the original as possible, with attention to consistency in
transcribing and avoiding the use of formatting in data files.
FORMATTING YOUR DATA
Best practice is to:
• decide how many versions of a file to keep, which
versions to keep, for how long and how to organise
versions
• identify milestone versions to keep
• uniquely identify files using a systematic naming
convention 
• record version and status of a file, e.g. draft, interim,
final, internal 
• record what changes are made to a file when a new
version is created 
• record relationships between items where needed, e.g.
relationship between code and the data file it is run
against; between data file and related documentation
or metadata; or between multiple files
• track the location of files if they are stored in a variety
of locations 
• regularly synchronise files in different locations, e.g.
using MS SyncToy software 
• maintain single master files in a suitable file format to
avoid version control problems associated with
multiple working versions of files being developed in
parallel 
• identify a single location for the storage of milestone
and master versions
Best practice to ensure authenticity is to:
• keep a single master file of data 
• assign responsibility for master files to a single
project team member 
• regulate write access to master versions of data files 
• record all changes to master files 
• maintain old master files in case later ones contain
errors 
• archive copies of master files at regular intervals 
• develop a formal procedure for the destruction of
master files 
Transcripts should: 
• have a unique identifier that labels an interview either
through a name or number
• have a uniform layout throughout a research project
or data collection
• use speaker tags to indicate turn-taking or
question/answer sequence in conversations
• carry line breaks between turn-takes
• be page numbered
• have a document cover sheet or header with brief
interview or event details such as date, place,
interviewer name, interviewee details
Best practice is to:
• consider the compatibility of transcription formats
with import features of qualitative data analysis
software, e.g. loss of headers and formatting, before
developing a template or guidelines
• develop a transcription template to use, especially 
if multiple transcribers carry out work
• ensure consistency between transcripts
• anonymise data during transcription, or mark
sensitive information for later anonymisation
16
FORMATTING YOUR DATA
VERSION CONTROL TABLE FOR A DATA FILE
Title:
Vision screening tests in Essex nurseries
File Name: 
VisionScreenResults_00_05
Description:
Results data of 120 Vision Screen Tests carried out in 5 nurseries in Essex during
June 2007
Created By:
Chris Wilkinson
Maintained By: 
Sally Watsley
Created: 
04/07/ 2007
Last Modified:
25/11/ 2007
Based on:
VisionScreenDatabaseDesign_02_00
VERSION
RESPONSIBLE
NOTES
LAST AMENDED
00_05
Sally Watsley
Version 00_03 and 00_04 compared and merged by SW
25/11/2007
00_04
Vani Yussu
Entries checked by VY, independent from SK
17/10/2007
00_03
Steve Knight
Entries checked by SK
29/07/2007
00_02
Karin Mills
Test results 81-120 entered
05/07/2007
00_01
Karin Mills
Test results 1-80 entered
04/07/2007
MODEL TRANSCRIPT RECOMMENDED BY THE UK DATA ARCHIVE
This model transcript shows the suggested layout with the inclusion of contextual and identifying
information for the interview.
Study Title: Immigration Stories 
Interview number: 12
Depositor: K. Clark
Interview ID: Yolande
Interviewer: Ina Jones 
Date of interview: 12 June 1999
Information about interviewee:
Date of birth: 4 April 1947
Marital status: married
Gender: female
Occupation: catering
Geographic region: Essex
Ethnicity: Chinese
Y: I came here in late 1968. 
I: You came here in late 1968? Many years already. 
Y: 31 years already. 31 years already. 
I: (laugh) It is really a long time. Why did you choose to come to England at that time? 
Y: I met my husband and after we got married in Hong Kong, I applied to come to England. 
I: You met your husband in Hong Kong? 
Y: Yes. 
I: He was working here [in England] already? 
Y: After he worked here for a few years — in the past, it was quite common for them to go back to
Hong Kong to get a wife. Someone introduced us and we both fancied each other. At that time, 
it was alright to me to get married like that as I wanted to leave Hong Kong. It was like a gamble.
It was really like a gamble.
CASE 
S
TUDY
Documents you may be interested
Documents you may be interested