UiT, June 2015 
TROLLing File Format Essentials 
Before uploading your data to TROLLing, we urge you to make sure all data files comply 
with our guidelines, see Section I below. This document further explains how to save or 
convert your data files into a persistent file format. If you are unsure about the procedure, 
please consult Section II below. 
Persistent file formats 
The choice of a persistent file format is crucial in order to ensure that your data will be 
readable  also  in  the  future.  Some  file  formats  are  more  likely  to  allow  long-term 
readability than others are. Such formats are usually 
  non-proprietary 
  open, with documented international standards 
  in common usage by the research community 
  using standard character encodings (i.e. ASCII, UTF-8) 
  uncompressed (space permitting) 
Pdf metadata editor online - add, remove, update PDF metadata in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata
rename pdf files from metadata; pdf remove metadata
Pdf metadata editor online - VB.NET PDF metadata library: add, remove, update PDF metadata in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Enable VB.NET Users to Read, Write, Edit, Delete and Update PDF Document Metadata
pdf metadata; clean pdf metadata
UiT, June 2015 
Table 1: Summary, file formats considered acceptable vs. unacceptable for various file 
types in TROLLing
File type 
Acceptable file formats 
Unacceptable file formats 
  Uncompressed and lossless Wav or 
AIFF (.wav/.aiff) 
  Compressed and lossless FLAC 
  Compressed and lossy Mp3 (.mp3) 
  AAC (.m4a) 
  Monkey’s Audio (.ape) 
  Ogg Vorbis (.ogg) 
  Windows Media Audio (.wma) 
  Uncompressed TIFF (.tif or .tiff) 
  Compressed and lossless PNG 
  Compressed and lossy JPEG (.jpg) 
  Adobe Photoshop (.psd) 
  Apple Picture File (.pct) 
  Graphics Interchange Format 
  Raw Image Data File (.raw) 
  Windows Bitmap (.bmp) 
Text (slides) 
  PDF/A (.pdf) combined with 
original file 
  PowerPoint (.pptx) 
Text (tables)    PDF/A (.pdf) combined with 
Comma/Tab Separated Values 
  Excel (.xlsx) 
Text (text) 
  Plain text (.txt) 
If formatting needed 
  XML, PDF/A (.pdf) combined with 
original file 
  Word (.docx) 
  HTML 
Transcription  File format 
  PDF/A (.pdf) combined with 
original file 
  PDF/A (.pdf) combined with 
Comma/Tab Separated Values 
  Unicode IPA (e.g. Charis SIL, 
Doulos SIL, Gentium Plus, Andika), 
File format 
  Word (.doxc) 
  Excel (.xlsx) 
  Transcription legacy fonts (SIL 
  MPEG-4 (.mp4) 
  AVI (.avi) 
  Flash Video (FLV) 
  Quicktime (.mov) 
  Windows Media Video (WMV) 
1 The list of file formats in the column “Unacceptable file formats” is non-exhaustive and includes the formats 
considered the ones used most commonly. If your dataset contains file formats not listed here, please contact 
us at trolling@ub.uit.no. 
C# HTML5 PDF Viewer SDK to view, annotate, create and convert PDF
RasterEdge C#.NET HTML5 PDF Viewer and HTML5 PDF Editor are professional online PDF manipulation tools, which are compatible with both 32-bit and 64-bit
remove metadata from pdf online; pdf xmp metadata
VB.NET PDF- HTML5 PDF Viewer for VB.NET Project
ASP.NET PDF Viewer; VB.NET: ASP.NET PDF Editor; VB.NET to PDF. Image: Remove Image from PDF Page. Image Link: Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete
batch edit pdf metadata; get pdf metadata
UiT, June 2015 
II  Saving or converting your data files into a consistent format
This  section  contains  information  on  the  following  types  of  files:  Audio,  image,  text, 
transcription, and video. If your data contain types not listed here, please contact us at 
1 Audio 
1.1 Recording 
The quality of your audio file depends on the purpose of your dataset. If the dataset is 
of such nature that acoustic details are irrelevant, the mp3 format is sufficient. Note 
however, that mp3 is a lossy compression format: Information in the speech signal is 
irreversibly discarded during recording and can therefore be considered less suited 
for speech analysis in the case of data reuse. 
Given that the mp3-format reduces the reusability of your data, we advise recording 
in an uncompressed format, .wav or .aiff.  
1.2 Conversion 
If  space  is  an  issue,  you  can  convert  the  uncompressed  .wav  and  .aiff-files  after 
recording. We recommend a format that does not remove information, like FLAC (Free 
Lossless Audio Codec). Conversion to FLAC is fully reversible, i.e. the original sound 
file is restored when decompressed. 
File  conversion  can  easily  be  done  in  free  software  like  Audacity 
(http://web.audacityteam.org/) or Praat (http://www.fon.hum.uva.nl/praat/). 
2 Image 
2.1 Compression 
Images are often compressed to reduce the amount of redundant or irrelevant data 
information. This does not mean that the quality reduction is visible to the human eye. 
For  instance,  PNG-files maintain  all information  in  the  image.  As  for JPEG-files  –  a 
widely used file format – the rate of compression can be manipulated: Depending on 
type of image and potential size issues, you should, in each case, determine how much 
compression is advisable, with regard to both reuse and sharing of your image files. 
2.2 Conversion 
If your images are stored in a format considered unacceptable (cf. Table 1), these must 
be converted to JPEG, PNG or TIFF.  
Conversion can  easily  be  done  in  the software  Paint  (Windows),  Preview  (Mac) or 
GIMP  Image  Editor  (Linux).  There  are  numerous  free  image  converters.  However, 
before using one of these, it is advisable to read any terms of use. 
C# TIFF: TIFF Metadata Editor, How to Write & Read TIFF Metadata
C# TIFF - Edit TIFF Metadata in C#.NET. Allow Users to Read and Edit Metadata Stored in Tiff Image in C#.NET Application. How to Get TIFF XMP Metadata in C#.NET.
read pdf metadata; adding metadata to pdf files
C# HTML5 PDF Viewer SDK to create PDF document from other file
WPF Viewer & Editor. WPF: View PDF. WPF: Annotate PDF. WPF NET edit PDF bookmark, C#.NET edit PDF metadata, C#.NET NET read barcodes from PDF, C#.NET OCR scan PDF
delete metadata from pdf; bulk edit pdf metadata
UiT, June 2015 
3 Text 
3.1 Plain text 
If your data is represented in plain text, requiring little or no formatting, you are 
recommended to create and save your data as plain text files (.txt). You may use a 
simple text editor, e.g. gedit, TextEdit or WordPad. If you use a more advanced text 
editor when structuring your data, e.g. Microsoft Word or LibreOffice Writer, you 
should still save it in plain text format. To do so, select “Save as file type: Plain text 
(.txt)” in the menu File 
Save As. 
3.2 Formatted text 
If  your  data  contains  formatted  text,  e.g.  including  essential  line  breaks,  tabs, 
figures, we recommend you to convert your data file into a PDF/A file (.pdf). The 
original text file as well as the PDF/A file must be uploaded. The same procedure 
should be carried out if you use a text editor like Microsoft Word or LibreOffice 
Writer  when  structuring  your  data,  or  a  presentation  editor  like  Microsoft 
PowerPoint or LibreOffice Impress.  
To create a PDF/A file in Microsoft Word 
Mac (2011): Print 
Save as Adobe PDF 
Adobe PDF Settings: PDF/A-1b: 
2005 (CMYK). Note that this option requires Adobe Acrobat. If this is not available, 
save the file as plain PDF. 
Windows  (2013):  Save  as  Adobe  PDF    File  type:  PDF  files    Options:  Create 
PDF/A-1a: 2005 compatible file  
To create a PDF/A file in LibreOffice Writer 
Linux: Save as PDF -> Check the PDF/A-1a box -> Export. 
3.3 Tabular text 
Tabular text data should be provided as Unicode-encoded text files (.csv/.txt). If 
you  have  stored  your  data  in  a  spreadsheet  software  like  Microsoft  Excel  or 
LibreOffice  Calc,  the  following  instructions  show  you  how  to  convert  it  to  a 
recommended format:  
Microsoft Excel (Mac, Windows) 
  Click File 
Save As 
  Select “Unicode text” in the field Save as file type (PC) or Format (Mac) 
  Note: This process has to be repeated for each sheet in the Excel workbook 
LibreOffice Calc (Linux, Mac, Windows) 
  Click File 
Save As 
  For each sheet in the LibreOffice Calc workbook, proceed as follows:  
 Linux and Windows: In the data export dialogue window, select 
  Text encoding/Character set: Unicode (UTF-8) 
  Field delimiter: {Tabulator} (= recommended) 
C# PDF Library SDK to view, edit, convert, process PDF file for C#
HTML5 PDF Editor enable users to edit PDF text, image, page, password and so on. C#.NET: WPF PDF Viewer & Editor. C#.NET: Edit PDF Metadata.
pdf metadata reader; modify pdf metadata
C# TIFF: TIFF Editor SDK to Read & Manipulate TIFF File Using C#.
Tiff File Processing in C#. Refer to this online tutorial page, you will see: 2. Render text to text, PDF, or Word file. Tiff Metadata Editing in C#.
extract pdf metadata; metadata in pdf documents
UiT, June 2015 
  Text: none (erase “/” from the field) 
 Mac: In  the field  File  type, select “Text  CSV  (.csv)”. In  the data export 
dialogue window, select 
  Character set: Unicode (UTF-8) 
  Field delimiter: {Tab} 
  Text delimiter: “ (double quotation mark) 
It is further recommended that you also upload a PDF/A version of your tabular text 
data,  in  order  to  document  the  very  structure  of  your  data  file  (see  conversion 
procedure in Section 3.2 above). 
4 Transcription 
4.1 Font 
All transcriptions should be made using Unicode-encoded fonts, e.g. IPA Doulos SIL.
For phonetic transcriptions, SAMPA (Speech Assessment Methods Phonetic Alphabet, 
ASCII characters)
is an alternative to IPA. If the recommended font is not available for 
the type of transcription your dataset requires, it is imperative to upload, under Data 
& Analysis in your TROLLing dataset, a separate ReadMe file with instructions about 
how  to  read  the  transcriptions.
Note  that  the  font  package  itself  should  not  be 
uploaded, given copyright restrictions. 
4.2 File format 
Transcriptions can be orthographic or phonetic, and in both cases, one is likely to use 
non-standard  symbols  (e.g.  Cyrillic  letters  or  the  IPA  alphabet).  Regardless  of  the 
nature of the transcriptions, if these are presented in a Word- or Excel-file, or as plain 
text,  you  are  recommended  to  convert  the  file  into  a  PDF/A  file  (see  conversion 
procedure in Section 3.2 above). The original text file as well as the PDF/A file must 
be uploaded.  
If the transcriptions are presented in a Praat TextGrid-file, for which we at this point 
cannot ensure future readability, the following steps should be taken: 
1.  Upload the original TextGrid-file as is. 
2.  Convert  the  original  TextGrid-file  to  a  CSV-file,  then  upload.  By  following  the 
procedure on the linked web page, the range of each interval is displayed next to 
the transcription itself, making future linking of the transcription and the sound 
file possible without resorting to the TextGrid: 
2 To download SIL Fonts, cf. http://scripts.sil.org/cms/scripts/page.php?cat_id=FontDownloads.  
3 For an overview of SAMPA symbols, cf. https://www.phon.ucl.ac.uk/home/sampa/.  
4 Cf. for instance an example in the file entitled “To read the Church Slavonic transcriptions.pdf” in Eckhoff 
(2015), cf. http://hdl.handle.net/10037.1/10190
VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
NET PDF Viewer; VB.NET: ASP.NET PDF Editor; VB.NET Online. |. Home ›› XDoc.PDF ›› VB.NET PDF: View PDF Online. PDF bookmark, C#.NET edit PDF metadata, C#.NET
change pdf metadata; endnote pdf metadata
C# PDF Convert to Tiff SDK: Convert PDF to tiff images in C#.net
C#.NET PDF SDK - Convert PDF to TIFF in C#.NET. Online C# Tutorial for How to Convert PDF File to Tiff Image File with .NET XDoc.PDF Control in C#.NET Class.
edit pdf metadata; analyze pdf metadata
UiT, June 2015 
5 Video 
5.1 Format 
The highest quality video format is the one in which the movie has been recorded. The 
size  of  an  uncompressed  video  file  is  however  problematic  for  sharing,  thus 
conversion, with a certain loss in quality, is necessary. Remember, however, to keep a 
copy of the master file in the original format. If later editing or conversion is required, 
this  should  be  done  using  the  master  file:  Editing  or  conversion  of  an  already 
converted file will increase loss in quality. 
5.2 Conversion 
If your videos are stored in a format considered unacceptable (cf. Table 1), these must 
be converted  to the  MPEG-4 format.  If you  do  not  have  license to  any professional 
conversion software, we advise you to use the VLC Media Player (standard application 
on both Mac and Windows), or an online free image converter. However, before using 
any free converter, it is advisable to read any terms of use. 
UiT, June 2015 
III  How to describe your data 
In order for users to be able to understand and reuse your data, it is essential that you 
describe  it  in  a  comprehensible  and  consistent  manner.  Data  come  in  many  different 
forms, and for most types, there is no common standard of description. In this section, we 
present  guidelines  on  how  you  should  prepare  and  describe  data  for  archiving  in 
TROLLing. Make sure that your data description is provided in an acceptable file format 
(cf. Sections I and II above). 
1 Tabular data 
It is advisable to upload a separate ReadMe file with a comprehensive description of 
the data file, including the data in each column, the data format and the standard(s) 
used.  This  can  alternatively,  or  additionally,  be  inserted  into  the  Description  field 
under Data & Analysis. 
1.1 Column and column headings 
For each column in your tabular text file (.csv or .txt; see above) you should indicate 
what kind of data it contains, and what data format the values have. Column headings 
should be meaningful and not too long. Make sure you do not use duplicate column 
headings within a file. Use only alphanumeric characters, underscores, or hyphens in 
column  headings.  It is good practice to  have column headings start  with a letter. If 
possible, indicate units of measurement in the column headings.  
Use only the first row for column headings, otherwise rows may be missed when your 
data is imported to spreadsheet software or other utilities. 
Examples of good column headings 
1.2 Data values and formatting 
Use  standard  codes  or  names  when  possible,  e.g.  ISO  code  for  language  names 
http://www.loc.gov/standards/iso639-2/php/code_list.php) and established tag sets 
for  POS/parts  of  speech  (e.g. http://ucrel.lancs.ac.uk/claws2tags.html,  CLAWS2 
Avoid using special characters, such as commas, semicolons, or tabs, in the data itself. 
This might cause trouble when the data file is imported into a spreadsheet, or read by 
other software. If such characters are nevertheless necessary in the presentation of 
your data, please specify their use in the ReadMe file. 
UiT, June 2015 
1.3 Examples of tabular data description  
 The  column  “vowel_length_ms”  contains  values  for  the  vowel  length  in 
milliseconds of the analyzed items in the dataset. Only integer numbers are used, 
e.g. 45, 32, 11. 
 The column “record_time” contains values for the time when the record was made. 
The time format used is dd/mm/yyyy hh:mm, e.g. 15/03/2014 17:21. 
 The column “lang_name” contains values for the name of the analyzed languages. 
The ISO 639-2 Code format is applied. 
dan  Danish 
nob  Norwegian Bokmål 
swe  Swedish 
 The column “pos” contains values for the part of speech of the analyzed items. 
The applied tag set is the CLAWS2 Tagset. 
NP   proper noun, neutral for number (Indies, Andes) 
NP1   singular proper noun (London, Jane, Frederick) 
NP2   plural proper noun (Browns, Reagans, Koreas) 
2 Scripts 
Another common data type are scripts used in statistical analysis. Before archiving, 
make sure you add a description for each step used in the script. Below, we present an 
example, taken from TROLLing
5 Janda et al. (2014), cf. http://hdl.handle.net/10037.1/10121 
UiT, June 2015 
IV  File size 
The size of the individual data file cannot exceed 1Gb. If you have files exceeding this limit, 
please contact us at 
UiT, June 2015 
Parts of the guidelines above have been adapted from several sources, including 
Data Management General Guidance. Curation Center of the California Digital Library, 
University of California. https://dmptool.org/dm_guidance#types. 
Praat beginners’ manual by Sidney Wood. 
Preparing tabular data for description and archiving. Research Data Management Group, 
Cornell University. http://data.research.cornell.edu/content/tabular-data 
Sustainable Formats and Conversion Strategies at the Bentley Historical Library. Version 
1.0, November 9th, 2011. 
Documents you may be interested
Documents you may be interested