c# wpf document viewer pdf : Crop all pages of pdf application control utility azure html asp.net visual studio TROLLingDataFormatEssentials0-part1770

UiT, June 2015 
TROLLing File Format Essentials
Before uploading your data to TROLLing, we urge you to make sure all data files comply 
with our guidelines, see Section I below. This document further explains how to save or 
convert your data files into a persistent file format. If you are unsure about the procedure, 
please consult Section II below. 
I
Pers
i
stent f
il
e formats 
The choice of a persistent file format is crucial in order to ensure that your data will be 
readable also in the future. Some file formats are more likely to allow long-term 
readability than others are. Such formats are usually 
 
non-proprietary 
 
open, with documented international standards 
 
in common usage by the research community 
 
using standard character encodings (i.e. ASCII, UTF-8) 
 
uncompressed (space permitting) 
Crop all pages of pdf - copy, paste, cut PDF pages in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others
delete pages of pdf reader; delete pages of pdf preview
Crop all pages of pdf - VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc
extract page from pdf preview; extract pdf pages for
UiT, June 2015 
Table 1: 
Summary, file formats considered acceptable vs. unacceptable for various file 
types in TROLLing
File type 
Acceptable file formats 
Unacceptable file formats 
(examples) 
Audio 
 
Uncompr
essed and lossless 
Wav or 
A
IFF
(.wav/.aiff)
 
Compressed and lossless
F
LAC
(.flac)
 
Compressed and lossy
Mp3
(.mp3)
 
AAC (.m4a)
 
Monkey’s Audio (.ape)
 
Ogg 
Vorbis (.ogg)
 
Windows Media Audio (.wma)
Image 
 
Uncompressed TIFF (.tif
or .tiff
)
 
Compressed and lossless 
PNG 
(.png)
 
Compressed 
and lossy JPEG
(.jpg)
 
Adobe 
Photoshop (.psd)
 
Apple Picture File (.pct)
 
Graphics
Interchange Format 
(.gif)
 
Raw Image Data File 
(.raw)
 
Windows Bitmap (.bmp)
Text (slides) 
 
PDF/A (.pdf)
combined with
original 
file
 
PowerPoint (.pptx)
Text (tables) 
 
PDF/A (.pdf) combined with
Comma/Tab Separated Values 
(.csv/.txt)
 
Excel (.xlsx)
Text (text) 
 
Plain text (.txt)
If formatting needed 
 
XML,
PDF/A (.pdf)
combined with
original 
file
 
Word (.docx)
 
HTML
Transcription  File format 
 
PDF/A (.
pdf)
combined with 
original 
file
 
PDF/A (.pdf) combined with 
Comma/Tab Separated Values 
(.csv/.txt)
Font  
 
Unicode
IPA (
e.g. 
Charis SIL, 
Doulos SIL, Gentium Plus, 
Andika), 
ASCII 
SAMPA
File format 
 
Word (.doxc)
 
Excel (.xlsx)
Font
 
Transcription legacy fonts (SIL 
IPA(93)) 
Video 
 
MPEG
-
4 (.mp4)
 
AVI (.avi)
 
Flash Video (FLV)
 
Quicktime (.mov)
 
Windows Media Video (WMV)
1
The list of file formats in the column “Unacceptable file formats” is non-exhaustive and includes the formats 
considered the ones used most commonly. If your dataset contains file formats not listed here, please contact 
us at trolling@ub.uit.no. 
How to C#: Crop Image according to Specified Size
process.CropImage(new Rectangle(10, 20, 200, 200)); //If the tiff image has multiple pages, //it will only crop the second page of All Rights Reserved.
add remove pages from pdf; delete page from pdf file
C# PDF Annotate Library: Draw, edit PDF annotation, markups in C#.
Support to add text, text box, text field and crop marks to PDF document. Learn how to retrieve all annotations from PDF file in C# project.
delete page from pdf file online; extract pages from pdf reader
UiT, June 2015 
II
Sav
i
ng or convert
i
ng your data f
il
es 
i
nto a cons
i
stent format
This section contains information on the following types of files: Audio, image, text, 
transcription, and video. If your data contain types not listed here, please contact us at 
trolling@ub.uit.no
A
ud
i
1.1 
R
ecord
i
ng 
The quality of your audio file depends on the purpose of your dataset. If the dataset is 
of such nature that acoustic details are irrelevant, the mp3 format is sufficient. Note 
however, that mp3 is a lossy compression format: Information in the speech signal is 
irreversibly discarded during recording and can therefore be considered less suited 
for speech analysis in the case of data reuse. 
Given that the mp3-format reduces the reusability of your data, we advise recording 
in an uncompressed format, .wav or .aiff.  
1.2 Convers
i
on 
If space is an issue, you can convert the uncompressed .wav and .aiff-files after 
recording. We recommend a format that does not remove information, like FLAC (Free 
Lossless Audio Codec). Conversion to FLAC is fully reversible, i.e. the original sound 
file is restored when decompressed. 
File conversion can easily be done in free software like Audacity 
(http://web.audacityteam.org/) or Praat (http://www.fon.hum.uva.nl/praat/). 
I
mage 
2.1 Compress
i
on 
Images are often compressed to reduce the amount of redundant or irrelevant data 
information. This does not mean that the quality reduction is visible to the human eye. 
For instance, PNG-files maintain all information in the image. As for JPEG-files – a 
widely used file format – the rate of compression can be manipulated: Depending on 
type of image and potential size issues, you should, in each case, determine how much 
compression is advisable, with regard to both reuse and sharing of your image files. 
2.2 Convers
i
on 
If your images are stored in a format considered unacceptable (cf. Table 1), these must 
be converted to JPEG, PNG or TIFF.  
Conversion can easily be done in the software Paint (Windows), Preview (Mac) or 
GIMP Image Editor (Linux). There are numerous free image converters. However, 
before using one of these, it is advisable to read any terms of use. 
How to C#: Special Effects
Crop. Normolize. Get the darkest pixel value and map 2% of it to all the pixels, get the brightest pixel value and map 1% of it to all the pixels. OilPaint.
delete pages from pdf; delete page from pdf document
C# Raster - Image Process in C#.NET
PDF pages, VB.NET comment annotate PDF, VB.NET delete PDF pages, VB.NET Crop the image into specified size according to the presettings. All Rights Reserved.
export pages from pdf online; extract pdf pages
UiT, June 2015 
T
ext 
3.1 P
l
a
i
n text 
If your data is represented in plain text, requiring little or no formatting, you are 
recommended to create and save your data as plain text files (.txt). You may use a 
simple text editor, e.g. gedit, TextEdit or WordPad. If you use a more advanced text 
editor when structuring your data, e.g. Microsoft Word or LibreOffice Writer, you 
should still save it in plain text format. To do so, select “Save as file type: Plain text 
(.txt)” in the menu 
File 
Save As
3.2 Formatted text 
If your data contains formatted text, e.g. including essential line breaks, tabs, 
figures, we recommend you to convert your data file into a PDF/A file (.pdf). The 
original text file as well as the PDF/A file must be uploaded. The same procedure 
should be carried out if you use a text editor like Microsoft Word or LibreOffice 
Writer when structuring your data, or a presentation editor like Microsoft 
PowerPoint or LibreOffice Impress.  
To create a PDF/A file in Microsoft Word 
Mac (2011): 
Print 
PDF 
Save as Adobe PDF 
Adobe PDF Settings: PDF/A-1b: 
2005 (CMYK)
. Note that this option requires Adobe Acrobat. If this is not available, 
save the file as plain PDF. 
Windows (2013): 
Save as Adobe PDF
File type: PDF files
Options: Create 
PDF/A-1a: 2005 compatible file  
To create a PDF/A file in LibreOffice Writer 
Linux: Save as PDF -> Check the PDF/A-1a box -> Export. 
3.3 
T
abu
l
ar text 
Tabular text data should be provided as Unicode-encoded text files (.csv/.txt). If 
you have stored your data in a spreadsheet software like Microsoft Excel or 
LibreOffice Calc, the following instructions show you how to convert it to a 
recommended format:  
Microsoft Excel (Mac, Windows) 
 
Click 
File 
Save As
 
Select “Unicode text” in the field
Save as file type 
(PC) or 
Format 
(Mac) 
 
Note: This process has to be repeated for each sheet in the Excel workbook 
LibreOffice Calc (Linux, Mac, Windows) 
 
Click 
File 
Save As
 
For each sheet in the LibreOffice Calc workbook, proceed as follows:  
Linux and Windows: In the data export dialogue window, select 
 
Text encoding/Character set: Unicode (UTF-8) 
 
Field delimiter: {Tabulator} (= recommended) 
C# PDF insert image Library: insert images into PDF in C#.net, ASP
Able to zoom and crop image and achieve image resizing. PDFImageHandler.AddImage( page, anImage, position); // Output the new PDF document. All Rights Reserved.
delete pages from pdf reader; copy web page to pdf
VB.NET Image: Image Cropping SDK to Cut Out Image, Picture and
VB.NET Imaging - Crop Image Using VB.NET. Key functions of VB.NET image cropper control SDK; VB.NET image cropping method to crop picture / photo;
extract pages from pdf document; cut pages out of pdf
UiT, June 2015 
 
Text: none (erase “/” from the field) 
Mac: In the field 
File type
, select “Text CSV (.csv)”. In the data export 
dialogue window, select 
 
Character set: Unicode (UTF-8) 
 
Field delimiter: {Tab} 
 
Text delimiter: “ (double quotation mark) 
It is further recommended that you also upload a PDF/A version of your tabular text 
data, in order to document the very structure of your data file (see conversion 
procedure in Section 3.2 above). 
T
ranscr
i
pt
i
on 
4.1 Font 
All transcriptions should be made using Unicode-encoded fonts, e.g. IPA Doulos SIL.
For phonetic transcriptions, SAMPA (Speech Assessment Methods Phonetic Alphabet, 
ASCII characters)
3 is an alternative to IPA. If the recommended font is not available for 
the type of transcription your dataset requires, it is imperative to upload, under Data 
& Analysis in your TROLLing dataset, a separate ReadMe file with instructions about 
how to read the transcriptions.
4 Note that the font package itself should 
not 
be 
uploaded, given copyright restrictions. 
4.2 F
il
e format 
Transcriptions can be orthographic or phonetic, and in both cases, one is likely to use 
non-standard symbols (e.g. Cyrillic letters or the IPA alphabet). Regardless of the 
nature of the transcriptions, if these are presented in a Word- or Excel-file, or as plain 
text, you are recommended to convert the file into a PDF/A file (see conversion 
procedure in Section 3.2 above). The original text file as well as the PDF/A file must 
be uploaded.  
If the transcriptions are presented in a Praat TextGrid-file, for which we at this point 
cannot ensure future readability, the following steps should be taken: 
1.
Upload the original TextGrid-file as is. 
2.
Convert the original TextGrid-file to a CSV-file, then upload. By following the 
procedure on the linked web page, the range of each interval is displayed next to 
the transcription itself, making future linking of the transcription and the sound 
file possible without resorting to the TextGrid: 
http://wwwhomes.uni-
bielefeld.de/gibbon/Forms/Python/PHONETICS/textgrid2csv.html  
2
To download SIL Fonts, cf. http://scripts.sil.org/cms/scripts/page.php?cat_id=FontDownloads.  
3
For an overview of SAMPA symbols, cf. https://www.phon.ucl.ac.uk/home/sampa/.  
4
Cf. for instance an example in the file entitled “To read the Church Slavonic transcriptions.pdf” in Eckhoff 
(2015), cf.
http://hdl.handle.net/10037.1/10190
C# PDF copy, paste image Library: copy, paste, cut PDF images in
Easy to zoom and crop image for adjusting image size. Description: Extract all images in a PDF document. Parameters: Name, Description, Valid Value.
copy pages from pdf to word; copy pdf page into word doc
VB.NET Create PDF from images Library to convert Jpeg, png images
Crop and paste specified image area to PDF page. Dim outputFilePath As String = Program.RootPath + "\\output.pdf" doc.Save(outputFilePath). All Rights Reserved.
add and delete pages from pdf; extract pdf pages acrobat
UiT, June 2015 
Vi
deo 
5.1 Format 
The highest quality video format is the one in which the movie has been recorded. The 
size of an uncompressed video file is however problematic for sharing, thus 
conversion, with a certain loss in quality, is necessary. Remember, however, to keep a 
copy of the master file in the original format. If later editing or conversion is required, 
this should be done using the master file: Editing or conversion of an already 
converted file will increase loss in quality.
5.2 Convers
i
on 
If your videos are stored in a format considered unacceptable (cf. Table 1), these must 
be converted to the MPEG-4 format. If you do not have license to any professional 
conversion software, we advise you to use the VLC Media Player (standard application 
on both Mac and Windows), or an online free image converter. However, before using 
any free converter, it is advisable to read any terms of use.
Customize, Process Image in .NET Winforms| Online Tutorials
Add, Crop, Delete Page. Click "Crop" to crop image with rectangle; Click "Delete" to delete the current page. Line, Border, Hole Removal.
extract page from pdf document; extract pages from pdf on ipad
VB.NET Image: How to Process & Edit Image Using VB.NET Image
Image Using VB.NET. In this section, we will show you all supported image VB.NET Image Cropping Assembly to Crop Image, VB.NET Image Thumbnail Creator Control
extract page from pdf; extract one page from pdf file
UiT, June 2015 
III
How to descr
i
be your data 
In order for users to be able to understand and reuse your data, it is essential that you 
describe it in a comprehensible and consistent manner. Data come in many different 
forms, and for most types, there is no common standard of description. In this section, we 
present guidelines on how you should prepare and describe data for archiving in 
TROLLing. Make sure that your data description is provided in an acceptable file format 
(cf. Sections I and II above). 
T
abu
l
ar data 
It is advisable to upload a separate ReadMe file with a comprehensive description of 
the data file, including the data in each column, the data format and the standard(s) 
used. This can alternatively, or additionally, be inserted into the Description field 
under Data & Analysis. 
1.1 Co
l
umn and co
l
umn head
i
ngs 
For each column in your tabular text file (.csv or .txt; see above) you should indicate 
what kind of data it contains, and what data format the values have. Column headings 
should be meaningful and not too long. Make sure you do not use duplicate column 
headings within a file. Use only alphanumeric characters, underscores, or hyphens in 
column headings. It is good practice to have column headings start with a letter. If 
possible, indicate units of measurement in the column headings.  
Use only the first row for column headings, otherwise rows may be missed when your 
data is imported to spreadsheet software or other utilities. 
Examples of good column headings 
vowel_length_ms 
record_time 
language_name 
pos 
1.2 Data va
l
ues and formatt
i
ng 
Use standard codes or names when possible, e.g. ISO code for language names 
http://www.loc.gov/standards/iso639-2/php/code_list.php) and established tag sets 
for POS/parts of speech (e.g. http://ucrel.lancs.ac.uk/claws2tags.html, CLAWS2 
Tagset).  
Avoid using special characters, such as commas, semicolons, or tabs, in the data itself. 
This might cause trouble when the data file is imported into a spreadsheet, or read by 
other software. If such characters are nevertheless necessary in the presentation of 
your data, please specify their use in the ReadMe file. 
UiT, June 2015 
1.3 Examp
l
es of tabu
l
ar data descr
i
pt
i
on  
-
The column “vowel_length_ms” contains values for the vowel length in 
milliseconds of the analyzed items in the dataset. Only integer numbers are used, 
e.g. 45, 32, 11. 
-
The column “record_time” contains values for the time when the record was made. 
The time format used is dd/mm/yyyy hh:mm, e.g. 15/03/2014 17:21. 
-
The column “lang_name” contains values for the name of the analyzed languages. 
The ISO 639-2 Code format is applied. 
dan 
Danish 
nob 
Norwegian Bokmål 
swe 
Swedish 
… 
-
The column “pos” contains values for the part of speech of the analyzed items. 
The applied tag set is the CLAWS2 Tagset. 
NP  
proper noun, neutral for number (Indies, Andes) 
NP1  singular proper noun (London, Jane, Frederick) 
NP2  plural proper noun (Browns, Reagans, Koreas) 
… 
2 Scr
i
pts 
Another common data type are scripts used in statistical analysis. Before archiving, 
make sure you add a description for each step used in the script. Below, we present an 
example, taken from TROLLing
5: 
5
Janda et al. (2014), cf. http://hdl.handle.net/10037.1/10121 
UiT, June 2015 
IV
F
il
e s
i
ze 
The size of the individual data file cannot exceed 1Gb. If you have files exceeding this limit, 
please contact us at 
trolling@ub.uit.no
UiT, June 2015 
10 
R
eferences 
Parts of the guidelines above have been adapted from several sources, including 
Data Management General Guidance. Curation Center of the California Digital Library, 
University of California. https://dmptool.org/dm_guidance#types. 
Praat beginners’ manual by Sidney Wood. 
http://www.fon.hum.uva.nl/praat/manualsByOthers.html  
Preparing tabular data for description and archiving. Research Data Management Group, 
Cornell University. http://data.research.cornell.edu/content/tabular-data.  
Sustainable Formats and Conversion Strategies at the Bentley Historical Library. Version 
1.0, November 9th, 2011. 
http://bentley.umich.edu/dchome/resources/BHL_PreservationStrategies_v01.pdf  
Documents you may be interested
Documents you may be interested