This work was partially supported by the SCAPE Project. The SCAPE project is co-funded by the 
European Union under FP7 ICT-2009.4.1 (Grant Agreement number 270137).  
This work is licensed under a CC-BY-SA International License  
Identification and selection 
of large‐scale migration 
tools and services 
Authors 
Rui Castro, Luís Faria (KEEP Solutions), Christoph Becker, Markus Hamm (Vienna University of 
Technology) 
June 2011
Pdf editor delete text - delete, remove text from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
how to delete text from a pdf in acrobat; delete text from pdf file
Pdf editor delete text - VB.NET PDF delete text library: delete, remove text from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
delete text pdf acrobat; how to edit and delete text in pdf file online
 
 
Table of Contents
 
1
 
Introduction 
1
 
1.1  Scope of this document 
2
 
Related work 
2
 
2.1  Preservation action tools 
2.1.1
 
PLANETS 
3
 
2.1.2
 
RODA 
5
 
2.1.3
 
CRiB 
6
 
2.2  Software quality models 
2.2.1
 
ISO standard 25010 
7
 
2.2.2
 
Decision criteria in digital preservation 
7
 
3
 
Criteria for evaluating action tools 
9
 
3.1  Functional suitability 
10 
3.2  Performance efficiency 
11 
3.3  Compatibility 
11 
3.4  Usability 
11 
3.5  Reliability 
12 
3.6  Security 
12 
3.7  Maintainability 
13 
3.8  Portability 
13 
4
 
Methodology 
14
 
4.1  Analysis of requirements 
14 
4.2  Definition of the evaluation framework 
14 
4.3  Identification, evaluation and selection of action tools 
14 
5
 
Analysis of requirements 
15
 
5.1  Requirements for the SCAPE platform 
16 
5.2  Requirements of the testbed scenarios 
16 
5.2.1
 
Scenario 1: Normalize document formats contained in the web archive 
16
 
5.2.2
 
Scenario 2: Deep characterisation of huge media files 
17
 
VB.NET PDF- HTML5 PDF Viewer for VB.NET Project
C#: ASP.NET PDF Editor; C#: WPF PDF Viewer; C#: Create PDF from Word; C# Split PDF; C# Page: Insert PDF pages; C# Page: Delete PDF pages; C# Read: PDF Text Extract
acrobat delete text in pdf; pdf editor delete text
C# HTML5 PDF Viewer SDK to view, annotate, create and convert PDF
framework class. An advanced PDF editor enable C# users to edit PDF text, image and pages in Visual Studio .NET project. Support to
delete text from pdf; delete text in pdf file online
 
vi 
 
5.2.3
 
Scenario 3: Migrate digitised TIFFs to JPEG2000 
17
 
5.2.4
 
Scenario 4: Migrate archive to new archiving system? 
17
 
5.2.5
 
Scenario 5: RAW to NEXUS migration 
18
 
6
 
Evaluation framework 
18
 
6.1  Suitability for testbeds 
19 
6.2  Suitability for platform 
19 
6.3  Technical instalability 
20 
6.4  Legal constrains 
20 
6.5  Summary 
20 
7
 
Results 
21
 
7.1  Identification of candidate tools 
21 
7.2  Evaluation and selection of tools 
22 
8
 
Conclusions 
24
 
9
 
References 
25
 
10
 
Appendix 
28
 
10.1  List of identified action tools 
28 
 
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
Page: Delete Existing PDF Pages. |. Home ›› XDoc.PDF ›› C# PDF: Delete PDF Page. C#.NET PDF Library - Delete PDF Document Page in C#.NET.
pdf text watermark remover; delete text from pdf with acrobat
C# PDF insert text Library: insert text into PDF content in C#.net
|. Home ›› XDoc.PDF ›› C# PDF: Insert Text to PDF. Powerful .NET PDF edit control allows modify existing scanned PDF text.
deleting text from a pdf; pdf text remover
 
 
 
 Introduction 
A preservation action is a concrete action, usually implemented by a software tool, that is performed 
on digital content in order to achieve some preservation goal. The execution of a preservation action 
has  the  purpose  of  supporting  the  continuous  access  to  content  or  to  make  sure  that  digital 
preservation is being carried out effectively (Ferreira, Baptista, & Ramalho, 2006). For example, a 
migration of content from an obsolete format to a more up‐to‐date one, the replacement of a viewer 
application  in  some  rendering  environment,  the  execution  of  legacy  software  in  an  emulation 
environment, etc.  
Preservation  actions  have  been  extensively  analysed  and  employed  in  experimental  digital 
preservation systems (Eld Zierau & Caroline van Wijk, 2008; Ferreira, Baptista, & Ramalho, 2007). 
However,  current  approaches  are  not  capable  of  coping  with  real‐size  collections  of  today’s 
preservation environments, e.g. an e‐journal library may contain several thousands of documents 
adding up to several terabytes of information. A national‐wide Web archiving service will contain a 
myriad of unrelated formats and can easily host Petabytes of data.  
The Work  package  WP10  of  SCAPE project (i.e. Action Services Components) is  focused on the 
applicability of action tools and services to large collections of complex digital objects by analysing 
and improving interfaces and internal functionality of existing software tools, extending them and 
creating new functionality to cope with large‐scale digital preservation scenarios. Within this work 
package, tools will be enhanced to deal with, not only single file formats, but also compound objects, 
large‐sized objects and large collections of digital objects. 
This document is structured as follows: Section 1 provides an introduction to this report; Section 2 
presents  related  work  in  the  context  of  preservation  action  tools  and  software quality  models; 
Section  4 thoroughly describes the  software quality  model  that served  as  a  foundation for the 
development of the action tools evaluation framework; Section 4 presents the methodology used to 
identify, evaluate and select action tools; Section 5 outlines the requirements of the SCAPE project 
that  have  influenced  the  definition  of  the  tool  evaluation  framework;  Section  6  presents  the 
evaluation framework including  the criteria,  metrics and selection  conditions that were  used  to 
select action tools; Section 7 outlines the results of evaluating the tools; and finally, Section 8 draws 
the main conclusions of this report and sheds light on the future tasks to be developed in work 
package WP10. 
1.1  Scope of this document 
This deliverable constitutes a report on Task 1 of the work package WP10 of the SCAPE project – 
Identification, evaluation and selection of large scale action tools & services. The goal of this task is to 
compile and evaluate a list of existing action tools that are likely to be used in the SCAPE parallel 
execution platform, and suitable for solving to problems raised by the Testbed scenarios.  
C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net
PDF to Text. |. C#.NET PDF SDK - Convert PDF to Text in C#.NET. Empower C# Users to Convert PDF to Text (TXT) in Visual C# with .NET XDoc.PDF Converter Library.
erase text from pdf file; remove text watermark from pdf
C# PDF Text Search Library: search text inside PDF file in C#.net
|. Home ›› XDoc.PDF ›› C# PDF: Search PDF Text. C#.NET PDF SDK - Search and Find PDF Text in C#.NET. C#.NET PDF DLLs for Finding Text in PDF Document.
how to erase in pdf text; how to copy text out of a pdf
 
 
                                                           
Due to the dependencies that this task maintains with other work packages, namely the Testbeds
1
 
(work packages WP15, WP16 and WP17) and the Platform architecture design
2
 (WP4) this report will 
be written in 2 versions during the overall time of the project: 
1.  The  first  version,  published  in  month  6,  includes  a  list  of  action  tools,  an  evaluation 
framework and the results of assessing those tools according to the selection conditions 
defined in the evaluation framework; 
2.  The second version of this report will be published in project month 24 and will include: a) a 
new evaluation framework with criteria and metrics for gauging the improvement of existing 
action tools during the overall time of the project; b) the results of evaluating selected tools 
according to the new evaluation framework (this will serve as input for deliverable D10.2 ‐ 
Gap analysis on action services tools and SCAPE platform and testbeds requirements); and c) 
a list of additional criteria that may be used for evaluating action tools in the context of 
digital preservation. The later criteria will not be evaluated within work package WP10 but 
will be published as a possible evaluation framework for preservation action tools. 
 Related work 
Over  the  last  two  decades,  the  digital  preservation  research  community  has  come  up  with  a 
considerable  number  of  strategies  aiming  at  solving  the  problem  of  digital  preservation  and 
technological obsolescence. Among these is format migration.  
Format migration consists of a “(…) set of organized tasks designed to achieve the periodic transfer of 
digital materials from one hardware/software configuration to another or from one generation of 
computer technology to a subsequent generation.” (Task Force on Archiving of Digital Information., 
1996). 
Contrary to other preservation techniques, migration strategies do not attempt to preserve digital 
objects  in  their  original  formats.  Alternatively,  they  intentionally  transform  objects  from  near 
obsolete formats into up‐to‐date encodings that most users are able to interpret using their personal 
computers. In order to accomplish that, preservation systems resort to off‐the‐shelf conversion tools 
to re‐encode digital content into formats that more likely to be supported in the long run (Ferreira, 
2005). 
The major drawback in this approach is that whenever an object is converted to a new format, some 
of its original properties may not be adequately transferred to the target format. This may occur due 
to incompatibilities between the source and target formats or because the application used to do the 
conversion is not capable of carrying out its tasks correctly (Ferreira et al., 2006). In this context, it is 
important to highlight the importance of software quality models, i.e. a framework of reasoning that 
allows one to assess the quality of a software tool.  
 
1
 The testbeds first definition, including representative datasets, will only by available by month 9. 
2
 The platform work package will only deliver guidelines for deploying preservation tools and environments (D5.1) in month 
14. 
C# PDF metadata Library: add, remove, update PDF metadata in C#.
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata in .NET Project. Remove and delete metadata from PDF file.
how to delete text in pdf file; delete text pdf
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
›› VB.NET PDF: Delete PDF Page. VB.NET PDF - How to Delete PDF Document Page in VB.NET. Visual Basic Sample Codes to Delete PDF Document Page in VB.NET Class.
delete text from pdf online; how to erase text in pdf
 
 
To better understand what software quality models are, it is necessary to address the question: what 
is software quality? (R. W. Hoyer & B. B. Y. Hoyer, 2001) There are two major paths to choose from 
when discussing the meaning and definition of software quality:  
1.  Conformance to specification – in this context, software quality is defined as a matter of 
products whose measurable characteristics satisfy a fixed specification, i.e. conformance to 
an in beforehand defined specification.  
2.  Meeting customer needs – software quality is identified independent of any measurable 
characteristics, i.e. quality is defined as the product capability to meet customer expectations 
(explicit or not). 
The evaluation framework included in this report is focused on the first definition of software quality, 
i.e.  Conformance  to  specification.  In  the  context  of  SCAPE,  the  specification,  i.e.  the  set  of 
requirements that are expected to be fulfilled by the preservation action, are determined by the 
constrains of the project itself and, further on, by the outcome of preservation planning activities. 
The following sections depict related work in the context of preservation action tools and quality 
assessment models. 
2.1  Preservation action tools 
Several projects have made use of off‐the‐shelf migration software as core basis for implementing 
preservation strategies based on format migration. In this section we present an overview of action 
tools used in other digital preservation projects, namely, PLANETS, CRiB and RODA, that will serve as 
a starting point for the work presented in this report. 
2.1.1  PLANETS 
Planets ‐ Preservation and Long‐term Access through Networked Services ‐ was a four‐year project 
co‐funded by the European Union under the Sixth Framework Programme to address core digital 
preservation challenges. Planets started on 1st June 2006 and ended on 31 May 2010. One objective 
of  Planets  was  to create  an  Interoperability Framework  that integrated tools  and  services  in  a 
distributed service network (Jackson, Andrew Lindley, & Fabian Steeg, 2010).  
A compendium of tools identified and integrated in the Planets project is depicted in Table 1. This 
table includes the tools identified in the Planets deliverable D3 – Gap analysis: a survey of PA tool 
provision  (KB‐NL,  2009)  ‐  and  tools  that  that  were  published  in  the  Planets  Interoperability 
Framework Service Registry (ARC, 2009). However, the following list of exceptions apply: 
•  The table will only include tools that have a particular focus on format migration. A few 
exceptions have been made for the sake of completeness (e.g. Microsoft Word, Photoshop).  
•  Tools that belong to  the same  software  package  or  that depend of a common software 
library have been added as a single entry.  
•  Tools that are not attainable due to lack of support or project termination have not been 
included. 
•  Tools that depend of external software or services to perform their primary function (e.g. 
virtual printers, online services, add‐ins) have been excluded.  
 
 
•  Tools that merely wrap functionality of other tools, which have already been included in the 
table, have been suppressed. 
•  Tools that are bundled with their own application environment and cannot be separated 
from it (e.g. tools bundled as a whole server). 
Table 1 ‐ Tools and services deployed in Planets. 
Program name 
Description 
Web site 
ImageMagick 
Software suite to create, edit, compose, or convert 
bitmap images 
http://www.imagemagick.org 
GraphicsMagick 
Software suite to create, edit, compose, or convert 
bitmap images, forked from the ImageMagick 
project. 
http://www.graphicsmagick.org 
Sanselan 
Pure‐Java library reads and writes a variety of image 
formats, including fast parsing of image info and 
metadata 
http://commons.apache.org/sanselan 
Inkscape 
Vector graphics editor, with capabilities similar to 
Illustrator, CorelDraw, or Xara X, using the W3C 
standard Scalable Vector Graphics (SVG) 
http://inkscape.org 
SoX 
Command line utility that can convert various 
formats of computer audio files in to other formats 
http://sox.sourceforge.net 
Gimp 
GNU Image Manipulation Program. It is a freely 
distributed piece of software for such tasks as photo 
retouching, image composition and image authoring. 
http://www.gimp.org 
Java ImageIO 
Java library to read and write to image formats 
http://java.net/projects/imageio 
Kakadu 
JPEG2000 developer toolkit 
http://www.kakadusoftware.com 
JTidy 
Java port of HTML Tidy, a HTML syntax checker and 
pretty printer 
http://jtidy.sourceforge.net 
JasPer 
Software‐based implementation of the codec 
specified in the JPEG‐2000 Part‐1 standard 
http://www.ece.uvic.ca/~mdadams/jasper 
OpenJPEG 
JPEG 2000 codec written in C language 
http://www.openjpeg.org 
Avidemux 
Video editor designed for simple cutting, filtering 
and encoding tasks 
http://avidemux.sourceforge.net 
b2xtranslator 
Software tool to convert documents written in 
Binary Formats (doc, xls, ppt) to the Office Open XML 
format 
http://b2xtranslator.sourceforge.net 
Microsoft Word  
Text processing software 
http://office.microsoft.com/word 
Abiword 
Word processing program similar to Microsoft Word  http://www.abisource.com 
ACDSee 
Photo processing software 
http://www.acdsee.com 
CZ‐Doc2Pdf 2.0 
Batch PDF Converter that convert word to PDF, DOC 
to PDF, html to PDF, text to PDF and RTF to PDF 
http://www.convertzone.com/doc2pdf/hel
p.htm 
Dia 
Diagram creation program 
http://projects.gnome.org/dia/ 
Document2PDF 
Pilot 
Converts JPEG, GIF, TIFF, BMP, PNG, EMF, PPT, POT, 
PPS, XLT, XLS, XLW, DOC, DOT, WPS, WRI, RTF, HTML 
documents into PDF. 
http://www.colorpilot.com/document2pdf
.html 
EscapeE 
Software to view and convert print streams, like PCL, 
PDF, Postscript, TIFF, DCX, and others. 
http://escapee.redtitan.fr 
GraphicConverter  Picture converter, editor and manager for Mac OS X 
http://www.lemkesoft.com/content/188/g
raphicconverter.html 
MsgText 
Software for converting .msg‐files to .txt‐files and 
extracting the attachments. 
http://www.enterag.ch/enterag/download
s/msgtext.xhtml 
Netpbm 
Netpbm is a toolkit for manipulation of graphic 
images, including conversion of images between a 
variety of different formats. 
http://netpbm.sourceforge.net/ 
 
 
PDF Version 
Converter 
Convert PDF file between different versions for 
compatibility purpose. 
http://www.nicepdf.com/products.html 
PDF/A converter 
PDF/A Converter Service converts PDF files to PDF/A 
conform and compliant documents, based on the 
international Norm ISO 19005‐1. 
http://www.pdfa.at/en/pdfa‐
converter.html 
Apache PDFBox 
Apache PDFBox™ is an open source Java PDF library 
for working with PDF documents. 
http://pdfbox.apache.org/ 
Photoshop 
Photo editing software suite. 
http://www.photoshop.com/ 
SIARD Suite 
Software package for converting relational databases 
into the SIARD format. 
http://www.bar.admin.ch/dienstleistungen
/00823/00825/index.html?lang=en 
VisualIntegrity 
Software suite to convert PDF into bitmap image, 
vector image or CAD. 
http://www.visual‐integrity.com/ 
FFmpeg 
Complete, cross‐platform solution to record, convert 
and stream audio and video. 
http://ffmpeg.org/ 
MEncoder 
Underlying framework of the media player viewer 
mplayer 
http://www.mplayerhq.hu 
 
2.1.2  RODA 
RODA  ‐ Repository of Authentic Digital Objects ‐ is a digital repository capable of ingesting, managing 
and providing continuous access to various types of digital objects. It was developed as part of a 
project, with the same name, co‐founded by the Portuguese National Archives with the objective of 
identifying and bringing together all the necessary technology, human resources and political support 
to carry out long‐term preservation of digital materials (Faria et al., 2009). 
RODA is able to ingest and preserve text documents, images, video, audio and relational databases 
available  in  several  distinct  formats.  It  automatically  normalizes  ingested  data  to  formats more 
adequate  for  long‐term  preservation  and  makes  data  available  to  its  consumers  in  various 
dissemination formats (including the original ingested format). To accomplish this, RODA resorts to 
several action tools to carry out all the necessary format migrations. The action tools deployed in 
RODA are outlined in Table 2. 
Table 2 ‐ Action tools deployed in RODA. 
Program name
 
Description
 
Web site
ImageMagick 
Software suite to create, edit, compose, or 
convert bitmap images 
http://www.imagemagick.org 
Gstreamer 
Open source multimedia framework 
http://gstreamer.freedesktop.org 
DBML 
import/export 
module 
Library of the RODA project that allows 
database migration of information. It supports 
several database management systems and 
also a created standard format called DBML 
(Marta, Librelotto, Ramalho, & P. R. Henriques, 
2002). 
http://redmine.keep.pt/projects/show/roda‐
public 
JODConverter 
The Java OpenDocument Converter, converts 
documents between different office formats 
using OpenOffice.org.  
http://sourceforge.net/projects/jodconverter 
MEncoder 
Underlying framework of the media player 
viewer mplayer 
http://www.mplayerhq.hu 
Ghostscript 
Interpreter for the PostScript language and for 
PDF 
http://pages.cs.wisc.edu/~ghost/ 
RODA’s doc2pdf for  Executable that allows converting word 
http://redmine.keep.pt/projects/show/roda‐
 
 
Microsoft Word 
documents to PDF using Microsoft Word by a 
command line interface. 
public 
 
2.1.3  CRiB 
The  CRiB  platform  is  a  set  of  services  designed  to  assist  cultural  heritage  institutions  in  the 
implementation of migration‐based preservation interventions. CRiB works by assessing the quality 
of distinct migration paths tools and services to produce recommendations of optimal migration 
paths. The recommendations produced by the system take into account the specific preservation 
requirements of each client institution (Ramalho et al., 2008). The action tools deployed in CRiB are 
depicted in Table 3. 
Table 3 ‐ Action tools deployed in CRiB. 
Program name
 
Description
 
Web site
 
ImageMagick
 
Software suite to create, edit, compose, or convert bitmap 
images 
http://www.imagemagick.org
 
OpenOffice 
Open‐source office software suite for word processing, 
spreadsheets, presentations, graphics, databases and more 
http://www.openoffice.org 
Microsoft Word 
Text processing software 
http://office.microsoft.com/word 
Sam2p
 
Command line utility written in ANSI C++ that converts many 
raster (bitmap) image formats into Adobe PostScript or PDF 
files and several other formats 
http://pts.szit.bme.hu/sam2p 
2.2  Software quality models 
To evaluate the quality of software one must perform a systematic assessment of the capability that 
a software infolds to implement a given set of requirements. In other words, an adequate quality 
model should be defined that will guide the process of evaluation a given software application.  
A quality model consists of several quality attributes that are used as a checklist for determining 
software quality (ISO 9126‐1, 2001). Additionally, to properly evaluate software one will also need an 
evaluation framework composed of  metrics, measurements and, if possible, supporting software 
tools to facilitate the evaluation process (Beus‐Dukic & Bøegh, 2003).  
There are several examples of quality models available in research literature: 
1.  Factors in Software Quality  – McCall, J.A., Richards, P.K., Walters, G.F., Factors in Software 
Quality, RADC TR‐77‐369, 1977; 
2.  Characteristics  of  Software  Quality    –  Boehm,  B.W,  Brown,  J.R.,  Kaspar,  J.R.,  et.al, 
Characteristics of Software Quality, TRW Series of Software Technology, Amsterdam, North 
Holland, 1978; 
3.  Specification of software quality attributes – Bowen, T. P., Wigle, G. B., Tsai, J. T. 1985. 
Specification  of  software  quality  attributes.  Tech.  Rep.  RADC‐TR‐  85‐37,  Rome  Air 
Development Center; 
4.  ISO standard 25010:2011 – Systems and software engineering, Systems and software Quality 
Requirements and Evaluation (SQuaRE); 
 
 
These examples of software quality models are independent of the application domain. The ISO 
standard 25010:2011 is the most recent of these initiatives, and can be considered as a superset of 
the other three.  
An additional framework of thought that should be considered is the taxonomy of decision criteria 
compiled by the Plato Preservation Planning tool (Becker & Rauber, 2011). This taxonomy of decision 
factors is based on quality requirements of real‐world digital preservation case studies and aims at 
assessing the quality of preservation action tools.  
The last two examples will be analysed in more detail in the following sections. The rest of the 
models were not further described in this report because they have already served as a basis for the 
development of the two examples selected. 
2.2.1  ISO standard 25010 
The ISO standard 25010 (ISO 25010, 2011) is based on the earlier ISO 9126 family (ISO 9126‐1, 2001). 
The ISO/IEC 9126 standards provide guidance for quality models and define a hierarchy of high‐level 
quality attributes. Quality measures are based on measurement procedures recommended in ISO 
15939 (ISO 15939, 2007).   
The  ISO  25000  standards  for  Software  Product  Quality  Requirements  and  Evaluation  (SQuaRE) 
supersede the ISO 9126 models and combine a revised quality model with evaluation procedures 
based on ISO 14598 (ISO  14598‐1, 1999).  They  also define requirements on  the  specification of 
software product quality criteria.  
ISO/IEC 25010:2011 defines a product quality model composed of eight characteristics (which are 
further subdivided into sub‐characteristics) that relate to static properties of software and dynamic 
properties of the computer system. The model is applicable to both computer systems and software 
products ‐ Figure 1 (ISO 25010, 2011). 
 
Figure 1 ‐ ISO 25010 top product quality characteristics. 
2.2.2  Decision criteria in digital preservation 
In the digital preservation domain, a preservation planning process is responsible for defining criteria 
and evaluating preservation actions for a given identified risk or to achieve a certain preservation 
goal. These decision criteria have been used by a tool called Plato to assess the quality of competing 
preservation action options and to rank them according to the preservation objectives of the person 
or  organization  managing  a  particular  preservation  project.  Although  these  criteria  have  been 
designed to  assess the quality of preservation action tools,  they should  not be  considered as a 
software quality model per se as they also take into consideration factors that are outside of the 
scope of software quality assessment, e.g. organisation policies, costs, etc.  
 
Documents you may be interested
Documents you may be interested