open pdf in new tab c# mvc : How to remove highlighted text in pdf application control tool html web page .net online SCAPE_D10.1_KEEPS_V1.02-part2009

 
that case we will need to check the integrity of each single file within the AIP, before and after the 
migration. 
Related file formats: TAR, ZIP 
5.2.5  Scenario 5: RAW to NEXUS migration 
AT STFC, scientific data sets have been stored in the RAW format, and there is a method to migrate 
the RAW format to the XML‐based NEXUS format. Currently, there is only a simple format conversion 
in place that does not record any provenance information about why and by whom information 
items have been changed. 
Related file formats: RAW, XML/Nexus 
 Evaluation framework 
In this section, we describe the evaluation framework that has been devised to assess and select 
action tools to be adapted and improved within the SCAPE project. To enable a systematic evaluation 
of the tools, metrics and selection conditions have been defined for each quality criterion included in 
the evaluation framework.  
Figure 4 depicts the complete taxonomy of criteria that compose the evaluation framework. 
Domain‐specific
ISO 25010
ISO 25010
ISO 25010
Evaluation 
framework
Functional 
suitability
Functional 
appropriateness 
Suitability for 
testbeds
(M01) 
Compatibility 
Interoperability
Suitability for 
platform
(M02)
Portability
Instalability
Technical 
instalability 
(M03)
Legal 
constraints
(M04)
 
Figure 4 ‐ Evaluation framework. 
Not all of the criteria in the ISO 25010 were included in the evaluation framework. Some will be used 
afterwards, on version 2 of this report, to appraise the need for improvement and serve as a basis for 
validating task 3 of this work package ‐ Improve functionality and coverage of preservation action 
tools. Such criteria will be used to assess the dynamic qualities of tools before and after the 
improvement activities. 
18 
 
How to remove highlighted text in pdf - delete, remove text from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
how to delete text from pdf document; how to erase text in pdf file
How to remove highlighted text in pdf - VB.NET PDF delete text library: delete, remove text from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
how to erase pdf text; how to delete text from a pdf reader
 
19 
 
The criteria, metrics and conditions that are part of this evaluation framework are described in the 
following sections:  
6.1  Suitability for testbeds 
In order to be selected, a tool should be aligned with the objectives of the SCAPE project. This relates 
particularly to its suitability to solve the problems depicted by the testbed scenarios and is 
determined by the quality criterion suitability for testbeds, under functional appropriateness 
(Section 3.1). 
For a tool to be selected, at least one of the formats it supports should be part of the testbed 
scenarios related file formats. 
Metric ID 
M01 
Criterion 
Suitability for testbeds 
Description 
Number of input or output formats the tool supports (directly or 
transitively by composing other tools) that exist in the testbed 
scenarios related file formats. 
Unit 
Number 
Evaluation effort 
Low 
 
6.2  Suitability for platform 
A second requirement is based on the fact that the tool should be compatible with the SCAPE parallel 
execution platform. By compatible we mean that the effort needed to install and make the tool run 
in the SCAPE platform, and in the workflow engine, is not beyond the level of resources available in 
the project. This requirement is determined by the criterion suitability for platform, under 
interoperability.   
For a tool to be selected, it must provide a way to access its functionality programmatically or the 
effort to make it so should be equal or less than medium.  
Metric ID 
M02 
Criterion 
Suitability for platform 
Description 
Effort necessary to make the tool interface compatible with the 
SCAPE platform: 
1.  the tool has a command‐line interface, effort is close to 
none 
2.  a small effort is necessary to adapt the tool (e.g. a 
wrapper needs to be developed) 
3.  a medium effort is necessary (e.g. the tool is a software 
library or has an API) 
4.  a high effort is needed to adapt the tool 
5.  the effort is very high or nearly impossible (e.g. the tool 
has a graphical user interface and no command‐line or 
programming interface) 
Unit 
1 to 5 scale 
Evaluation effort 
Low 
 
C# PDF Text Highlight Library: add, delete, update PDF text
etc. Able to remove highlighted text in PDF document in C#.NET. Support to change PDF highlight color in Visual C# .NET class. Able
how to remove text watermark from pdf; how to delete text from pdf
VB.NET PDF Text Extract Library: extract text content from PDF
Extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
how to delete text from a pdf document; how to erase text in pdf online
 
20 
 
6.3  Technical instalability 
One must ensure that it is possible to install the tool in the SCAPE parallel execution platform. This 
relates to the instalability criterion, which has been further refined by technical instalability.  
For a tool to be selected, it must be feasible, using available resources in SCAPE, to make it runnable 
in the SCAPE platform. This means that the effort necessary to install the tool or to make it 
compatible with platform should be equal or less than medium.  
Metric ID 
M03 
Criterion 
Technical instalability 
Description 
Effort  necessary  to make  the  tool supported by  the  SCAPE 
platform. The level of effort to install a tool is defined by:  
1.  the tool is directly supported (an installer is available for 
the Operating System) 
2.  a small effort is necessary to make the tool supported 
(the tools requires some configuration) 
3.  a medium effort is necessary to make the tool supported  
4.  a high effort is necessary to make the tool supported   
5.  it is nearly impossible to support the tool 
Unit 
1 to 5 scale 
Evaluation effort 
Low 
 
6.4  Legal constrains 
For a tool to be selected its license must enable it to be used in the context of the SCAPE platform 
and it should be free of charge since the SCAPE project does not include a budget for acquiring 
software licenses. This means that the end‐user license agreement that accompanies the tool should 
allow one to run it on a server environment and be invoked by a random number of anonymous 
users, and the tool should be open‐source or free to be used in a research context. 
In order to be selected a tool should not have any constraints that hinder its use from the legal point‐
of‐view. 
Metric ID 
M04 
Criterion 
Legal constraints 
Description 
Whereas the license of the tool allows it to be run as a server‐side 
service and the tool is free of charge  for use in a research context. 
Unit 
Boolean 
Evaluation effort 
Low 
 
6.5  Summary 
A summary of the metrics and conditions included in the evaluation framework is presented in Table 
5. 
C# PDF Text Extract Library: extract text content from PDF file in
Ability to extract highlighted text out of PDF document. Supports text extraction from scanned PDF by using XDoc.PDF for .NET Pro.
how to edit and delete text in pdf file; how to delete text in pdf using acrobat professional
C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net
Text in any fonts, colors and sizes, or highlighted characters are easy to be converted to plain text. Text can be extracted from scanned PDF image with OCR
remove text watermark from pdf online; delete text pdf acrobat
 
21 
 
Table 5 ‐ Metrics and conditions for tool selection. 
Criterion 
Metric
Selection condition 
Suitability for 
testbeds 
M01 ‐ Number of input or output formats the tool supports 
(directly or transitively by composing other tools) that exist in the 
testbed scenarios. 
Must be greater than zero (>0) 
Suitability for 
platform 
M02  ‐ Level  of  effort needed  to  make the tool  interface 
compatible with the ones supported by the SCAPE platform. 
Effort must be equal or less 
than medium (<=3) 
Technical 
instalability 
M03 ‐ Level of effort to make the tool supported in the SCAPE 
platform. 
Effort must be equal or less 
than medium (<=3) 
Legal constraints 
M04 – Whereas the license of the tool allows it to be run as a 
server‐side service and the tool is free of charge  for use in a 
research context.. 
Must be true (=true) 
 Results 
7.1  Identification of candidate tools 
As previously mentioned, a list of candidate action tools has been assembled by inspecting the 
outcomes of reference digital preservation projects and by collecting information from preservation 
experts involved in work package activities. 
This section presents a summary of all the off‐the‐shelf action tools that have been identified. The 
complete list of tools with detailed information is presented in Appendix 10.1. 
Table 6 ‐ Identified action tools. 
Tool 
Interface 
Operating system 
Open‐
source 
Object class 
ImageMagick 
Command‐line 
Linux; Win; Mac; Other 
Yes 
Bitmap 
Mencoder 
Command‐line 
Linux; Win; Mac 
Yes 
Video; Audio 
HandBrake 
Command‐line;GUI  Linux; Win; Mac 
Yes 
Video 
FFMpeg 
Command‐line;API 
Linux; Win; Mac 
Yes 
Video; Audio 
SoX 
Command‐line 
Linux; Win; Mac 
Yes 
Audio 
GStreamer 
Command‐line;API 
Linux; Win 
Yes 
Video; Audio 
Microsoft Office 
API;GUI 
Win; Mac 
No 
Text; Spreadsheet 
OpenOffice (JODConverter)  Command‐line 
Linux; Win; Mac; Other 
Yes 
Text; Spreadsheet 
Teigha File Converter 
Command‐line;GUI  Linux; Win; Mac 
No 
CAD 
Kakadu 
API 
Linux; Win 
Yes 
Bitmap 
Apache Sanselan 
API 
Linux; Win; Mac; Other 
Yes 
Bitmap 
OpenJPEG 
API 
Linux; Win; Mac 
Yes 
Bitmap 
SIARD Suite 
Command‐line 
Linux; Win; Mac 
No 
Database 
GIMP 
Command‐line;GUI  Linux; Win; Mac 
Yes 
Bitmap 
Inkscape 
Command‐line;GUI  Linux; Win; Mac 
Yes 
Bitmap; Vector 
Avidemux 
Command‐line;GUI  Linux; Win 
Yes 
Video 
PDFBox 
API 
Linux; Win; Mac; Other 
Yes 
Other 
VB.NET PDF Convert to Text SDK: Convert PDF to txt files in vb.net
Plain text can get from any fonts, colors and sizes, or highlighted characters. Text extraction from scanned PDF image with OCR component in VB.NET.
delete text pdf preview; pull text out of pdf
XDoc.HTML5 Viewer for .NET, All Mature Features Introductions
to search text-based documents, like PDF, Microsoft Office The well built-in text search tool is compatible for, all results will be highlighted with specific
acrobat remove text from pdf; remove text from pdf preview
 
22 
 
JTidy 
Command‐line;API 
Linux; Win; Mac; Other 
Yes 
Other 
JasPer 
API 
Linux; Win; Mac; Other 
Yes 
Bitmap 
Aware AccuRad J2KSuite 
API 
Linux; Win; Mac 
No 
Bitmap 
Luratech LuraWave 
Command‐line 
Linux; Win 
No 
Bitmap 
b2xtranslator  
Command‐line 
Linux; Win; Mac; Other 
Yes 
Text; Spreadsheet 
warc‐tools 
Command‐line 
Linux; Win; Mac; Other 
Yes 
Web archive 
NedlibToArc 
Command‐line; API  Linux; Win; Mac; Other 
Yes 
Web archive 
Heritrix (org.archive.io) 
API 
Linux; Win; Mac; Other 
Yes 
Web archive 
Java Image I/O 
API 
Linux; Win; Mac; Other 
Yes 
Bitmap 
GraphicsMagick 
Command‐line 
Linux; Win; Mac; Other 
Yes 
Bitmap 
ACDSee 
GUI 
Win; Mac 
No 
Bitmap; Audio; Video 
CZ‐Doc2Pdf 
GUI 
Win 
No 
Text 
Dia 
Command‐line; GUI  Linux; Win 
Yes 
Vector 
Document2PDF Pilot 
GUI 
Win 
No 
Text 
EscapeE 
Command‐line; GUI  Win 
No 
Text 
GraphicConverter X 
API; GUI 
Mac 
No 
Bitmap 
MsgText 
Command‐line 
Win 
Yes 
Email 
Tesseract‐ocr 
Command‐line 
Linux; Win; Mac 
Yes 
Bitmap 
AbiWord 
Command‐line; GUI  Linux; Win; Mac 
Yes 
Text 
VisualIntegrity 
Command‐line 
Linux; Win; Mac 
No 
Text 
Photoshop 
GUI 
Win; Mac 
No 
Bitmap; Vector 
PDF Version converter 
Command‐line; GUI  Win 
No 
Text 
Netpbm 
Command‐line 
Linux; Win; Mac 
Yes 
Bitmap 
 
7.2  Evaluation and selection of tools 
This section presents the results of the tool evaluation (Table 7). For each tool, the selection 
conditions presented in Section 6 are evaluated.  
Table 7 is composed of the following information: 
1. Tool name ‐ the name of the tool; 
2. Criterion M01 ‐ Number of input or output formats the tool supports (directly or transitively 
by composing other tools) that exist in the testbed scenarios. Number must be greater than 
0; 
3. Criterion M02 ‐ Level of effort needed to make the tool interface compatible with the ones 
supported by the SCAPE platform. Number must be less or equal to 3; 
4. Criterion M03 ‐ Level of effort to make the tool supported in the SCAPE platform. Number 
must be less or equal to 3; 
5. Criterion M04 – Whereas the license of the tool allows it to be run as a server‐side service 
and the tool is free of charge  for use in a research context.. Value must be True; 
6. Selected? ‐ The value is Yes if the tool is selected for use in the SCAPE project or No 
otherwise. 
 
23 
 
Table 7 ‐ Evaluation of action tools. 
Criterion 
M01 
M02 
M03 
M04 
Selected? 
Selection condition 
(>0) 
(<=3) 
(<=3) 
(True/False) 
(Yes/No) 
ImageMagick 
(JP2, HTML, TIFFF, 
DjVu, TXT)  
(Command line) 
True 
Yes 
Mencoder 
(MPEG2)
 
(Command line)
True 
Yes 
HandBrake 
(MPEG2, FLV, AAC, 
MP3)
 
(Command line)
 
True 
Yes 
FFMpeg 
(FLV, MP3, AAC, 
MPEG2, TXT, JP2, 
TIFF)
 
(Command line)
 
True 
Yes 
SoX 
(MP3, AAC, 
MPEG2)
 
(Command line)
 
True 
Yes 
GStreamer 
(JP2, FLV, MP3, 
AAC, MPEG2, TXT, 
JP2, TIFF)
 
(Command line)
 
True 
Yes 
Microsoft Office 
(DOCX, DOC, RTF, 
TXT, ODF, HTML, 
XML, PDF, TIFF)
 
(API)
 
False 
No 
OpenOffice (JODConverter) 
(ODF, DOC, RTF, 
TXT, HTML, PDF)
 
(Command line)
 
True 
Yes 
TeighaFileConverter 
(Command line)
True 
No 
Kakadu 
(JP2, TIFF)
 
(API)
False 
No 
Apache Sanselan 
(TIFF)
 
(API)
True 
Yes 
OpenJPEG 
(JP2, TIFF)
 
(API)
True 
Yes 
SIARD Suite 
(Command line)
True 
No 
GIMP 
(PS, TIFF, PDF, 
HTML, TXT)
 
(Command line)
 
True 
Yes 
Inkscape 
(PDF, TIFF, PS)
 
(Command line)
True 
Yes 
Avidemux 
(FLV, MPEG2, MP3, 
AAC)
 
(Command line)
 
True 
Yes 
PDFBox 
(PDF, TXT)
 
(API)
True 
Yes 
JTidy 
(HTML)
 
(Command line)
True 
Yes 
JasPer 
(JP2)
 
(API)
True 
Yes 
Aware AccuRad J2KSuite 
(JP2, TIFF)
 
(API)
False 
No 
Luratech LuraWave 
(JP2, TIFF)
 
(Command line)
False 
No 
b2xtranslator  
(DOC, DOCX)
 
(Command line)
True 
Yes 
warc‐tools 
(ARC, WARC)
 
(Command line)
False 
No 
NedlibToArc 
True 
Yes 
 
24 
 
(ARC)
 
(Command line)
Heritrix (org.archive.io) 
(ARC, WARC)
 
(API)
True 
Yes 
Java Image I/O 
(TIFF)
 
(API)
True 
Yes 
GraphicsMagick 
(HTML, JP2, PDF, 
PS, TIFF, TXT)
 
(Command line)
 
True 
Yes 
ACDSee 
(AAC, DJVU, JP2, 
TIFF)
 
(GUI)
 
False 
No 
CZ‐Doc2Pdf 
(DOC, HTML, PDF, 
TXT, RTF)
 
(GUI)
 
False 
No 
Dia 
(Command line)
True 
No 
Document2PDF Pilot 
(TXT, RTF, HTML, 
DOC, PDF)
 
(GUI)
 
False 
No 
EscapeE 
(PDF, PS, TIFF, RTF, 
PDF)
 
(Command line)
 
False 
No 
GraphicConverter X 
(PDF, TIFF)
 
(API)
False 
No 
MsgText 
(PDF, TIFF)
 
(Command line)
True 
Yes 
Tesseract‐ocr 
(TIFF, TXT)
 
(Command line)
True 
Yes 
AbiWord 
(DOC, RTF, TXT, 
HTML, ODF, DOCX)
(Command line)
 
True 
Yes 
VisualIntegrity 
(PDF, TIFF, TXT)
 
(Command line)
False 
No 
Photoshop 
(JP2, PDF, TIFF)
 
(GUI)
False 
No 
PDF Version converter 
(PDF)
 
(Command line)
False 
No 
Netpbm 
(TIFF)
 
(Command line)
True 
Yes 
 
 Conclusions 
In the SCAPE description of work it was indicated that action tools would be evaluated against four 
criteria: 1) Suitability for deployment on the distributed SCAPE platform; 2) the effort required to 
make them compatible with the use case scenarios determined by the testbeds; 3) their scalability in 
terms of their ability to migrate a large set of objects, complex objects composed of multiple bit 
streams of different types and/or large‐sized files and 4) their robustness in terms of reliability and 
accuracy. 
After a careful analysis of the objectives of this task, we came to conclusion that its main goal was to 
identify and select action tools and services that were suitable for SCAPE integration. That being said, 
we believe that no tools should be discarded based on the fact that they are not capable of coping 
with large‐sized digital objects or complex objects. Some tools may not be able to handle large‐sized 
files, but be extremely efficient in handling small objects – and that may be exactly what an 
institution is looking for when planning the preservation of a certain collection of files.  
 
25 
 
The decision on whether an action tool is suitable or not to preserve a collection of objects is 
something that should be addressed by a Preservation Planning service. This type of judgment varies 
according to the preservation needs of the collection, the stakeholders and/or the infrastructure in 
place (just to name a few of the possible influence factors). Any attempt to evaluate tools on the 
grounds that their scalability, reliability or accuracy would potentially result in an inaccurate decision 
based on poor assumptions or incomplete testing results. 
The tools have been evaluated using an evaluation framework based on an international standard for 
software quality assessment (i.e. the ISO/IEC 25010:2011) that focus on the requirements of 
suitability for the testbed scenarios, compatibility with the SCAPE parallel execution platform and the 
license of use that accompanies the tool. The selected tools are appropriate for solving the problems 
depicted by the testbed scenarios, meet the minimum requirements to run on the SCAPE platform 
and can be used freely without breaking any legal constraints established by the SCAPE agreement or 
the tools licenses. An overall of 40 tools, ranging from image converters to database migration suites, 
have been identified and evaluated. After the assessment procedure, 16 of these tools have been 
considered inadequate to be used in the SCAPE project (40% rejection rate). The main reasons for 
rejection were licensing constraints and format incompatibility with the testbed scenarios. 
Following the work developed in task 1 and reported here, task 2 will focus on adapting the selected 
action tools to fully support the SCAPE platform and take full advantage of the benefits that a 
scalable computational platform has to offer, such as enhanced computational power and fault 
tolerance. Additionally, the tools will need to be adapted to play along with the workflow engine 
being developed, which will be responsible for executing the plans produced by the Preservation 
Planning service. 
 References 
ARC. (2009). Guidelines for Creating and Installing IF Preservation Workflows and Templates 
(Deliverable 
No. 
IF5‐D1). 
Planets. 
Obtido 
de 
http://www.planets‐
project.eu/docs/reports/Planets_IF5‐D1_Creating&Install_IF_Pres_Workflows.pdf 
Ayris, P., Davies, R., McLeod, R., Miao, R., Shenton, H., & Wheatley, P. (2008). The LIFE2 final project 
report. Obtido de http://eprints.ucl.ac.uk/11758/ 
Becker, C., & Rauber, A. (2011). Decision criteria in digital preservation: What to measure and how. 
Journal  of  the  American    Society  for  Information    Science    and  Technology,    n/a‐n/a. 
doi:10.1002/asi.21527 
Beus‐Dukic, L., & Boegh, J. (2003). COTS Software Quality Evaluation. ICCBSS (pp 72‐80). 
Eld Zierau, & Caroline van Wijk. (2008). The Planets Approach to Migration Tools. Apresentado na 
IS&T Archiving 2008, Bern, Switzerland. 
Faria, L., Ferreira, M., Castro, R., Barbedo, F., Henriques, C., Corujo, L., & Ramalho, J. C. (2009). 
RODA: a service‐oriented repository to preserve authentic digital objects. Apresentado na 
 
26 
 
International  Conference  on  Open  Repositories,  Atlanta,  USA.  Obtido  de 
http://hdl.handle.net/1822/9408 
Ferreira, M. (2005). Automatic evaluation of migration quality in distributed networks of converters. 
Apresentado na European Conference on Digital Libraries (ECDL), Vienna. Obtido de 
http://hdl.handle.net/1822/3340 
Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2006, Julho). A foundation for automatic digital 
preservation, (48). Obtido de http://hdl.handle.net/1822/5571 
Ferreira, M., Baptista, A. A., & Ramalho, J. C. (2007). CRiB: preservation services for Digital 
Repositories. Apresentado na International Conference Open Repositories, San Antonio, 
Texas, United States of America. Obtido de http://hdl.handle.net/1822/6195 
Hoyer, R. W., & Hoyer, B. B. Y. (2001, Julho). What Is Quality?, 34(7), 10. 
ISO/IEC 14598‐1:1999, Information technology ‐‐ Software product evaluation ‐‐ Part 1: General 
overview.  (1999).  (p    19).  International  Organization  for  Standardization.    Obtido    de 
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=24902 
ISO/IEC  15939:2007,  Systems  and  software    engineering    ‐‐    Measurement    process.  (2007).  . 
International 
Organization 
for 
Standardization. 
Obtido 
de 
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=44344 
ISO/IEC  25010:2011,  Systems  and  software  engineering  ‐  Systems  and  software  Quality 
Requirements and Evaluation (SQuaRE) ‐ System and software quality models. (2011). (p 34). 
International 
Organization 
for 
Standardization. 
Obtido 
de 
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=35733 
ISO/IEC 9126‐1:2001, Software engineering ‐ Product quality ‐ Part 1: Quality model. (2001). . 
International 
Organization 
for 
Standardization. 
Obtido 
de 
http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=22749 
Jackson, A., Andrew Lindley, & Fabian Steeg. (2010). Consolidated Release and Documentation 
(Deliverable 
No. 
IF‐D11). 
Planets. 
Obtido 
de 
http://www.planets‐
project.eu/docs/reports/Planets_IF‐D11_ConsolidatedReleaseDocumentation.pdf 
KB‐NL. (2009). Gap analysis: a survey of PA tool provision (Deliverable No. D3). Planets. Obtido de 
http://www.planets‐project.eu/docs/reports/PA2D3gapanalysis.pdf 
Marta, M. H., Librelotto, G. R., Ramalho, J. C., & Henriques, P. R. (2002). Bidirectional conversion 
between XML documents and relational data bases, 6. 
Ramalho, J. C., Ferreira, M., Faria, L., Castro, R., Barbedo, F., & Corujo, L. (2008). RODA and CRiB a 
service‐oriented digital repository (p 7). Apresentado na iPRESS 2008, London. Obtido de 
http://hdl.handle.net/1822/8226 
 
27 
 
Task Force on Archiving of Digital Information. (1996). Preserving digital information: report of the 
Task  Force    on    Archiving  of    Digital    Information.  Washington    D.C.:  Commission    on 
Preservation and Access. 
 
 
 
Documents you may be interested
Documents you may be interested