pdf reader in asp.net c# : How to delete text from a pdf SDK control service wpf azure web page dnn nestor-handbuch14-part912

[ Version 1.5 ]   9-13
(I)       die File Format Encyclopedia, 
http://pipin.tmd.ns.ac.yu/extra/fileformat/ 
(II)      FILExt, 
http://filext.com/ 
(III)     Library of Congress Digital Formats, 
http://www.digitalpreservation.gov/formats/fdd/browse_list.shtml 
(IV)    C.E. Codere‘s File Format site, 
http://magicdb.org/stdfiles.html 
(V)     PRONOM, 
http://www.nationalarchives.gov.uk/pronom/ 
(VI)    das Global Digital Format Registry, 
http://hul.harvard.edu/gdfr/ 
(VIIa)   Representation Information Registry Repository,
http://registry.dcc.ac.uk/omar 
(VIIb)   DCC RI RegRep, 
http://dev.dcc.rl.ac.uk/twiki/bin/view/Main/DCCRegRepV04 
(VIII)   FCLA Data Formats, 
http://www.fcla.edu/digitalArchive/pdfs/recFormats.pdf 
2. Bewertung von File Format Registries 
Um zu beurteilen bzw. zu bewerten, ob sich spezielle File Format Registries 
für eine Referenzierung bzw. Einbindung in das eigene Archivsystem eignen, 
sollten sie sorgfältig analysiert werden. Sinnvoll können z.B. folgende Kriterien 
9 Formate
How to delete text from a pdf - delete, remove text from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
delete text from pdf file; how to delete text in a pdf acrobat
How to delete text from a pdf - VB.NET PDF delete text library: delete, remove text from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
how to delete text in pdf converter; pull text out of pdf
nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung
9-14
als Ausgangspunkt gewählt werden: 
•  Was  ist  der  Inhalt  der  jeweiligen  Registry?  Wie  umfassend  ist  sie 
aufgebaut? 
•  Ist  der  Inhalt  vollständig  im  Hinblick  auf  die  gewählte 
Archivierungsstrategie?
•  Gibt es erkennbare Schwerpunkte? 
•  Wie werden Beschreibungen in die Registry aufgenommen? (Governance 
und Editorial Process) 
•  Ist die Registry langlebig? Welche Organisation und Finanzierung steckt 
dahinter? 
•  Wie kann auf die Registry zugegriffen werden?, Wie können ihre Inhalte 
in eine lokale Archivierungsumgebung eingebunden werden?
Künftig werden File Format Registries eine Reihe von Anforderungen adres-
sieren müssen, die von den im Aufbau bzw. Betrieb befindlichen Langzeit-Ar-
chivsystemen gestellt werden. Dazu gehören u.a. folgende Komplexe:
I) Vertrauenswürdigkeit von Formaten 
Welche Rolle spielt die qualitative Bewertung eines Formats für die technische 
Prozessierung? Braucht man beispielsweise unterschiedliche Migrationsrouti-
nen für Formate unterschiedlicher Vertrauenswürdigkeit? Wie kann dann ein 
Kriterienkatalog für die Skalierung der confidence (Vertrauenswürdigkeit) eines 
Formats aussehen und entwickelt werden? Unter Umständen müssen hier noch 
weitere Erfahrungen mit Migrationen und Emulationen gemacht werden, um 
im Einzelfall zu einem Urteil zu kommen. Es sollte jedoch eine Art von stan-
dardisiertem Vokabular und Kriteriengebrauch erreicht werden und transparent 
sein. 
II) Persistent Identifier 
Wie können Persistent Identifier (dauerhafte und eindeutige Adressierungen) 
von File Formats sinnvoll generiert werden? So kann es bestimmte Vorteile ha-
ben, Verwandtschafts- und Abstammungsverhältnisse von File Formats bereits 
am Identifier ablesen zu können. Die Identifizierung durch „Magic Numbers“ 
scheint zu diesem Zweck ebenso wenig praktikabel wie die anhand eventueller 
ISO-Nummern. Die vermutlich bessere Art der Identifizierung ist die anhand 
von Persistent Identifiers wie URN oder DOI. 
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
›› VB.NET PDF: Delete PDF Page. VB.NET PDF - How to Delete PDF Document Page in VB.NET. Visual Basic Sample Codes to Delete PDF Document Page in VB.NET Class.
erase text from pdf; pdf editor online delete text
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
Page: Delete Existing PDF Pages. |. Home ›› XDoc.PDF ›› C# PDF: Delete PDF Page. C#.NET PDF Library - Delete PDF Document Page in C#.NET.
remove text from pdf preview; remove text from pdf
[ Version 1.5 ]   9-15
III) ID-Mapping 
Wie kann ein Mapping verschiedener Identifikationssysteme (Persistent Iden-
tifier, interne Identifier der Archivsysteme, ISO-Nummer, PRONOM ID, etc.) 
durch Web Services erreicht werden, um in Zukunft die Möglichkeit des Daten-
austausches mit anderen File Format Registries zu ermöglichen? 
IV) Integration spezieller Lösungen 
Wie kann in die bisherigen nachnutzbaren Überlegungen anderer Institutio-
nen die Möglichkeit integriert werden, spezifische Lösungen für den Daten-
austausch bereit zu halten?  Dies betrifft beispielsweise die Möglichkeit, lokale 
Sichten zu erzeugen, lokale Preservation Policies zuzulassen oder aber mit be-
stimmten Kontrollstatus von eingespielten Records (z.B. „imported“, „appro-
ved“, „deleted“) zu arbeiten.
3. Bibliografie 
•  Abrams, Seaman: Towards a global digital format registry. 69th IFLA 2003. 
http://www.ifla.org/IV/ifla69/papers/128e-Abrams_Seaman.pdf 
•  Representation and Rendering Project: File Format Report. 2003. http://
www.leeds.ac.uk/reprend/ 
•  Lars Clausen: Handling file formats. May 2004. http://netarchive.dk/pu-
blikationer/FileFormats-2004.pdf
9 Formate
VB.NET PDF Text Extract Library: extract text content from PDF
PDF ›› VB.NET PDF: Extract PDF Text. VB.NET PDF - Extract Text from PDF Using VB. How to Extract Text from PDF with VB.NET Sample Codes in .NET Application.
delete text from pdf; how to remove text watermark from pdf
C# PDF Text Extract Library: extract text content from PDF file in
XDoc.PDF ›› C# PDF: Extract PDF Text. C# PDF - Extract Text from PDF in C#.NET. Feel Free to Extract Text from PDF Page, Page Region or the Whole PDF File.
how to erase text in pdf online; remove text watermark from pdf online
nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung
9-16
9.6 Tools
Matthias Neubauer
Wie bei jedem Vorhaben, das den Einsatz von Software beinhaltet, stellt sich 
auch bei der Langzeitarchivierung von digitalen Objekten die Frage nach den 
geeigneten Auswahlkriterien für die einzusetzenden Software-Tools. 
Besonders im Bereich der Migrations- und Manipulationstools kann es von 
Vorteil sein, wenn neben dem eigentlichen Programm auch der dazugehörige 
Source-Code
5
der Software vorliegt. Auf diese Weise können die während der 
Ausführung des Programms durchgeführten Prozesse auch nach Jahren noch 
nachvollzogen werden, indem die genaue Abfolge der Aktionen im Source-
Code verfolgt wird. Voraussetzung dafür ist natürlich, dass der Source-Code 
seinerseits ebenfalls langzeitarchiviert wird. 
Nachfolgend werden nun einige Tool-Kategorien kurz vorgestellt, welche für 
die digitale Langzeitarchivierung relevant und hilfreich sein können. 
a) Formaterkennung 
Diese Kategorie bezeichnet Software, die zur Identifikation des Formats von 
Dateien eingesetzt  wird.  Die  Ergebnisse,  welche von diesen Tools geliefert 
werden, können sehr unterschiedlich sein, da es noch keine global gültige und 
einheitliche Format Registry gibt, auf die sich die Hersteller der Tools berufen 
können. Manche Tools nutzen jedoch schon die Identifier von Format Registry 
Prototypen wie PRONOM (beispielsweise „DROID“, eine Java Applikation 
der National Archives von Großbritannien, ebenfalls Urheber von PRONOM. 
Link: 
http://droid.sourceforge.net
). Viele Tools werden als Ergebnis einen so ge-
Viele Tools werden als Ergebnis einen so ge-
nannten „MIME-Typ“ zurückliefern. Dies ist jedoch eine sehr grobe Katego-
risierung von Formattypen und für die Langzeitarchivierung ungeeignet, da zu 
ungenau.
b) Metadatengewinnung 
Da es für die Langzeitarchivierung, insbesondere für die Migrationsbemü-
5  Der Source- oder auch Quellcode eines Programmes ist die les- und kompilierbare, aber nicht 
ausführbare Form eines Programmes. Er offenbahrt die Funktionsweise der Software und 
kann je nach Lizenzierung frei erweiter- oder veränderbar sein (Open Source Software).
C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net
C#.NET PDF SDK - Convert PDF to Text in C#.NET. Integrate following RasterEdge C#.NET text to PDF converter SDK dlls into your C#.NET project assemblies;
how to edit and delete text in pdf file online; how to erase in pdf text
C# PDF insert text Library: insert text into PDF content in C#.net
Text to PDF. C#.NET PDF SDK - Insert Text to PDF Document in C#.NET. Providing C# Demo Code for Adding and Inserting Text to PDF File Page with .NET PDF Library.
how to delete text from a pdf reader; delete text from pdf acrobat
[ Version 1.5 ]   9-17
hungen, von großem Vorteil ist, möglichst viele Details über das verwendete 
Format und die Eigenschaften einer Datei zu kennen, spielen Tools zur Me-
tadatengewinnung eine sehr große Rolle. Prinzipiell kann man nie genug über 
eine archivierte Datei wissen, jedoch kann es durchaus sinnvoll sein, extrahierte 
Metadaten einmal auf ihre Qualität zu überprüfen und gegebenenfalls für die 
Langzeitarchivierung nur indirekt relevante Daten herauszufiltern, um das Ar-
chivierungssystem nicht mit unnötigen Daten zu belasten. Beispiel für ein sol-
ches Tool ist „JHOVE“ (das JSTOR/Harvard Object Validation Environment 
der Harvard University Library,  Link: 
http://hul.harvard.edu/jhove/
),  mit dem 
sich auch Formaterkennung und Validierung durchführen lassen. Das Tool ist 
in Java geschrieben und lässt sich auch als Programmier-Bibliothek in eigene 
Anwendungen einbinden. Die generierten technischen Metadaten lassen sich 
sowohl in Standard-Textform, als auch in XML mit definiertem XML-Schema 
ausgeben. 
c) Validierung 
Validierungstools für Dateiformate stellen sicher, dass eine Datei, welche in 
einem fraglichen Format vorliegt, dessen Spezifikation auch vollkommen ent-
spricht. Dies ist eine wichtige Voraussetzung für die Archivierung und die spä-
tere Verwertung, Anwendung und Migration beziehungsweise Emulation dieser 
Datei. Das bereits erwähnte Tool „JHOVE“ kann in der aktuellen Version 1.1e 
die ihm bekannten Dateiformate validieren; verlässliche Validatoren existieren 
aber nicht für alle Dateiformate. Weit verbreitet und gut nutzbar sind beispiels-
weise XML Validatoren, die auch in XML Editoren wie „Oxygen“ (SyncRO 
Soft Ltd., Link: 
http://www.oxygenxml.com
) oder „XMLSpy“ (Altova GmbH, 
Link: 
http://www.altova.com/XMLSpy
) integriert sein können. 
d) Formatkorrektur 
Auf dem Markt existiert eine mannigfaltige Auswahl an verschiedensten Kor-
rekturprogrammen für fehlerbehaftete Dateien eines bestimmten Formats. Di-
ese Tools versuchen selbstständig und automatisiert, Abweichungen gegenüber 
einer Formatspezifikation in einer Datei zu bereinigen, so dass diese beispiels-
weise von einem Validierungstool akzeptiert wird. Da diese Tools jedoch das 
ursprüngliche Originalobjekt verändern, ist hier besondere Vorsicht geboten! 
Dies hat sowohl rechtliche als auch programmatische Aspekte, die die Frage 
9 Formate
VB.NET PDF Convert to Text SDK: Convert PDF to txt files in vb.net
VB.NET PDF - Convert PDF to Text Using VB. Integrate following RasterEdge text to PDF converter SDK dlls into your VB.NET project assemblies;
delete text pdf files; delete text pdf acrobat professional
C# PDF Text Search Library: search text inside PDF file in C#.net
Text: Search Text in PDF. C# Guide about How to Search Text in PDF Document and Obtain Text Content and Location Information with .NET PDF Control.
delete text pdf preview; how to delete text from pdf document
nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung
9-18
aufwerfen, ab wann eine Korrektur eines Originalobjektes als Veränderung gilt, 
und ob diese für die Archivierung gewünscht ist. Korrekturtools sind üblicher-
weise mit Validierungstools gekoppelt, da diese für ein sinnvolles Korrektur-
verfahren unerlässlich sind. Beispiel für ein solches Tool ist „PDF/A Live!“ 
(intarsys consulting GmbH, Link: 
http://www.intarsys.de/produkte/dokumenten-
technologien/pdf-a-live
), welches zur Validierung und Korrektur von PDF/A 
konformen Dokumenten dient. 
e) Konvertierungstools 
Für Migrationsvorhaben sind Konvertierungstools, die eine Datei eines be-
stimmten Formats in ein mögliches Zielformat überführen, unerlässlich. Die 
Konvertierung sollte dabei idealerweise verlustfrei erfolgen, was jedoch in der 
Praxis leider nicht bei allen Formatkonvertierungen gewährleistet sein kann. 
Je nach Archivierungsstrategie kann es sinnvoll sein, proprietäre Dateiformate 
vor der Archivierung zunächst in ein Format mit offener Spezifikation zu kon-
vertieren. Ein Beispiel hierfür wäre „Adobe Acrobat“ (Adobe Systems GmbH, 
Link: 
http://www.adobe.com/de/products/acrobat/
),  welches  viele  Formate  in 
PDF
6
überführen kann. 
Für Langzeitarchivierungsvorhaben empfiehlt sich eine individuelle Kombina-
tion der verschiedenen Kategorien, welche für das jeweilige Archivierungsvor-
haben geeignet ist. Idealerweise sind verschiedene Kategorien in einem einzigen 
Open Source Tool vereint, beispielsweise was Formaterkennung, -konvertie-
rung und -validierung betrifft. Formatbezogene Tools sind immer von aktu-
ellen Entwicklungen abhängig, da auf diesem Sektor ständige Bewegung durch 
immer neue Formatdefinitionen herrscht. Tools, wie beispielsweise „JHOVE“, 
die ein frei erweiterbares Modulsystem bieten, können hier klar im Vorteil sein. 
Dennoch sollte man sich im Klaren darüber sein, dass die Archivierung von di-
gitalen Objekten nicht mittels eines einzigen universellen Tools erledigt werden 
kann, sondern dass diese mit fortwährenden Entwicklungsarbeiten verbunden 
ist. Die in diesem Kapitel genannten Tools können nur Beispiele für eine sehr 
große Palette an verfügbaren Tools sein, die beinahe täglich wächst.
6  Portable Document Format, Adobe Systems GmbH, Link: <
http://www.adobe.com/de/
products/acrobat/adobepdf.html
>
[ Version 1.5 ]   10-1
10 Standards und Standardisierungsbemühungen
10.1.1  Metadata  Encoding  and  Transmission  Stan-
dard:  Das  METS  Abstract  Model  –  Einführung  und 
Nutzungsmöglichkeiten
Markus Enders
Einführung
Ausgehend  von  den  Digitalisierungsaktivitäten  der  Bibliotheken  Mitte  der 
90iger  Jahre  entstand  die  Notwendigkeit,  die  so  entstandenen  Dokumente 
umfassend zu beschreiben. Diese Beschreibung muß im Gegensatz zu den bis 
dahin üblichen Verfahrensweisen nicht nur einen Datensatz für das gesamte 
10 Standards und Standardisierungsbemühungen
nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung
10-2
Dokument beinhalten, sondern außerdem einzelne Dokumentbestandteile und 
ihre Abhängigkeiten zueinander beschreiben. Nur so lassen sich gewohnte Nut-
zungsmöglichkeiten eines Buches in die digitale Welt übertragen. Inhaltsver-
zeichnisse, Seitennummern sowie Verweise auf einzelne Bilder müssen durch 
ein solches Format zusammengehalten werden.
Zu diesem Zweck wurde im Rahmen des „Making Of Amerika“ Projektes 
Ebind entworfen. Ebind selber war jedoch ausschließlich nur für Digitalisate 
von Büchern sinnvoll zu verwenden.
Um weitere Medientypen sowie unterschiedliche Metadatenformate einbinden 
zu können, haben sich Anforderungen an ein komplexes Objektformat erge-
ben. Dies setzt ein abstraktes Modell voraus mit Hilfe dessen sich Dokumente 
flexibel modellieren lassen und als Container Format verschiedene Standards 
eingebunden werden können. Ein solches abstraktes Modell bildet die Basis 
von METS und wird durch das METS-XML-Schema beschrieben. Daher wird 
METS derzeit auch fast ausschließlich als XML serialisiert in und Form von 
Dateien gespeichert. Als Container Format ist es in der Lage weitere XML-
Schema (so genannte Extension Schemas) zu integrieren.
Das METS Abstract Model
Das METS „Abstract Model“ beinhaltet alle Objekte innerhalb eines METS 
Dokuments und beschreibt deren Verhältnis zueinander. Zentraler Bestandteil 
eines METS-Dokuments ist eine Struktur. Diese Struktur kann eine logische 
oder physische Struktur des zu beschreibenden Dokumentes (bspw. eines Textes) 
abbilden. Das bedeutet, daß eine Struktur aus mindestens einer Struktureinheit 
(bspw. einer Monographie) besteht, die weitere Einheiten beinhalten kann. So-
mit läßt sich eine Struktur als Baum modellieren. In METS wird diese Struktur 
in der <structMap>-Sektion gespeichert. Jedes METS-Dokument kann mehre-
re Strukturen in separaten Sektionen beinhalten. So lassen sich bspw. logische 
und physische Strukturen voneinander trennen. In einer Struktur läßt sich das 
Inhaltsverzeichnis eines Werkes dokumentieren; in der anderen Struktur kann 
das Buch (mit Seiten als unterliegende Struktureinheiten) beschrieben werden. 
Das „Abstract Model“ besitzt eine weitere Sektion – die <structLink> Sektion 
–, um Verweise zwischen unterschiedlichen Strukturen zu speichern.
Neben den Strukturen berücksichtigt das Modell auch Metadaten, wobei darun-
ter nicht nur bibliographische Metadaten zu verstehen sind. Aus diesem Grund 
[ Version 1.5 ]   10-3
Abbildung 10.1.1.1: Verknüpfung von zwei Strukturen im Abstract-Model
Abbildung 10.1.1.�: Verknüpfung von zwei Strukturen im Abstract-Model
Abbildung 10.1.1.3: Administrative Metadata zu Dateien
Abbildung 10.1.1.4: Struktureinheit ist mit  verschiedenen Dateien  und  Dateibereichen 
verknüpft
Abbildung 10.1.1.5: Unterschiedliche Sektionen mittels XML-IDs verknüpft
10 Standards und Standardisierungsbemühungen
nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung
10-4
unterteilt das Modell die Metadaten in deskriptive Metadaten (in der Descriptive 
Metadata Section) und administrative Metadaten (in der Administrative Meta-
data Section). Während die deskriptiven Metadaten bibliographische Informa-
tionen enthalten, werden Informationen zu Rechteinhabern, Nutzungsrechte, 
technische Informationen zu einzelnen Dateien oder  Langzeitarchivierungs-
metadaten in den administrativen Metadaten gespeichert. Für beide Metada-
tentypen können beliebige Schema, so genannte „Extension Schema“ genutzt 
werden, die in der jeweiligen Sektion gespeichert werden. Auf diese Weise las-
sen sich sowohl XML-Metadatenschema (MARC XML, MODS, Dublin Core 
simple) als auch Text-/ bzw. Binärdaten einbinden (bspw. PICA-Datensätze).
Neben den Struktureinheiten und ihren zugehörigen Metadaten spielen auch 
Dateien bzw. Streams eine wesentliche Rolle, da letztlich in ihnen die durch 
das METS-Dokument beschriebenen Inhalte gespeichert sind. Eine Datei kann 
bspw. den Volltext  einen Buches, die Audioaufnahme einer Rede oder eine 
gescannte Buchseite als Image enthalten. Entsprechende Daten können in ein 
METS-Dokument eingebunden werden (bspw. BASE64 encoded in die METS-
XML Datei eingefügt werden) oder aber mittels xlink referenziert werden. Ein 
METS-Dokument kann also als Container alle für ein Dokument notwendigen 
Dateien enthalten oder referenzieren, unabhängig davon, ob die Dateien lokal 
oder auf entfernten Servern vorhanden sind. 
Grundsätzlich müssen alle für ein METS-Dokument relevanten Dateien in-
nerhalb der File-Sektion aufgeführt werden. Innerhalb der File-Sektion kön-
nen Gruppen (File-Groups) von Dateien gebildet werden, wobei die Abgren-
zungskriterien zwischen einzelnen Gruppen nicht in METS fest definiert sind. 
Ja nach Modellierung lassen sich Dateien bspw. nach technischen Parametern 
(Auflösung oder Farbtiefe von Images), Anwendungszweck (Anzeige, Archi-
vierung, Suche) oder sonstigen Eigenschaften (Durchlauf bestimmter Produk-
tionsschritte) den einzelnen Gruppen zuordnen.
Das METS-Abstract-Model erlaubt das Speichern von administrativen Meta-
daten zu jeder Datei. Generelle, für jede Datei verfügbare technische Metadaten 
wie Dateigröße, Checksummen etc. lassen sich direkt in METS speichern. Für 
weiterführende Metadaten kann mit jeder Datei eine oder mehrere Adminis-
trative Metadatensektion(en) verknüpft werden, die bspw. Formatspezifische 
Metadaten enthalten (für Images könnten die Auflösungsinformationen, Infor-
mationen zur Farbtiefe etc. sein).
Documents you may be interested
Documents you may be interested