pdf reader in asp.net c# : Delete text in pdf file online control Library platform web page asp.net html web browser nestor-handbuch13-part911

[ Version 1.5 ]   9-3
9.1 Digitale Objekte
Stefan E. Funk
Die erste Frage, die im Zusammenhang mit der digitalen Langzeitarchivierung 
gestellt werden muss, ist sicherlich die nach den zu archivierenden Objekten. 
Welche Objekte möchte ich archivieren? Eine einfache Antwort lautet hier zu-
nächst: digitale Objekte!
Eine Antwort auf die naheliegende Frage, was denn digitale Objekte eigentlich 
sind, gibt die Definition zum Begriff „digitales Objekt“ aus dem OAIS
1
. Dieser 
Standard beschreibt ganz allgemein ein Archivsystem mit dessen benötigten 
Komponenten und deren Kommunikation untereinander, wie auch die Kom-
munikation vom und zum Nutzer. Ein digitales Objekt wird dort definiert als 
„An object composed of a set of bit sequences“, also als ein aus einer Reihe von 
Bit-Sequenzen  zusammengesetztes Objekt. Somit kann all das als ein digitales 
Objekt bezeichnet werden, das mit Hilfe eines Computers gespeichert und ver-
arbeitet werden kann. Und dies entspricht tatsächlich der Menge der Materialien, 
die langzeitarchiviert werden sollen, vom einfachen Textdokument im .txt-For-
mat über umfangreiche PDF-Dateien bis hin zu kompletten Betriebssystemen. 
Ein  digitales  Objektes  kann  auf  drei  Ebenen  beschrieben  werden,  siehe 
Abbildung:
•  als physisches Objekt, 
•  als logisches Objekt und schließlich
•  als konzeptuelles Objekt. 
Ein digitales Objekt kann beispielsweise eine Datei in einem spezifischen Da-
teiformat sein, z.B. eine einzelne Grafik, ein Word-Dokument oder eine PDF-
Datei. Als ein digitales Objekt können auch komplexere Objekte bezeichnet
Als ein digitales Objekt können auch komplexere Objekte bezeichnet 
werden, wie Anwendungsprogramme wie Word oder Mozilla, eine komplette 
Webseite inkl. Text und Grafik, eine durchsuchbare Datenbank auf CD inklu-
Text und Grafik, eine durchsuchbare Datenbank auf CD inklu-
sive einer Suchoberfläche oder ein Betriebssystem wie Linux, Windows oder 
Mac OS .
1  Open ArchivalInformation System
Open Archival Information System
9 Formate
Delete text in pdf file online - delete, remove text from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
delete text from pdf acrobat; remove text from pdf online
Delete text in pdf file online - VB.NET PDF delete text library: delete, remove text from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
remove text watermark from pdf; how to delete text from a pdf reader
nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung
9-4
Das physische Objekt - Daten auf einem Speichermedium
Als physisches Objekt sieht man die Menge der Zeichen an, die auf einem 
Informationsträger gespeichert sind. Die Art und Weise der physischen Be-
schaffenheit  dieser  Zeichen  kann  aufgrund  der  unterschiedlichen  Beschaf-
fenheit  des  Trägers  sehr  unterschiedlich  sein.  Auf  einer  CD-ROM  sind 
es  die  sogenannten  „pits“  und  „lands“  auf  der  Trägeroberfläche,  bei  ma-
gnetischen  Datenträgern  sind  es  Übergänge  zwischen  magnetisierten  und 
nicht  magnetisierten  Teilchen.  Auf  der  physischen  Ebene  haben  die  Bits 
keine  weitere  Bedeutung  außer  eben  der,  dass  sie  binär  codierte  Informa-
tion enthalten, also entweder die „0“ oder die „1“. Auf dieser Ebene unter-
scheiden sich beispielsweise Bits, die zu einem Text gehören, in keiner Wei-
se von Bits, die Teil eines Computerprogramms oder Teil einer Grafik sind. 
Die Erhaltung dieses Bitstreams (auch Bitstreamerhaltung) ist der erste Schritt 
zur Konservierung  des  gesamten digitalen  Objekts,  er bildet sozusagen die 
Grundlage aller weiteren Erhaltungs-Strategien.
Das logische Objekt - Eine Folge von Bits als Einheit
Unter einem logischen  Objekt  versteht man  eine Folge von Bits, die  von 
einem  Informationsträger  gelesen  und  als  eine  Einheit  angesehen  wer-
den kann. Diese können von einer entsprechenden Software als Format er-
kannt  und  verarbeitet  werden.  In  dieser  Ebene  existiert  das  Objekt  nicht 
nur als Bitstream, es hat bereits ein definiertes Format. Die Bitstreams sind 
auf dieser Ebene schon sehr viel spezieller als die Bits auf dem physischen 
Speichermedium. So müssen diese zunächst von dem Programm, das einen 
solchen Bitstream zum Beispiel als eine Textdatei erkennen soll, als eine sol-
che  identifizieren.  Erst  wenn  der  Bitstream  als  korrekte  Textdatei  erkannt 
worden  ist,  kann  er  vom  Programm  als  Dateiformat  interpretiert  werden. 
Will man diesen logischen Einheiten ihren Inhalt entlocken, muss das Format 
dieser Einheit genau bekannt sein. Ist ein Format nicht hinreichend bekannt 
oder existiert die zu dem Format gehörige Software nicht mehr, so wird die 
ursprüngliche Information des logischen Objektes sehr wahrscheinlich nicht 
mehr vollständig zu rekonstruieren sein. Um solche Verluste zu vermeiden, gibt 
es verschiedene Lösungsansätze, zwei davon sind Migration oder Emulation.
C# PDF File & Page Process Library SDK for C#.net, ASP.NET, MVC
NET read PDF, VB.NET convert PDF to text, VB.NET pages, VB.NET comment annotate PDF, VB.NET delete PDF pages, VB If you want to split PDF file into two or small
remove text from pdf acrobat; delete text from pdf with acrobat
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
Online source codes for quick evaluation in VB.NET looking for a solution to conveniently delete one page which supports a variety of PDF file editing features
delete text from pdf preview; remove text watermark from pdf online
[ Version 1.5 ]   9-5
Das konzeptuelle Objekt - Das Objekt „zum Begreifen“
Das konzeptuelle Objekt beschreibt zu guter Letzt die gesamte Funktionalität, 
die dem Benutzer des digitalen Objekts mit Hilfe von dazu passender Soft- und 
Hardware zur Verfügung steht. Dies sind zunächst die Objekte, Zeichen und Töne, 
die der Mensch über seine Sinne wahrnimmt. Auch interaktive Dinge wie das 
Spielen eines Computerspiels oder eine durchsuchbare Datenbank zählen dazu, 
denn die Funktion eines Computerspiels ist es, gespielt werden zu können. Ein 
weiteres Beispiel ist eine komplexe Textdatei, mit all ihren Editierungsmöglich-
keiten, Tabellen und enthaltenen Bildern, die das verarbeitende Programm bietet. 
Dieses konzeptuelle Objekt ist also die eigentliche, für den Betrachter bedeu-
tungsvolle Einheit, sei es ein Buch, ein Musikstück, ein Film, ein Computer-
programm oder ein Videospiel. Diese Einheit ist es, die der Nachwelt erhalten 
9 Formate
Die drei Ebenen eines digitalen Objekts
C# PDF Text Extract Library: extract text content from PDF file in
Free online source code for extracting text from adobe PDF document in C#.NET class. Able to extract and get all and partial text content from PDF file.
remove text from pdf preview; how to delete text in a pdf acrobat
VB.NET PDF Text Extract Library: extract text content from PDF
advanced PDF Add-On, developers are able to extract target text content from source PDF document and save extracted text to other file formats through VB
delete text pdf acrobat; how to delete text from a pdf in acrobat
nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung
9-6
bleiben soll und die es mit Hilfe der „Digital Preservation“ zu schützen gilt.
Die Erhaltung des konzeptuellen Objekts
Das Ziel eines Langzeitarchivs ist es also, das konzeptuelle Objekt zu archi-
vieren und dem Nutzer auch in ferner Zukunft Zugriff auf dessen Inhalte zu 
gewähren. Die Darstellung bzw. Nutzung des digitalen Objekts soll so nahe wie 
möglich den Originalzustand des Objekts zu Beginn der Archivierung wieder-
spiegeln. Dies ist nicht möglich, wenn sich Probleme bei der Archivierung auf 
den unteren Ebenen, der logischen und der physischen Ebene, ergeben. Gibt 
es eine unbeabsichtigte Veränderung des Bitstreams durch fehlerhafte Daten-
träger oder existiert eine bestimmte Software nicht mehr, die den Bitstream 
als Datei erkennt, ist auch eine Nutzung des Objekts auf konzeptueller Ebene 
nicht mehr möglich. 
Literatur
•  Reference Model for an Open Archival Information System (OAIS)
<http://ssdoo.gsfc.nasa.gov/nost/wwwclassic/documents/pdf/CCS-
DS-650.0-B-1.pdf> (letzter Zugriff: 7. Juni 2006)
•  Huth, Karsten, Andreas Lange: Die Entwicklung neuer Strategien zur 
Bewahrung und Archivierung von digitalen Artefakten für das Compu-
terspiele-Museum Berlin und das Digital Game Archive (2004)
<http://www.ichim.org/ichim04/contenu/PDF/2758_HuthLange.
pdf> (letzter Zugriff: 7. Juni 2006)
•  Thibodeau,  K.:  Overview  of  Technological  Approaches  to  Digi-
tal  Preservation  and  Challenges  in  Coming  Years.  In  The  State  of 
Digital  Preservation:  An  International  Perspective.  Washington 
D.C.:  Council  on  Library  and  Information  Resources.  4-31  (2001) 
<http://www.clir.org/PUBS/abstract/pub107abst.html>  (letzter  Zu-
griff: 12. Juli 2006)
VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
size, images size reducing can help to reduce PDF file size effectively will also take up too much space, glyph file unreferenced can Delete unimportant contents
acrobat remove text from pdf; delete text in pdf file online
C# PDF File Split Library: Split, seperate PDF into multiple files
SharePoint. C#.NET control for splitting PDF file into two or multiple files online. Support to break a large PDF file into smaller files.
how to delete text in pdf converter professional; how to remove highlighted text in pdf
[ Version 1.5 ]   9-7
9.2 Dateiformate
Stefan E. Funk
Dateiformate, in denen ein digitales Objekt vorliegt, um von Anwendungs-
programmen verarbeitet werden zu können, spielen bei der Archivierung eine 
große Rolle. Diese Formate sind mehr oder weniger klar spezifiziert, einige sind 
offene Standards und andere sind proprietäre Formate einzelner Firmen. Als 
Beispiele lassen sich hier Formate nennen wie PDF (Portable Document For-
mat), XML (eXtensive Markup Language), HTML (HyperText Markup Langu-
age), DOC (Windows Document Format), verschiedene Bildformate wie TIF 
(Tagged Image Format) oder GIF (Graphic Interchange Format).
Formaterkennung
Will man solche Dokumente für die Nachwelt erhalten und den Zugriff auf 
deren Inhalte sichern, besteht die dringende Notwendigkeit, diese verschie-
denen Formate zu kennen und zu erkennen. Es ist sehr wichtig zu wissen, 
welches Dateiformat ein digitales Dokument hat und ob das Format dieses 
Dokuments auch korrekt ist. Die Korrektheit dieser Daten stellt sicher, dass 
ein Dokument genutzt bzw. angezeigt und später im Sinne von Migration und 
Emulation bearbeitet werden kann. Bevor ein Objekt in ein Langzeitarchiv ein-
gespielt wird, müssen spezifische Informationen über dieses Objekt vorhanden 
sein, sogenannte Metadaten, die genaue Aussagen darüber machen, welches 
Dateiformat in welcher Version vorliegt. Die Spezifikationen der unterschied-
lichen Formate müssen hinreichend bekannt sein, um eine spätere Migration 
zu ermöglichen. Es reicht unter Umständen nicht aus, ein Dokument mit Hilfe 
eines Programmes anzeigen zu können, es sollte auch möglich sein, anhand der 
Spezifikationen ein Anzeige- oder Konvertierungsprogramm zu entwickeln.
Validation
Für die Langzeitarchivierung reicht es nicht aus zu wissen, dass eine Datei in 
einem bestimmten Format und in einer bestimmten Version dieses Formats 
vorliegt. Eine weitere wichtige Information ist die Korrektheit des Dokument 
im Sinne der Spezifikation dieses Formats. Nur so ist ein späteres Bearbeiten 
der Dokumente möglich, denn die Tools zur Konvertierung (oder Migration) 
bauen auf den Formatspezifiktionen auf. Habe ich beispielsweise ein Doku-
ment im PDF-Format der Version 1.2 vorliegen und prüfe nicht eingehend, ob 
9 Formate
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
Ability to remove a range of pages from PDF file. document page deleting library control (XDoc.PDF) can be C#.NET class applications to delete any unnecessary
pdf text remover; how to delete text in pdf preview
VB.NET PDF File Split Library: Split, seperate PDF into multiple
Split PDF file into two or multiple files in ASP.NET webpage online. Support to break a large PDF file into smaller files in .NET WinForms.
how to delete text in pdf document; how to copy text out of a pdf
nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung
9-8
dieses Format auch den Spezifikationen entspricht, könnte es sein, dass spätere 
Migrations- und Konvertierungs-Tools, die aus PDF 1.2 ein neueres Format 
(zum Beispiel PDF 1.6) erstellen sollen, das Dokument nicht richtig oder im 
schlimmsten Fall gar nicht verarbeiten können. Selbst wenn eine Datei korrekt 
dargestellt wird, ist noch nicht sichergestellt, dass sie auch der Formatspezifika-
tion entspricht, da viele Anzeigeprogramme sehr fehlertolerant sind. Informati-
onsverlust bis hin zum Verlust des gesamten Dokuments kann die Folge sein.
Metadaten
Zur Verwaltung von digitalen Objekten innerhalb eines Archivsystems werden 
Metadaten benötigt. Dies sind Daten über ein digitales Objekt. Zur Bestandser-
haltung von digitalen Objekten werden zunächst technische Metadaten benötigt. 
Dies sind Daten wie Dateiformat und Version, Dateigröße, Dateiname, Check-
summe zur Kontrolle der Integrität, MIME-Type, Erstellungsprogramm, An-
zeigeprogramm, etc. Zur Dokumentation der Migrationsschritte dienen Prove-
nance Metadaten. Diese beschreiben die Herkunft des Dokuments, beispielswei-
se die Art der Migration, den Zeitpunkt, die einzelnen durchgeführten Schritte 
und bei der Migration genutzte Programme. Deskriptive Metadaten beschreiben 
das Objekt inhaltlich, hierzu gehören unter anderem der Titel des Dokuments, 
der Name der Autoren, Abstract, Erscheinungsdatum und -Ort sowie Verlag. 
Rechtliche Metadaten schließlich beinhalten rechtliche Daten über das Doku-
ment wie Eigentümer, Zugriffserlaubnis, etc.
Hilfsmittel
Es gibt Möglichkeiten, einige Metadaten maschinell zu erfassen. Die desk-
riptiven Metadaten zum Beispiel können aus den digitalen Katalogsystemen 
entnommen werden, sofern dafür geeignete Schnittstellen existieren. Die tech-
nischen Metadaten automatisch zu erfassen, ist in gewissen Grenzen ebenfalls 
möglich.  Einige Programmier-Tools können  technische Metadaten  aus  den 
digitalen Objekten extrahieren, zum Beispiel das Dateiformat und die Versi-
on desselben. Wie umfangreich die erhaltenen Metadaten sind, hängt von der 
Qualität des Tools ab. Im Einzelfall wird man solche Tools an die einzelnen 
Anforderungen anpassen müssen. Das Metadaten-Extraktions-Tool JHOVE
2
2  JSTOR/Harvard Object Validation Environment <http://hul.harvard.edu/jhove/index.
JSTOR/Harvard  Object  Validation  Environment  <http://hul.harvard.edu/jhove/index.
html>
[ Version 1.5 ]   9-9
wird beispielsweise vom Projekt kopal
3
zur Erfassung von technischen Meta-
daten genutzt.
3  <http://kopal.langzeitarchivierung.de>
<http://kopal.langzeitarchivierung.de>
9 Formate
nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung
9-10
9.4 Formaterkennung und Validierung
Matthias Neubauer
Die Archivierung von digitalen Objekten steht und fällt mit der Erkennung 
und Validierung der verwendeten Dateiformate. Ohne die Information, wie die 
Nullen und Einsen des Bitstreams einer Datei zu interpretieren sind, ist der 
binäre Datenstrom schlicht unbrauchbar. Vergleichbar ist dies beispielsweise 
mit der Entzifferung alter Schriften und Sprachen, deren Syntax und Gramma-
tik nicht mehr bekannt sind. Daher ist es für die digitale Langzeitarchivierung 
essentiell, die Dateien eines digitalen Objektes vor der Archivierung genaues-
tens zu betrachten und zu kategorisieren. Dies beinhaltet vor allem zwei große 
Bereiche: 
a) Die Formaterkennung 
Zunächst muss das genaue Format ermittelt werden, in welchem die fragliche 
Datei vorliegt. Unterschiedliche Formate verwenden auch sehr unterschiedliche 
Identifizierungsmerkmale, was ein generell anwendbares Verfahren erschwert. 
Ein Merkmal, das zunächst nahe liegend erscheint, ist die so genannte Datei-
endung oder File Extension. Dies bezeichnet den Teil des Dateinamens, wel-
cher rechts neben dem letzten Vorkommen eines Punkt-Zeichens liegt (wie 
beispielsweise in „Datei.ext“). Dieses Merkmal ist jedoch meist nicht in einer 
Formatspezifikation festgelegt, sondern wird lediglich zur vereinfachten, ober-
flächlichen Erkennung und Eingruppierung von Dateien in Programmen und 
manchen Betriebssystemen genutzt. Vor allem aber kann die Dateiendung je-
derzeit frei geändert werden, was jedoch keinerlei Einfluss auf den Inhalt, und 
damit auf das eigentliche Format der Datei hat. Daher ist es nicht ratsam, sich 
bei der Formaterkennung allein auf die Dateiendung zu verlassen, sondern in 
jedem Fall noch weitere Erkennungsmerkmale zu überprüfen, sofern dies mög-
lich ist. Einige Dateiformat-Spezifikationen definieren eine so genannte „Magic 
Number“. Dies ist ein Wert, welcher in einer Datei des entsprechenden For-
mats immer an einer in der Spezifikation bestimmten Stelle
4
der Binärdaten 
gesetzt sein muss. Anhand dieses Wertes kann zumindest sehr sicher angenom-
men werden, dass die fragliche Datei in einem dazu passenden Format vorliegt. 
Definiert ein Format keine „Magic Number“, kann meist nur durch den Ver-
such der Anwendung oder der Validierung der Datei des vermuteten Formats 
4  Eine bestimmte Stelle in einer Datei wird oft als „Offset“ bezeichnet und mit einem hexade-
zimalen Wert addressiert
[ Version 1.5 ]   9-11
Klarheit darüber verschafft werden, ob die fragliche Datei tatsächlich in diesem 
Format abgespeichert wurde. 
b) Die Validierung gegen eine Formatspezifikation 
Die Validierung oder auch Gültigkeitsprüfung ist ein wichtiger und notwen-
diger Schritt vor der Archivierung von Dateien. Auch wenn das Format ei-
ner zu archivierenden Datei sicher bestimmt werden konnte, garantiert dies 
noch nicht, dass die fragliche Datei korrekt gemäß den Formatspezifikationen 
aufgebaut ist. Enthält die Datei Teile, die gegen die Spezifikation verstoßen, 
kann eine  Verarbeitung oder Darstellung der Datei unmöglich  werden.  Be-
sonders fragwürdig, speziell im Hinblick auf die digitale Langzeitarchivierung, 
sind  dabei  proprietäre  und  gegebenenfalls  undokumentierte  Abweichungen 
von einer Spezifikation, oder auch zu starke Fehlertoleranz eines Darstellungs-
programmes. Ein gutes Beispiel hierfür ist HTML, bei dem zwar syntaktische 
und grammatikalische Regeln definiert sind, die aktuellen Browser jedoch ver-
suchen, fehlerhafte Stellen der Datei einfach dennoch darzustellen, oder in-
dividuell zu interpretieren. Wagt man nun einmal einen Blick in die „fernere“ 
Zukunft - beim heutigen Technologiewandel etwa 20-30 Jahre - dann werden 
die proprietären Darstellungsprogramme wie beispielsweise die unterschiedlich 
interpretierenden Web-Browser Internet Explorer und Firefox wohl nicht mehr 
existieren. Der einzige Anhaltspunkt, den ein zukünftiges Bereitstellungssystem 
hat, ist also die Formatspezifikation der darzustellenden Datei. Wenn diese je-
doch nicht valide zu den Spezifikationen vorliegt, ist es zu diesem Zeitpunkt 
wohl nahezu unmöglich, proprietäre und undokumentierte Abweichungen oder 
das Umgehen bzw. Korrigieren von fehlerhaften Stellen nachzuvollziehen. Da-
her sollte schon zum Zeitpunkt der ersten Archivierung sichergestellt sein, dass 
eine zu archivierende Datei vollkommen mit einer gegebenen Formatspezifika-
tion in Übereinstimmung ist. 
Sowohl für die aktuelle Bereitstellung der archivierten Dateien, als auch für spä-
tere Migrations- und Emulationsszenarien ist demnach sowohl die Erkennung 
als auch die Validierung von Dateiformaten eine notwendige Voraussetzung. 
Ein Versäumnis dieser Aktionen kann einen erheblich höheren Arbeitsaufwand 
oder sogar einen vollkommenen  Datenverlust  zu einem späteren  Zeitpunkt 
bedeuten. 
9 Formate
nestor Handbuch: Eine kleine Enzyklopädie der digitalen Langzeitarchivierung
9-12
9.5 File Format Registries
Andreas Aschenbrenner, Thomas Wollschläger
1. Zielsetzung und Stand der Dinge 
Langzeitarchive für digitale Objekte benötigen aufgrund des ständigen Neu-
erscheinens und Veraltens von Dateiformaten aktuelle und inhaltlich präzise 
Informationen zu diesen Formaten. File Format Registries dienen dazu, den 
Nachweis und die Auffindung dieser Informationen in einer für Langzeitarchi-
vierungsaktivitäten hinreichenden Präzision und Qualität zu gewährleisten. Da 
Aufbau und Pflege einer global gültigen File Format Registry für eine einzelne 
Institution so gut wie gar nicht zu leisten ist, müssen sinnvollerweise kooperativ 
erstellte und international abgestimmte Format Registries erstellt werden. Dies 
gewährleistet eine große Bandbreite, hohe Aktualität und kontrollierte Qualität 
solcher Unternehmungen. 
File Format Registries können verschiedenen Zwecken dienen und dement-
sprechend unterschiedlich angelegt und folglich auch verschieden gut nachnutz-
bar sein. Hinter dem Aufbau solcher Registries stehen im Allgemeinen folgende 
Ziele: 
·  Formatidentifizierung 
·  Formatvalidierung 
·  Formatdeskription/-charakterisierung 
·  Formatlieferung/-ausgabe (zusammen mit einem Dokument) 
·  Formatumformung (z.B. Migration) 
·  Format-Risikomanagement (bei Wegfall von Formaten) 
Für Langzeitarchivierungsvorhaben ist es zentral, nicht nur die Bewahrung, 
sondern auch den Zugriff auf Daten für künftige Generationen sicherzustel-
len. Es ist nötig, eine Registry anzulegen, die in seiner Zielsetzung alle sechs 
genannten Zwecke kombiniert. Viele bereits existierende oder anvisierte Regis-
tries genügen nur einigen dieser Ziele, meistens den ersten drei. 
Beispielhaft für derzeit existierende File Format Registries können angeführt 
werden: 
Documents you may be interested
Documents you may be interested