c# winforms pdf viewer control : Cut pdf pages online application SDK utility html wpf azure visual studio 08thesis_migletz7-part115

49
metadata fields such as document keywords, system users, file type, creation/modified 
dates,  document  approval  status,  document  version,  document  number,  and  library 
location [48]. 
2. 
Google Desktop Search/Google Search Appliance 
Google Desktop Search (GDS) is a local searching tool that allows users to index 
and search the contents of their computers.  GDS offers the capability to index and search 
for files using metadata for file types such as multimedia files that do not generally 
contain content that can be readily indexed. In conjunction with GDS, Google also offers 
the Google Desktop Search Software Development Kit (SDK) for extending GDS with 
custom plug-ins. The extensibility of  SDK provides support for new  file types and 
expands the search facilities of existing applications [44].  
Google  also  offers  the  Google  Search  Appliance  (GSA).  The  GSA  indexes 
metadata stored in documents and makes data available for retrieval at search time. Using 
metadata can improve the quality of a search. From the perspective of GSA, there are two 
types of metadata – in a primary document and not in a primary document (external 
metadata) [22].  
GSA  automatically  indexes  metadata  in  a  primary  document,  and  external 
metadata such as that found in a database table can be indexed as well. As with GDS, 
GSA offers APIs for developers to use to extend the reach of traditional indexing and 
searching [22].   
3. 
Oracle Data Integrator 
Oracle  is  another  corporation  that  develops  products  that  rely  on  metadata 
extracted  from  files.  Metadata  plays  a  important  role  in  Oracle’s  information 
management  initiatives  such  as  MDM,  customer  data  integration  (CDI),  product 
information management (PIM), and product data management (PDM). These initiatives 
center upon generating and maintaining a clean, accurate view of corporate reference data 
that is shared across operational and analytic systems [41]. 
Cut pdf pages online - copy, paste, cut PDF pages in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others
delete pages from pdf document; delete pages of pdf
Cut pdf pages online - VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc
delete pages out of a pdf file; extract pages from pdf on ipad
50
One of Oracle’s tools for managing metadata is the Oracle Data Integrator, which 
provides  the  mechanisms  needed  to  “retrieve, enrich,  extend,  and  leverage existing 
metadata for agile corporate enterprise architecture [41].” 
The  Oracle  Data  Integrator  possesses  a  metadata  repository,  which  can  be 
installed on Oracle, Microsoft SQL Server, IBM DB2 UDB, IBM DB2/400, Informix, 
Sybase AS Anywhere, Sybase AS Enterprise, and Sybase ASIQ relational databases. The 
metadata is stored in database tables and can be used as a source by any reporting system 
[41]. 
The Oracle Data Integrator also includes a reverse engineering functionality that 
populates the repository with metadata from the information system. Reverse engineering 
extracts metadata from data storage as found in databases and XML files and stores the 
data into the repository. Nonstandard metadata can be retrieved from the databases or 
from proprietary repositories such as enterprise resource planning/customer relationship 
management (ERP/CRM) systems by customizing the reverse engineering process [41]. 
Finally, the Oracle Data Integrator can be a metadata-based code generator. The 
Oracle knowledge modules utilize the metadata stored in the repository. This metadata is 
used to create the appropriate code which is then run on existing systems. Because 
metadata is focal point of the integration and data integrity check processes, maintaining 
the processes is faster. As an example, the Oracle Data Integrator can automatically 
produce Adobe 
PDF
reports using the repository contents to document the enterprise 
architecture and integration processes [41]. 
VB.NET PDF copy, paste image library: copy, paste, cut PDF images
Copy, paste and cut PDF image while preview without adobe Free Visual Studio .NET PDF library, easy to be Online source codes for quick evaluation in VB.NET
extract pages from pdf files; extract pdf pages reader
C# PDF copy, paste image Library: copy, paste, cut PDF images in
C#.NET PDF SDK - Copy, Paste, Cut PDF Image in C#.NET. C#.NET Demo Code: Cut Image in PDF Page in C#.NET. PDF image cutting is similar to image deleting.
extract pages from pdf; copy pdf page to powerpoint
51
VII.   CONCLUSION 
A. 
FINDINGS  
1. 
Automated Extraction 
This thesis sought to determine whether or not existing metadata extraction tools 
could be combined for the automated processing of disk images. Through the analysis of 
different file formats and the examination of existing metadata extraction tools such as 
exif
wv
libextractor
, and the specially created 
docx_extractor
, I determined that 
by incorporating the plug-ins into the application 
fiwalk
, metadata extraction tools could 
be combined for the automated processing of disk images.  
2. 
Metadata Extraction Opportunities 
This  thesis  also  sought  to  determine  what  metadata  extraction opportunities 
existed in a forensic context for various file formats.  Through  the research effort, 
document files (pre – 2007 Microsoft Office, Microsoft Office 2007, and Open Office) 
were found to contain metadata that would be interesting from a computer forensic 
perspective. While media files also contained metadata, the information available would 
be less useful for an investigator when compared to metadata available in document files. 
For instance, the metadata associated with an 
.mp3
file (artist, title, year), which when 
compared to the metadata associated with a document file (file creator, revision number, 
modifier, description) is not as pertinent to a forensics investigation. However, some 
media files such as 
jpegs
potentially contain metadata such as camera manufacturer and 
serial number, which an investigator would be interested in obtaining.    
As previously discussed, Office 2007 documents provide a significant amount of 
information  that  can  be  extracted  from  a  package  beyond  the  standard  author, 
creation/modification dates, that were obtained from prior versions of Office. The Office 
Open XML format presents the forensic investigator and forensic tools developer with a 
simpler environment in which to extract metadata. The presence of a thumbnail file or 
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
Enable specified pages deleting from PDF in Visual Basic .NET class. Free trial SDK library download for Visual Studio .NET program. Online source codes for
extract pages from pdf online; deleting pages from pdf document
VB.NET PDF Page Insert Library: insert pages into PDF file in vb.
add and insert one or multiple pages to existing adobe PDF document in VB.NET. Ability to create a blank PDF page with related by using following online VB.NET
copy web pages to pdf; copy pages from pdf into new pdf
52
other  embedded  image  within  the  package  provides  investigators  with  additional 
metadata that can be extracted and analyzed. By examining 
rsid
values within the XML, 
investigators can identify documents that were created during the same editing session 
but were later dispersed and modified separately.  
3. 
Metadata Comparison 
Because determining a clear cut metadata winner is not easily done, comparing 
similar attributes between Open Document Format (ODF – Open Office) and Office 
Open XML files presents a clearer picture of the metadata potentially available for 
forensic investigations. As discussed in Chapter V, three areas for direct comparison are 
timestamps, encryption, and thumbnails. During the research, timestamps were found in 
Open Office and Office Open XML documents. However, the time stamps were not 
always accurate.  
Encryption  was  another  area  available  for  direct  comparison  between  the 
document file types.  During the research effort, only ODF and Microsoft Office 2007 
documents  were  encrypted to  determine  the effect encryption  had on  the available 
metadata. Based on the analysis, encrypted Microsoft Office 2007 files appear to leak 
less information than ODF files, and therefore, would present more of a challenge for 
investigators needing to extract the metadata from these files.  
The  presence  of  thumbnails  was  an  additional  area  for  consideration  when 
comparing the metadata of the document file formats. ODF files contain both .
jpeg
and 
.
pdf
thumbnails while the Macintosh version of Microsoft Office 2008 contains .
jpeg
thumbnail  images  in  the  document  archive.  In  contrast,  the  Windows  version  of 
Microsoft Office 2007, only contributes a thumbnail image in the PowerPoint 2007 
document archives. 
4. 
Deficiencies in Metadata Extraction Tools 
Another objective of this thesis was to ascertain whether or not existing open 
source metadata extraction tools generated accurate results. During the research effort, 
several shortcomings with the metadata extraction tools were encountered. Understanding 
C# PDF Page Insert Library: insert pages into PDF file in C#.net
Free components and online source codes for .NET framework 2.0+. doc2.Save( outPutFilePath); Add and Insert Multiple PDF Pages to PDF Document Using C#.
crop all pages of pdf; delete pages from pdf in preview
C# HTML5 PDF Viewer SDK to view PDF document online in C#.NET
Move Page Position. Page: Extract, Copy and Paste PDF Pages. Image to PDF. Image: Remove Image from PDF Page. Image: Copy, Paste, Cut Image in Page. Link: Edit URL
extract pdf pages; delete pages from pdf acrobat reader
53
that these deficiencies exist is important for forensic investigators because some results 
may require additional analysis or research. A discussion of the deficiencies is discussed 
below. 
WvSummary
proved to be useful in extracting most metadata from pre – 2007 
Microsoft  Office  documents.  However,  some  inconsistencies  and  inaccuracies  were 
encountered. For instance, the document analyzed in Figure 9 was comprised of three 
pages, but 
wvSummary
reported that the document contained one page. This inaccuracy 
was encountered in other test files as well. However, the number of worksheets and 
slides, including hidden slides, was accurately reported by 
wvSummary
Also,  within  the  document  analyzed  in  Figure  9,  comments  were  manually 
entered into the file, but comments were not one of the extracted pieces of metadata 
retrieved by 
wvSummary
WvSummary
did capture customized metadata items such as 
Keywords, Edited, Received from
and 
Checked by
. The metadata added to the 
Excel and PowerPoint files was also captured by 
wvSummary
Both  pre  and  post  Microsoft  Word  2007  applications  allow  other  Word 
documents to be embedded within a Word Document using the 
Insert/Object
... menu 
command. To test the effectiveness of the metadata extraction tools, a Word document 
was embedded within a .
doc
and a .
docx
document. Figure 25 provides the ZIP archive 
of a .
docx
document with another Word file embedded within it. In the case of the .
doc
file, 
wvSummary
and its sister tool 
wvText
failed to identify the embedded file. Similarly, 
docx_extractor
failed to identify the embedded document within the .
docx
archive. 
This test highlighted a bug within 
docx_extractor
that needs to be fixed. Of note, 
contrary to the results observed from the open source 
wvSummary/wvText
, Guidance 
Software’s 
EnCase
found the embedded document in both formats.  
Issues were also encountered when using 
libextractor
. In the initial trials, 
limited metadata was retrieved. The test files included 
.gif, .jpg, .pdf
, and .
html
files. The metadata obtained included filename (using –f option), file size, and mime 
type. 
Libextractor
claims to provide an extensive list of keywords that can be matched 
within the metadata, but initial trials did not retrieve metadata such as title or comments. 
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
Free online C# class source code for deleting specified PDF pages in .NET console application. Able to remove a single page from PDF document.
add remove pages from pdf; delete pages from pdf without acrobat
VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
Pages. Page: Move Page Position. Page: Copy, Paste PDF Pages. Page: Rotate a Image to PDF. Image: Remove Image from PDF Page. Image: Copy, Paste, Cut Image in
extract page from pdf file; extract page from pdf
54
Additional libraries and plug-ins are available for use with 
libextractor
, but locating 
the missing components and deriving the desired configuration and results were not 
achieved.  
Length   Name 
-------  ---- 
1527  [Content_Types].xml 
735  _rels/.rels 
1107  word/_rels/document.xml.rels 
4780  word/document.xml 
6613  word/media/image1.png 
7559  word/theme/theme1.xml 
39832  docProps/thumbnail.jpeg 
25316  word/embeddings/Microsoft_Word_Document1.docx 
2036  word/settings.xml 
276  word/webSettings.xml 
734  docProps/app.xml 
726  docProps/core.xml 
15019  word/styles.xml 
1521  word/fontTable.xml 
-------  ------- 
107781  14 files 
Figure 25.   
ZIP archive of .docx document with embedded .docx document 
Unfortunately, the 
Exif
program utilized in 
jpeg_extract
also demonstrated 
shortcomings. 
Exif
processed digital images taken with a Canon EOS Rebel camera 
without any issues, but digital pictures taken with the Olympus FE-280 and Olympus 
Stylus 400 cameras were not recognized as being EXIF format. 
B. 
FUTURE WORK 
Given more time, I would incorporate additional functionality into 
fiwalk
. For 
instance, adding automated feature extraction would provide a positive supplement to the 
metadata extraction capabilities provided by the plug-ins.  Additionally, developing more 
metadata extraction plug-ins and modifying 
fiwalk
to process all content with the plug-
ins as opposed to just named files would increase the range of 
fiwalk
. Currently, a plug-
in for extracting metadata from Open Office documents has been written, but the plug-in 
needs additional work to ensure that metadata buried deep in the XML trees is recovered. 
Once the plug-in is completed and tested, it should be incorporated within 
fiwalk
.  
55
Under the current framework, metadata is not recursively extracted from every 
container encountered. By adding this feature, metadata from files such as ZIP and tar 
archives as well as metadata from embedded 
.jpeg
and document files inside 
.docx
archives would be available for forensic investigators to perform more in-depth analysis. 
Another needed capability is mapping extracted sectors and automatically carving the 
remainders. 
The number of files on a disk image processed by 
fiwalk
could theoretically 
number into  the  millions.  Many  of  these files  belong  to  the  operating  system  and 
common user applications. As a consequence, an investigator most likely will not be 
concerned with analyzing these files. The National Software Reference Library (NSRL) 
sponsored by the U.S. Department of Justice’s National Institute of Justice and the 
National Institute for Standards and Technology provides a repository of known software, 
file profiles, and file signatures for use by law enforcement and other organizations in 
computer forensics investigations [38]. By modifying 
fiwalk
to screen files from a disk 
image against the repository, known files can be eliminated from review, potentially 
saving an investigator many hours of analysis time.  
Although 
fiwalk
provides the option to produce the output in multiple formats 
such as ARFF and soon will support XML, being able to process the output as SQL 
would enable the user to automatically populate a database with the metadata extracted 
from the files on the disk image for further analysis and faster data retrieval. 
One limitation of working with metadata is that all metadata is susceptible to 
tampering.  For instance, Office 2007 provides a means for programmers to search and 
remove metadata and content from a .
docx
document. The effect on an investigator is that 
information that may have been previously  extracted from  an Office document  left 
behind by  a naive user  may no longer  be present.  As another  example, some  file 
timestamps can be manipulated by individuals trying to distort or modify the timeline 
history of a file. A useful tool or plug-in for investigators would be one that detects and 
reports instances of tampering of metadata and if possible recovers the original metadata.  
56
Finally, based on the work initiated by Huynh in the area of file owner ascription, 
being able to automatically feed the output of 
fiwalk
into a another plug-in, a data 
mining tool such as 
Weka
, or an automated reporting tool would significantly increase the 
rate at which digital forensic investigators, law enforcement, intelligence and military 
organizations could process the data and derive meaningful results.  
57
LIST OF REFERENCES 
[1]   Adobe Systems Incorporated. (2001). Portable document format reference 
manual version 1.4. San Jose, CA: Adobe Systems Incorporated.  
[2]   Apple Support. (10/31/2007). Core Audio Glossary. Retrieved 1/18/2008, from 
http://developer.apple.com/documentation/MusicAudio/Reference/CoreAudioGlo
ssary/Glossary/chapter_998_section_1.html.  
[3]   Apple Support. (2003). MPEG4. The new standard for multimedia on the 
Internet, powered by QuickTime. Apple Incorporated.  
[4]   Apple Support. (2007). Creating content for iPod + iTunes. Retrieved 1/19/2008, 
from 
http://images.apple.com/support/itunes_u/docs/iTunes_U_Creating_Content.pdf.  
[5]   E. Ashton, & J. Hietianiemi. (2007). The CPAN frequently asked questions. 
Retrieved 4/3/2008, from http://www.cpan.org/misc/cpan-faq.html. 
[6]   P. Aven. (2007). Running (a.k.a. <w:r>-ing) with word. Part 4 in a series on 
MarkLogic server and office 2007. Retrieved 2/24/2008, from 
http://xqzone.marklogic.com/columns/smallchanges/2007-12-18.xqy. 
[7]   P. Aven. (2008). Enriching word documents with <w:CustomXML>. Part 5 in a 
series on MarkLogic server and office 2007. Retrieved 2/21/2008, from 
http://xqzone.marklogic.com/columns/smallchanges/2008-01-08.xqy. 
[8]   P. Aven. (2008). A final word. Part 6 in a series on MarkLogic server and office 
2007. Retrieved 2/21/2008, from 
http://xqzone.marklogic.com/columns/smallchanges/. 
[9]   B. D. Carrier. (2003). The sleuthkit informer, issue 1. Retrieved 1/29/2008, from 
http://www.sleuthkit.org/informer/sleuthkit-informer-1.txt. 
[10]   B. D. Carrier. (2005). File System Analysis.  Addison-Wesley.  
[11]   B. D. Carrier. (2003). The sleuthkit informer, issue 22. Retrieved 3/29/2008, from 
http://www.sleuthkit.org/informer/sleuthkit-informer-22.txt. 
[12]   B. D. Carrier. (2006). Risks of live digital forensic analysis. Communications of 
the ACM, 49(2), 56-61.  
[13]   CompuServe Incorporated. (1990). GIF graphics interchange format, version 
89a. Retrieved 1/20/2008, from http://www.w3.org/Graphics/GIF/spec-gif89a.txt.  
58
[14]   ECMA. Office Open XML File Formats Standard -Final Draft - 9th of October 
2006. Retrieved 3/7/2008, from http://www.ecma-
international.org/news/TC45_current_work/TC45-2006-50_final_draft.htm. 
[15]   E. Ehrli, L. Wollin, & B. Jones. (2008). Building word 2007 document templates 
using content controls. Retrieved 5/10/2008, from http://msdn.microsoft.com/en-
us/library/bb264571.aspx?ref=carstuning.biz. 
[16]   D. Farmer, & W. Venema. (2005). Forensic Discovery. Addison-Wesley.  
[17]  Filzip. Retrieved 5/24/2008, from http://filzip.com. 
[18]   G. A. Francia, & K. Clinton. (2005). Computer forensics laboratory and tools
J.Comput.Small Coll., 20(6), 143-150.  
[19]   S. L. Garfinkel. (2006). AFF: A new format for storing hard drive images
Communications of the ACM, 49(2), 85-87.  
[20]   S. L. Garfinkel. (2006). Forensic feature extraction and cross-drive analysis
Digital Investigation, 3(Supplement 1), 71-81.  
[21]   S. L. Garfinkel, D. Malan, K. Dubec, C. Stevens, & C. Pham. (2006). Disk 
imaging with the advanced forensic format, library and tools. Paper presented at 
the Second Annual IFIP WG 11.9 International Conference on Digital Forensics, 
Orlando, FL USA. Retrieved 1/18/2008, from 
http://www.simson.net/cv/pubs.php.  
[22]  Google search appliance external metadata indexing guide. Retrieved 1/19/2008, 
from http://code.google.com/enterprise/documentation/metadata.html.  
[23]   C. Grothoff. (2005). Reading file metadata with extract and libextractor
Retrieved 1/18/2008, from http://www.linuxjournal.com/article/7552.   
[24]   Guidance Software Incorporated. (2007). EnCase forensic version 6.8 user 
manual. Unpublished manuscript. 
[25]   S. Harris. (2005). All-in-one CISSP Exam Guide, third edition. Emeryville, 
CA:McGraw Hill.   
[26]  Hidden data in JPEG files. Retrieved 1/18/2008, from 
http://netzreport.googlepages.com/hidden_data_in_jpeg_files.html.  
[27]  How to read compound document properties directly with VC++. Retrieved 
1/19/2008, from http://support.microsoft.com/kb/q186898.  
[28]   K. Husain. (2007). Extract and parse ODF files with python. Retrieved 1/18/2008, 
from http://www.linuxjournal.com/article/9347.  
Documents you may be interested
Documents you may be interested