improve records management arises.  The financial cost of 
solving these problems is also a known burden.  And because 
of the diversity of the customer, the less complex the 
solution the better!   
Purpose of Study 
Through program implementation, testing experiments 
and examples the goal of this study is to generate an 
economical, automated, user-friendly means to process, 
convert, and record batches of PDF documents into tabular 
format for improved document conversion.  The 
implementation of the new developments presented in this 
study, along with an increasing knowledge of the research 
topic and literature review; has yielded expectations that 
many will consider to be a novel approach in the promotion 
of innovative applications systems for data acquisition, 
processing, conversion, and portability.   
Pdf split pages in half - Split, seperate PDF into multiple files in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Explain How to Split PDF Document in Visual C#.NET Application
pdf split and merge; break apart pdf
Pdf split pages in half - VB.NET PDF File Split Library: Split, seperate PDF into multiple files in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET PDF Document Splitter Control to Disassemble PDF Document
split pdf by bookmark; break pdf
Objectives of the Study 
The objective of this research is to develop a more 
novel approach to convert documents in PDF format to 
editable form.   
Scope and Limitations 
The scope of this study is limited to focus on an 
implementation of a conversion tool (P2X); developed to 
automatically
convert large batches of PDF tabular data 
(PDF tables) to spreadsheet format (MS Excel). 
C# PDF: Use C# APIs to Control Fully on PDF Rendering Process
For example, to convert the left half of PDF document page, you can set the source rectangle to start at (0, 0) and with the original height in pixel and half
pdf link to specific page; cannot print pdf file no pages selected
VB.NET Image: JPEG 2000 Codec for Image Encoding and Decoding in
Integrate PDF, Tiff, Word compression add-on with JPEG 2000 codec easily in VB.NET; That is to say you can display full size, full resolution or half size, one
break pdf into multiple files; cannot select text in pdf file
CHAPTER II 
REVIEW OF LITERATURE 
There are several commercial and non-commercial PDF 
converters available offering to extract text from PDF and 
represent the output as either plain text or some other 
document format such as Excel [2, 3, 9, 12, 14 and 18].  
They all either lack the ability to automatically handle 
large amounts of data, distort the original PDF document 
layout, exhibit the incapability to process large amounts 
of data in a timely manner, or they advertise functional 
capability in exchange for capital gain.  Timeliness and 
costliness has equally been an issue in retrieving digital 
portable document file data and transferring the data into 
editable documents. 
Adobe PDF to HTML Converter 
Adobe's PDF to HTML converter is the most popular 
converter to result when queried through the Google search 
engine via the internet [9].  It is a simple online text 
C# Word: Set Rendering Options with C# Word Document Rendering
& raster and vector images, such as PDF, tiff, png rendering and converting any Word document pages, you may get the image which sources the left half of page
pdf separate pages; break a pdf apart
C# Excel: Customize Excel Conversion by Setting Rendering Options
rectangle to start at (0, 0) and with the original width and half of the can save created image object/collection to these file formats, like PDF, TIFF, SVG
break pdf into multiple pages; break pdf documents
flow utility that attempts to preserve text formatting such 
as font but disregards all other structural formatting of 
the converted document.  The output file produced by this 
application does not mimic the original PDF file, and in 
particular ignores page breaks.  Also, this conversion tool 
lacks the direct ability to convert the resulting files 
into an Excel spreadsheet because it only produces the HTML 
document equivalent to the original PDF file. 
PDFtoText 
An exceptional conversion tool known as the PDFtoText© 
was created to generate the text equivalent of the original 
PDF document to be converted.  PDFtoText© software program 
is a command line conversion tool [12].  This tool was 
incorporated as part of this research to reduce redundancy 
during the initial programming phase and because it was 
freeware, reducing costliness.  This application is 
designed to convert PDF documents into ASCII text format 
with a minimal loss of formatting [12].  Unfortunately, the 
term minimal used here is dependent on the actual document 
being converted.  While the conversion tool produces the 
text form of PDF documents, the text documents made with 
C# PowerPoint: How to Set PowerPoint Rendering Parameters in C#
you use this SDK to render PowerPoint (2007 or above) slide into PDF document or For example, to convert the top half of the slide/page to image, you can set
break pdf password; pdf split and merge
How to C#: Special Effects
LinearStretch. Level the pixel between the black point and white point. Magnify. Double the image size. Mignify. Half the image size. Normolize.
can print pdf no pages selected; pdf split pages in half
the application does not maintain the exact
layout of its 
original counterpart, either.  Also, the tool only 
generates one output text file for each PDF document 
submitted.  Larger text files take more time to process.  
To combat the timing problem, it was decided to reproduce 
the resulting PDFtoText© text file as an MS Word document.  
Numerous modifications had to be made to the generated text 
file. These will be further discussed in Chapter III of 
this research. 
Manual Conversion Method 
The task of successfully exporting data from Portable 
Document Format into Microsoft Excel spreadsheet manually 
has previously been accomplished.  Adobe Acrobat Reader 
freeware has been used to export tables from PDF documents 
into Excel [3].  They even went a step further and 
published the procedures via the World Wide Web.  
Unfortunately, the software application will only make 
conversions page by page, the Adobe Acrobat Reader freeware 
has limited editing options, and it lacks the versatility 
of simultaneously converting batches of documents 
automatically.  The invention of high-end technological 
C# Raster - Image Compression in C#.NET
B44. The value is 17. B44 This form of compression is lossy for half data and stores 32bit data uncompressed. B44A. The value is 18.
break apart a pdf in reader; reader split pdf
C# Image: C# Code to Encode & Decode JBIG2 Images in RasterEdge .
RegisteredDecoders.GetDecoderFromType(typeof(JBIG2Decoder)); JBIG2.ScaleFactor = JBIG2ScaleFactor.Half; and decompressing of Word & PDF documents as well as
break pdf into multiple documents; break up pdf file
software advancements and automation has rendered the 
manual way as obsolete.  
The Influence of Herman Hollerith 
Automated innovations have been evident as far back as 
the late 1800's when automation was first introduced into 
the world of data collection, manipulation, and collation 
[21].  Herman Hollerith is credited with inventing and 
patenting punched cards [21].  He also notably created an 
electrical counting machine, the Tabulating Machine; to 
mechanically read, sort, and organize the punched cards 
[21].  These cards represented accountability of data and 
as a result allowed organizations the flexibility to 
automate their fundamental data processes.  That was over a 
century ago.  Currently, technology is presumed more 
advanced with smaller equipment and the added convenience 
of software to perform enhanced data processes, namely 
document conversion. 
VB Imaging - Postnet Barcode Creation Tutorial
can encode 5, 6, 9 or 11 digits, excluding check digit, in half- and full image and document files, including PNG, BMP, GIF, JPEG, TIFF, PDF, Excel, PowerPoint
acrobat separate pdf pages; acrobat split pdf into multiple files
VB.NET Image: Image Scaling SDK to Scale Picture / Photo
After you run following VB.NET code demo, you will get a scaled image file whose height & width are all half of original image width & height.
can't select text in pdf file; break pdf into single pages
Commercial Software 
Many commercial companies exist today, offering 
portable automated system (PAS) applications and analysis 
tools that will capture a portable document file and export 
it into MS Word, MS Excel, and RTF to name a few [2, 3, 9, 
12, 14 and 18].  But they all either lack the ability to 
handle large amounts of data, exhibit the incapability to 
process large amounts of data in a timely manner, or they 
offer various functional capabilities at unaffordable 
prices.  Processing speed has equally been an issue in 
retrieving digital portable document file data and 
transferring the data into meaningfully editable documents.   
3 Heights™ PDF Extract API is an automated extraction 
component that can extract and retrieve information from 
PDF documents [14].  "PDF Tools AG offers stand-alone tools 
and libraries, along with extensions and consulting 
services to deliver customer-specific solutions" [14].  The 
3 Heights™ PDF Extract API also offers several options for 
extracting data from the digital files with very little 
emphasis on converting the data into other portable 
formats.  Although, the company that distributes the 
application, PDF Tools AG, has extended its services by 
offering a free trial to validate some of the components' 
functionalities, they require a client license of $266 to 
$399, and a server license of $1330 to $1995 to use their 
software development kits.  Consequently, the amount of 
overhead still exists.  The user is left with prohibitive 
developmental processing time even after purchasing the 3 
Heights™ PDF Extract API products.   
Convert Doc 
Like PDFtoText©, Convert Doc by SoftInterface, Inc. is 
a simple to use, yet sophisticated document conversion 
utility.  If there is a need to convert thousands of 
documents with a variety of file types located in many 
folders in a short period of time, this is the tool [20].  
Convert Doc (CD) can be ran from the command line allowing 
for use in batch files or can be launched from within other 
programs.  PDF, Text, RTF and HTML are among the formats 
Convert Doc customers convert their files to and from.  As 
previously stated, Convert Doc is not only an executable 
application, but also an ActiveX component.  That is, the 
file, ConvertDoc.EXE, can be ran as a stand alone 
application, and, can be referenced as a component within a 
separate development environment.  Though CD possesses many 
useful attributes, we are interested in the generated 
output results.  CD output presents major loss of 
formatting when converting PDF documents to text, which is 
coincidentally another common factor that Convert Doc and 
PDFtoText© share.  P2X resolves this issue. 
On-Demand PDF to HTML 
Sommerer achieves significant improvements to the 
quality of on-demand PDF to HTML conversion at 
insignificant costs in terms of increased file size and 
processing time [18].  This work was noteworthy in that 
Sommerer shows a slightly more advanced HTML coding that 
compensates for file size increases when including line 
graphics and images.  Unfortunately, the visual 
representation of PDF files in HTML is usually very poor.  
His study weaned away from simplicity in that it was more 
focused on graphics and images and less on tabular data.  
Although Sommerer introduces a section for text extraction, 
the study offers more essence in the areas of HTML 
optimization, web services, and search engines.  The focus 
of this research is PDF to editable format conversion 
representations using an automated conversion tool to 
10 
implement the conversion, and customer/user satisfaction 
through the use of a GUI model. 
XML and XFDL 
Alternatively, the option of outputting paper-based 
tabular data and forms documents into other commonly used 
document formats namely the extensible markup language, XML 
can achieve transaction non-repudiation to formulate 
electronic records to maintain the data’s structure and for 
use on the Internet.  Table 1 highlights some of the more 
commonly used document formats, the organizations which 
maintain those document’s standards, and their 
source/format types.   
Doc Type 
Organization 
Open Source 
Proprietary 
XML 
W3 Consortium 
XFDL 
W3 Consortium 
TXT 
HTML 
W3 Consortium 
RTF 
Microsoft Corporation 
DOC 
Microsoft Corporation 
XLS 
Microsoft Corporation 
PDF 
Adobe Systems Incorporated 
PPT 
Microsoft Corporation 
FPK 
Adobe/Accelio/JetForm Corporation 
ZIP 
PKWARE Incorporated (Phil Katz) 
ODF 
Organization for the Advancement of 
Structured Information Standards (OASIS) 
Table 1: Commonly used document format types and their organizations. 
XML is heralded as a key enabling technology involving 
the integration of structured data, having standard syntax 
for creating and exchanging data structures into business-
11 
Documents you may be interested
Documents you may be interested