24
Figure 3.4: GUI application when importing a spreadsheet to the database.
Figure 3.5: GUI application displaying output for Functional and Transitive dependencies.
Pdf searchable text - search text inside PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn how to search text in PDF document and obtain text content and location information
search pdf files for text; convert pdf to searchable text
Pdf searchable text - VB.NET PDF Text Search Library: search text inside PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn How to Search Text in PDF Document and Obtain Text Content and Location Information in VB.NET application
how to select text on pdf; select text in pdf file
25
Figure 3.6: GUI application when exporting a database table to an excel spreadsheet.
C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net
NET project. Powerful .NET control for batch converting PDF to editable & searchable text formats in C# class. Free evaluation library
select text in pdf reader; pdf editor with search and replace text
Online Convert PDF to Text file. Best free online PDF txt
PDF document conversion SDK provides reliable and effective .NET solution for Visual C# developers to convert PDF document to editable & searchable text file.
how to select text in a pdf; pdf searchable text
26
Chapter 4
Analysis
4.1 Testing Environment
The application is written in JAVA. In order to test it, an executable jar file is created. The
test environment is a Windows machine with Microsoft Office installed and an instance of
the H2 database server running on it. The hardware specifications for the system are, Intel
Core i7-2630QM CPU with 8 GB of RAM. The version of Microsoft Excel installed on
the machine is 2013 however the application works with the older ’.xls’ format. The H2
database version used is 1.3.172.
4.2 Datasets
The application is tested by using various sized Excel datasets and running them through
the framework. The sizesdifferin terms ofthenumberof columnsand rowsthat the dataset
contains. The datasets are applied in increasing order of rows. In order to determine the
effectiveness of the framework the time taken to import the Excel spreadsheet into the
database and vice versa is measured. The other measure to consider is the actual predicted
data types for the columns in the spreadsheet while importing. The output of the TANE
algorithm can be evaluated in a similar fashion by examining the functional dependencies
found. The dependencies can be verified by the data semantics for the particular dataset.
There were six datasets used in all for the analysis. A general description for the datasets
follows,
VB.NET PDF Convert to Text SDK: Convert PDF to txt files in vb.net
keeping original layout. VB.NET control for batch converting PDF to editable & searchable text formats. Support .NET WinForms, ASP
make pdf text searchable; find text in pdf files
VB.NET Image: Robust OCR Recognition SDK for VB.NET, .NET Image
for VB.NET provides users fast and accurate image recognition function, which converts scanned images into searchable text formats, such as PDF, PDF/A, WORD
pdf searchable text; how to make a pdf document text searchable
27
 Dataset 1: The first dataset used was the Peptide dataset. The dataset has columns
named GeneID, Gene, Peptide, MHC
Iand LLC2. An additional formula column
with the sum of GeneID and LLC2 was added later. The columns store numeric
values in the GeneID and LLC2 columns, while the other two columns consist of
alphanumeric values. The dataset contains 419 rows and 6 columns.
 Datset 2: The second dataset used is the Employee dataset. This dataset was created
using random values. If containsfields that describe employeesat acompany, for e.g.
Account, Name, Email, Company, Street Address, City, Zip, Phone and Birthdate.
The dataset has 400 rows and 10 columns.
 Dataset 3: The third dataset is the Farmers dataset. It contains information about
farmers from various states. It contains columns like FMID, MarketName, Website,
Street, City, County, State, Zip. The dataset has 7179 rows and 8 columns.
 Dataset 4: Theforth dataset istheBaby
Names
Beginning
2007 dataset. Thisdataset
stores the different first names for babies born in the year range of 2007-2012. The
columnsin thedataset areYear, First
Name, County, Sex and Count. The dataset has
35217 rows and 5 columns.
 Dataset 5: The fifth dataset used is the Consumer
Complaints dataset. This dataset
is a collection of the complaints issued by consumers about products related to the
financial domain like Mortage, Debt Collection, Credit cards etc. The dataset has
columnslikeComplaint
ID, Product, Sub
Product, Issue, Sub
Issue, State, Zip
Code,
Submitted
via, Date
Received, Date
Sent
To
Company, Company, Company
Response
and Timely
Response. The dataset had 65535 rows and 13 columns. The dataset
holds the maximum number of rows allowed for an xls file.
 Dataset 6: Dataset 6 is a stripped down version of dataset 5 with only 50376 rows
and 9 columns.
C# PDF: C# Code to Draw Text and Graphics on PDF Document
Draw and write searchable text on PDF file by C# code in both Web and Windows applications. C#.NET PDF Document Drawing Application.
how to make pdf text searchable; search pdf for text
C# Create PDF Library SDK to convert PDF from other file formats
The PDF document file created by RasterEdge C# PDF document creator library is searchable and can be fully populated with editable text and graphics
convert a scanned pdf to searchable text; search text in multiple pdf
28
All the above described datasets use the .xls format. The datasets have been sourced
from public dataset sharing sites likedata.gov. In terms of cleaning and validation thereare
afew steps to execute before the dataset can be used. First and foremost all of the datasets
have space separated names in the columns when they use more than one word for e.g.
’Complaint ID’. This is not supported by the H2 database, thus the column names for the
datasetshaveto be edited to replacethespacecharacter with an underscore(Complaint
ID).
The next step is to validate the data in the columns. For the most part the framework is
tolerant of null or blank values in the columns but the problem arises when the table is
being imported after the data types for each column have been predicted. The issue is that
for columns that hold numeric values cannot be blank when writing to the H2 database.
This is not permitted in relational databases. The columns with variations of the string
values however are permitted to have null values. Hence aspart of cleaning thedatasetsthe
columnshave to beexamined to determine if there are null values in columns with numeric
data. To remedy the problem the entire row must be deleted. This is done to insure that
the data semantics stay intact. If the null values are imputed with mean, mode or random
valuesthen the resulting dataset will loosemeaning which will mightin turn resultin wrong
predictions in the framework for data prediction as well as the TANE algorithm. Data
validation also has to be performed on the columns to check for any irregular values. For
e.g. a column like Complaint
ID that holds strictly numeric data cannot have characters or
special characters in it. Similarly validation has to be performed on the columns that store
values of type DATE in the spreadsheet. H2 database only recognizes dates when they are
in the yyyy-MM-dd format. Hence any date columns in the datasets need to be explicitly
converted to that format before being imported.
4.3 Import
Theimportoperation imports theexcel spreadsheetinto a H2 databasetable. This operation
was repeated on the 6 different datasets described above and the time taken for the process
to completewasmeasured in seconds. Themeasured time indicateshowgood thealgorithm
C# HTML5 Viewer: Load, View, Convert, Annotate and Edit Word
C# users can convert Convert Microsoft Office Word to searchable PDF online, create multi empowered to add annotations to Word, such as add text annotations to
how to select all text in pdf file; text searchable pdf
VB.NET Create PDF from Text to convert txt files to PDF in vb.net
Best VB.NET adobe text to PDF converter library for Visual Studio .NET project. Batch convert editable & searchable PDF document from TXT formats in VB.NET
how to search pdf files for text; pdf text select tool
29
performs. This performance measure can be translated to the time complexity of the data
type prediction algorithm. The time complexity of the algorithm signifies how well the
algorithm performs under varying loads of input. Figure 4.1 shows the constructed graph
with the time measurements for the import operations. In order to prove the validity of
the translation from measured time to the time complexity the graph includes a trendline.
The trendline is basically a regression line that is used to depict the relationship between
two variables in this case the size of the datasets and the time taken to import them. The
trendline is constructed in Excel using the graph tool. The trendline in figure 4.1 follows
the time taken variable very closely. The trendline can be linear, exponential, polynomial,
logarithmic, power, or moving average. The left vertical axis on the graph corresponds to
the numbers of rows and columns while the right vertical axis signifies the time taken in
seconds. The trenline has two attributes, the R
2
value and the equation representing the
line. The R
2
value is of significance here. It is called the coefficient of determination. It
signifies how well the trendline fits the given data plot. The R
2
value is a value between
0and 1. The closer the value is to 1, the better the fit of the line. In the given graph the
trendline has an R
2
value of 0.9992, in comparison the linear trendline has an R
2
value of
0.8686 while an exponential trendline displays a value of 0.9408. Thus it is observed that
the R
2
value of 0.9992 which represents a polynomial function is the best fit trendline for
the import graph.
4.4 Export
Figure 4.2 shows the graph for the export operation runtimes. The graph is similar to that
of the import operation with the number of rows and columns on the left vertical axis and
the time taken in seconds on the right vertical axis. The only difference on the time taken
on seconds axis is the scale. Since the highest value for time taken is 4.727 the scale has a
maximum value of 5 seconds. Like the import graph the export graph trendline with an R
2
value of 0.9897 follows a polynomial function.
C# Create PDF from Text to convert txt files to PDF in C#.net, ASP
Visual Studio .NET project. .NET control for batch converting text formats to editable & searchable PDF document. Free .NET library for
pdf select text; search pdf files for text programmatically
VB.NET Create PDF from Word Library to convert docx, doc to PDF in
Export all Word text and image content into high quality PDF without losing formatting. Easy to create searchable and scanned PDF files from Word.
cannot select text in pdf; pdf text searchable
30
Figure 4.1: Time Measurements for the Import operation.
Figure 4.2: Time Measurements for the Export operation.
31
4.5 Hypothesis Evaluation
Theresults obtained during theexperimentsshow that theapproach taken by theframework
has a polynomial time complexity. The framework does well to recognize the data types
for the values within the columns of the spreadsheet as seen by running different datasets
through it. Figure 4.3 shows an example of a Excel spreadsheet converted to a database
table on the H2 database console. The results indicate that the framework accurately pre-
dicts the data type and thus defines a structure to the datasets by importing them into the
database, also the primary key that was selected by the user is correctly set on the table.
this can be verified using the data descriptions for the datasets used. For e.g. The dataset
description for dataset 5 and 6 indicate that the Complaint
ID field is of type number and
the date type for the Date
Received and Date
sent
to
company is of type Date while the
rest of the columns are text. The data prediction algorithm recognizes the Complaint
ID
column as an Integer, the State column as a Char, Date
received as a Date and the rest of
the columns as avarchar. Similarly on the employee dataset that was created using random
values of type Date for column Birthdate and all other columns are of type text, the algo-
rithm predicts the data type for the Birthdate correctly as date while the other columns are
predicted as having datatypeVarcharsince the data in each column has variablelength and
contains alphanumeric values. The framework does not however support the entire range
of data types supported by the H2 database, thus limiting the data types that are predicted.
The TANE component of the framework also works well in identifying the different
functional dependencies between the columns of the database table. Figure 4.4 shows an
example of the output from the TANE algorithm to predict the functional and transitive
dependencies in the database table. The output also displays the transitive dependencies
that are inferred from the out put of the TANE algorithm. traditionally to prove that the
algorithm works the dataset would have to be passed through a data mining algorithm to
define relationships on the columns of the dataset but for the purposes of the project based
on the semantics of the data it can be derived that the functional dependencies do hold on
32
the database table. For e.g. For the Farmers dataset, the TANE algorithm outputs vari-
ous functional dependencies. Most of them can be verified manually since the relationship
is semantically correct. A functional dependency where all the columns depend on the
FarmerID column independently is correct while a dependency where the county and zip
and be used to determine the state or the Market name, Street address and the city can be
combined to realize the zip.
33
Figure 4.3: Database Table on the H2 Database Console.
Figure 4.4: Functional and Transitive Dependencies for the Database Table.
Documents you may be interested
Documents you may be interested