Chapter 5
5.1 Current Status
The Excel spreadsheet to database converter has been implemented and tested to perform
under varying loads of input through different excel spreadsheets. The framework consists
of two parts, the data prediction algorithm and an implementation for a popular functional
dependency prediction algorithm called TANE. The data prediction algorithm is verified
to perform in polynomial time complexity. which is better than an exponential time given
that the algorithm looks at each column linearly followed by each row for that particular
5.2 Future Work
There are several areas that the framework can be improved in.
5.2.1 Support For Newer Versions of Excel
Currently the framework only supports the .xls extension which is the 1997-2003 spread-
sheet format for excel. The framework can be expanded to include more versions of Excel
like the newer .xlsx format. The framework can also be made more flexible by supporting
spreadsheet software packages apart from Microsoft Excel.
5.2.2 Faster Data Prediction Algorithm
The data prediction algorithm currently displays polynomial time complexity. The algo-
rithm can be tweaked to perform much faster and reduce the time complexity to be linear
or even logarithmic. This can bedone by making thealgorithm perform the data prediction
in parallel. MapReduce is a framework that allows a program to be broken down into par-
allel by assigning the same task to multiple threads or nodes and executing them in parallel
in what is called the mapping step. When the execution cycles are finished the final result
is combined in the reduce step. This will drastically reduce the amount of time taken by
the algorithm to process a dataset.
5.2.3 Support For More Databases and Data Types
The framework can be exapanded to work with other relational databases apart from the
H2 database. It can also be expanded to include support for more data types that have not
been implemented as part of this project.
5.2.4 Additional User Experience Changes
The user application or GUI can be expanded to include more user interaction for e.g.
the table name for an import operation is currently limited to the name TEST, this can be
changed by accepting the desired table name as input from the user. The application can
also bemade more fault tolerant in thesensethatitcan warn theuserabout failurescenarios
by displaying better errors on the GUI.
5.3 Conclusions
The framework provides the user with a simple user interface to convert an Excel spread-
sheet to a database spreadsheet by defining a structure to the data stored within. Once
converted to a relational database schemathespreadsheet datawillinherit all the properties
ofa databasetableincluding features like security, multi user access along with the fact that
Appendix A
UML Diagrams
Figure A.1 shows the class diagram for the Excel component of the framework.
Figure A.2 shows the class diagram for the TANE component of the framework.
Figure A.1: Excel Component Class Diagram.
Figure A.2: TANE Component Class Diagram.
Appendix B
Code Listing
The code listing for the project is available on the attached disc.
Appendix C
User Manual
C.1 Installation
TheGUI application for the framework is designed in JAVA. It is exported as an executable
jar file. The jar fileis platform independent, meaning it can be run on any operating system
like Windows orLinux provided they have aJVM environment setup. Once the application
jar is copied onto the machine, it can be simply run by double clicking on the jar and
executing it like any other application. The only requirement here is that the irrespective
of the operating system being used there should be a valid instance of Microsoft Excel and
the H2 database server running on themachine. Once opened the application is ready to be
used to for import or export operations.
C.2 User Interaction
The main screen for the framework is the application screen that has the input fields that
requireuser input and theoperations that they chooseto select. Figure C.1 showsthescreen
when the application is started.
If the user chooses to import a spreadsheet into a database table then they need to enter
the required information like the database name with the credentials to connect to, along
with the path for the file to import. Once that is done in order to select a primary key col-
umn they need to click on the Display Columns button which will display the columns in
the spreadsheet along with the option to add an auto increment column. Figure C.2 shows
Figure C.1: GUI application on first start.
the screen after the user has entered the information on the GUI and selected the primary
After the database has been created the user can choose to determinethefunctional and
transitive dependencies for the table, this can be done by clicking on the Calculate Func-
tional Dependencies button. Figure C.3 shows an example of the output after the user has
clicked the Calculate Functional Dependencies button.
Similarly when a user chooses to export a database table to an excel spreadsheet they
need to enter the database name along with the credentials to connect to the database, the
path export the excel file to and the database table name that is to be exported. Figure C.4
shows the application screen after the user has entered the required information to export
the table.
