mvc display pdf in browser : Extract images from pdf software SDK project winforms wpf html UWP 2011-150-part281

233
LAW LIBRARY JOURNAL Vol. 103:2 [2011-15]
Database Ownership: Myth or Reality?
*
Sallie Smith,** Susanna Leers,*** and Patricia Roncevich
Full-text electronic databases are problematic for librarians because of the way they 
are marketed, using distribution models that separate the rights of access and owner-
ship. The authors describe their experience with a “purchase plus access” distribution 
model and the in-house system they created using their purchased content. 
Introduction  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
The Concept of Ownership . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Libraries and Digital Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
Ownership Versus Access . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
Law Library Collections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
Case Study   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Project Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
Database Development  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
Survey   . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
Conclusion  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
Introduction
¶1
 Librarians and publishers are struggling to find new operating paradigms for 
today’s evolving paperless environment. This struggle is particularly evident in the 
management of full-text electronic databases, which offer scholars ease of use and 
access unmatched by their print counterparts. Publishers work to create and market 
these  resources  so  as  to  ensure  an  ongoing  income  stream  for  their  businesses. 
Librarians strive to provide patrons with the electronic resources they require, but 
are  uneasy  about the  cost  and ephemeral  nature of  these  digital products. Both 
 
 © Sallie  Smith, Susanna Leers, and Patricia Roncevich, 2011. This article is based on a 
program of the same title that was presented by the authors at the AALL Annual Meeting and 
Conference, held in Denver, Colorado, July 12, 2010. The authors gratefully acknowledge the contri-
butions of Yong Li, Ph.D. student, University of Pittsburgh Computer Engineering Program.
 
**  Cataloging/Systems  Librarian,  University  of  Pittsburgh  Barco  Law  Library,  Pittsburgh, 
Pennsylvania.
 ***  Electronic Research & Technology Services Librarian, University of Pittsburgh Barco Law 
Library, Pittsburgh, Pennsylvania.
 
 Acquisitions/Serials Librarian, University of Pittsburgh Barco Law Library, Pittsburgh, 
Pennsylvania.
Extract images from pdf - Select, copy, paste PDF images in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
how to extract text from pdf image file; extract images from pdf file
Extract images from pdf - VB.NET PDF Image Extract Library: Select, copy, paste PDF images in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document
some pdf image extract; extract vector image from pdf
234
LAW LIBRARY JOURNAL
Vol. 103:2  [2011-15]
librarians and publishers are faced with the challenge of negotiating compromises 
over access to and control of these digital information resources.
¶2 
Libraries acquiring digital resources must often choose between access and 
ownership due to a  changing concept of ownership, which has shifted from the 
simple relationship between a person and a thing to a collection of separable rights. 
One database distribution model attempting to compromise between access and 
ownership is what has been termed “purchase plus access.”1 In this model, a library 
pays a lump sum for content ownership and an annual subscription fee for access 
to that content and its search interface on the database provider’s remote servers. 
This model not only ensures a sale, but also provides an ongoing income stream 
for the  database  provider.  Both the  purchase  and  the  online access  agreements 
generally contain usage restrictions.
¶3 
The University of Pittsburgh’s  Barco  Law  Library acquired  one database 
under  such  a purchase-plus-access model. When we unexpectedly had to cancel 
our access subscription due to budget cuts, we had to develop our own delivery 
platform that combined our purchased content with a locally hosted database sys-
tem. The project is  presented as a case  study  that explores  the issues, costs,  and 
steps involved in creating a stand-alone, in-house system using publisher-produced 
content.
The Concept of Ownership
¶4 
In the legal sense as well as the popular sense, ownership has traditionally 
been viewed as a relation between a person and a thing,2 with the person possessing 
the  maximum  right  to  “uninterfered  with”  use  of  the  thing  that  is  owned.3 
Historically, this view of owning and accessing tangible things meshed well with 
established property law and the copyright protections and incentives conveyed to 
information creators. The limited-duration protection that copyright law gives to 
the tangible expression of information was satisfactorily balanced against the pub-
lic good of encouraging the production of original works.4
¶5 
In the print-based library environment, with its physical collection of books 
and  periodicals,  the  ownership  relation  between  a  person and  a  thing was pre-
served, and ownership could be equated with control, access, and use of the infor-
mation embodied in that physical object. Complete control over the owned object 
supported the library’s traditional role as a repository of information5 and as an 
institution that preserved information for  use in the  future.6 Libraries acquired, 
 
1.  Simon Canick, The Ownership Delusion: When Law Libraries “Buy” Electronic Documents, Are 
They Getting More, or Simply Paying More?, aaLL s
pEctRum
, Feb. 2008, at 30, 31.
.
 
2.  L. Thorne McCarty, Ownership: A Case Study in the Representation of Legal Concepts, 10 
a
RtificiaL
i
ntELLigEncE
& L. 135, 136 (2002).
.
 
3.  o
LivER
W
EndELL
h
oLmEs
, J
R
., t
hE
c
ommon
L
aW
 246 (Little, Brown & Co. 1923) (1881). 
 
4.  Scott Matheson, Access Versus Ownership: A Changing Model of Intellectual Property, L
EgaL
R
EfEREncE
s
ERvicEs
q., Mar. 2002, at 153, 156–57.
.
 
5.  See id. at 155.
 
6.  Patrick L. Carr, Forcing the Moment to Its Crisis: Thoughts on Pay-Per-View and the Perpetual 
Access Ideal, a
gainst
thE
g
Rain
, Dec. 2009–Jan. 2010, at 14, 14.
VB.NET PDF Text Extract Library: extract text content from PDF
Extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
extract pdf images; extract pictures from pdf
C# PDF Text Extract Library: extract text content from PDF file in
Ability to extract highlighted text out of PDF document. Image text extraction control provides text extraction from PDF images and image files.
extract photo from pdf; extract jpeg from pdf
235
DATABASE OWNERSHIP: MYTH OR REALITY?
Vol. 103:2  [2011-15]
processed,  cataloged,  secured,  and  preserved  their  physical collections.  Libraries 
also measured themselves “based on the size of their print collections.”7 Scholars 
and other library users understood that the physical items owned by the library 
were accessible to them in a manner defined by library policies and the constraints 
of copyright law.8
¶6 
Digital information has challenged the way libraries configure their collec-
tions and provide information to their  users.  From the patron’s perspective, the 
value of information lies in accessibility, and that accessibility no longer requires 
physical possession in the traditional sense of ownership. Library collections today 
include digital resources (such as databases, e-books, and electronic journals) that 
are readily available to any patron anywhere with an Internet connection. Patron 
demand for information access,9 unrestricted by operating hours and physical loca-
tion, has forced libraries to rethink the concept of ownership of their collections10 
and the legal framework that allows access to that information.
¶7 
Today’s view of ownership has shifted from the protected relation between a 
person and a thing to a “shadowy ‘bundle of rights’” whereby a thing can be owned 
by more than one person, and co-owners possess particular but limited rights.11 
From the intellectual property law perspective, the rights to creative works are com-
parable to a bundle of sticks, with different rights (reproduction, preparation  of 
derivative works, distribution of copies, performance, public display, and attribu-
tion)  potentially  being  held  by  different  entities.12  These  rights  may  not  always 
coexist in a physical object, but may be split apart and separately transferred.13 The 
once “robust unitary conception of ownership” has become fragmented.14
¶8 
In response to the demand for web-based resources, publishers are convert-
ing print content into full-text electronic databases. Digitization offers enormous 
possibilities  for producing manipulable  databases with powerful search capabili-
ties.15  Such  digital  infrastructures  require  significant  investment  (in  hardware, 
software, and personnel)  in  order to create digital content, design dynamic user 
interfaces, maintain data integrity, and store large amounts of digital data. Through 
creative “selection and depiction” of  their  data, database  producers  can generate 
 
7.  a
ss
n
of
R
Es
. L
ibR
., t
ask
f
oRcE
on
n
EW
W
ays
of
m
EasuRing
c
oLLEctions
, f
inaL
R
EpoRt
 
1 (Jan. 31, 2007), available at http://www.arl.org/bm~doc/tf_013107_final.pdf (discussing research 
libraries). 
 
8.  See Prudence S. Adler, Three Key Public Policies for Research Libraries: Net Neutrality, Fair Use, 
Open and Public Access, R
Es
. L
ibR
. i
ssuEs
, no. 273, Dec. 2010, at 1, 3, available at http://publications
s
.arl.org/rli273/.
 
9.  See David Tyckoson, Access vs. Ownership: Changing Roles for Librarians, R
EfEREncE
L
ibR
., vol. 
 
15, iss. 34, 1991, at 37, 38. 
 10.  See Matheson, supra note 4, at 155.
 11.  Thomas C. Grey, The Disintegration of Property, in p
RopERty
69, 69 (J. Roland Pennock & 
 
John W. Chapman eds., 1980). 
 12.  See April M. Major, Copyright Law Tackles Yet Another Challenge: The Electronic Frontier of the 
World Wide Web, 24 R
utgERs
c
omputER
& t
Ech
. L.J. 75, 87 (1998).
.
 13.  McCarty, supra note 2, at 137.
 14.  See Grey, supra note 11, at 69.
 15.  Rachel E. Fenske, Transitioning from Print to Web: A Publisher’s Perspective, 39 R
EfEREncE
u
sER
s
ERvicEs
q. 342, 343 (2000).
.
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
VB.NET: Extract All Images from PDF Document. This is an example that you can use it to extract all images from PDF document. ' Get page 3 from the document.
extract images from pdf; how to extract images from pdf files
C# Create PDF from images Library to convert Jpeg, png images to
C#.NET Project DLLs for Conversion from Images to PDF in C#.NET Program. C# Example: Convert More than Two Type Images to PDF in C#.NET Application.
extract jpg from pdf; extract color image from pdf in c#
236
LAW LIBRARY JOURNAL
Vol. 103:2  [2011-15]
value-added products that merit legal protection.16 Using the bundle of rights meta-
phor, publishers develop pricing and delivery models (with contracts and licensing 
agreements)  that  offer  access  to,  but  limit  control  of,  their  revenue-generating 
products. Yet licensing schemes only increase the information owner’s control over 
usage of the content, at a price, and do not serve the public interest goals of copy-
right.17 In her article on patron access in a digital world, Ann Bartow asserts: “It is 
the digitalization of information that enables licensing, and licensing that threatens 
to compromise patron access in a manner that is not possible with ink-and-paper 
books or periodicals.”18
Libraries and Digital Resources
Ownership Versus Access
¶9 
Libraries are challenged, in times of static or tightened budgets, to balance 
patron demand for access to digital content19 against the security of owning print 
collections  uniquely  tailored to  the communities  they  serve.20 When print  sub-
scriptions are cancelled, libraries retain ownership and have permanent access to 
the back issues that were purchased. Digital information does not offer the same 
security. A library that cancels its subscription to a digital resource may find itself 
without access or archived content. Even if digital content is acquired, its long-term 
viability is questionable. As Richard Ekman said a decade ago, “We simply do not 
know how long digital information will remain stable, in comparison, say, with the 
expected time lines for microform or paper.”21 
¶10 
Acquisition options for digital products are at the discretion of the vendor. 
For any particular product, libraries may or may not be able to choose the level of 
access or ownership that best meets the needs of their patrons. Possible choices 
may include pay-per-view, perpetual access, subscription, digital content owner-
ship, and purchase plus access—each with its own method of information delivery 
and usage restrictions.22 Because of the way digital products are sold, or not sold, 
libraries have been forced to rethink the concept of ownership of their collections 
 16.  See Dov S. Greenbaum, Commentary, The Database Debate: In Support of an Inequitable 
Solution, 13 a
Lb
. L.J. s
ci
. & t
Ech
. 431, 483 (2003).
.
 17.  Matheson, supra note 4, at 162.
 18.  Ann Bartow, Libraries in a Digital and Aggressively Copyrighted World: Rethinking Patron 
Access Through Changing Technologies, 62 o
hio
s
t
. L.J. 821, 829 (2001).
.
 19.  See Carr, supra note 6, at 14. 
 20.  See James M. Donovan, Libraries as Doppelgängers: A Meditation on Collection Development, 
s
outhEastERn
L. L
ibR
., Summer/Fall 2009, at 4, 6.
.
 21.  Richard H. Ekman, Can Libraries of Digital Materials Last Forever?, c
hangE
, Mar.-Apr. 2000, 
 
at 22, 24.
 22.  The vendor defines the terms of access and ownership. Generally speaking, pay-per-view 
involves payment for a single view of the content, and that right is restricted to the patron initiating 
the transaction. Carr, supra note 6, at 14. Perpetual access provides continued access to subscriber 
content following cancellation of a subscription. See Judy Luther et al., Ensuring Perpetual Access to 
Online Subscriptions, 58 s
ERiaLs
L
ibR
. 73, 75 (2010). Ownership of digital content usually involves a 
 
lump-sum payment for an electronic backfile which, when combined with a charge for continued 
access and searching through the vendor’s interface, is called purchase plus access. Canick supra note 1, 
at 31. 
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
Page: Extract, Copy and Paste PDF Pages. Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others in C#.NET Program.
extract images from pdf c#; pdf extract images
C# PDF insert image Library: insert images into PDF in C#.net, ASP
Powerful .NET PDF image edit control, enable users to insert vector images to PDF file. Merge several images into PDF. Insert images into PDF form field.
online pdf image extractor; extract image from pdf
237
DATABASE OWNERSHIP: MYTH OR REALITY?
Vol. 103:2  [2011-15]
and to navigate a confusing array of legal restrictions imposed on patron access and 
usage.23
Law Library Collections
¶11 
Information relating to law and legal scholarship continues to proliferate as 
it becomes more international and interdisciplinary in scope. To meet the needs 
and interests of scholars, law library collections must grow to include expanding 
sources of legal information. With limited budgets and physical storage space, such 
growth  realistically  requires  a  mixture  of  both  print  and  digital  resources.24  In 
response  to the need  for  such hybrid collections,  publishers  are  developing  and 
controlling digital databases of legal information. 
¶12 
Despite  the advantages of  these  legal  databases  (ease of access and  wide 
availability, multiplicity of access points, full-text searching, and reduced physical 
storage space), libraries need to be cognizant of the potential for the permanent loss 
of data if a commercial vendor controls the content.25 Regardless of  how digital 
information is  marketed  for  use,  true  preservation of that information  requires 
complete control of the content, and this may lie solely with the providing institu-
tion.26 Before law libraries can comfortably rely on digital formatting for important 
legal information, continued long-term access—along with freely available authori-
tative primary materials—must be assured.27
¶13 
Collection assessment standards for academic law libraries have been evolv-
ing to address the reality of today’s world of legal research. As early as 1990, in an 
article on law library standards, Harry S. Martin predicted standards would change 
to “increasingly emphasize access over ownership, and service over collections.”28 
Academic  law  libraries  are  subject  to  the  American  Bar  Association’s  (ABA) 
Standards  and  Rules  of  Procedure  for  Approval  of  Law  Schools.29  Standards  have 
undergone revisions over the years to provide flexibility as to format in order to 
reconcile the annual collection assessment  questionnaire  with the emergence  of 
electronic collections. However, it has been difficult to develop a “clear and consis-
tent” method of counting electronic resources in libraries30 in a way that satisfies 
the  collection requirements  of the standards.31 As collections continue to evolve 
 23.  See generally Matheson, supra note 4.
 24.  See John Palfrey, Cornerstones of Law Libraries for an Era of Digital-Plus, 102 L
aW
L
ibR
. J. 171, 
 
175–76, 2010 L
aW
L
ibR
. J. 11, ¶ 13–19.
.
 25.  Morris L. Cohen, Researching Legal History in the Digital Age, 99 L
aW
L
ibR
. J. 377, 390, 2007 
L
aW
L
ibR
. J. 21, ¶ 39.
.
 26.  Matthew  Jenks,  The  Internet as Depository: The  Legal  Landscape  of Digital Preservation, 
t
EchnicaL
s
ERvicEs
L. L
ibR
., Mar. 2010, at 10, 11.
.
 27.  See Claire M. Germain, Legal Information Management in a Global and Digital Age: Revolution 
and Tradition, 35 i
nt
L
J. L
EgaL
i
nfo
. 134, 153 (2007).
.
 28.  Harry S. Martin III, From Ownership to Access: Standards of Quality for the Law Library of 
Tomorrow, 82 L
aW
L
ibR
. J. 129, 139 (1990).
.
 29.  a
m
. b
aR
a
ss
n
, s
tandaRds
and
R
uLEs
of
p
RocEduRE
foR
a
ppRovaL
of
L
aW
s
chooLs
(2010–
2011). Standard 606 and its interpretations require that law libraries ensure access to the electronic 
resources in their collections. Id. at 43–44.
 30.  Rita Reusch, Changes to ABA Annual Questionnaire Proposed, aLL-sis n
EWsL
., Summer 2007, 
 
at 7, 7. 
 31.  In 2007, the year we acquired our database, the ABA questionnaire specifically distinguished 
between electronic titles owned and controlled by the library versus electronic titles whose access 
C# PDF Convert to Images SDK: Convert PDF to png, gif images in C#
Professional .NET library and Visual C# source code for creating high resolution images from PDF in C#.NET class. Cut and paste any areas in PDF pages to images.
extract image from pdf file; extract image from pdf using
VB.NET Create PDF from images Library to convert Jpeg, png images
VB.NET Guide for Converting Raster Images to PDF File Using VB.NET Sample Code. VB.NET Example of More than Two Images to PDF Conversion. This VB.
extract text from pdf image; extract images pdf acrobat
238
LAW LIBRARY JOURNAL
Vol. 103:2  [2011-15]
from physical volumes to digital formats, methods for assessing libraries are being 
reshaped to reflect the “changing context of collection access and ownership.”32
Case Study
Background
¶14 
In May 2007, the University of Pittsburgh’s Barco Law Library entered into 
an agreement with Gale for U.S. Supreme Court Records and Briefs, 1832–1978, a 
large but static database of historical legal documents.33 This digital collection was 
offered only as a  purchase-plus-access  product. This required a  purchase  agree-
ment (granting ownership of the content for a sizable lump sum) and a subscrip-
tion and license agreement (granting access to that content and delivery platform 
on the publisher’s servers for a more modest annual fee). The purchase agreement 
also included MARC records for the documents in the database.34 Both agreements 
contained usage limitations. Although our case study is based on this particular 
product, our experience is applicable to other situations where databases are sold 
using this distribution model.
¶15 
Our law library had access to other databases from this publisher, but those 
were made available to us through our parent university’s library system. Thus, this 
acquisition arrangement was the law library’s first experience with such a purchase-
plus-access distribution model. Our annual subscription agreement allowed us to 
access our new database using the same familiar interface, with its advanced full- 
text search capabilities and links to document images.
¶16 
The purchase price of our digital content was substantial, but it is under-
standably difficult for publishers to arrive at pricing models that compensate them 
for their effort but are also reasonable for libraries given the value of the resource. 
The publisher justified the high price of our new database by emphasizing that we 
owned  the  digital  content,  which  they  would  provide  on  request.  We  therefore 
asked for content delivery and received several cartridges of Digital Linear Tape 
(DLT)35 as well as a manifest on a single CD-ROM. This manifest was an alphabeti-
hinged on the continuing payment of a licensing agreement. The ownership component of our data-
base’s distribution model, therefore, had an impact on that year’s collection reporting requirements 
and the method for counting electronic titles.
 32.  Martha Kyrillidou, Reshaping ARL Statistics to Capture the New Environment, aRL, no. 256, 
Feb. 2008, at 9, 11, available at http://www.arl.org/bm~doc/arl-br-256.pdf.
 33.  This database is one part of the Making of Modern Law series, a suite of historical materials 
from Gale Digital Collections. The database contains approximately 200,000 documents of primary 
source material from 70,000 U.S. Supreme Court cases that had been published in various formats 
over the years. The database version combines the digitized documents (briefs, petitions, and other 
court documents) with a delivery platform that offers full-text searching. See The Making of Modern 
Law: U.S. Supreme Court Records and Briefs, 1832–1978, g
aLE
d
igitaL
c
oLLEctions
, http://gdc.gale
.com/products/the-making-of-modern-law-u.s.-supreme-court-records-and-briefs-1832-1978  (last 
visited Mar. 3, 2011).
 34.  We did not request these descriptive records for addition to the university catalog, anticipat-
ing that the majority of our law school patrons would search the database using specific document 
identifiers.
 35.  DLT is a widely used format used for data backup and storage. See Wilhelm Ott, Digital 
Publishing: Tools and Products, 5 p
oisis
& p
Raxis
 81, 87 (2008). 
239
DATABASE OWNERSHIP: MYTH OR REALITY?
Vol. 103:2  [2011-15]
cal list of documents, each with a unique document identifier. Our library had no 
DLT drive for  using these tapes, so we  requested  another format that  would  be 
compatible with our existing computer hardware. Several weeks were spent deter-
mining what format was acceptable for our use, whether the publisher could con-
vert the data to that format, and at what additional cost. Six months after completing 
our original transaction we received, at no extra cost, two 500 GB external hard 
drives. We assumed we now had a “readable” version of our purchased content.
¶17 
Our intent was to continue relying on the annual subscription for access to 
the content through the publisher’s host servers and interface. The financial crisis 
of 2008, however, impacted our library as it did many others. In May 2009, two 
years after completing our original agreements, we cancelled the annual access sub-
scription due to budget cuts. With the database content no longer accessible to us 
through the publisher’s servers and delivery platform, we began to explore ways to 
convert our purchased content into a usable resource.
Project Planning
¶18 
We initiated our project by examining the database content provided on the 
two external hard drives. We had been told by the publisher that the content con-
sisted  of  approximately  200,000  documents  totaling  nearly  11,000,000  pages. 
(Noticeably lacking  was  any  documentation about  the  database or  its  file struc-
ture.) The drives contained two types of files: TIFF-formatted digital image files36 
of all the document pages in the database, and XML files of metadata to enable 
document  retrieval  and  full-text searching.  The image files were organized  into 
seventeen main folders, and these contained thousands of uniquely identified sub-
folders. Each subfolder contained all the page images of a single document, and was 
accompanied by an XML file, called the manifest, which provided identifying infor-
mation for the document and for each individual word in the document. The image 
folders were well organized, as shown in figure 1, and, while extensive, were a com-
prehensible collection of content that we could envision accessing in some fashion. 
But the sheer quantity of XML metadata marking up every word in 200,000 docu-
ments posed a serious challenge for our data manipulation capabilities. 
¶19 
Clearly, this project was beyond the scope of the time, technical expertise, 
and computer equipment  available in  our  law  library. We spent the next several 
months exploring outsourcing possibilities: the University of Pittsburgh’s Digital 
Research Library was unwilling to add our content, with its usage restrictions, to 
their existing web-accessible digital collection; our university’s computer services 
department offered to sell server space to us, but offered no programming support; 
our law school’s Information Technology (IT) staff estimated our project would 
require at least one hundred programming hours and was unable to assume the 
task; contracting with a digital collection management service for a database this 
size was estimated in the $20,000 range and would lock  us into another  annual 
maintenance fee.
 36.  TIFF or Tagged Image File Format is a useful image archive format because it stores digital 
data in a “lossless” format (i.e., no digital information is lost during data compression). 
240
LAW LIBRARY JOURNAL
Vol. 103:2  [2011-15]
¶20 
We finally contacted our university’s computer engineering program and 
were fortunate to find Yong Li, a skilled  and enthusiastic doctoral student, who 
agreed to work on our project for a reasonable fee. In June 2010, with Yong Li’s 
guidance, and in consultation with the law school’s IT staff, we mapped a strategy 
for developing a stand-alone, in-house database limited to university users (per our 
purchase agreement).
¶21 
We decided that the majority of our  patrons would search the database 
using specific criteria, and reluctantly opted to omit full-text searching in light of 
our limited resources. Searches would be accomplished using defined fields; results 
would display with links to PDF-formatted documents. Most of the programming 
and development work would be done on an upgraded, stand-alone computer in 
the law library’s technical services department. Once functional, the database could 
be transferred to servers monitored by the law library’s IT staff, and access (limited 
by university IP address) could be provided from the law library web page.
Database Development
¶22 
The initial step in our project work plan, shown in table 1, was to convert 
the TIFF images into PDF37 files using AdultPDF.38 This conversion process took 
about two  weeks due to the large  amount of data. We  then examined  the XML 
metadata, identified those elements required for our defined field searching, and 
 37.  There are a number of advantages to converting documents to PDF files: they are com-
pressed, thereby using less space for online storage; they are automatically paginated for easy online 
browsing; the quality is excellent; and images can be easily magnified when the originals are faint or 
fuzzy. 
 38.  AdultPDF provided the tools we needed to convert multiple TIFF page images to single PDF 
document files. The batch process optimized the conversion speed. See Tiff to PDF (tiff2pdf) v3.4, 
a
duLt
pdf, http://www.adultpdf.com/products/tifftopdf/index.html (last visited Feb. 6, 2011).
.
Figure 1. Database File Organization Scheme
241
DATABASE OWNERSHIP: MYTH OR REALITY?
Vol. 103:2  [2011-15]
determined the database schema. MySQL39 was used for the database infrastructure 
because of its performance, functionality, and cost efficiency. The relevant metadata 
was then extracted from the XML files and mapped into the database schema. A 
data import tool used during this mapping process helped to confirm the validity 
and completeness of each imported file. SQL Buddy40 was used to design a custom-
ized query interface, and various search conditions were tested. The final addition 
to the query screen was a hyperlink to a help page explaining the structured search 
format.
¶23 
Our version of the database indexes fifteen defined fields for each of the 
documents. These fields are the ones we had identified in the XML metadata as 
important  document  identifiers  to  be  mapped  onto  the  database  schema.  They 
provide search capability by case name, case citations, docket number, document 
type, and various dates. A query screen, shown in figure 2, provides search boxes 
with  drop-down  menus  for  the  user  to  construct  text-based  searches  using  the 
defined fields and to optionally apply date restrictions. An advanced search box is 
 39.  MySQL is an open-source, full-featured database management system popular for use in 
web-based applications. MySQL Database 5.5, m
y
sqL, http://www.mysql.com/products/enterprise
e
/database/ (last visited Feb. 6, 2011). 
 40.  SQL Buddy is an open-source database software tool that allows you to edit SQL databases 
on the web. sqL b
uddy
, http://www.sqlbuddy.com (last visited Feb. 6, 2011).
Table 1
Project Work Plan
Process
Technology/Expertise Used
1.  Convert TIFF files of individual pages 
into multipage PDFs for each docu-
ment in the database.
Batch processing using a command line tool called “AdultPDF 
tiff2pdf.”
2.  Examine metadata in XML files to 
determine database schema, and 
search and display options for user 
interface.
Law librarians discussed how database is used and chose the 
most important metadata categories for the database. 
3.  Create database and necessary data 
tables.
We chose MySQL for building the database infrastructure due  
to its performance, functionality, and cost efficiency.
4.  Map data elements from the XML 
files to the database fields.
Yong Li developed a data import tool (“import-form.php”). 
5.  Import data into database, check 
validity and completeness.
Data import tool “import-form.php” checks validity, lists the 
names of the files being processed, and flags any files that  
cannot be processed.
6.  Design user interface.
SQL Buddy, an open-source database management tool was 
used to design the interface.
7.   Write “help” page. 
Law librarians worked together to create “help” information 
geared toward law library patrons. 
Source:  Yong Li, Law School Digital Library Project (June 2010).
242
LAW LIBRARY JOURNAL
Vol. 103:2  [2011-15]
also available for writing a direct SQL41 query. Search  results  display as a list of 
relevant documents, each linked to its PDF file, which can be viewed, printed, or 
saved.
¶24 
After two months of effort (155 programming hours), total expenditures 
of approximately $3000, and roughly 2500 lines of programming code, we had a 
usable database! Our product is a plain interface, to be sure, but our purchased 
content of valuable historical documents is no longer captive to a publisher’s serv-
ers,  and our  library  is  free from  ongoing,  uncontrolled  vendor  access fees.  The 
monitoring  and  control  of  the  data  and  supporting systems  are now up  to us. 
Project costs are shown in table 2.
Survey 
¶25 
We  knew many other institutions had  acquired  this  database  under the 
same requisite purchase-plus-access terms and wondered about their experiences 
with owning and using the database, and what concerns they had about this distri-
bution model. 
¶26 
To answer these questions, a brief online survey  was distributed in May 
2010 to ninety-eight institutions listed on the publisher’s web site as holders of this 
database. All  but  three  of  the  survey  recipients  were  law  libraries. We  received 
twenty-eight responses to the survey.42 Twenty of the respondents identified them-
 41.  SQL (Structured Query Language) was developed to manage information in relational data-
bases.
 42.  All survey results are on file with the authors.
Figure 2. Query Screen
Documents you may be interested
Documents you may be interested