c# pdf to image without ghostscript : Convert fillable pdf to word fillable form application SDK tool html wpf asp.net online shawn_thesis5-part647

CHAPTER 2. DOCUMENT REPOSITORY 
36
6
A
E
D
C
B
Categorization
Structures
Documents
Categorization structure 1
Categorization structure 2
Figure 2.2 Illustration of multiple categorization structures over one set of documents 
hierarchies  is  more  of  an  art  than  science,  but  using  clear  logical  relationships 
consistently  throughout  the  structure  is  key  to  developing  a  successful  structure.  
Approaches to developing good categorization structures will be discussed further in 
Section 2.3.3.  In designing the document repository for environmental regulations, we 
seek to identify some of the defining characteristics along whose dimensions different 
categorization  structures  may  be  developed  for  environmental  regulations  and  their 
related supplementary documents. 
2.3.2  Information Retrieval 
One of the primary goals in developing the document repository is to make documents 
relevant for interpreting regulations more accessible, or easier to find.  This area of study 
is generally known as information retrieval.   This section describes briefly some of the 
issues in information retrieval that are relevant to our research. 
Convert fillable pdf to word fillable form - C# PDF Form Data fill-in Library: auto fill-in PDF form data in C#.net, ASP.NET, MVC, WinForms, WPF
Online C# Tutorial to Automatically Fill in Field Data to PDF
best pdf form filler; convert pdf fillable form
Convert fillable pdf to word fillable form - VB.NET PDF Form Data fill-in library: auto fill-in PDF form data in vb.net, ASP.NET, MVC, WinForms, WPF
VB.NET PDF Form Data fill-in library: auto fill-in PDF form data in vb.net, ASP.NET, MVC, WinForms, WPF
pdf fill form; convert pdf fillable form to html
CHAPTER 2.  DOCUMENT REPOSITORY 
37
7
2.3.2.1  Precision and Recall 
Two common metrics for evaluating information retrieval systems are precision and 
recall.  Precision is the ratio of correctly returned documents to the total number of 
returned documents.  This ratio reflects how likely it is that a returned document is 
relevant.  Recall is the ratio of correctly returned documents to the total number of 
relevant documents in the system.  This ratio reflects how complete a result set from a 
search may be.  The quantities used to calculate precision and recall are illustrated in 
Figure 2.3.  Figure 2.4 shows the equations for calculating precision and recall.   
It is desirable for most information retrieval systems to have a balance between these two 
indicators.  If one has a very high value and the other is very low the resulting system 
may not be very useful.  For example, a system might attain high precision by simply 
returning a single document with the highest relevance score for the given query.  Since 
that single  document would very  likely be relevant, the system would have  a high 
precision rating.  This, however, will not be a very useful system for most users since 
they probably want to see a reasonably sized set of highly relevant documents returned as 
the result (i.e., users would like greater recall). 
A system designed to maximize recall could simply return the set of all documents it 
contains in response to any query.  The results would have a low precision rating, but no 
relevant documents would be missed by this approach so it would have very high recall.  
Users  will  probably have  difficulties  using  this  system  because  of  the  information 
overload, so high recall with low precision is also not useful. 
2.3.2.2  Polysemy and Synonymy 
Polysemy refers to the fact that a word can have multiple meanings.  For example, the 
word “bank”  might refer  to  a riverbank  or  a financial institution.   This creates an 
information retrieval problem, since it may not be obvious what sense of a word a user  
C# Create PDF from OpenOffice to convert odt, odp files to PDF in
Convert OpenOffice Text Document to PDF with embedded fonts. NET control to change ODT, ODS, ODP forms to fillable PDF formats in Visual RasterEdge.XDoc.PDF.dll.
change pdf to fillable form; convert an existing form into a fillable pdf form
C# Create PDF Library SDK to convert PDF from other file formats
to create searchable PDF document from Microsoft Office Word, Excel and Create and save editable PDF with a blank page Create fillable PDF document with fields.
create a pdf form that can be filled out; create fillable forms in pdf
CHAPTER 2.  DOCUMENT REPOSITORY 
38
8
Set of
documents
retrieved
Set of relevant
documents in
the system
RN
RR
IR
RN:
RR:
IR:
Relevant documents
not retrieved
Relevant documents
retrieved
Irrelevant documents
retrieved
Figure 2.3 Illustration of quantities used to calculate precision and recall 
IR
RR
RR
precision
#
#
#
+
=
;          
RN
RR
RR
recall
#
#
#
+
=
Figure 2.4 Precision and recall equations 
intends when constructing a database query.  Similarly, it may not be obvious what sense 
of a word is used in a particular document.  The precision of search results suffers due to 
polysemy because unwanted documents will be selected. 
An approach for addressing the polysemy problem is to use word sense disambiguation 
techniques to determine what sense of the word is intended.  There has been significant 
work done to address this problem [25, 47, 103].  However, polysemy continues to be a 
difficult  information  retrieval  issue.    In  context  there  is  less  polysemy,  so  with  a 
categorization structure the problem is minimized. 
Synonymy refers to the fact that there can be multiple words or phrases that express the 
same concept.  This is a problem for information retrieval tasks because it may result in 
C# PDF Field Edit Library: insert, delete, update pdf form field
A professional PDF form creator supports to create fillable PDF form in C#.NET. An advanced PDF form maker allows users to create editable PDF form in C#.NET.
convert word form to pdf with fillable; convert word to pdf fillable form
VB.NET Create PDF from OpenOffice to convert odt, odp files to PDF
VB.NET How-to, VB.NET PDF, VB.NET Word, VB.NET Excel, VB.NET Convert OpenOffice Spreadsheet data to PDF. Turn ODT, ODS, ODP forms into fillable PDF formats.
auto fill pdf form from excel; add attachment to pdf form
CHAPTER 2.  DOCUMENT REPOSITORY 
39
9
low recall for searches.  A search for a word or phrase will miss documents that contain 
synonyms for the search string, thus decreasing the recall of an information retrieval 
system.   
A straightforward  approach  to this  problem is to apply dictionaries and  thesauri  to 
identify words and phrases that express the same concept.  This approach can result in a 
rapid increase of the polysemy problem and consequent decrease in the precision of 
search results.  More advanced approaches have been developed that use conceptual 
features to address the synonymy problem more successfully, with less of a degrading 
effect on precision [58]. 
2.3.3  Categorization Systems 
There  are  many  possible  approaches  for  developing  a  classification  system  for 
documents.  The wide range of methods can be grouped into three broad categories: 
manually  constructed,  automatically  constructed,  or  semi-automatically  constructed 
categorization systems [41].  Each of these approaches has advantages and disadvantages. 
The most relevant issues with respect to building a regulation document repository will 
be discussed next. 
2.3.3.1  Classification Automation 
Manually  constructed  categorization  hierarchies  are  a  straightforward  solution  for 
organizing small sets of documents.  In the manual approach a categorization hierarchy is 
manually  constructed,  and  then  documents  are  manually  added  to  the  appropriate 
category in the structure.  The benefits of this approach are that it is possible to build a 
high quality categorization hierarchy with clear relationships between categories, and the 
accuracy of documents within the categories may also be very high.  There are a number 
of drawbacks, however.  First, manual categorization is extremely time-consuming.  This 
is particularly true for large categorization efforts involving a team of people organizing 
VB.NET Create PDF Library SDK to convert PDF from other file
Best VB.NET component to convert Microsoft Office Word Create and save editable PDF with a blank page Create fillable PDF document with fields in Visual Basic
create a fillable pdf form; create a writable pdf form
VB.NET Create PDF from Word Library to convert docx, doc to PDF in
Create PDF files from both DOC and DOCX formats. Convert multiple pages Word to fillable and editable PDF documents.
create fillable pdf form from word; convert word form to fillable pdf form
CHAPTER 2.  DOCUMENT REPOSITORY 
40
0
documents,  where  detailed  guidelines  and  strict  attention  to  details  are  necessary.  
Second,  it  is  very  difficult  to  ensure  consistent  categorization  in  the  manual 
categorization efforts.  Even when a single individual is responsible for categorizing all 
documents, that person may put the same document in different categories at different 
points in time.  When the categorization is a team project, the problem is multiplied since 
different people may put the same document in different categories even though they use 
the same set of elaborate guidelines.  Despite these drawbacks, it is possible to build 
high-quality categorization hierarchies  manually.  Some great successes in this area 
include the MeSH
21
, the Yahoo directory
22
, and the open directory project.
23
In the automatic categorization  approach, a categorization hierarchy is automatically 
derived  from  the  document  set,  and  documents  are  automatically  added  to  this 
categorization hierarchy.  There are many methods for accomplishing this goal, and it 
continues to be an active area of research [27, 50].  In some cases, the categorization 
hierarchy is automatically extracted from an uncategorized set of sample documents.  
This methodology has a drawback illustrated by the Bailey quotation in Section 2.3.1; 
that is, there are many possible dimensions along which to organize a categorization 
hierarchy, and not all of them will be useful.  Other methods for automatically creating a 
categorization hierarchy involve the use of training sets that have already been properly 
categorized.  The system can then use the training set to automatically generate rules for 
populating  a  categorization  hierarchy  with  documents.    The use  of training  sets is 
generally quite effective when the training sets are reasonably large, but any manual 
21
MeSH, the Medical Subject Headings controlled vocabulary, is used for indexing articles, for cataloging 
books, and for searching MeSH-indexed databases.  The MeSH vocabulary facilitates the retrieval of 
information that may span different terminologies.   MeSH  is  managed  by the National Library of 
Medicine, and is available on the Internet at the web address http://www.nlm.nih.gov/mesh. 
22
The Yahoo directory is a directory of websites developed by Yahoo! Inc.  The web address for this 
directory is http://dir.yahoo.com/.  A staff of editors at Yahoo categorizes web pages into the manually 
developed classification hierarchy, which was one of the first to popularize this approach to organizing 
the World Wide Web. 
23
The open directory project is a directory of websites maintained by a community of volunteer editors.  
The web address for this directory is http://dmoz.org/.  Editors volunteer to maintain a small portion of the 
complete classification hierarchy.  The open directory project forms the core web directory for a number 
of search engines, such as Netscape Search, AOL Search, Google, and Lycos. 
C# Create PDF from Word Library to convert docx, doc to PDF in C#.
Convert multiple pages Word to fillable and editable PDF documents in both .NET WinForms and ASP.NET. Convert both DOC and DOCX formats to PDF files.
create fill pdf form; converting a word document to pdf fillable form
VB.NET Create PDF from PowerPoint Library to convert pptx, ppt to
Convert to PDF with embedded fonts or without original fonts fast. Convert multiple pages PowerPoint to fillable and editable PDF documents.
pdf fill form; convert word to pdf fillable form online
CHAPTER 2.  DOCUMENT REPOSITORY 
41
1
categorization errors in developing training sets may be magnified by the automatic 
classification  system in the end results.   There are two main  drawbacks to a fully 
automated classification system.  First, the logical relationships within the categorization 
hierarchy may not be explicitly clear.  Since the primary reason for using categorization 
structures is that they tend to be intuitively clear and easy for people to work with; 
constructing categorization hierarchies that are not intuitive to work with reduces their 
value.  Second, since the logical transparency of the structures may be low, it may be 
difficult  to  audit  the  classification  structures  for  quality.    Thus, the  quality of  the 
categorization structure could be reduced.  Despite these drawbacks, fully automated 
categorization  systems  may  be  quite  useful  when  it  is  necessary  to  quickly  and 
inexpensively categorize large document sets, particularly when quality is not a primary 
concern.   
Partially automated classification systems seek to blend the advantages of both manual 
and automatic categorization.  There are many possible combinations of manual and 
automatic categorization, so the discussion here will focus on the most common method.  
In this approach, the categorization structure is designed manually, perhaps with the 
assistance of software tools, and the categorization hierarchy is automatically populated 
with documents.  Constructing the categorization hierarchy manually allows the use of 
human  judgment  to  develop  useful  logical  relationships  within  the  hierarchy.  
Automatically  populating  the  hierarchy  with  documents  according  to  pre-specified 
categorization rules reduces the two main drawbacks to manual categorization.  First, 
populating the categorization hierarchy is fast and efficient, much less time-consuming 
and  less  expensive  than  doing  it  manually.    Second,  automatically  populating  the 
categorization hierarchy ensures that the application of categorization rules is consistent.  
This form of partially automated classification must deal with the problems of developing 
an effective categorization hierarchy and specifying good classification rules.  Extensive 
experimentation and iterations are necessary for building a good classification hierarchy 
using a partially automated classification approach. 
VB.NET Create PDF from Excel Library to convert xlsx, xls to PDF
Create fillable and editable PDF documents from Excel in Create searchable and scanned PDF files from Excel in VB Convert to PDF with embedded fonts or without
add fillable fields to pdf online; convert word to pdf fillable form
C# Create PDF from Excel Library to convert xlsx, xls to PDF in C#
Create fillable and editable PDF documents from Excel in both Create searchable and scanned PDF files from Excel. Convert to PDF with embedded fonts or without
pdf fillable form creator; convert pdf forms to fillable
CHAPTER 2.  DOCUMENT REPOSITORY 
42
2
There are many factors to consider when deciding which of the three categorization 
approaches to use for organizing documents: manual, automatic, or partially automated.  
The most  salient feature,  however,  is the  trade-off  between the error rates  of fully 
automated approaches, and the time and cost of more manual approaches.  In building the 
regulatory document repository, we use a partially automated approach to categorizing 
documents.  Given the large volume of environmental regulatory related documents and 
limited resources available from government or industry to organize them, a manual 
categorization  approach  would  be  impractical.    This  is  particularly  true  when  one 
considers that there are a variety of different perspectives that industry and government 
groups  would like to see,  thus  splitting these  limited resources into a multitude  of 
categorization  efforts.    A  fully  automated  approach  to  organizing  environmental 
regulatory information would not be a good fit either, since having clear logical structures 
and  low  error  rates  is  very  important.    Locating  relevant  environmental  regulatory 
documents is extremely important, so logically incoherent categorization structures, or a 
high rate of incorrectly categorized documents would not be acceptable.  The problem of 
incorrectly  categorized  documents  is  particularly  acute  for  environmental  regulatory 
information, since the proper category for a document sometimes depends upon minor 
conceptual issues. 
2.3.3.2  Approaches to Developing a Classification Hierarchy 
An  essential  component  of  partially  automated  classification  is  to  develop  the 
classification hierarchies.  This section addresses several approaches for developing these 
hierarchies.  Categorization hierarchies can be developed from a top-down perspective, 
bottom-up perspective, or a hybrid combination of these two methods. 
A top-down approach to developing a classification hierarchy refers to the approach of 
conceptualizing a meaningful way to break down documents into a set of categories, and 
expanding these categories into subcategories to whatever depth seems appropriate.  The 
entire  process is done without examining representative documents from  the  set  of 
CHAPTER 2.  DOCUMENT REPOSITORY 
43
3
documents to be categorized.  Rules can then be developed to filter documents into 
appropriate categories within  the classification  hierarchy.   While  very clean  logical 
structures can result from this type of approach, there are several weaknesses to this 
method.    First,  a  set  of  documents  may  not  map  well  to  an  abstractly  created 
classification  hierarchy.    Some  categories  may  be  empty,  or  nearly  empty.    Other 
categories may be populated with so many documents that it may be difficult to identify 
those of interest.  Second, there may be many documents in the set of input documents 
that do not fit into any of the categories that were developed with the top-down approach.  
These documents will be incorrectly classified, or not classified at all, thus making them 
inaccessible. 
A bottom-up approach  is  basically  the  method  of  browsing  through  a set of input 
documents and developing a classification hierarchy based upon the terms and concepts 
that seem to stand out in the document collection.  This approach can be very effective 
for a static document collection.  However, if the document collection grows or changes 
over time, it can be difficult to adapt the classification hierarchy to the new data.  In 
addition, a bottom-up classification hierarchy will not generalize well if applied to other 
document sets.   This  is because the prominent terms, concepts, and depth  of topic 
coverage will be very specific to the particular document set for which the classification 
hierarchy is developed. 
A  combination  of  top-down  and  bottom-up  approaches,  called  a  hybrid  approach, 
balances  the  strengths  and weaknesses of  the  two methods.  When using a  hybrid 
approach to developing a classification structure, a top-down conceptualization of the 
classification hierarchy is iteratively refined using the data from a bottom-up perspective.  
For example, the top levels of a classification hierarchy might be developed using a top-
down  approach.    Basic  classification  rules  for  adding  documents  to  the  respective 
categories  could  then  be  developed,  and  an  automated  system  could  populate  the 
structure with documents.  The designer could then survey the results, investigating how 
well the categories break down the documents into manageable units, and what types of 
CHAPTER 2.  DOCUMENT REPOSITORY 
44
4
documents failed to match any categories within the classification structure.  Using an 
iterative approach, subcategories can then be added to the initial classification structure 
until  the  designer  is  satisfied  with  the distribution  and  coverage  of  the  documents 
included  in  the  classification  hierarchy.    This  hybrid  approach  to  designing  a 
classification structure should mitigate some of the problems associated with a top-down 
method, while improving the generalization of a bottom-up approach. 
2.4  Document Repository Features 
As  mentioned  in  the  previous  section,  a  semiautomatic  approach  to  developing 
classification hierarchies is used for the development of the document repository for 
environmental regulations.  In this section we will discuss the process used for designing 
and refining categorization hierarchies.  A software package from Semio Corporation was 
used for purposes of building the classification hierarchies.  There are a number of 
software  programs  available  from  companies,  research  entities,  or  the  open  source 
software community that provide categorization tools.  The use of a commercial software 
package from Semio Corporation provides many useful features, such as a graphical user 
interface, noun phrase extraction services, and other tools that greatly facilitate this 
research  work.   Nevertheless,  the  issues discussed in this  section  are  applicable  to 
designing and building classification hierarchies to organize sets of documents in general. 
We will illustrate the process for building a categorization hierarchy using a hybrid top-
down, bottom-up strategy with the Semio software package.  Once one is familiar with 
the set of documents to be organized, the first step is to develop an initial high-level 
categorization hierarchy.  With the software tools used in this research project, this 
entailed developing a small text file with a few high-level categories, and “latching” noun 
phrases that help assign documents to those categories. 
CHAPTER 2.  DOCUMENT REPOSITORY 
45
5
When a document is being processed, the software automatically extracts noun phrases 
from the document that are characteristic of the topics the document is related to.  For 
convenience these  noun phrases are termed “concepts”.   C oncepts are useful when 
developing categorization hierarchies because they can be used to assign documents that 
contain specific concepts to particular locations within the categorization hierarchy. 
In Semio, a text file containing an initial categorization hierarchy has the form shown in 
Figure  2.5.    Category  names  are  denoted  by  a  word  or  a  phrase  preceded  by  an 
exclamation point.  An indented list of words and phrases preceded by plus or minus 
characters indicate the latching concepts for that particular category.  Concepts preceded 
by a plus character indicate that documents containing those concepts should be placed 
under  the  related  category.    For  example,  documents  containing  the  concept 
“amendment” should be placed under the “On 
the Topic of Regulation” category in 
Figure 2.5.  Concepts preceded by minus character indicates that documents containing 
those concepts should not be placed under that particular category even if they contain 
other latching concepts for the category.  For example, “penalty” and “sanction” are 
exclusionary concepts under the “On the Topic of Regulation” category, and they prevent 
documents containing these concepts from latching into this category.  An indented line 
that  is  started  by  an  exclamation  point  indicates  another  category  within  the 
categorization hierarchy.  The tabular depth of the category name indicates the depth 
within  the  categorization  hierarchy.    For  example,  “Permits”  and  “Penalties  and 
Sanctions” are both subcategories of “On  the Topic of Regulation” in Figure 2.5. 
Once an initial specification file for the categorization hierarchy is created, the software 
package can be used to assign documents to populate the classification structure.  When 
the classification structure is populated with documents it is possible to get statistics 
indicating how well the classification structure represents the content of the document 
corpus.  For example, the percent of documents in the document corpus that are matched  
Documents you may be interested
Documents you may be interested