asp.net web api 2 for mvc developers pdf : Scan multiple pages into one pdf software Library dll winforms asp.net windows web forms Minas%20de%20datos%20y%20WEB1-part1620

Using Data Mining to Construct an Intelligent Web Search System
153
terms. This concept weight is derived from the semantic degree of term property.
In this example the semantic degree between “windows” and “OS” is 0.9 and
the concept weight in OS concept is 0.9. The semantic degree between “OS”
and “Microsoft” is 0.8 and the concept weight in Microsoft concept is 0.72 (i.e.,
0.9×0.8).
Figure 5. Microsoft ontology.
Office
Word
Excel
PowerPoint
Access
FrontPage
Microsoft
OS
Windows
NT
XP
98
95
2000
Me
Server
Professional
Synonym
Has
Has
Synonym
Synonym
Has
Has
Has
SD=0.8
SD=1.0
SD=1.0
SD=1.0
SD=0.9
SD=0.7
SD=0.6
SD=0.8
Figure 6. Query examples with microsoft ontology.
Query example with Microsoft ontology
Query term: Windows
Main concept: (Windows
| cw=1)
Related concepts:
(95
,98
,2000
,NT
,XP
| cw=0.7), (OS
| cw=0.9)
(Microsoft
| cw=0.72),(Office
| cw=0.576)
(Access
, Excel
,Word
,... | cw=0.46)
Query term: Office
Main concept: (Office
| cw=1)
Related concepts:
(Word
,Excel
,PowerPoint
,Access
,Frontpage
| cw=0.8),
(Microsoft
| cw=0.8)...
Scan multiple pages into one pdf - Merge, append PDF files in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Provide C# Demo Codes for Merging and Appending PDF Document
batch combine pdf; batch pdf merger
Scan multiple pages into one pdf - VB.NET PDF File Merge Library: Merge, append PDF files in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Guide and Sample Codes to Merge PDF Documents in .NET Project
pdf mail merge plug in; add multiple pdf files into one online
154 Yu-Ru Chen, Ming-Chuan Hung and Don-Lin Yang
Figure 7 is a simple example of Windows ontology and Figure 8 is the query
example “windows” with Windows ontology. In Figure 8, we add the negative
Figure 7. Windows ontology.
Figure 8. Query examples with windows ontology.
Query example with Windows ontology
Query term: Windows
Main concept: (Windows
| cw=1)
Main concept: (Windows,
,
,
,
,
| cw=1)
Related concepts:
(
,
,
| cw=0.8), (
,
| cw=0.56)
(
,
,
,
,
,
,
,
| cw=0.64),
(
,
,
,
| cw=0.512)
Plus these negative related concepts, if user want filter Windows
concept of Microsoft:
(
| cw=–1), (95,98,2000,NT,XP | cw=–0.7),
(OS,
| cw=–0.9), (Microsoft,
| cw=–0.72)
(Office | cw=–
0.576), (access,excel,word, , | cw=–0.46)
 


























SD=0.7
SD=0.8
SD=1.0
SD=1.0
SD=0.8
SD=1.0
SD=1.0
Synonym
Synonym
Synonym
Synonym
Synonym
Has
Kind of
IsA
Windows
Has
Synonym
SD=1.0
VB.NET TWAIN: Scanning Multiple Pages into PDF & TIFF File Using
This VB.NET TWAIN pages scanning control add-on is developed to offer programmers an efficient solution to scan multiple pages into one PDF or TIFF document
add pdf files together reader; pdf merge
C# TWAIN - Acquire or Save Image to File
In order to scan multiple pages into one PDF document through C#.NET programming, you may need to add the following dlls to your C# TWAIN scanning project.
all jpg to one pdf converter; break pdf file into multiple files
Using Data Mining to Construct an Intelligent Web Search System
155
related concepts, which are used to filter the documents involving Microsoft
windows concepts in it. The concept weights in negatively-related concepts are
between –1 and 0. The concept weight in related concepts is between 0 and 1.
In Microsoft ontology and Windows ontology, the term “windows” is polysemous,
having a semantic degree of –1. We use this value to deduce the concept weights
in negatively related concepts.
4.3. Our ranking algorithm
In this section, we will describe our proposed ranking algorithm in detail. First,
we introduce a vector based representational model for Web documents. Next,
we implement a multi-layered linkage expansion in our system. Finally, we explain
our ranking algorithm step by step and classify the ranking results.
4.3.1. Model for Web documents
In order to represent Web documents, we use the vector space representation
[17] in which each document is represented as a vector of words together with
normalized term frequencies. Specifically, each document can be represented as
term vector of the form d={d
1
,d
2
,d
3
,...,d
n
}, where each item d
i
represents
the normalized term frequency for a term t in the whole collection of T terms.
For each of item d
i
we use the standard TFIDF normalization [9], in which the
less frequent term in the aggregate collection is given a higher weight. We
choose the TFIDF normalization equation as shown below:
()
0.5 0.5
t
IDF
Tf
Max
Tf
d
i
×
+
=
(1)
In the term frequency part of Equation (1), (Tf/MaxTf), we divide each
term frequency Tf in document d by the maximal term frequency MaxTf. In this
term frequency normalization, every term frequency is transformed to a weight
with a value between 0 and 1. The second part of Equation (1), IDF(t), is
defined as follows:
=
t
N
N
N
t
IDF
log
()
(2)
where N
t
is the number of documents and the term t appears in the whole
collection of N documents. The same as the term frequency part of Equation (1),
Equation (2) gets the inverse document frequency value between 0 and 1.
Therefore, each value of d
i
in this TFIDF normalization is a real number between
0 and 1.
C# PDF - Acquire or Save PDF Image to File
In order to scan multiple pages into one PDF document through C#.NET programming, you may need to add the following dlls to your C# TWAIN scanning project.
acrobat combine pdf files; attach pdf to mail merge
C# TWAIN - Scan Multi-pages into One PDF Document
Easy to Scan Multiple Pages into One PDF/TIFF in C# with .NET TWAIN Toolkit. C# TWAIN: Scan Multi-pages into One PDF/TIFF Overview.
apple merge pdf; combine pdf files
156 Yu-Ru Chen, Ming-Chuan Hung and Don-Lin Yang
The search concepts include main-conceptsrelated concepts, and negatively
related concepts. We use each search concept produced by query terms and
ontologies to form a meta-document vector. Each dimension in a meta-document
represents a key term in a concept and has a value of 1. For context sensitivity
ranking, we transform each document vector from a term dimensional space into
a search concept space by using the coordinate along the concept meta-document
axis. The cosine function is used to make the transformation. After transformation,
the dimension in a document vector is the similarity measure between original
TFIDF document vector and search concept meta-document vector.
4.3.2. Linkage expansion
Our ranker can find the set of document identifiers whose document matches at
least one of the query terms and the terms in main search concepts. This set of
documents is called the root set. The ranker will expand the root set into a base
set by including all the documents having linkage relation with the root set.
Figure 9 illustrates our two-layer expansion and the root set as well as the base
set. The base set is the super set of the root set, i.e., root_set ⊂ base_set.
base set
root set
Figure 9. . Root set and base set.
Note that in our expansion step, one of the duplicate links in Figure10(f) is
removed as shown in Figure 10(a). Furthermore, two Web documents may link
to or be linked by the same document, like Figure 10(c) and Figure 10(d). They
may have a close relationship both in content and linkage, such as multi-framed
VB.NET TWAIN: Overview of TWAIN Image Scanning in VB.NET
more than one image to be scanned in one process) contained to implement console based TWAIN scanning and scan multiple pages into a single PDF document in VB
add pdf together; acrobat merge pdf
VB.NET PDF - Acquire or Save PDF Image to File
In order to scan multiple pages into one PDF document through VB.NET programming language, you may need to add the following dlls to your Visual Basic .NET
add pdf files together online; pdf merge comments
Using Data Mining to Construct an Intelligent Web Search System
157
Web documents. However, the relationship cannot be found by using just one-
layer expansion. For this reason, we implement a multi-layer expansion in our
system.
Figure 10. . Hyperlink relationship.
(a)
(b)
(c)
(d)
(e)
(f)
4.3.3. Ranking algorithm
Figure 11 depicts our ranking algorithm. There are eight major steps in this
algorithm. In the first step of the algorithm, we expand the root set of query
results to form a base set and collect all of the hyperlinks {l
1
,l
2
,l
3
,...,l
r
} in the
base set where r is the number of hyperlinks l
i
=dx,dy〉.Note that l
 l
j
when
l
j
=dy,dx〉because there is direction property in hyperlinks. Hyperlink l=dx,dy
represents a document dlinking to a document dy, where diD and D denotes
all the documents in the base set. For each din D, di={di
1
,di
2
,di
3
...,di
n
} is the
transformed document vector from its original term dimensional TFIDF document
representation to search concept space. di
is the cosine similarity measure between
the document dand the concept meta-document c
j
(abbreviated as concept c
j
)
belonging to the set of search concepts C={c
1
,c
2
,c
3
,...,c
n
}, where n indicates
the number of search concepts.
After transforming each base set document to search concept space, we
compute the hyper-weight for each concept c
j
of C in a document di of D. The
hyper-weight indicates the correlation level of the linked documents for a
document. We divide the hyper-weight into two categories, in_weight and
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
Able to extract single or multiple pages from adobe PDF file and save example below will show you how to copy pages from a PDF file and paste into another one
break a pdf into multiple files; batch combine pdf
VB.NET TWAIN: TWAIN Image Scanning in Console Application
see other useful examples of RasterEdge VB.NET TWAIN image scanning SDK, like how to scan multiple pages to one PDF or TIFF file using VB.NET code, just follow
reader create pdf multiple files; acrobat combine pdf
158 Yu-Ru Chen, Ming-Chuan Hung and Don-Lin Yang
out_weightin_weight(i, j) represents the correlation level of linked document
set Di
in
pointing to the document di where the linked documents contain concept
c
j
Di
in
is a subset of D and each document dp in Di
in
has a hyperlink
>
=<
i
d
d
l
,
in_weight(i,j) is computed by using the following Equation (3).
()
() 0) ) 1
(
( )
i
InDegree
j
D
Num
i,j
in_weight
in
i
+
=
(3)
The InDegree(i) in this equation is the number of documents having a link
to the document di (i.e., the number of elements in Di
in
). Num(Di
in
(j)≠0) is the
number of documents having a link to the document dis the number of documents
having a link to the document di and their cosine similarity measure of the
concept meta-document c
j
is not zero (i.e., non-zero correlation, dp
j
≠0 and
dpDi
in
).
Similarly we compute the out_weight of each document di for concept c
j
by
using the following Equation (4).
Figure 11. . Our ranking algorithm.
Step 1. Expand the query result from root set to base set D.
Step 2. Transform each document vector d
i
in D to search concept space.
Step 3. Compute hyper-weights for each concept c
j
in document d
i
.
()
( ) ) 0) ) 1
(
(, )
_
 , 
()
( ) ) 0) ) 1
(
(, )
_
i
OutDegree
j
D
Num
i j
weight
out
i
InDegree
j
D
Num
i j
weight
in
out
i
in
i
+
=
+
=
Step 4. Compute hyper-document-vectors hdv(i, j) for each concept c
j
and d
i
.
×
+
×
=
out
inD
d
j
q
in
inD
d
j
p
i
q
i
p
i,j
out_weight
d
i,j
in_weight
d
i,j
hdv
( )
( )
( )
Step 5. Normalize the hdv(i, j) for max hdv(i, j)=1.
Step 6. Compute new document vector.
i
j
i
j
i
j
i
i,j  ,    d  in d
hdv
d
d
+ ×
− ×
=
( )]
] [
)
[(1
θ
θ
Step 7. Goto Step 4 until document vectors converge.
Step 8. Compute cumulated weight DC
i
(m) for each main concept c
m
for d
i
.
=
×
=
m
r
c
i
r
i
i
m
DC
cwr
d
m
DC
related to
( ) ) 1
max
or 
ize them f
and normal
( ))
(
( )
Step 9. Compute new 
.
with 
 in 
 ,
( ) ) 0
      if
( ) ) 0
( ))  if
(1
2
m
i
m
i
i
i
i
m
i
m
i
c
d
d
m
DC
m
DC
m
DC
d
d
<
+
=
C# Create PDF from Tiff Library to convert tif images to PDF in C#
Support to combine multiple page tiffs into one PDF file. Selection of turning tiff into searchable PDF or image with single page or multiple pages is supported
combine pdfs online; pdf split and merge
Using Data Mining to Construct an Intelligent Web Search System
159
.
()
() 0) ) 1
(
( )
i
OutDegree
j
D
Num
i,j
out_weight
out
i
+
=
(4)
OutDegree(i) is the number of documents that have a link coming from the
document diDi
out 
is the set of documents linked by di.
Next, we use Equation (5) to compute the hyper-document-vector hdv(i,j)
for each concept c
j
in the document di to represent the correlation of the document
with its linked documents referring to the search concept c
j
.
( ).
( )
( )
×
+
×
=
out
i
q
in
i
p
 inD 
j
q
 in D
j
p
i,j
out_weight
d
i,j
in_weight
d
i,j
hdv
(5)
After computing hyper-document-vectors for every document that refers to
each search concept, we normalize every value in hyper-document-vector to a
numerical value between 0 and 1. Then, we compute the new document vector
from the original document vector di and its hyper-document-vector hdv(i,j) by
using Equation (6).
.
in
)],
(
] [
)
[(1
i
j
i
j
i
j
i
  d
i,j
hdv
d
d
+ ×
− ×
=
θ
θ
(6)
In Equation (6) we set the linking factor 
θ
=0.3. This factor indicates the
contribution factor of the linked documents with respect to the document di.
Then, we iteratively compute the new document vectors until the document
vectors converge. In linear algebra, if we continue to multiply non-negative
matrix A by another fixed non-negative matrix B (i.e.,A=B*A), the value in
matrix A will converge. In Equation (5) we can represent every document vector
as a d×c matrix (matrix A) and every hyper-weight between two documents as
d×d matrix (matrix B). It can be shown that our algorithm will converge after
a few iterations. In fact, most document vectors will converge after 10 iterations.
To be sure, in our implementation, we set the termination of these steps after 15
iterations. Bharat and Henzinger [6] have more detailed proof of document vector
convergence.
After the iteration step, we compute the cumulated weight DCi(m) of the
related concepts for each main concept c
m
in a document di by using Equation
(7) and normalize it with a maximal value DCi(m)=1.
( )).
(
( )
related to
×
=
m
r
c
r
i
i
cwr
d
m
DC
(7)
The value of cw(r) in Equation (7) represents the concept weight cw for
related concept c
r
, with respect to a main concept. The non-negative cumulated
weight is used to support the relevance of a main concept di
m
. Conversely, the
negative cumulated weight will set di
m
to zero. We use Equation (8) to compute
the final document vectors
160 Yu-Ru Chen, Ming-Chuan Hung and Don-Lin Yang
.
with
in
,
( ) ) 0
if
0
( ) ) 0
( )) ) if
(1
2
m
i
m
i
i
i
i
m
i
m
i
 c
  d
m
 DC
m
    DC
m
DC
d
d
<
+
=
(8)
We use the keyword query “windows” with the windows ontology as an
example. Our searcher retrieves all documents indexed by terms in a main concept
such as the terms “windows”, “
”, etc. in the windows ontology. Then, the
system generates many related concepts by using the “windows” ontology. The
concept weight is a positive numeric value for a related concept. For negatively
related concepts, the concept weight is a negative numeric value. In step 8 of
our ranking algorithm, the cumulative weight of the main concept “windows”
for a document is a positive value when the context and the linkage relationship
for this document belong to regular windows domain. Since a higher correlation
results in a higher cumulative weight, this weight can be used to determine the
document’s relevance to the main concept. If the context and the linkage
relationship of this document are close to Microsoft ontology, the cumulative
weight will be a negative value. Then, our ranking algorithm sets the relevance
of the main concept to zero. This means that although the term “windows”
appears in this document, there are other terms whose concepts are close in
apparent relevance to the Microsoft Windows operating system.
4.3.4. Ranking result analysis
We now classify the computed document ranks into three categories of sorted
order. These three categories are: (1) documents that contain all main search
concepts, (2) documents that contain some of the main search concepts and have
linkage relationships with other concepts, and (3) documents that have linkage
relationships with some of the main search concepts.
In order to classify and sort documents effectively and efficiently, we first
summarize all main concept dimensions of the document vector di from the
computed base set via Equation (9), where every di is in the root set.
0.
)if
(1
cm
score
+
=
m
i
m
i
i
  d
d
d
(9)
If the score of di is less than the number of the main concepts num(c
m
), di
will be classified as belonging to the third category. If the score of di is larger
than the number of the main concepts num(c
m
), we do the following computation
using Equation (10) for these documents.
0.
]if
( )
[
cm
score
score
+
+
=
m
i
m
i
m
i
i
  d
c
num
d
d
(10)
Using Data Mining to Construct an Intelligent Web Search System
161
If the score of di is larger than num(c
m
)2, we can classify this document as the
first category. The remainders are classified as the second category.
Then, we perform a quick sort on the document scores in decreasing order.
These documents can be classified according to these three categories easily and
ordered by the number of main concepts they have matched and the similarity to
the main concepts. Equation (11) summarizes the classification criteria:
.
( )
if
gory      
third cate
( )
num
( )
ry   if
ond catego
sec
( )
  if
gory      
first cate
score
score
2
2
score
<
>
m
i
m
i
m
m
i
c
num
 d
c
 d
c
 num
c
num
 d
(11)
5. Data Miner
The Data Miner performs three types of data mining to refine our search engine
system. We use the sequential pattern mining to extract new Chinese phrases
automatically and the weighted association rules mining to mine frequently
occurring keyword sets that indicate the main characteristics of retrieved
documents, applicable to query terms recommendation if more detailed queries
are required. Fuzzy C-means clustering is used to provide an overview of the
retrieved documents for the user.
5.1. Chinese phrases extraction
The Chinese lexicon is needed for our system to perform word segmentation.
Currently, we have 138,347 Chinese phrases in our lexicon. However, new phrases
are needed from time to time. It is especially true for domain specific phrases.
We add new phrase to the lexicon manually to ensure that word segmentation is
done correctly without the unknown phrase problem. For this reason, we perform
an extraction function of new Chinese phrases for the lexicon maintainer to
update its lexicon on a domain specific Web site semi-automatically.
In order to complete the mining process, we have to perform preprocessing
on crawled documents first. We take every sentence in the crawled documents as
a transaction and every character as an item. Moreover, we utilize the structure
of a Web document to explore some weighted transactions. For every sentence
in a Web document we take all sort of emphasis tags as weighted transactions,
like head, title, anchor, bold fontitalics and font, etc. In this module, we use
sequential pattern mining to process them. At the end of the mining step, we
prune the mined frequent sequences as phrases. In a traditional mining approach,
it just retains the maximal frequent sequences as the final patterns. But it is not
162 Yu-Ru Chen, Ming-Chuan Hung and Don-Lin Yang
applicable in text mining, especially in Chinese text data. For example, the
Chinese phrase “
” will be pruned by the phrase “
”. But “
” may
be a meaningful phrase that we want to add into the lexicon. However, we have
to prune the non-meaningful character sequences “
” and “
” that
were used to join the four-character sequence “
” Similarly for “
,
” it
can be used to join three-character sequences “
” and “
.” For this
reason, we use the concept of net frequency [28] to prune non-meaningful
character sequences and retain meaningful ones. The equation of our pruning
method is as follows:
).
(
)
(
( )
( )
)
(
2
1
1
1
1
2
+
+
+
=
+
∀ ∈ ∈ +
+
+
=
k
k
k
s
s
s
k
sk
sk
k
k
k
S s
Ss
Ss
N s
(12)
The function S(s
k
) denotes the support count of the sequence s
k
and the
length of s
k
is k. Function N(s
k
) is the net frequency of the sequence s
k
and we
prune the sequence sk if N(s
k
) is no more than the minimal support. If N(s
k
) is
larger than the minimal support, we take s
k
as a Chinese phrase.
Finally, after we mined all of the Chinese phrases on a domain specific Web
site, the miner looks up the lexicon database and displays the Chinese phrases to
the user if they do not appear in the lexicon.
5.2. Keyword association
As mentioned before, we use association rule mining algorithm [4] in this module.
We view each document as a transaction and treat all phrases as items, where
phrases are segmented in the document by the Language Processor. The
association rule mining is used to mine all the maximal keyword sets that occur
frequently in the retrieved document sets. The mined maximal keyword sets
represent the 
primary attributes
(keywords) of the retrieved documents such that
users can have a succinct and clear view of these documents. Furthermore, these
primary attributes can be used to represent the recommended keywords for further
keyword searching. Note that we take a Chinese phrase as a keyword to get
more useful patterns.
In addition, to prevent the mined phrase sets from containing non-meaningful
keywords, such as those used by people every day, for every keyword appearing
in a document, we accumulate their TFIDF measure as their supports.
Consequently, we can use the preprocessed document vectors in the index database
as our mining transactions and accumulate the TFIDF measure as the support to
perform weighted association rule mining.
Documents you may be interested
Documents you may be interested