c# pdf reader text : Delete pages from pdf preview software control dll windows azure asp.net web forms SzeliskiBook_20100903_draft71-part649

14.3 Instance recognition
689
(a)
(b)
Figure 14.29 Matching based on visual words (SivicandZisserman2009)
c
2009 IEEE.
(a) Features in the query region on the left are matched to corresponding features in a highly
ranked video frame. (b) Results after removing the stop words and filtering the results using
spatial consistency.
Sivic and Zisserman(2003)performthismappingusingk-meansclustering,whilesomeof
newer methods discussed below (Nist´erandStew´enius2006;Philbin, Chum, Isardetal.
2007)usealternativetechniques,suchasvocabularytreesorrandomizedforests.Tokeepthe
clustering time manageable, only a few hundred video frames are used to learn the cluster
centers, whichstillinvolves estimatingseveralthousandclusters from about300,000descrip-
tors. At visual query time, each feature in a new query region (e.g., Figure14.28a, which is
acropped region from a larger video frame) is mapped to its corresponding visual word. To
keep very common patterns from contaminating the results, a stop list of the most common
visual words is created and such words are dropped from further consideration.
Once a query image or region has been mapped into its constituent visual words, likely
matching images or video frames must then be retrieved from the database. Information
retrieval systems do this by matching word distributions (term frequencies) n
id
=n
d
between
the query and target documents, where n
id
is how many times word i occurs in document d,
andn
d
is the total number of words in documentd. In order to downweight words that occur
frequently and to focus the search on rarer (and hence, more informative) terms, an inverse
document frequency weighting logN=N
i
is applied, where N
i
is the number of documents
containing word i, and N is the total number of documents in the database. The combination
of these twofactors resultsinthetermfrequency-inverse documentfrequency (tf-idf) measure,
t
i
=
n
id
n
d
log
N
N
i
:
(14.33)
At match time, each document (or query region) is represented by its tf-idf vector,
t= (t
1
;:::;t
i
;:::t
m
):
(14.34)
The similarity between two documents is measured by the dot product between their corre-
sponding normalized vectors
^
t= t=ktk, which means that their dissimilarity is proportional
to their Euclidean distance. In their journal paper,SivicandZisserman (2009) compare this
Delete pages from pdf preview - remove PDF pages in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Provides Users with Mature Document Manipulating Function for Deleting PDF Pages
delete pages from pdf document; delete page pdf acrobat reader
Delete pages from pdf preview - VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Visual Basic Sample Codes to Delete PDF Document Page in .NET
delete pages out of a pdf; delete pages from a pdf document
690
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
1. Vocabulary construction (off-line)
(a) Extract affine covariant regions from each database image.
(b) Compute descriptors and optionally whiten them to make Euclidean dis-
tances meaningful (SivicandZisserman2009).
(c) Cluster the descriptors into visual words, either using k-means (Sivicand
Zisserman 2009), hierarchical l clustering(Nist
´
er and Stew
´
enius 2006), or
randomized k-d trees (Philbin,Chum,Isardetal.2007).
(d) Decide which words are too common and put them in the stop list.
2. Database construction (off-line)
(a) Compute term frequencies for the visual word in each image, document fre-
quencies for each word, and normalized tf-idf vectors for each document.
(b) Compute inverted indices from visual words to images (with word counts).
3. Image retrieval (on-line)
(a) Extract regions, descriptors, and visual words, and compute a tf-idf vector
for the query image or region.
(b) Retrieve the top image candidates, either by exhaustively comparing sparse
tf-idf vectors (SivicandZisserman2009) or by using inverted indices to ex-
amine only a subset of the images (Nist´erandStew´enius2006).
(c) Optionally re-rank or verify all the candidate matches, using either spatial
consistency(SivicandZisserman2009) or anaffine (or simpler) transforma-
tion model (Philbin,Chum,Isardetal.2007).
(d) Optionallyexpand the answer set byre-submitting highlyranked matches as
new queries (Chum,Philbin,Sivicetal.2007).
Algorithm 14.2 Image retrieval using visual words (SivicandZisserman2009;Nist´erand
Stew´enius 2006; Philbin, Chum, Isard et al. 2007; Chum, Philbin, Sivic et al. 2007; Philbin,
Chum, Sivic et al. 2008).
How to C#: Preview Document Content Using XDoc.Word
How to C#: Preview Document Content Using XDoc.Word. Get Preview From File. You may get document preview image from an existing Word file in C#.net.
delete pages of pdf reader; add remove pages from pdf
How to C#: Preview Document Content Using XDoc.PowerPoint
How to C#: Preview Document Content Using XDoc.PowerPoint. Get Preview From File. You may get document preview image from an existing PowerPoint file in C#.net.
delete pdf page acrobat; delete pages from a pdf online
14.3 Instance recognition
691
simple metric to a dozen other metrics and conclude that it performs just about as well as
more complicated metrics. Because the number of non-zero t
i
terms in a typical query or
document is small (M  200) compared to the number of visual words (V  20;000), the
distance between pairs of (sparse) tf-idf vectors can be computed quite quickly.
After retrieving the top N
s
=500 documents based on word frequencies,SivicandZis-
serman(2009)re-ranktheseresultsusingspatialconsistency.Thisstepinvolvestakingevery
matchingfeature and countingthe number of k = 15nearest adjacent features thatalso match
betweenthe two documents. (This latter process is acceleratedusing inverted files, which we
discuss inmoredetailbelow.) As showninFigure14.29, this stephelps removespurious false
positive matches and produces a better estimate of which frames and regions inthe video are
actually true matches. Algorithm14.2 summarizes the processing steps involved in image
retrieval using visual words.
While this approach works well for tens of thousand of visual words and thousands of
keyframes, as the size of the database continues to increase, both the time to quantize each
feature and to find potential matching frames or images can become prohibitive. Nist´erand
Stew´enius(2006)addressthisproblembyconstructingahierarchicalvocabularytree,where
feature vectors are hierarchicallyclusteredinto a k-way tree of prototypes. (This technique is
alsoknown as tree-structuredvector quantization (GershoandGray1991).) At bothdatabase
construction time and query time, each descriptor vector is compared to several prototypes
at a given level in the vocabulary tree and the branch with the closest prototype is selected
for further refinement (Figure14.30). In this way, vocabularies with millions (10
6
)of words
can be supported, which enables individual words to be far more discriminative, while only
requiring 10 6 comparisons for quantizing each descriptor.
At query time, each node in the vocabulary tree keeps its own inverted file index, so that
features that match a particular node in the tree can be rapidly mapped to potential matching
images. (Interior leaf nodes just use the inverted indices of their corresponding leaf-node
descendants.) To score a particular query tf-idf vector t
q
against all document vectors ft
j
g
using an L
p
metric,
18
the non-zero t
iq
entries in t
q
are used to fetch corresponding non-zero
t
ij
entries, and the L
p
norm is efficientlycomputed as
kt
q
t
j
k
p
p
=2 +
X
ijt
iq
>0^t
ij
>0
(jt
iq
t
ij
j
p
jt
iq
j
p
jt
ij
j
p
):
(14.35)
In order to mitigate quantization errors due to noise in the descriptor vectors, Nist´erand
Stew´enius(2006)notonlyscoreleafnodesinthevocabularytree(correspondingtovisual
words), but also score interior nodes inthe tree, which correspond to clusters of similar visual
words.
18
In theiractualimplementation,Nist´erandStew´enius(2006)usean L
1
metric.
VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
a preview component enables compressing and decompressing in preview in ASP images size reducing can help to reduce PDF file size Delete unimportant contents:
delete pages from pdf preview; acrobat extract pages from pdf
C# WinForms Viewer: Load, View, Convert, Annotate and Edit PDF
Erase PDF images. • Erase PDF pages. Miscellaneous. • Select PDF text on viewer. • Search PDF text in preview. • View PDF outlines. Related Resources.
delete page pdf file; delete blank page in pdf online
692
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
(a)
(b)
Figure 14.30 Scalable recognition using a vocabulary tree (Nist´erandStew´enius2006)
c
2006 IEEE. (a) Each MSER elliptical region is converted into a SIFT descriptor, which is
then quantized by comparing it hierarchically to some prototype descriptors in a vocabulary
tree. Each leaf node stores its own inverted index (sparse list of non-zero tf-idf counts) into
images that contain that feature. (b) A recognition result, showing a query image (top row)
being indexed into a database of 6000 test images and correctly finding the corresponding
four images.
Because of the high efficiency in both quantizing and scoring features, their vocabulary-
tree-based recognition system is able to process incoming images in real time against a
database of 40,000 CD covers and at 1Hz when matching a database of one million frames
taken from six feature-length movies. Figure14.30b shows some typical images from the
database of objects taken under varying viewpoints and illumination that was used to train
and test the vocabulary tree recognition system.
The state of the art in instance recognition continues to improve rapidly. Philbin,Chum,
Isardet al.(2007)haveshownthatrandomizedforestofk-dtreesperformbetterthanvocabu-
larytrees ona large location recognitiontask(Figure14.31). Theyalso compare the effects of
using different 2Dmotion models (Section2.1.2) in the verification stage. In follow-on work,
Chum, Philbin, Sivic et al.(2007)applyanotherideafrom informationretrieval, namely
C# PDF Page Insert Library: insert pages into PDF file in C#.net
document files by C# code, how to rotate PDF document page, how to delete PDF page using C# .NET, how to reorganize PDF document pages and how
delete page from pdf acrobat; delete page in pdf document
How to C#: Preview Document Content Using XDoc.excel
How to C#: Preview Document Content Using XDoc.Excel. Get Preview From File. You may get document preview image from an existing Excel file in C#.net.
delete pages from pdf acrobat; cut pages out of pdf
14.3 Instance recognition
693
Figure 14.31 Locationor building recognitionusing randomizedtrees (Philbin,Chum,Isard
etal.2007) c 2007IEEE.Theleftimageisthequery,theotherimagesarethehighest-ranked
results.
query expansion, which involves re-submitting top-ranked images from the initial query as
additional queries to generate additional candidate results, to further improve recognition
rates for difficult (occluded or oblique) examples. Philbin,Chum,Sivicetal.(2008) show
howto mitigate quantization problems invisualwords selection usingsoftassignment, where
each feature descriptor is mapped to a number of visual words based on its distance from the
cluster prototypes. The soft weights derived from these distances are used, in turn, to weight
the counts used in the tf-idf vectors and to retrieve additional images for later verification.
Taken together, these recent advances hold the promise of extending current instance recog-
nition algorithms to performing Web-scale retrieval and matching tasks (Agarwal,Snavely,
Simon et al. 2009; Agarwal, Furukawa, Snavely et al. 2010; Snavely, Simon, Goesele et al.
2010).
14.3.3 Application: Location recognition
One of the most exciting applications of instance recognition today is in the area of location
recognition, which can be used both in desktop applications (where did I take this holiday
snap?) and in mobile (cell-phone) applications. The latter case includes not only finding out
your current location based on a cell-phone image but also providing you with navigation
directions or annotating your images with useful information, such as building names and
restaurant reviews (i.e., a portable form of augmented reality).
Some approaches to location recognition assume that the photos consist of architectural
scenes for which vanishing directions can be used to pre-rectify the images for easier match-
ing (RobertsonandCipolla2004). Other approaches use general affine covariant interest
points to perform wide baseline matching (SchaffalitzkyandZisserman2002). The Photo
Tourism system ofSnavely,Seitz,andSzeliski(2006) (Section13.1.2) was the first to apply
these kinds of ideas to large-scale image matching and (implicit) location recognition from
VB.NET PDF delete text library: delete, remove text from PDF file
Visual Studio .NET application. Delete text from PDF file in preview without adobe PDF reader component installed. Able to pull text
delete pages in pdf online; delete page on pdf document
C# Word - Delete Word Document Page in C#.NET
doc.Save(outPutFilePath); Delete Consecutive Pages from Word in C#. int[] detelePageindexes = new int[] { 1, 3, 5, 7, 9 }; // Delete pages.
add and delete pages in pdf; cut pages out of pdf file
694
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
(a)
(b)
(c)
Figure 14.32 Feature-based location recognition (Schindler,Brown,andSzeliski2007)
c
2007 IEEE: (a) three typical series of overlapping street photos; (b) handheld camera shots
and (c) their corresponding database photos.
Internet photo collections taken under a wide variety of viewing conditions.
The maindifficulty in location recognition is in dealing with the extremely large commu-
nity (user-generated) photo collections on Web sites such as Flickr (Philbin,Chum,Isardet
al. 2007; Chum, Philbin, Sivic et al. 2007; Philbin, Chum, Sivic etal. 2008; Turcot and Lowe
2009)orcommerciallycaptureddatabases(Schindler, Brown, and Szeliski 2007).Thepreva-
lence of commonlyappearing elements such as foliage, signs, and common architectural ele-
ments further complicates the task. Figure14.31 shows some results on location recognition
from community photo collections, while Figure14.32 shows sample results from denser
commercially acquired datasets. In the latter case, the overlap between adjacent database
images can be used to verify and prune potential matches using “temporal” filtering, i.e., re-
quiring the query image to match nearby overlapping database images before accepting the
match.
Another variant on location recognition is the automatic discovery of landmarks, i.e.,
frequently photographed objects and locations. Simon,Snavely,andSeitz (2007) show how
these kinds of objects can be discovered simply by analyzingthe matchinggraph constructed
as part of the 3D modeling process in Photo Tourism. More recent work has extended this
approachtolarger datasets usingefficientclusteringtechniques (PhilbinandZisserman2008;
Li, Wu, Zachetal. 2008;Chum, Philbin, andZisserman 2008;Chum and Matas 2010)aswell
as combining meta-data such as GPS and textual tags with visual search (Quack,Leibe,and
Van Gool 2008; Crandall, Backstrom, Huttenlocher et al. 2009),asshowninFigure14.33.
It is now even possible to automatically associate object tags with images based on their co-
occurrence in multiple loosely tagged images (SimonandSeitz2008;Gammeter,Bossard,
C# PDF delete text Library: delete, remove text from PDF file in
Delete text from PDF file in preview without adobe PDF reader component installed in ASP.NET. C#.NET PDF: Delete Text from Consecutive PDF Pages.
delete page from pdf file online; delete pages of pdf preview
C# PowerPoint - Delete PowerPoint Document Page in C#.NET
doc.Save(outPutFilePath); Delete Consecutive Pages from PowerPoint in C#. int[] detelePageindexes = new int[] { 1, 3, 5, 7, 9 }; // Delete pages.
delete pages pdf preview; copy page from pdf
14.4 Category recognition
695
Figure 14.33 Automatic mining, annotation, and localization of community photo collec-
tions (Quack,Leibe,andVanGool2008)  c 2008ACM. This figure does not showthe textual
annotations or corresponding Wikipedia entries, which are also discovered.
A
B
C
D
(a)
(b)
Figure 14.34 Locatingstar fields usingastrometry,http://astrometry.net/. (a) Input star field
and some selected star quads. (b) The 2D coordinates of stars C and D are encoded relative
to the unit square defined by A and B.
Quack et al. 2009).
The concept of organizing the world’s photo collections by location has even been re-
cently extended to organizing all of the universe’s (astronomical) photos in an application
called astrometry,http://astrometry.net/. The technique used to match any two star fields is
to take quadruplets of nearby stars (a pair of stars and another pair inside their diameter) to
form a 30-bit geometric hash by encoding the relative positions of the second pair of points
using the inscribed square as the reference frame, as shown in Figure14.34. Traditional in-
formation retrieval techniques (k-d trees built for different parts of a sky atlas) are then used
to find matching quads as potential star field location hypotheses, which can then be verified
using a similarity transform.
696
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
Figure 14.35 Sample images from the Xerox 10 class dataset (Csurka,Dance,Perronninet
al. 2006)
c
2007 Springer. Imagine trying to write a program to distinguish such images
from other photographs.
14.4 Category recognition
While instance recognition techniques are relatively mature and are used in commercial ap-
plications, such as Photosynth (Section13.1.2), generic category (class) recognition is still
alargely unsolved problem. Consider for example the set of photographs in Figure14.35,
whichshows objects taken from 10 different visual categories. (I’llleave itup to you toname
each of the categories.) How would you go about writing a program to categorize each of
these images intothe appropriate class, especially if you were also given the choice “none of
the above”?
As youcan tellfrom this example, visual category recognitionis anextremely challenging
problem; noonehas yetconstructeda system that approaches the performance level of a two-
year-old child. However, the progress in the field has been quite dramatic, if judged by how
much better today’s algorithms are comparedto those of a decade ago.
Figure14.54 shows a sample image from each of the 20 categories used in the 2008
PASCAL Visual Object Classes Challenge. The yellow boxes represent the extent of each of
the objects found in a given image. On such closed world collections where the task is to
decide among20 categories, today’s classification algorithms can do remarkably well.
14.4 Category recognition
697
Figure 14.36 A typical processing pipeline for a bag-of-words category recognition system
(Csurka, Dance, Perronninetal. 2006)  c 2007 Springer. Features are first extracted at
keypoints and then quantized to get a distribution (histogram) over the learned visual words
(feature cluster centers). The feature distribution histogram is used tolearn a decision surface
using a classification algorithm, such as a support vector machine.
In this section, we lookat a number of approaches to solving category recognition. While
historically, part-based representations and recognition algorithms (Section14.4.2) were the
preferred approach (Fischler andElschlager1973;Felzenszwalband Huttenlocher2005;
Fergus, Perona, and Zisserman 2007), webeginbydescribingsimplerbag-of-featuresap-
proaches (Section14.4.1) that represent objects and images as unordered collections of fea-
ture descriptors. We then look at the problem of simultaneously segmenting images while
recognizing objects (Section14.4.3) andalso presentsome applications of such techniques to
photo manipulation (Section14.4.4). In Section14.5, we look at how context and scene un-
derstanding, as well as machine learning, can improve overallrecognition results. Additional
details on the techniques presented in this section can be found in (Pinz2005;Ponce,Hebert,
Schmid et al. 2006; Dickinson, Leonardis, Schiele et al. 2007; Fei-Fei, Fergus, and Torralba
2009).
14.4.1 Bag of words
One of the simplest algorithms for category recognition is the bag of words (also known as
bag of features or bag of keypoints) approach (Csurka, Dance,Fanetal.2004;Lazebnik,
Schmid, and Ponce 2006; Csurka, Dance, Perronnin et al. 2006; Zhang, Marszalek, Lazeb-
nik et al. 2007). AsshowninFigure14.36,thisalgorithm simplycomputesthedistribu-
tion (histogram) of visual words found in the query image and compares this distribution
to those found in the training images. We have already seen elements of this approach in
Section14.3.2, Equations (14.3314.35) and Algorithm14.2. The biggest difference from
instance recognition is the absence of a geometric verification stage (Section14.3.1), since
individual instances of generic visual categories, such as those shown in Figure14.35, have
relatively little spatial coherence to their features (butsee the work byLazebnik,Schmid,and
698
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
Ponce(2006)).
Csurka, Dance, Fan etal.(2004)werethefirsttousethetermbagofkeypointstodescribe
suchapproaches and among the first todemonstrate the utilityof frequency-based techniques
for category recognition. Their original system used affine covariant regions and SIFT de-
scriptors, k-means visual vocabulary construction, and both a na¨ıve Bayesian classifier and
support vector machines for classification. (The latter was found to perform better.) Their
newer system (Csurka,Dance,Perronninetal.2006) uses regular (non-affine) SIFT patches,
boosting instead of SVMs, and incorporates a small amount of geometric consistency infor-
mation.
Zhang, Marszalek, Lazebnik et al.(2007)performamoredetailedstudyofsuchbagof
features systems. They compare anumber of feature detectors (Harris–Laplace (Mikolajczyk
and Schmid 2004)andLaplacian(Lindeberg 1998b)), descriptors(SIFT,RIFT,andSPIN
(Lazebnik,Schmid,andPonce2005)), and SVM kernel functions. To estimate distances for
the kernel function, they form an image signature
S= ((t
1
;m
1
);:::;(t
m
;m
m
));
(14.36)
analogous to the tf-idf vector t in (14.34), where the cluster centers m
i
are made explicit.
They then investigate two different kernels for comparing such image signatures. The first is
the earth mover’s distance (EMD) (Rubner,Tomasi,andGuibas2000),
EMD(S;S
0
)=
P
i
P
j
f
ij
d(m
i
;m
0
j
)
P
i
P
j
f
ij
;
(14.37)
where f
ij
is a flow value that can be computed using a linear program and d(m
i
;m
0
j
)is the
ground distance (Euclidean distance) between m
i
and m
0
j
. Note that the EMD can be used
to compare two signatures of different lengths, where the entries do not need to correspond.
The second is a 
2
distance
2
(S;S
0
)=
1
2
X
i
(t
i
t
0
i
)
2
t
i
+t
0
i
;
(14.38)
whichmeasuresthelikelihoodthat the twosignatures were generated from consistentrandom
processes. These distance metrics are then converted into SVM kernels using a generalized
Gaussian kernel
K(S;S
0
)= exp
1
A
D(S;S
0
)
;
(14.39)
where A is a scaling parameter set to the mean distance between training images. In their
experiments, they find that the EMD works best for visual category recognition and the 
2
measure is best for texture recognition.
Documents you may be interested
Documents you may be interested