c# pdf reader text : Delete pages pdf preview Library application class asp.net windows web page ajax SzeliskiBook_20100903_draft72-part650

14.4 Category recognition
699
et the followingdefinition of apyramidmatchkernel:
κ
L
(X,Y) =
I
L
+
L−1
=0
1
2L−
I
−I
+1
(2)
=
1
2L
I
0
+
L
=1
1
2L−+1
I
.
(3)
oththe histogram intersectionandthe pyramidmatchker-
el are Mercerkernels [7].
.2. Spatial Matching Scheme
As introduced in [7], a pyramid match kernel works
ith an orderless image representation. It allows for pre-
ise matching of two collections of features in a high-
imensional appearance space, but discards all spatial in-
rmation. This paperadvocates an “orthogonal”approach:
erform pyramid matching in the two-dimensional image
ace, and use traditional clustering techniques in feature
ace.
1
Specifically, we quantizeall feature vectors into
M
iscrete types, and make the simplifying assumption that
nly features of the same type can be matched to one an-
ther. Eachchannel
m
gives us twosets oftwo-dimensional
ectors,
X
m
and
Y
m
,representing the coordinates of fea-
res of type
m
found in the respective images. The final
ernel is thenthe sum of the separate channel kernels:
KL(X,Y) =
M
m=1
κL(X
m
,Y
m
).
(4)
his approach has the advantage of maintaining continuity
iththe popular“visual vocabulary”paradigm — infact, it
duces to a standard bag offeatures when
L= 0
.
Because the pyramid match kernel (3) is simply a
eighted sum of histogram intersections, and because
min(a,b) = min(ca,cb)
for positive numbers, we can
plement
KL
as asinglehistogram intersectionof “long”
ectorsformedbyconcatenatingtheappropriatelyweighted
istograms of all channels at all resolutions (Fig. 1). For
levels and
M
channels, the resulting vector has dimen-
onality
M
L
=0
4 = M1
3
(4L+1 − 1)
. Several experi-
ents reported in Section 5 use the settings of
M = 400
nd
L = 3
,resulting in
34000
-dimensional histogram in-
rsections. However,these operations are efficient because
ehistogram vectors are extremely sparse (in fact, just as
[7], the computational complexity of the kernel is linear
thenumber of features). It mustalsobe notedthat we did
ot observe any significant increasein performance beyond
=200
and
L= 2
,where the concatenated histograms
re only
4200
-dimensional.
1Inprinciple,itispossibletointegrategeometricinformationdirectly
to the original pyramid matching frameworkbytreating image coordi-
tesastwoextradimensionsinthefeaturespace.
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
level2
level1
level0
1/4
1/4
1/2
+
+
+
Figure1.Toy example of constructing athree-level pyramid. The
imagehasthreefeaturetypes,indicated by circles,diamonds,and
crosses. Atthe top,we subdivide theimage at threedifferentlev-
elsof resolution. Next,for each levelof resolution andeachchan-
nel,wecountthe features that fall ineach spatialbin. Finally,we
weight each spatialhistogramaccordingto eq. (3).
The final implementation issue is that of normalization.
For maximum computational efficiency, we normalize all
histograms by the total weight of all features in the image,
ineffect forcingthetotal number offeatures inall images to
be the same. Because we usea dense feature representation
(see Section 4), and thus do not needto worryabout spuri-
ous featuredetections resulting fromclutter, this practiceis
sufficient to deal with the effects ofvariable image size.
4. Feature Extraction
This section briefly describes the two kinds of features
used in the experiments of Section 5. First, we have so-
called“weakfeatures,” whichare oriented edge points,i.e.,
points whose gradient magnitude in a given direction ex-
ceeds a minimum threshold. We extract edge points at two
scales and eight orientations, for a total of
M = 16
chan-
nels. We designed these features to obtain a representation
similar tothe “gist” [21] or toa global SIFT descriptor[12]
of theimage.
For better discriminative power, we also utilize higher-
dimensional “strong features,” which are SIFT descriptors
of
16×16
pixel patches computedover a grid withspacing
of
8
pixels. Our decision to use a dense regular grid in-
steadofinterestpointswas basedonthecomparativeevalu-
ationofFei-Fei and Perona [4], who have shown that dense
features work better for scene classification. Intuitively, a
dense image description is necessary tocapture uniformre-
gions such as sky, calm water,or road surface (to deal with
low-contrast regions, we skipthe usual SIFT normalization
procedurewhen the overall gradient magnitude ofthepatch
is too weak). We perform
k
-means clustering of a random
subset of patches from the training set toform a visual vo-
cabulary. Typical vocabulary sizes for our experiments are
M= 200
and
M= 400
.
(a)
(b)
Figure 14.37 Comparing collections of feature vectors using pyramid matching. (a) The
feature-space pyramid match kernel (GraumanandDarrell2007b) constructs a pyramid in
high-dimensional feature space and uses it to compute distances (and implicit correspon-
dences) between sets of feature vectors. (b) Spatial pyramid matching (Lazebnik,Schmid,
and Ponce 2006) c    2006IEEEdividestheimageintoapyramidofpoolingregionsand
computes separate visual word histograms (distributions) inside each spatial bin.
Instead of quantizing feature vectors to visual words,GraumanandDarrell(2007b) de-
velopa technique for directly computingan approximate distance between two variably sized
collections of feature vectors. Their approach is to bin the feature vectors into a multi-
resolution pyramid defined infeature space (Figure14.37a) and count the number of features
that land in corresponding bins B
il
and B
0
il
(Figure14.38a–c). The distance between the two
sets of feature vectors (which can be thought of as points in a high-dimensional space) is
computed using histogram intersection between correspondingbins
C
l
=
X
i
min(B
il
;B
0
il
)
(14.40)
(Figure14.38d). These per-level counts are then summed up in a weighted fashion
D
=
X
l
w
l
N
l
with N
l
=C
l
C
l 1
and w
l
=
1
d2l
(14.41)
(Figure14.38e), which discounts matches already found at finer levels while weighting finer
matches more heavily. (d is the dimension of the embedding space, i.e., the length of the
feature vectors.) In follow-on work, GraumanandDarrell(2007a) show how an explicit
construction of the pyramid can be avoided using hashing techniques.
Inspired by this work, Lazebnik, Schmid, andPonce (2006) show how a similar idea
can be employed to augment bags of keypoints with loose notions of 2D spatial location
Delete pages pdf preview - remove PDF pages in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Provides Users with Mature Document Manipulating Function for Deleting PDF Pages
add and remove pages from a pdf; delete pages from pdf
Delete pages pdf preview - VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Visual Basic Sample Codes to Delete PDF Document Page in .NET
acrobat remove pages from pdf; delete pages from a pdf reader
700
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
(a)
(b)
(c)
(d)
(e)
Figure 14.38 A one-dimensional illustration of comparing collections of feature vectors
using the pyramid match kernel (GraumanandDarrell2007b): (a) distribution of feature
vectors (point sets) into the pyramidal bins; (b–c) histogram of point counts in bins B
il
and
B
0
il
for thetwoimages; (d) histogram intersections (minimum values); (e) per-level similarity
scores, which are weighted and summed to form the final distance/similarity metric.
analogous to the pooling performed by SIFT (Lowe2004) and “gist” (Torralba, Murphy,
Freeman et al. 2003).Intheirwork,theyextractaffineregiondescriptors(Lazebnik, Schmid,
and Ponce 2005)andquantizethemintovisualwords.(Basedonpreviousresultsby Fei-Fei
and Perona(2005),thefeaturedescriptorsareextracteddensely(onaregulargrid)overthe
image, which canbe helpfulindescribingtextureless regions suchas the sky.) They thenform
aspatial pyramidof bins containingwordcounts(histograms), as showninFigure14.37b, and
use asimilar pyramidmatchkerneltocombine histogram intersection counts in ahierarchical
fashion.
The debate about whether to use quantized feature descriptors or continuous descriptors
and also whether to use sparse or dense features continues to this day.Boiman,Shechtman,
and Irani(2008)showthatifqueryimagesarecomparedtoallthefeaturesrepresentinga
given class, rather than just each class image individually, nearest-neighbor matching fol-
lowed by a na¨ıve Bayes classifier outperforms quantized visual words (Figure14.39). In-
stead of using generic feature detectors and descriptors, some authors have been investigat-
ing learning class-specific features (Ferencz,Learned-Miller,andMalik2008), often using
randomized forests (Philbin,Chum,Isardetal.2007;Moosmann,Nowak,andJurie2008;
Shotton, Johnson, and Cipolla 2008)orcombiningthefeaturegenerationandimageclassi-
How to C#: Preview Document Content Using XDoc.Word
How to C#: Preview Document Content Using XDoc.Word. Get Preview From File. You may get document preview image from an existing Word file in C#.net.
delete pages from a pdf file; delete pdf pages in reader
How to C#: Preview Document Content Using XDoc.PowerPoint
How to C#: Preview Document Content Using XDoc.PowerPoint. Get Preview From File. You may get document preview image from an existing PowerPoint file in C#.net.
copy pages from pdf to word; delete page from pdf file
14.4 Category recognition
701
Figure 14.39 “Image-to-Image” vs. “Image-to-Class” distance comparison (Boiman,
Shechtman, and Irani 2008) c 2008IEEE.Thequeryimageontheupperleftmaynotmatch
the feature distribution of any of the database images in the bottom row. However, if each
feature in the query is matched to its closest analog in all the class images, a good match can
be found.
fication stages (Yang,Jin,Sukthankaretal.2008). Others, such asSerre,Wolf,andPoggio
(2005) andMutchandLowe(2008) use hierarchies of dense feature transforms inspired by
biological (visual cortical) processing combined with SVMs for final classification.
14.4.2 Part-based models
Recognizing an object by finding its constituent parts and measuring their geometric rela-
tionships is one of the oldest approaches toobject recognition (FischlerandElschlager1973;
Kanade 1977; Yuille 1991). Wehavealreadyseenexamplesofpart-basedapproachesbeing
used for face recognition (Figure14.18) (MoghaddamandPentland1997;Heisele,Ho,Wu
et al. 2003; Heisele, Serre, and Poggio 2007)andpedestriandetection(Figure14.9)(Felzen-
szwalb, McAllester, and Ramanan 2008).
In this section, we look more closely at some of the central issues in part-based recog-
nition, namely, the representation of geometric relationships, the representation of individ-
ual parts, and algorithms for learning such descriptions and recognizing them at run time.
More details on part-based models for recognition can be found inthe course notes of Fergus
(2007b,2009).
The earliest approaches to representing geometric relationships were dubbed pictorial
structures byFischlerandElschlager(1973) andconsistedof spring-like connections between
different feature locations (Figure14.1a). To fit a pictorial structure to an image, an energy
VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
a preview component enables compressing and decompressing in preview in ASP images size reducing can help to reduce PDF file size Delete unimportant contents:
delete pdf pages ipad; delete pdf pages android
C# WinForms Viewer: Load, View, Convert, Annotate and Edit PDF
Erase PDF images. • Erase PDF pages. Miscellaneous. • Select PDF text on viewer. • Search PDF text in preview. • View PDF outlines. Related Resources.
delete pages on pdf file; delete page on pdf
702
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
Figure 14.40 Using pictorial structures to locate and track a person (FelzenszwalbandHut-
tenlocher 2005)
c
2005 Springer. Thestructure consists of articulatedrectangular bodyparts
(torso, head, and limbs) connected in a tree topology that encodes relative part positions and
orientations. To fit a pictorial structure model, a binary silhouette image is first computed
using background subtraction.
function of the form
E=
X
i
V
i
(l
i
)+
X
ij2E
V
ij
(l
i
;l
j
)
(14.42)
is minimized over all potential part locations or poses fl
i
gand pairs of parts (i;j) for which
an edge (geometric relationship) exists in E. Note how this energy is closely related to
that used with Markov random fields (3.1083.109), which can be used to embed pictorial
structures in a probabilistic framework that makes parameter learning easier (Felzenszwalb
and Huttenlocher 2005).
Part-based models can have different topologies for the geometric connections between
the parts (Figure14.41). For example, FelzenszwalbandHuttenlocher (2005) restrict the
connections to a tree (Figure14.41d), which makes learning and inference more tractable. A
tree topology enables the use of a recursive Viterbi (dynamic programming) algorithm (Pearl
1988;Bishop 2006),inwhichleafnodesarefirstoptimizedasafunctionoftheirparents,and
the resulting values are then plugged in and eliminated from the energy function—see Ap-
pendixB.5.2. The Viterbi algorithm computes an optimal match in O(N
2
jEj + NP) time,
where N is the number of potential locations or poses for each part, jEj is the number of
edges (pairwise constraints), and P = jV j is the number of parts (vertices in the graphical
model, which is equal to jEj + 1 in a tree). To further increase the efficiency of the infer-
ence algorithm,FelzenszwalbandHuttenlocher(2005) restrict the pairwise energy functions
V
ij
(l
i
;l
j
)to be Mahalanobis distances on functions of location variables and then use fast
distance transform algorithms to minimize each pairwise interaction in time that is closer to
linear in N.
Figure14.40 shows the results of using their pictorial structures algorithm to fit anarticu-
C# PDF Page Insert Library: insert pages into PDF file in C#.net
document files by C# code, how to rotate PDF document page, how to delete PDF page using C# .NET, how to reorganize PDF document pages and how
delete page from pdf preview; delete page from pdf
How to C#: Preview Document Content Using XDoc.excel
How to C#: Preview Document Content Using XDoc.Excel. Get Preview From File. You may get document preview image from an existing Excel file in C#.net.
delete blank pages in pdf online; delete page numbers in pdf
14.4 Category recognition
703
Sparse Flexible Models of Local Features
31
X1
X2
X3
X4
X5
X6
X1
X2
X3
X4
X5
X6
X4
X5
X3
X6
X2
X1
X1
X2
X3
X4
X5
X6
a) Constellation [13]
b) Star shape [9, 14]
c) k-fan (k = 2) [9] d) Tree [12]
X2
X3
X4
X5
X6
X1
g
h1
hg
l1
l2
lK
X1
X3
X2
X5
X6
X7
. . .
. . .
Center
Part
Subpart
. . .
X1
X2
X3
X4
X5
X6
X1
X2
X3
X4
X5
X6
k=1
1
k=2
2
e) Bag of features [10,21]
f) Hierarchy [4]
g) Sparse flexible model
Fig.1. Graphical geometric models of priors. Note that Xi represents a model part.
environments where new unannotated training images are continuously pre-
sented to the learning system.
In this paper we propose: 1) a new model for the visual classification prob-
lem that contains a less restrictive prior on the geometry and number of local
features, where the geometry of each model part depends on the geometry of
its k closest neighbors; and 2) an unsupervised on-line learning algorithm that
is capable of identifying commonalities among input images, forming clusters
of images with similar appearances, and also estimating the model parameters
efficiently and accurately. As commonly assumed in the state-of-the-art works,
we also assume that the appearance and the geometry of parts are indepen-
dent given the model, and that the appearance of parts is mutually independent
given model. The main novelty of our model is a prior based on a semi-full
dependency of the geometry of parts given model (see Fig. 1-(g)). Note from
the graph representing our model that the geometry of each feature depends on
the geometry of its k neighboring features, where k is a parameter that defines
the degree of connectivity of each part. This prior enables an explicit control on
the connectivity of the parts, and it also allows for the object being modeled to
have (semi-)local rigid deformation within the area covered by the connected fea-
tures, and rigid/non-rigid global deformation. Our objective with this new model
is to extend the types of classes that can be represented with local image fea-
tures since the model can potentially have hundreds of parts, tightly connected
locally, but loosely connected globally.
We implement a new visual class recognition system using this new model
and learning method described above, and demonstrate that our system pro-
duces competitive classification and localization results compared to state-of-
the-art methods using standard databases. Moreover, we show that the learning
algorithm is able to model not only classes with reasonable texture (e.g., faces),
(a)
(b)
(c)
(d)
Sparse Flexible Models of Local Features
31
X1
X2
X3
X4
X5
X6
X1
X2
X3
X4
X5
X6
X4
X5
X3
X6
X2
X1
X1
X2
X3
X4
X5
X6
a) Constellation [13]
b) Star shape [9, 14]
c) k-fan (k = 2) [9] d) Tree [12]
X2
X3
X4
X5
X6
X1
g
h1
hg
l1
l2
lK
X1
X3
X2
X5
X6
X7
. . .
. . .
Center
Part
Subpart
. . .
X1
X2
X3
X4
X5
X6
X1
X2
X3
X4
X5
X6
k=1
1
k=2
2
e) Bag of features [10,21]
f) Hierarchy [4]
g) Sparse flexible model
Fig. 1. Graphical geometric models of priors. Note that Xi represents a model part.
environments where new unannotated training images are continuously pre-
sented to the learning system.
In this paper we propose: 1) a new model for the visual classification prob-
lem that contains a less restrictive prior on the geometry and number of local
features, where the geometry of each model part depends on the geometry of
its k closest neighbors; and 2) an unsupervised on-line learning algorithm that
is capable of identifying commonalities among input images, forming clusters
of images with similar appearances, and also estimating the model parameters
efficiently and accurately. As commonly assumed in the state-of-the-art works,
we also assume that the appearance and the geometry of parts are indepen-
dent given the model, and that the appearance of parts is mutually independent
given model. The main novelty of our model is a prior based on a semi-full
dependency of the geometry of parts given model (see Fig. 1-(g)). Note from
the graph representing our model that the geometry of each feature depends on
the geometry of its k neighboring features, where k is a parameter that defines
the degree of connectivity of each part. This prior enables an explicit control on
the connectivity of the parts, and it also allows for the object being modeled to
have (semi-)local rigid deformation within the area covered by the connected fea-
tures, and rigid/non-rigid global deformation. Our objective with this new model
is to extend the types of classes that can be represented with local image fea-
tures since the model can potentially have hundreds of parts, tightly connected
locally, but loosely connected globally.
We implement a new visual class recognition system using this new model
and learning method described above, and demonstrate that our system pro-
duces competitive classification and localization results compared to state-of-
the-art methods using standard databases. Moreover, we show that the learning
algorithm is able to model not only classes with reasonable texture (e.g., faces),
(e)
(f)
(g)
Figure 14.41 Graphical models for geometric spatial priors (CarneiroandLowe2006)  c
2006 Springer: (a) constellation (Fergus,Perona,andZisserman2007); (b) star (Crandall,
Felzenszwalb, and Huttenlocher 2005; Fergus, Perona, and Zisserman 2005);(c)k-fan(k=
2) (Crandall,Felzenszwalb,andHuttenlocher2005);(d) tree(FelzenszwalbandHuttenlocher
2005);(e)bagoffeatures(Csurka, Dance, Fan et al. 2004); (f)hierarchy(Bouchard and
Triggs 2005);(g)sparseflexiblemodel(Carneiro and Lowe 2006).
lated bodymodelto abinaryimage obtainedbybackground segmentation. In this application
of pictorial structures, parts are parameterized by the locations, sizes, andorientations of their
approximating rectangles. Unary matching potentials V
i
(l
i
)are determined by counting the
percentage of foreground and background pixels inside and just outside the tilted rectangle
representing each part.
Over the last decade, a large number of different graphical models have been proposed
for part-based recognition, as shown in Figure14.41CarneiroandLowe(2006) discuss
anumber of these models and propose one of their own, which they call a sparse flexible
model; it involves ordering the parts and having each part’s location depend on at most k of
its ancestor locations.
The simplest models, which we saw in Section14.4.1, are bags of words, where there are
nogeometric relationshipsbetweendifferentparts or features. Whilesuchmodels canbe very
efficient, they have a very limited capacity to express the spatial arrangement of parts. Trees
andstars (a special caseof trees where allleaf nodesaredirectly connectedtoa commonroot)
are the most efficient in terms of inference andhence also learning(FelzenszwalbandHutten-
locher 2005; Fergus, Perona, and Zisserman 2005; Felzenszwalb, McAllester, and Ramanan
2008).Directedacyclicgraphs(Figure14.41f–g)comenextintermsofcomplexityandcan
still support efficient inference, although at the cost of imposing a causal structure on the
VB.NET PDF delete text library: delete, remove text from PDF file
Visual Studio .NET application. Delete text from PDF file in preview without adobe PDF reader component installed. Able to pull text
reader extract pages from pdf; add and remove pages from pdf file online
C# Word - Delete Word Document Page in C#.NET
doc.Save(outPutFilePath); Delete Consecutive Pages from Word in C#. int[] detelePageindexes = new int[] { 1, 3, 5, 7, 9 }; // Delete pages.
delete page in pdf file; delete pages pdf file
704
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
part model (BouchardandTriggs2005;CarneiroandLowe2006). k-fans, in which a clique
of size k forms the root of a star-shaped model (Figure14.41c) have inference complexity
O(N
k+1
), although with distance transforms and Gaussian priors, this can be lowered to
O(N
k
)(Crandall,Felzenszwalb,andHuttenlocher2005;CrandallandHuttenlocher2006).
Finally, fully connected constellation models (Figure14.41a) are the most general, but the
assignment of features to parts becomes intractable for moderate numbers of parts P, since
the complexity of such an assignment is O(N
P
)(Fergus,Perona,andZisserman2007).
The original constellation model was developed byBurl,Weber,andPerona(1998) and
consists of a number of parts whose relative positions are encoded by their mean locations
and a full covariance matrix, which is used to denote not only positional uncertainty but also
potential correlations (covariance) between different parts (Figure14.42a). Weber,Welling,
and Perona(2000)extendedthistechniquetoaweaklysupervisedsetting, whereboththe
appearance of each part and its locations are automatically learned given only whole image
labels. Fergus,Perona,andZisserman (2007) further extend this approach to simultaneous
learning of appearance and shape models from scale-invariant keypoint detections.
Figure14.42a shows the shape model learned for the motorcycle class. The top figure
shows the mean relative locations for each part along with their position covariances (inter-
part covariances are not shown) and likelihood of occurrence. The bottom curve shows the
Gaussian PDFs for the relative log-scale of each part with respect to the “landmark” feature.
Figure14.42b shows the appearance model learned for each part, visualized as the patches
around detected features in the training database that best match the appearance model. Fig-
ure14.42c shows the features detected in the test database (pink dots) along with the corre-
sponding parts that they were assigned to (colored circles). As you can see, the system has
successfully learned and then used a fairly complex model of motorcycle appearance.
The part-based approachto recognitionhas alsobeenextended tolearning newcategories
from small numbers of examples, building on recognition components developed for other
classes(Fei-Fei,Fergus,andPerona2006). Morecomplexhierarchical part-based models can
be developed using the concept of grammars (BouchardandTriggs2005;ZhuandMumford
2006). Asimplerwaytousepartsistohavekeypointsthatarerecognizedasbeingpartof
aclass vote for the estimated part locations, as shown in the top row of Figure14.43 (Leibe,
Leonardis, and Schiele 2008).(Implicitly,thiscorrespondstohavingastar-shapedgeometric
model.)
14.4.3 Recognition with segmentation
The most challenging version of generic object recognition is to simultaneously perform
recognition with accurate boundary segmentation (Fergus2007a). For instance recognition
(Section14.3.1), this can sometimes be achieved by backprojecting the object model into
C# PDF delete text Library: delete, remove text from PDF file in
Delete text from PDF file in preview without adobe PDF reader component installed in ASP.NET. C#.NET PDF: Delete Text from Consecutive PDF Pages.
delete pages from pdf without acrobat; cut pages from pdf reader
C# PowerPoint - Delete PowerPoint Document Page in C#.NET
doc.Save(outPutFilePath); Delete Consecutive Pages from PowerPoint in C#. int[] detelePageindexes = new int[] { 1, 3, 5, 7, 9 }; // Delete pages.
delete pages of pdf; delete a page from a pdf in preview
14.4 Category recognition
705
(a)
(b)
Correct
Correct
INCORRECT
Correct
Correct
Correct
Correct
Correct
Correct
Correct
Correct
Correct
Correct
Correct
Correct
Correct
Correct
Correct
INCORRECT
INCORRECT
Correct
INCORRECT
Correct
Correct
Correct
(c)
Figure 14.42 Part-based recognition (Fergus, Perona, and Zisserman 2007)  c 2007
Springer: (a) locations and covariance ellipses for each part, along with their occurrence
probabilities (top) and relative log-scale densities (bottom); (b) part examples drawn from
the training images that best match the average appearance; (c) recognition results for the
motorcycle class, showing detected features (pink dots) and parts (colored circles).
706
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
Figure 14.43 Interleaved recognition and segmentation (Leibe, Leonardis, , and Schiele
2008)
c
2008 Springer. The process starts by re-recognizing visual words (codebook en-
tries) in a new image (scene) and having each part vote for likely locations and size in a
3D (x;y;s) voting space (top row). Once a maximum has been found, the parts (features)
corresponding to this instance are determined by backprojecting the contributing votes. The
foreground–backgroundsegmentation for eachobject can be found by backprojecting proba-
bilistic masks associatedwith each codebookentry. The whole recognition andsegmentation
process can then be repeated.
the scene (Lowe2004), as shown in Figure14.1d, or matching portions of the new scene to
pre-learned (segmented) object models (Ferrari,Tuytelaars,andVanGool2006b;Kannala,
Rahtu, Brandt et al. 2008).
For more complex (flexible) object models, such as those for humans Figure14.1f, a
different approach is to pre-segment the image into larger or smaller pieces (Chapter5) and
then match such pieces to portions of the model (Mori,Ren,Efrosetal.2004;Mori2005;
He, Zemel, and Ray 2006; Gu, Lim, Arbelaez et al. 2009).
An alternative approach byLeibe,Leonardis,andSchiele(2008), which we introduced
in the previous section, votes for potential object locations and scales based on the detec-
tion of features corresponding to pre-clustered visual codebook entries (Figure14.43). To
support segmentation, each codebook entry has an associated foreground–background mask,
which is learned as part of the codebook clustering process from pre-labeled object segmen-
tation masks. During recognition, once a maximum in the voting space is found, the masks
associated with the entries that voted for this instance are combined to obtain an object seg-
mentation, as shown on the left side of Figure14.43.
Amore holistic approach to recognition and segmentation is to formulate the problem as
one of labeling every pixel in an image with its class membership, and to solve this prob-
14.4 Category recognition
707
(a)
(b)
Figure 14.44 Simultaneous recognition and segmentation using TextonBoost (Shotton,
Winn, Rother et al. 2009) c 2009Springer:(a)successfulrecognitionresults;(b)lesssuc-
cessful results.
708
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
Figure 14.45 Layout consistent random field (WinnandShotton2006)  c 2006 IEEE. The
numbers indicate the kind of neighborhood relations that can exist between pixels assigned
to the same or different classes. Eachpairwise relationship carries its own likelihood (energy
penalty).
lem using energy minimization or Bayesian inference techniques, i.e., conditional random
fields (Section3.7.2, (3.118)) (KumarandHebert2006;He,Zemel,andCarreira-Perpi˜n´an
2004). TheTextonBoostsystemof Shotton, Winn, Rother et al.(2009)usesunary(pixel-
wise) potentials based on image-specific color distributions (Section5.5) (BoykovandJolly
2001; Rother, Kolmogorov, and Blake 2004),locationinformation(e.g.,foregroundobjects
are more likely to be in the middle of the image, sky is likely to be higher, and road is likely
to be lower), and novel texture-layout classifiers trained using shared boosting. It also uses
traditional pairwise potentials that look at image color gradients (Veksler2001;Boykovand
Jolly 2001; Rother, Kolmogorov, and Blake 2004). Thetexton-layoutfeaturesfirstfilterthe
image with a series of 17 oriented filter banks and then cluster the responses to classify each
pixel into 30 different texton classes (Malik,Belongie,Leungetal.2001). The responses
are then filtered using offset rectangular regions trained with joint boosting (ViolaandJones
2004)toproducethetexton-layoutfeaturesusedasunarypotentials.
Figure14.44a shows some examples of images successfully labeled and segmented using
TextonBoost, while Figure14.44b shows examples where it does not do as well. As you can
see, this kind of semantic labeling can be extremely challenging.
The TextonBoost conditional random field framework has been extended to LayoutCRFs
byWinnandShotton(2006), who incorporate additional constraints to recognize multiple
object instances and deal with occlusions (Figure14.45), and even more recently byHoiem,
Rother, and Winn(2007)toincorporatefull3Dmodels.
Conditional random fields continue to be widely used and extended for simultaneous
recognition and segmentation applications (KumarandHebert2006;He,Zemel, andRay
2006; Levin and Weiss 2006; Verbeek and Triggs 2007; Yang, Meer, and Foran 2007; Rabi-
novich, Vedaldi, Galleguillos etal. 2007;Batra, Sukthankar, and Chen 2008; Larlus andJurie
Documents you may be interested
Documents you may be interested