11.1 Epipolar geometry
539
(a)
(b)
(c)
(d)
Figure 11.4 The multi-stage stereo rectification algorithm ofLoopandZhang (1999)
c
1999 IEEE. (a) Original image pair overlaid with several epipolar lines; (b) images trans-
formed so that epipolar lines are parallel; (c) images rectified so that epipolar lines are hori-
zontal and in vertial correspondence; (d) final rectification that minimizes horizontal distor-
tions.
perpendicular to the camera center line. This ensures that corresponding epipolar lines are
horizontal andthat the disparity for points at infinityis 0. Finally, re-scale the images, if nec-
essary, to account for different focal lengths, magnifying the smaller image to avoid aliasing.
(The full details of this procedure can be found inFusiello,Trucco,andVerri(2000) and Ex-
ercise11.1.) Note that ingeneral, itis notpossible to rectifyan arbitrary collectionof images
simultaneouslyunless their optical centers are collinear, althoughrotating the cameras sothat
they all point in the same direction reduces the inter-camera pixel movements to scalings and
translations.
The resulting standard rectified geometry is employed in a lot of stereocamera setups and
stereo algorithms, and leads to a very simple inverse relationship between 3D depths Z and
disparities d,
d= f
B
Z
;
(11.1)
where f is the focal length (measured inpixels), B is the baseline, and
x
0
=x+ d(x;y); y
0
=y
(11.2)
describes the relationship between corresponding pixel coordinates in the left and right im-
ages (Bolles,Baker,andMarimont1987;OkutomiandKanade1993;ScharsteinandSzeliski
Acrobat remove pages from pdf - remove PDF pages in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Provides Users with Mature Document Manipulating Function for Deleting PDF Pages
delete pages from a pdf file; add and delete pages in pdf online
Acrobat remove pages from pdf - VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Visual Basic Sample Codes to Delete PDF Document Page in .NET
reader extract pages from pdf; delete a page in a pdf file
540
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
(a)
(b)
(c)
(d)
(e)
(f)
Figure 11.5 Slices through a typical disparity space image (DSI) (ScharsteinandSzeliski
2002)
c
2002 Springer: (a) original color image; (b) ground truth disparities; (c–e) three
(x;y) slices for d = 10;16;21; (f) an (x;d) slice for y = 151 (the dashed line in (b)).
Various dark (matching) regions are visible in (c–e), e.g., the bookshelves, table and cans,
and head statue, and three disparity levels can be seen as horizontal lines in (f). The dark
bands intheDSIs indicate regions that match atthis disparity. (Smaller dark regions are often
the result of textureless regions.) Additional examples of DSIs are discussed byBobickand
Intille(1999).
2002).
3
The task of extracting depth from a setof images thenbecomes one of estimating the
disparity map d(x;y).
After rectification, we can easily compare the similarity of pixels at corresponding lo-
cations (x;y) and (x
0
;y
0
) = (x + d;y) and store them in a disparity space image (DSI)
C(x;y;d) for further processing (Figure11.5). The concept of the disparity space (x;y;d)
dates back to early work in stereo matching (MarrandPoggio1976), while the concept of a
disparity space image (volume) is generally associated withYang,Yuille,andLu(1993) and
Intille and Bobick(1994).
11.1.2 Plane sweep
Analternativetopre-rectifyingthe images before matchingistosweepa setof planes through
the scene and to measure the photoconsistency of different images as they are re-projected
onto these planes (Figure11.6). This process is commonly known as the plane sweep algo-
rithm (Collins1996;SzeliskiandGolland1999;SaitoandKanade1999).
As we saw in Section2.1.5, where we introduced projective depth (also known as plane
plus parallax (Kumar, Anandan,andHanna1994;Sawhney1994;SzeliskiandCoughlan
3
The term disparity was first introduced in the human vision literature to describe the difference in location
of corresponding features seen by the left and right eyes (Marr1982). Horizontal disparity is the most commonly
studied phenomenon, but vertical disparity is possibleifthe eyes are verged.
.NET PDF Document Viewing, Annotation, Conversion & Processing
Insert images into PDF. Edit, remove images from PDF. Redact text content, images, whole pages from PDF file. Print. Support for all the print modes in Acrobat PDF
cut pages from pdf; delete pages from a pdf reader
C# PDF Converter Library SDK to convert PDF to other file formats
manipulate & convert standard PDF documents in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat.
delete page from pdf preview; delete a page from a pdf in preview
11.1 Epipolar geometry
541
Virtual camera
d
x
y
Input  image k
u
v
Homography:
u = H x
x
y
k
d
k
(a)
(b)
Figure 11.6 Sweeping a set of planes through a scene (SzeliskiandGolland1999)  c 1999
Springer: (a) The set of planes seen from a virtual camera induces a set of homographies in
any other source(input) camera image. (b) The warped images from allthe other cameras can
be stacked into a generalized disparity space volume
~
I(x;y;d;k) indexed by pixel location
(x;y), disparity d, and camera k.
1997)),thelastrowofafull-rank44projectionmatrix
~
Pcan be set to an arbitrary plane
equation p
3
=s
3
[^n
0
jc
0
]. The resulting four-dimensional projective transform (collineation)
(2.68) maps 3D world points p = (X;Y;Z;1) into screen coordinates x
s
= (x
s
;y
s
;1;d),
where the projective depth (or parallax) d (2.66) is 0 on the reference plane (Figure2.11).
Sweeping d through a series of disparity hypotheses, as shown in Figure11.6a, corre-
sponds to mapping each input image into the virtual camera
~
P defining the disparity space
through a series of homographies (2.682.71),
~
x
k
~
P
k
~
P
1
x
s
=
~
H
k
~
x+ t
k
d= (
~
H
k
+t
k
[0 0 d])
~
x;
(11.3)
as shown in Figure2.12b, where ~x
k
and ~x are the homogeneous pixel coordinates in the
source and virtual (reference) images (SzeliskiandGolland1999). The members of the fam-
ily of homographies
~
H
k
(d) =
~
H
k
+t
k
[0 0 d], which are parametererized by the addition of
arank-1 matrix, are related to eachother through a planar homology (HartleyandZisserman
2004,A5.2).
The choice of virtual camera and parameterization is application dependent and is what
gives this framework a lot of its flexibility. In many applications, one of the input cameras
(the reference camera) is used, thus computing a depth map that is registered with one of the
inputimages and whichcanlater be usedfor image-based rendering (Sections13.1 and13.2).
In other applications, such as view interpolation for gaze correction in video-conferencing
C# powerpoint - PowerPoint Conversion & Rendering in C#.NET
documents in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat. PowerPoint to PDF Conversion.
delete pages from pdf preview; delete pages in pdf online
C# Word - Word Conversion in C#.NET
Word documents in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat. Word to PDF Conversion.
delete a page from a pdf without acrobat; delete page in pdf
542
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
(Section11.4.2) (Ott,Lewis,andCox1993;Criminisi,Shotton,Blakeetal.2003), a camera
centrally located between the two input cameras is preferable, since it provides the needed
per-pixel disparities to hallucinate the virtual middle image.
Thechoice of disparity sampling, i.e., the settingof the zeroparallaxplane andthescaling
of integer disparities, is also application dependent, and is usually set to bracket the range of
interest, i.e., the working volume, while scaling disparities to sample the image in pixel (or
sub-pixel) shifts. For example, when using stereo vision for obstacle avoidance in robot
navigation, it is most convenient to set up disparity to measure per-pixel elevation above the
ground (Ivanchenko,Shen,andCoughlan2009 ).
As each input image is warped onto the current planes parameterized by disparity d, it
can be stacked into a generalized disparity space image
~
I(x;y;d;k) for further processing
(Figure11.6b) (SzeliskiandGolland1999). In most stereo algorithms, the photoconsistency
(e.g., sum of squaredor robustdifferences) withrespecttothereferenceimageI
r
is calculated
and stored in the DSI
C(x;y;d) =
X
k
(
~
I(x;y;d;k)   I
r
(x;y)):
(11.4)
However, it is also possible to compute alternative statistics such as robust variance, focus,
or entropy (Section11.3.1) (Vaish,Szeliski,Zitnicketal.2006) or to use this representation
to reason about occlusions (SzeliskiandGolland1999;KangandSzeliski2004). The gen-
eralized DSI will come in particularly handy when we come back to the topic of multi-view
stereo in Section11.6.
Of course, planes are not the only surfaces that can be usedto define a 3D sweep through
the space of interest. Cylindrical surfaces, especially when coupled with panoramic photog-
raphy (Chapter9), are often used (Ishiguro,Yamamoto,andTsuji1992 ;KangandSzeliski
1997;Shum andSzeliski 1999; Li, Shum, Tang etal. 2004;Zheng, Kang, Cohenet al. 2007).
It is also possible to define other manifold topologies, e.g., ones where the camera rotates
around a fixed axis (Seitz2001).
Once the DSI has been computed, the nextstep in most stereo correspondence algorithms
is to produce a univalued function in disparity space d(x;y) that best describes the shape of
the surfaces in the scene. This can be viewed as finding a surface embedded in the disparity
space image that has some optimality property, such as lowest cost and best (piecewise)
smoothness (Yang, Yuille,andLu1993). Figure11.5 shows examples of slices through a
typical DSI. More figures of this kind can be found inthe paper byBobickandIntille(1999).
C# Windows Viewer - Image and Document Conversion & Rendering in
standard image and document in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat. Convert to PDF.
delete page in pdf document; delete pages pdf file
VB.NET PDF: How to Create Watermark on PDF Document within
Watermark Creator, users need no external application plugin, like Adobe Acrobat. VB example code to create graphics watermark on multiple PDF pages within the
delete page pdf online; cut pages from pdf reader
11.2 Sparse correspondence
543
11.2 Sparse correspondence
Early stereo matching algorithms were feature-based, i.e., they first extracted a set of poten-
tially matchable image locations, using either interest operators or edge detectors, and then
searched for corresponding locations in other images using a patch-based metric (Hannah
1974; Marr and Poggio 1979; Mayhew and Frisby 1980; Baker and Binford 1981; Arnold
1983; Grimson 1985; Ohta and Kanade 1985; Bolles, Baker, and Marimont 1987; Matthies,
Kanade, and Szeliski 1989; Hsieh, McKeown, and Perlant 1992; Bolles, Baker, and Hannah
1993).Thislimitationtosparsecorrespondenceswaspartiallyduetocomputationalresource
limitations, but was alsodriven by a desire tolimittheanswers producedby stereoalgorithms
to matches with high certainty. In some applications, there was also a desire to match scenes
with potentially very different illuminations, where edges might be the only stable features
(Collins1996). Such sparse 3D reconstructions could later be interpolated using surface fit-
ting algorithms such as those discussed in Sections3.7.1 and12.3.1.
More recent work in this area has focused on first extracting highly reliable features and
then using these as seeds to grow additional matches (ZhangandShan2000;Lhuillierand
Quan 2002).Similarapproacheshavealsobeenextendedtowidebaselinemulti-viewstereo
problems and combined with 3D surface reconstruction (LhuillierandQuan2005;Strecha,
Tuytelaars, andVan Gool 2003; Goesele, Snavely, Curlesset al. 2007)orfree-spacereasoning
(Taylor2003), as described in more detail in Section11.6.
11.2.1 3D curves and profiles
Another example of sparse correspondence is the matching of profile curves (or occluding
contours), which occur at the boundaries of objects (Figure11.7) and at interior self occlu-
sions, where the surface curves away from the camera viewpoint.
The difficulty in matching profile curves is that in general, the locations of profile curves
vary as a function of camera viewpoint. Therefore, matching curves directly in two images
andthen triangulating these matches can lead toerroneous shape measurements. Fortunately,
if three or more closely spaced frames are available, it is possible to fit a local circular arc to
the locations of corresponding edgels (Figure11.7a) and therefore obtain semi-dense curved
surface meshes directlyfrom the matches (Figures11.7c and g). Another advantageof match-
ing such curves is that they can be used to reconstruct surface shape for untextured surfaces,
so long as there is a visible difference between foreground and background colors.
Over the years, a number of different techniques have been developed for reconstructing
surface shape from profile curves (GiblinandWeiss1987;CipollaandBlake1992;Vaillant
and Faugeras 1992; Zheng 1994; Boyer and Berger 1997; Szeliski and Weiss 1998). Cipolla
and Giblin(2000)describemanyofthesetechniques,aswellasrelatedtopicssuchasin-
C# Excel - Excel Conversion & Rendering in C#.NET
Excel documents in .NET class applications independently, without using other external third-party dependencies like Adobe Acrobat. Excel to PDF Conversion.
delete pages from a pdf document; delete page from pdf reader
VB.NET PowerPoint: VB Code to Draw and Create Annotation on PPT
as a kind of compensation for limitations (other documents are compatible, including PDF, TIFF, MS on slide with no more plug-ins needed like Acrobat or Adobe
delete pages from a pdf online; delete pages out of a pdf file
544
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
(a)
(b)
(c)
(d)
(e)
(f)
(g)
Figure 11.7 Surface reconstruction from occluding contours (SzeliskiandWeiss1998)  c
2002 Springer: (a) circular arc fitting in the epipolar plane; (b) synthetic example of an el-
lipsoidwith a truncated side and elliptic surface markings; (c) partially reconstructed surface
mesh seen from an oblique and top-down view; (d) real-world image sequence of a soda can
on a turntable; (e) extracted edges; (f) partially reconstructed profile curves; (g) partially re-
constructed surface mesh. (Partial reconstructions are shown so as not to clutter the images.)
ferring camera motion from profile curve sequences. Below, we summarize the approach
developed bySzeliskiandWeiss(1998), which assumes a discrete set of images, rather than
formulating the problem in a continuous differential framework.
Letus assumethat thecamerais moving smoothly enoughthat thelocalepipolar geometry
varies slowly, i.e., the epipolar planes induced by the successive camera centers and an edgel
under consideration are nearly co-planar. The first stepin the processing pipeline is to extract
and link edges in each of the input images (Figures11.7b and e). Next, edgels in successive
images arematched usingpairwiseepipolar geometry, proximityand (optionally) appearance.
This provides a linked set of edges in the spatio-temporal volume, which is sometimes called
the weaving wall (Baker1989).
To reconstruct the 3Dlocation of an individual edgel, along withits local in-plane normal
and curvature, we project the viewing rays corresponding to its neighbors onto the instanta-
neous epipolar plane defined by the camera center, the viewing ray, and the camera velocity,
as shown in Figure11.7a. We then fit an osculating circle to the projected lines, parameteriz-
DICOM to PDF Converter | Convert DICOM to PDF, Convert PDF to
users do not need to load Adobe Acrobat or any Convert all pages or certain pages chosen by users; download & perpetual update. Start Image DICOM PDF Converting.
delete pages of pdf reader; delete pages out of a pdf
BMP to PDF Converter | Convert Bitmap to PDF, Convert PDF to BMP
for Adobe Acrobat Reader & print driver during conversion; Support conversion of Bitmap - PDF files in both single & batch mode; Convert all pages or certain
delete pages from a pdf; cut pages from pdf file
11.3 Dense correspondence
545
ing the circle by its centerpoint c = (x
c
;y
c
)and radius r,
c
i
x
c
+s
i
y
c
+r = d
i
;
(11.5)
where c
i
=
^
t
i
^
t
0
and s
i
^
t
i
^n
0
are the cosine and sine of the angle betweenviewing ray
iand the centralviewing ray 0, and d
i
=(q
i
q
0
)^n
0
is the perpendicular distance between
viewingrayi andthelocalorigin q
0
,which is a point chosen on the centralviewing ray close
to the line intersections (SzeliskiandWeiss1998). The resulting set of linear equations can
be solved using least squares, and the quality of the solution (residual error) can be used to
check for erroneous correspondences.
The resulting set of 3Dpoints, along withtheir spatial(in-image) and temporal (between-
image) neighbors, form a 3D surface mesh with local normal and curvature estimates (Fig-
ures11.7c and g). Note that whenever a curve is due to a surface marking or a sharp crease
edge, rather thana smoothsurface profile curve, this shows up as a 0or small radius of curva-
ture. Such curves result in isolated 3D space curves, rather than elements of smooth surface
meshes, butcan still be incorporated into the 3Dsurface model during a later stage of surface
interpolation (Section12.3.1).
11.3 Dense correspondence
While sparse matching algorithms are still occasionally used, most stereo matching algo-
rithms today focus on dense correspondence, since this is required for applications such as
image-based rendering or modeling. This problem is more challenging than sparse corre-
spondence, since inferring depth values in textureless regions requires a certain amount of
guesswork. (Think of a solid colored background seen through a picket fence. What depth
should it be?)
In this section, we review the taxonomy and categorization scheme for dense correspon-
dence algorithms first proposed byScharsteinandSzeliski(2002). The taxonomy consists
of a set of algorithmic “building blocks” from which a large set of algorithms can be con-
structed. It is based on the observation that stereo algorithms generally perform some subset
of the following four steps:
1. matching cost computation;
2. cost (support) aggregation;
3. disparity computation and optimization; and
4. disparity refinement.
546
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
For example, local (window-based) algorithms (Section11.4), where the disparity com-
putation at a given point depends only on intensity values within a finite window, usually
make implicit smoothness assumptions by aggregating support. Some of these algorithms
can cleanly be broken down into steps 1, 2, 3. For example, the traditional sum-of-squared-
differences (SSD) algorithm can be described as:
1. The matching cost is the squared difference of intensity values at a given disparity.
2. Aggregationis done by summingthematching cost over square windows with constant
disparity.
3. Disparities are computed by selecting the minimal (winning) aggregated value at each
pixel.
Some localalgorithms, however, combine steps 1 and2 and use a matching cost that is based
ona supportregion, e.g. normalized cross-correlation (Hannah1974;Bolles,Baker,andHan-
nah1993)andtheranktransform(ZabihandWoodfill1994)andotherordinalmeasures(Bhat
and Nayar 1998).(Thiscanalsobeviewedasapreprocessingstep;see(Section11.3.1).)
Global algorithms, on the other hand, make explicit smoothness assumptions and then
solve a a global optimization problem (Section11.5). Such algorithms typically do not per-
form an aggregation step, but rather seek a disparity assignment (step 3) that minimizes a
global cost function that consists of data (step 1) terms and smoothness terms. The main dis-
tinctions amongthese algorithms is the minimization procedure used, e.g., simulated anneal-
ing (Marroquin,Mitter,andPoggio1987;Barnard1989), probabilistic (mean-field) diffusion
(ScharsteinandSzeliski1998), expectation maximization (EM) (Birchfield,Natarajan,and
Tomasi 2007), graphcuts(Boykov, Veksler, and Zabih 2001),orloopybeliefpropagation
(Sun,Zheng,andShum2003), to name just a few.
In between these two broad classes are certain iterative algorithms that do not explicitly
specifya global functiontobe minimized, butwhose behavior mimics closelythatof iterative
optimization algorithms (MarrandPoggio1976;ZitnickandKanade2000). Hierarchical
(coarse-to-fine) algorithms resemble such iterative algorithms, but typically operate on an
image pyramid where results from coarser levels are used to constrain a more local search at
finer levels (Witkin,Terzopoulos,andKass1987;Quam1984;Bergen,Anandan,Hannaet
al. 1992).
11.3.1 Similarity measures
The first component of any dense stereo matching algorithm is a similarity measure that
compares pixel values in order to determine how likely they are to be in correspondence. In
this section, we brieflyreviewthesimilarity measures introducedinSection8.1andmentiona
11.3 Dense correspondence
547
few others thathave been developed specificallyfor stereo matching (ScharsteinandSzeliski
2002; Hirschm¨uller and Scharstein 2009).
The most common pixel-based matching costs include sums of squared intensity differ-
ences (SSD) (Hannah1974) and absolute intensity differences (SAD) (Kanade1994). In
the video processing community, these matching criteria are referred to as the mean-squared
error (MSE) and mean absolute difference (MAD) measures; the term displaced frame dif-
ference is also often used (Tekalp1995).
More recently, robust measures (8.2), including truncated quadratics and contaminated
Gaussians, have been proposed (Blackand Anandan1996;Blackand Rangarajan 1996;
Scharstein and Szeliski 1998). Thesemeasuresareusefulbecausetheylimittheinfluence
of mismatches during aggregation. Vaish,Szeliski,Zitnicketal.(2006) compare a number
of such robust measures, including a new one based on the entropy of the pixel values at a
particular disparity hypothesis (Zitnick,Kang,Uyttendaeleetal.2004), which is particularly
useful in multi-view stereo.
Other traditional matching costs include normalized cross-correlation (8.11) (Hannah
1974; Bolles, Baker, and Hannah 1993; Evangelidis and Psarakis 2008), which behaves
similarly to sum-of-squared-differences (SSD), and binary matching costs (i.e., match or no
match) (MarrandPoggio1976), based on binary features such as edges (BakerandBinford
1981; Grimson 1985)orthesignoftheLaplacian(Nishihara 1984). Becauseoftheirpoor
discriminability, simple binary matching costs are no longer used in dense stereo matching.
Some costs are insensitive to differences in camera gain or bias, for example gradient-
based measures (Seitz1989;Scharstein1994), phase and filter-bank responses (Marrand
Poggio 1979; Kass 1988; Jenkin, Jepson, and Tsotsos 1991; Jones and Malik 1992),filters
that remove regular or robust (bilaterally filtered) means (Ansar,Castano,andMatthies2004;
Hirschm¨uller and Scharstein 2009),densefeaturedescriptor(Tola, Lepetit, and Fua 2010),
andnon-parametric measures suchas rank andcensus transforms (ZabihandWoodfill1994),
ordinal measures (BhatandNayar1998), or entropy (Zitnick,Kang,Uyttendaeleetal.2004;
Zitnick and Kang 2007). Thecensustransform,whichconvertseachpixelinsideamoving
window into a bit vector representing which neighbors are above or below the central pixel,
was found byHirschm¨ullerandScharstein(2009) to be quite robust against large-scale, non-
stationary exposure and illumination changes.
It is also possible to correct for differing global camera characteristics by performing
apreprocessing or iterative refinement step that estimates inter-image bias–gain variations
using global regression (Gennert1988), histogram equalization (Cox, Roy,andHingorani
1995),ormutualinformation(Kim, Kolmogorov, and Zabih 2003; Hirschm¨uller 2008). Lo-
cal, smoothly varying compensation fields have also been proposed (Strecha,Tuytelaars,and
Van Gool 2003; Zhang, McMillan, and Yu 2006).
In order to compensate for sampling issues, i.e., dramatically different pixel values in
548
Computer Vision: Algorithms and Applications (September 3, 2010 draft)
high-frequency areas,BirchfieldandTomasi(1998) proposeda matchingcost thatis less sen-
sitive to shifts in image sampling. Rather than just comparingpixel values shifted by integral
amounts (which may miss a valid match), they compare each pixel in the reference image
against a linearly interpolated function of the other image. More detailed studies of these
and additional matching costs are explored in (SzeliskiandScharstein2004;Hirschm¨uller
and Scharstein 2009).Inparticular,ifyouexpecttheretobesignificantexposureorappear-
ance variation between images that you are matching, some of the more robust measures
that performed well in the evaluation byHirschm¨ullerandScharstein(2009), such as the
census transform (ZabihandWoodfill1994), ordinal measures (BhatandNayar1998), bi-
lateral subtraction (Ansar,Castano,andMatthies2004), or hierarchical mutual information
(Hirschm¨uller2008), should be used.
11.4 Local methods
Local and window-based methods aggregate the matching cost by summing or averaging
over a support region in the DSI C(x;y;d).
4
Asupportregioncan be either two-dimensional
at a fixed disparity (favoring fronto-parallel surfaces), or three-dimensional in x-y-d space
(supporting slanted surfaces). Two-dimensional evidence aggregation has been implemented
using square windows or Gaussian convolution (traditional), multiple windows anchored at
different points, i.e., shiftable windows (Arnold1983;Fusiello,Roberto,andTrucco1997;
Bobick and Intille 1999),windowswithadaptivesizes(Okutomi and Kanade 1992; Kanade
and Okutomi 1994; Kang, Szeliski, and Chai 2001; Veksler 2001, 2003),windowsbasedon
connected components of constant disparity (Boykov,Veksler,andZabih1998), or the re-
sults of color-based segmentation (YoonandKweon2006;Tombari,Mattoccia,DiStefano
et al. 2008). Three-dimensionalsupportfunctionsthathavebeenproposedincludelimited
disparity difference (Grimson1985), limiteddisparity gradient (Pollard,Mayhew,andFrisby
1985),Prazdny’scoherenceprinciple(Prazdny 1985),andthemorerecentwork(whichin-
cludes visibility and occlusion reasoning) byZitnickandKanade(2000).
Aggregation with a fixed support regioncan be performed using 2D or 3D convolution,
C(x;y;d) = w(x;y;d) C
0
(x;y;d);
(11.6)
or, in the case of rectangular windows, using efficient moving average box-filters (Sec-
tion3.2.2) (Kanade, Yoshida,Odaetal.1996;Kimura, Shinbo, Yamaguchietal. 1999).
Shiftable windows can also be implemented efficiently using a separable sliding min-filter
(Figure11.8) (ScharsteinandSzeliski2002, Section 4.2). Selecting among windows of dif-
ferent shapes and sizes can be performed more efficiently by first computing a summed area
Fortworecentsurveysandcomparisonsofsuchtechniques,pleaseseetheworkofGong,Yang,Wangetal.
(2007)andTombari,Mattoccia,DiStefanoetal.(2008).
Documents you may be interested
Documents you may be interested