121 
Similarity and distance indices 
Computes a number of similarity or distance measures between all pairs of rows. The data can be 
univariate or (more commonly) multivariate, with variables in columns. The results are given as a 
symmetric similarity/distance matrix. This module is rarely used, because similarity/distance matrices 
are usually computed automatically from primary data in modules such as PCO, NMDS, cluster 
analysis and ANOSIM in Past. 
Euclidean 
Basic Euclidean distance (the value is adjusted for missing data). 
i
ki
ji
jk
x
x
d
2
Gower 
A distance measure that averages the difference over all variables, each term normalized for the 
range of that variable: 
i
si
si
s
ki
ji
jk
x
x
x
x
n
d
s
min
max
1
The Gower measure is similar to Manhattan distance (see below) but with range normalization. 
When using mixed data types (see below), this is the default measure for continuous and ordinal 
data. 
Chord 
Euclidean distance between normalized vectors. Commonly used for abundance data. Can be written 
as 
 
i
ki
i
ji
i
ki
ji
jk
x
x
x x
d
2
2
2 2
Manhattan 
The sum of differences in each variable: 
i
ki
ji
jk
x
x
d
Bray-Curtis 
Pdf editor with search and replace text - search text inside PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn how to search text in PDF document and obtain text content and location information
search text in pdf using java; how to select text in pdf image
Pdf editor with search and replace text - VB.NET PDF Text Search Library: search text inside PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn How to Search Text in PDF Document and Obtain Text Content and Location Information in VB.NET application
can't select text in pdf file; search pdf for text
122 
Bray-Curtis is a popular similarity index for abundance data. Past calculates Bray-Curtis similarity as 
follows: 
 
i
ki
ji
i
ki
ji
jk
x
x
x
x
d
1
This is algebraically equivalent to the form given originally by Bray and Curtis (1957): 
i
ki
ji
i
ki
ji
jk
x
x
x x
d
,
min
2
Many authors operate with a Bray-Curtis distance, which is simply 1-d. 
Cosine 
The inner product of abundances each normalised to unit norm, i.e. the cosine of the angle between 
the vectors. 
i
ki
i
ji
i
ki
ji
jk
x
x
x x
d
2
2
Morisita 
For abundance data. 
1
1
1
i
ji
i
ji
i
ji
ji
x
x
x x
1
1
2
i
ki
i
ki
i
ki
ki
x
x
x x
 
i
ki
i
ji
i
ki
ji
jk
x
x
x x
d
2
1
2
Horn 
C# PDF replace text Library: replace text in PDF content in C#.net
public void Replace(String oldString, String newString, RESearchOption option specified string text that match the search option from specified PDF page.
find text in pdf files; convert pdf to searchable text online
VB.NET PDF replace text library: replace text in PDF content in vb
NET: Replace Text in PDF File. The following coding example illustrates how to perform PDF text replacing function in your VB.NET project, according to search
how to make a pdf document text searchable; how to select text on pdf
123 
Horn͛s overlap index for abundance data ;Horn 1966Ϳ. 
i
ji
j
x
N
i
ki
k
x
N
 
 
k
k
j
j
k
j
k
j
i
i
i
ki
ki
ji
ji
ki
ji
ki
ji
jk
N
N
N
N
N
N
N
N
x
x
x
x
x
x
x
x
d
ln
ln
ln
ln
ln
ln
Mahalanobis 
A distance measure taking into account the covariance structure of the data. With S the variance-
covariance matrix: 
k
j
k
j
x
S x
x
x
1
T
jk
d
Correlation 
The complement 1-r of Pearson͛s r correlation across the variables: 
2
2
1
k
ki
i
j
ji
i
k
ki
j
ji
jk
x
x
x
x
x
x x
x
d
 
Taking the complement makes this a distance measure. See also the Correlation module, where 
Pearson͛s r is given directly and with significance tests. 
Rho 
The complement 1-r
s
of Spearman͛s rho, which is the correlation coefficient of ranks. See also the 
Correlation module, where rho is given directly and with significance tests. 
Dice 
Also known as the Sorensen coefficient. For binary (absence-presence) data, coded as 0 or 1 (any 
positive number is treated as 1). The Dice similarity puts more weight on joint occurences than on 
mismatches.  
When comparing two rows, a match is counted for all columns with presences in both rows. Using M 
for the number of matches and N for the the total number of columns with presence in just one row, 
we have
C# HTML5 PDF Viewer SDK to view, annotate, create and convert PDF
framework class. An advanced PDF editor enable C# users to edit PDF text, image and pages in Visual Studio .NET project. Support to
select text in pdf file; pdf find highlighted text
C# PDF delete text Library: delete, remove text from PDF file in
option). Description: Delete specified string text that match the search option from PDF file. Parameters: Name, Description, Valid Value.
text searchable pdf; searching pdf files for text
124 
d
jk
= 2M / (2M+N).  
Jaccard 
A similarity index for binary data. With the same notation as given for Dice similarity above, we have 
d
jk
M / (M+N).
Kulczynski 
A similarity index for binary data. With the same notation as given for Dice similarity above (with N
1
and N
2
referring to the two rows), we have 
2
2
1
N
M
M
N
M
M
d
jk
Ochiai 
A similarity index for binary data, comparable to the cosine similarity for other data types: 
2
1
N
M
M
N
M
M
d
jk
Simpson 
The Simpson index (Simpson 1943) is defined simply as 
M / N
min
, where 
N
min
is the smaller of the 
numbers of presences in the two rows. This index treats two rows as identical if one is a subset of the 
other, making it useful for fragmentary data. 
Raup-Crick 
Raup-Crick index for absence-presence data. This index (Raup & Crick 1979) uses a randomization 
(Monte Carlo) procedure, comparing the observed number of species ocurring in both associations 
with the distribution of co-occurrences from 1000 random replicates from the pool of samples. 
Hamming 
Hamming distance for categorical data as coded with integers (or sequence data coded as CAGT). The 
Hamming distance is the number of differences (mismatches), so that the distance between (3,5,1,2) 
C# PDF Page Replace Library: replace PDF pages in C#.net, ASP.NET
You can replace an entire PDF page with another PDF page from another PDF file. All information, data on the original page are removed, including text, images
search multiple pdf files for text; select text in pdf
C# PDF Text Highlight Library: add, delete, update PDF text
Description: Highlight specified string text that match the search option from PDF file. Parameters: Name, Description, Valid Value.
how to search a pdf document for text; how to select text in pdf
125 
and (3,7,0,2) equals 2. In PAST, this is normalised to the range [0,1], which is known to geneticists as 
"p-distance". 
Jukes-Cantor 
Distance measure for genetic sequence data (CAGT). Similar to p (or Hamming) distance, but takes 
into account probability of reversals: 

p
d
3
4
ln1
4
3
Kimura 
The Kimura 2-parameter distance measure for genetic sequence data (CAGT). Similar to Jukes-Cantor 
distance, but takes into account different probabilities of nucleotide transitions vs. transversions 
(Kimura 1980). With P the observed proportion of transitions and Q the observed number of 
transversions, we have 
Q
P Q
d
ln1 2
4
1
ln1 2
2
1

Tajima-Nei 
Distance measure for genetic sequence data (CAGT). Similar to Jukes-Cantor distance, but does not 
assume equal nucleotide frequencies. 
Tamura 
Distance measure for genetic sequence data (CAGT). An extension of the Kimura 2-parameter 
distance, handling unequal transition/transversion probability, but also takes into account a possible 
bias in the G+C frequency. With P and Q as for Kimura distance, and h = 2θ;1- θͿ where θ is the G+  
frequency (0-1): 
 
Q
h
Q
h
P
h
d
ln1 2
1
2
1
ln1

Geographical 
Distance in meters along a great circle between two points on the Earth͛s surface. Exactly two 
variables (columns) are required, with latitudes and longitudes in decimal degrees (e.g. 58 degrees 30 
minutes North is 58.5). Coordinates are expected in the WGS84 datum, and distance is calculated 
with respect to the WGS84 ellipsoid. Use of other datums will result in very slight errors. 
The accuracy of the algorithm used (Vincenty 1975) is on the order of 1 mm with respect to WGS84. 
C# WPF PDF Viewer SDK to view PDF document in C#.NET
WPF Viewer & Editor. WPF: View PDF. WPF: Annotate PDF. Read. Text: Extract Text from PDF. Text: Search Text in PDF. to PDF. Text: Delete Text from PDF. Text: Replace
how to select text in a pdf; search text in multiple pdf
C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net
PDF to Text. |. C#.NET PDF SDK - Convert PDF to Text in C#.NET. Empower C# Users to Convert PDF to Text (TXT) in Visual C# with .NET XDoc.PDF Converter Library.
how to make pdf text searchable; find text in pdf image
126 
User-defined similarity 
Expects a symmetric similarity matrix rather than original data. No error checking!  
User-defined distance 
Expects a symmetric distance matrix rather than original data. No error checking!  
Mixed 
This option requires that data types have been assigned to columns (see Entering and manipulating 
data). A pop-up window will ask for the similarity/distance measure to use for each datatype. These 
will be combined using an average weighted by the number of variates of each type. The default 
choices correspond to those suggested by Gower, but other combinations may well work better. The 
"Gower" option is a range-normalised Manhattan distance. 
All-zeros rows: Some similarity measures (Dice, Jaccard, Simpson etc.) are undefined when 
comparing two all-zero rows. To avoid errors, especially when bootstrapping sparse data sets, the 
similarity is set to zero in such cases. 
Missing data: Most of these measures treat missing data ;coded as ͚?͛Ϳ by pairwise deletion, meaning 
that if a value is missing in one of the variables in a pair of rows, that variable is omitted from the 
computation of the distance between those two rows.  The exceptions are rho distance, using 
column average substitution, and Raup-Crick, which treats missing data as zero. 
References 
Bray, J.R. & J.T. Curtis. 1957. An ordination of the upland forest communities of Southern Wisconsin. 
Ecological Monographs 27:325-349. 
Horn,  H.S. 1966. Measurement of overlap in comparative ecological studies. American Naturalist 
100:419-424. 
Kimura, M. 1980. A simple model for estimating evolutionary rates of base substitutions through 
comparative studies of nucleotide sequences. Journal of Molecular Evolution 16:111-120. 
Raup, D. & R.E. Crick. 1979. Measurement of faunal similarity in paleontology. Journal of 
Paleontology 53:1213-1227. 
Simpson, G.G. 1943. Mammals and the nature of continents. American Journal of Science 241:1-31. 
Vincenty, T. 1975. Direct and inverse solutions of geodesics on the ellipsoid with application of 
nested equations. Survey Review 176:88-93. 
127 
Genetic sequence stats 
A number of simple statistics on genetic sequence (DNA or RNA) data. The module expects a number 
of rows, each with a sequence. The sequences are expected to be aligned and of equal length 
including gaps ;coded as ͚?͛Ϳ. Some of these statistics are useful for selecting appropriate distance 
measures elsewhere in Past. 
Total length:   
The total sequence length, including gaps, of one sequence 
Average gap:   
The number of gap positions, averaged over all sequences 
Average A, T/U, C, G:   
The average number of positions containing each nucleotide 
Average p distance: 
The p distance between two sequences, averaged over all pairs of 
sequences. The p (or Hamming) distance is defined as the proportion 
of unequal positions 
Average Jukes-Cantor d: 
The Jukes-Cantor d distance between two sequences, averaged over 
all pairs of sequences. d = -3ln(1 - 4p/3)/4, where p is the p distance 
Maximal Jukes-Cantor d: 
Maximal Jukes-Cantor distance between any two sequences 
Average transitions (P): 
Average number of transitions (a↔g, c↔t, i.e. within purines, 
pyrimidines) 
Average transversions (Q): 
Average number of transversions (a↔t, a↔c, c↔g, t↔g, i.e. 
across purines, pyrimidines) 
R=P/Q:  
The transition/transversion ratio 
Missing data: Treated as gaps. 
128 
Model menu 
Linear, bivariate 
If two columns are selected, they represent x and y values, respectively. If one column is selected, it 
represents y values, and x values are taken to be the sequence of positive integers (1,2,...). A straight 
line y=ax+b is fitted to the data. Several bivariate data sets can be regressed in the same plot, and 
their slopes compared, by giving an even number of columns, each pair of columns being one x-y set. 
There are four different algorithms available: Ordinary Least Squares (OLS), Reduced Major Axis 
(RMA), Major Axis (MA), and Robust. OLS regression assumes the x values are fixed, and finds the line 
which minimizes the squared errors in the y values. Use this if your x values have very little error 
associated with them. RMA and MA try to minimize both the x and the y errors. RMA/MA fitting, 
standard error estimation and slope comparison are according to Warton et al. (2006). 
The ͞Robust͟ method is an advanced Model I ;fixed x values) regression which is robust to outliers. It 
sometimes gives strange results, but can be very successful in the case of ͞almost͟ normally 
distributed errors but with some far-off values. The algorithm is ͞Least Trimmed Squares͟ based on 
the ͞FastLTS͟ code of Rousseeuw & Driessen ;1999Ϳ. Parametric error estimates are not available, 
but Past gives bootstrapped confidence intervals on slope and intercept (beware – this is extremely 
slow for large data sets). 
Both x and y values can be log-transformed (base 10), in effect fitting your data to the 'allometric' 
function y=10
b
x
a
. An a value around 1 indicates that a straight-line ('isometric') fit may be more 
applicable.  
The values for a and b, their errors, Pearson's r correlation, and the probability that the columns are 
not correlated are given. Note the r
2
is simply the Pearson͛s coefficient squared – it does not adjust 
for regression method. 
129 
The calculation of standard errors for slope and intercept assumes normal distribution of residuals 
and independence between the variables and the variance of residuals. If these assumptions are 
strongly violated, it is preferable to use the bootstrapped 95 percent confidence intervals (1999 
replicates). 
The permutation test on correlation (r
2
) uses 9,999 replicates. 
Confidence band 
In OLS regression (not RMA/MA/Robust), a 95 percent "Working-Hotelling" confidence band for the 
fitted line (not for the data points!) is available. The confidence band is calculated as 
 
2
2
2
0.05/2, 2
1
CI
x x
x x
n
SE
t
ax
b
i
reg
n
where the squared sum of residuals 
 
2
2
i
i
reg
ax
y b
SE
When the intercept is forced to zero, the confidence band is calculated as 
2
2
2
0.05/2, 1
CI
i
reg
n
x
x
SE
t
ax
Zero intercept 
Forces the regression line through zero. This has implications also for the calculation of slope and the 
standard error of the slope. All four methods handle this option. 
130 
Residuals  
The Residuals window reports the distances from each data point to the regression line, in the x and 
y directions. Only the latter is of interest when using ordinary linear regression rather than RMA or 
MA. The residuals can be copied back to the spreadsheet and inspected for normal distribution and 
independence between independent variable and residual variance (homoskedasticity). 
Durbin-Watson test 
The Durbin-Watson test for positive autocorrelation of residuals in y (violating an assumption of OLS 
regression) is given in the Residuals window. The test statistic varies from zero (total positive 
autocorrelation) through 2 (zero autocorrelation) to 4 (negative autocorrelation). For n<=400, an 
exact p value for no positive autocorrelation is calculated using the PAN algorithm (Farebrother 1980, 
with later corrections). The test is not accurate when using the Zero intercept option. 
Breusch-Pagan test 
The Breusch-Pagan test for heteroskedasticity, i.e. nonstationary variance of residuals (violating an 
assumption of OLS regression) is given in the Residuals window.  The test statistic is LM = nr
2
where r 
is the correlation coefficient between the x values and the squared residuals. It is asymptotically 
distributed as 
2
with one degree of freedom. The null hypothesis of the test is homoskedasticity. 
Exponential functions  
Your data can be fitted to an exponential function y=e
b
e
ax
by first log-transforming just your y column 
(in the Transform menu) and then performing a straight-line fit. 
RMA equations 
Slope 
 
2
2
sign
x x
y y
r
a
Standard error on 
 
2
1
abs
2
n
r
a
a
Intercept 
b y y ax
 
Standard error on 
2 2
2
a
r
x s
n
s
b
, where s
r
is the estimate of standard deviation of residuals and s
a
is 
the standard error on slope. 
For zero intercept (b=0), set 
0
x
and 
0
y
for the calculation of slope and its standard error 
(including the calculation of r therein), and use n-1 instead of n-2 for the calculation of standard 
error.  
Missing data: Supported by row deletion. 
Documents you may be interested
Documents you may be interested