﻿

Xnumbers Tutorial
50
Linear Regression Formulas
Generally, the multivariate linear regression function is:
m m
a x
ax ax
y a
...
2 2
1 1
0
+
+
+
=
where:
[
]
m
a
a a a
, , ...
2
1
0
The coefficients of regression can be found by the following algorithm
Make the following variables substitution:
1..m
for i
=
=
x x
X
i
i
y y
Y
= −
=
where the right values are the averages of samples
y
and
x
respectively:
=
k
k
y
n
y
1
=
k
ik
i
x
n
x
,
1
After that, the coefficients a= [a
1
, a
2
, ....a
n
] are the solution of the following linear system
C a a b
[ ]⋅ ⋅ =
[ ]
where [C] is the cross-covariance matrix, and b is the XY covariance
=
=
=
=
=
=
=
j
m j
j
m j
j
j
j
j
m j
j
j
j
j
j
j
j
j m m j
j
j
j
j
j
j
j
j
X
X X
X
X
X
X
X
X
X X
X X
X X
X
2
,
,
3,
2
3,
,
2,
3,
2,
2
2,
,
1,
3,
1,
2,
1,
2
1,
..
..
..
C
=
j
j m m j
j
j
j
j
j
j
j
j
j
YX
YX
YX
YX
,
3,
2,
1,
....
b
and the constant coefficient is given by:
=
= −
m
i
i i
aX
Y
a
1
0
For m=1 we obtain the popular formulas of the monovariate linear regression
=
j
j
j
j
j
X
YX
a
2
1
Y aX
a
1
0
= −
=
This is the linear solution known as the Ordinary Least Squares (OLS). The analysis of this kind
of approach shows that, for large dimensions of n (many measurement values) the matrix C
becomes nearly singular
Xnumbers Tutorial
51
Linear Regression Covariance Matrix
xRegLinCov ( Y, X, Coeff, [DgtMax], [Intcpt] )
Returns the (m+1 x m+1) covariance matrix of a linear regression of m independent variables
m
m
a x
a x
ax
y a
+
+
+
=
...
ˆ
2 2
1 1
0
For a given set of n points
, )
(
2
1
i
mi
i
i
i
x y
x x
P=
Parameter Y is an (n x 1)  vector of dependent variable. Parameter X is a matrix of independent
variables. It may be an (n x 1) vector for monovariable regression or an (n x m) matrix for
multivariate regression.
Parameter Coeff is the (m+1) vector of the linear regression coefficents
Cross Covariance Matrix
Given the matrix X of the independent variables points
Intercept calculated
Intercept = 0
=
mn
n
m
m
x
x
x
x
x
x
X
...
1
...
...
...
...
...
1
...
1
1
2
12
1
11
=
mn
n
m
m
x
x
x
x
x
x
X
...
...
...
...
...
...
2
2
12
1
11
The covariance matrix C is
(
)
1
2
⋅ ⋅
=
T
C s s X X X
Where:
(
)
1
ˆ
2
2
− −
=
n m
y y
s
i
i
i
The covariance matrix C is
(
)
1
2
⋅ ⋅
=
T
C s s X X X
Where:
n m
y y
s
i
i
=
2
2
)
ˆ
(
Note that the square roots of the diagonal elements of the covariance matrix
ii
i
c
s =
are the standard deviations of the linear regression coefficients
Xnumbers Tutorial
52
Linear Regression Statistics
xRegLinStat( Y, X, Coeff, [DgtMax], [Intcpt])
Returns some statistics about the linear regression
R
2
Square of the linear correlation factor
S
y,x
Standard deviation of the linear regression
Parameter Y is a vector (n x 1) of dependent variable.
Parameter X is a list of independent variable. It may be an (n x 1)  vector for monovariable
regression or a (n x m) matrix for multivariate regression.
Coeff is the coefficients vector of the linear regression function [a
0
, a
1
, a
2
...a
m
].
Formulas
The regression factor (better: the square of regression factor) R
2
lie between 0 and 1 and
roughly indicates how closely the regression function fits the given values Y.
Generally, it can be computed by the following formula:
2
2
*
2
* 2
2
1
)
(
)
(
1
y
y y
i
i
i
i
i
y
y
y
y
R
σ
σ
= −
= −
Where
*
y
is the value estimated by the regression function and
y
is the mean of y values.
m m
a x
ax ax
a
y
...
*
2 2
1 1
0
+
+
+
=
=
k
k
y
n
y
1
For monovariate regression (m=1), the above formula returns the popular formula:
(
)
(
)
=
n
y
y
n
x
x
R
2
2
2
2
2
Standard error of the linear regression is:
Intercept calculated
Intercept constrained to 0
(
)
1
2
*
,
− −
=
gl
n
y y
s
i
i
i
y x
(
)
gl
n
y y
s
i
i
i
yx
=
2
*
,
Where gl = number of independent variables
Xnumbers Tutorial
53
Linear Regression Evaluation
= xRegLinEval(Coeff, X)
Evaluates the multivariate linear regression in multi precision arithmetic.
Parameter Coeff is the coefficients vector [a
0
. a
1
, a
2
, ....] of the linear regression
Parameter X is the vector of independent variables. It is one value for a simple regression
The functions return the linear combination.
n n
a x
ax a a x
y a
...
2 2
1 1
0
+
+
+
=
Example: Plot the linear regression for the following data set
-1
0.58
-0.8
0.65
-0.6
0.88
-0.4
1.25
-0.2
1.32
1.14
0.2
1.31
0.4
1.51
0.6
1.54
0.8
1.48
1.98
In this worksheet, each value of linear regression
*
y
is computed by the function xRegLinEval.
The regression coefficients are computed by xRegLinCoef. The results are converted in double
by the function xcdbl.
Selecting the range A1:C12 and plotting the data we get the following regression graphs
0
0.4
0.8
1.2
1.6
2
2.4
-1
-0.75
-0.5
-0.25
0
0.25
0.5
0.75
1
y
y*
Xnumbers Tutorial
54
Polynomial Regression - Coefficient
xRegPolyCoef( Y, X, Coeff, [Degree], [DgtMax], [Intcpt])
Computes the polynomial regression with the least squares method in multi precision
arithmetic.
m
m
a x
ax ax
y a
+
+
+
=
...
2
2
1
0
with m > 1
Y is a vector (n x 1) of the dependent variable.
X is a vector (n x 1) of the independent variable
Degree  is the degree m >1 of the polynomial
DgtMax sets the precision (default 30).
Intcpt = true/false. If true (default) the algorithm calculates the intercept; otherwise the intercept
is set to 0
The function returns the coefficient vector [a
0
, a
1
, a
2
...a
m
Example. Find the 3rd degree polinomial fitting the given data set (xi, yi)
Polynomial Regression - Standard Deviation of Estimates
xRegPolyErr ( Y, X, Coeff, [Degree], [DgtMax], [Intcpt])
Returns the standard deviation of the polynomial regression estimate
Y is a vector (n x 1) of dependent variable values.
X is a vector (n x 1) of the independent variable
Coeff is the coefficients vector [a
0
, a
1
, a
2
...a
m
]. of the polynomial regression
DgtMax sets the precision (default 30)..
Intcpt = true/false. If true (default) the algorithm calculates the intercept; otherwise the intercept
is set to 0
see above example
Polynomial Regression Statistics
xRegPolyStat ( Y, X, Coeff, [Degree], [DgtMax], [Intcpt])
Computes the R-squared factor of the polynomial regression and the standard deviation of the
regression.
Xnumbers Tutorial
55
2
R
R-Squared coefficient of the polynomial regression
yx
S
,
Standard Deviation of the polynomial regression
Y is a vector (n x 1) of dependent variable values.
X is a vector (n x 1) of the independent variable
Coeff is the coefficients vector [a
0
, a
1
, a
2
...a
m
]. of the polynomial regression
DgtMax sets the precision (default 30).
Intcpt = true/false. If true (default ) the algorithm calculates the intercept deviation; otherwise
this is set to 0
If you wanto to see the standard deviation select two cells and give the CTRL+SHIFT+ENTER
sequence.
Macro - Regression
Xnumbers contains two macros performing the linear and polynomial regression in
multiprecision arithmetic. From the Xnumbers menu, select
•  Macro \ Regression \ Linear
•  Macro \ Regression \ Polynomial
Data XY is an array containing the column of the variable X at the left with the adjacent column
of Y at the right. For a m-multivariate regression also the columns of X must be exactly m.
Select this range before starting the macro. In this case the input box will be automatically filled
Data XY for univariate and
polynomial regression
Data XY for
multivariate regression
Output cell indicates the starting upper left cell of the output area.
Intercept. If checked the macro calculates the intercept otherwise it is set to 0
Convert to double. Converts the multiprecision in double before the output
Xnumbers Tutorial
56
R-squared + residual std. dev. Calculate the correspondent statistics
Estimate std. dev. Calculate the standard deviation of estimate
Digits Max. from 1 to 200, sets the precision (default 30)
Degree. The panel of the Polynomial Regression macro is similar to the Linear except for the
input degree box that allows to chose the polynomial degree.
An example of the regression output is.
To obtain this  result follow this steps:.
•  Select the range A2:C7 and start the macro.
•  Select all the option boxes and deselect the "double conversion" in
order to see all the 30 digits.
Note. The text has been added by hand only for clarity. The macro do not write them. We do it.
The coefficient a
0
(intercept) will be always output. If the intercept is switched off, the result in
the cell F2 will be 0
Xnumbers Tutorial
57
Sub-Tabulation
One important application of linear regression is the sub-tabulation, which is the method to
extract a table of values with smaller step from an original table with bigger steps. In other
words, we can obtain a fine tabulation from a table with a few values of a function. Let’s see
this example.
Example: Extract from the following dataset, a table having 11 values with step 0.1, from 0 to 1
5.1
0.2
4.7
0.5
4.5
0.6
4.3
0.7
4.2
3.6
3.00
3.50
4.00
4.50
5.00
5.50
0
0.2
0.4
0.6
0.8
1
The graph shows the extra points added by the sub tabulation. Note that this method is
different from the interpolation because the regression line does not pass through any of the
original points. The new values of the table B are different from the ones table A even in the
same x-values.
This feature came in handy when we want to regularize the row data.
Data Conditioning
The conditioning of the data consists of subtracting the mean from the values of the sample. It
can improve the accuracy of the linear regression, but the regression coefficients obtained -
conditioned coefficients - are different from the regression coefficients of the row data. They
can be back-transformed by the following method:
Given X and Y two data vectors, the linear regression polynomial of n degree well be:
First of all, we find the linear regression coefficients
[ a
0
, a
1
Than we re-calculate the values
i
= a
0
+ a
1
,   i =
1…10,  h = 0.1