Chapter 32. Discrete and censored dependent variables
300
where durat measures durations, 0 represents the constant (which is required for such models), X
is a named list of regressors, and cens is the censoring dummy.
By default the Weibull distribution is used; you can substitute any of the other three distribu-
tions discussed here by appending one of the option flags --exponential, --loglogistic or
--lognormal.
Interpreting the coefficients in a duration model requires some care, and we will work through an
illustrative case. The example comes from section 20.3 of Wooldridge (2002a), and it concerns
criminal recidivism.
5
The data (filename recid.gdt) pertain to a sample of 1,445 convicts released
from prison between July 1, 1977 and June 30, 1978. The dependent variable is the time in months
until they are again arrested. The information was gathered retrospectively by examining records
in April 1984; the maximum possible length ofobservation is 81 months. Right-censoring is impor-
tant: when the date were compiled about 62 percent had not been arrested. The dataset contains
several covariates, which are describedin the data file; we will focus below on interpretation of the
married variable, a dummy which equals 1 if the respondent was married when imprisoned.
Example32.7 shows the gretl commands for a Weibull model along with most of the output. Con-
sider first the scale factor, . The estimate is 1.241 with a standard error of 0.048. (We don’t print
az score and p-value for this term since H
0
:  0 is not of interest.) Recall that  corresponds
to 1=; we can be confident that  is less than 1, so recidivism displays negative duration depen-
dence. This makes sense: it is plausible that if a past offender manages to stay out of trouble for
an extended period his risk of engaging in crime again diminishes. (The exponential model would
therefore not be appropriate in this case.)
On a priori grounds, however, we may doubt the monotonic decline in hazard that is implied by
the Weibull specification. Even if a person is liable to return to crime, it seems relatively unlikely
that he would do so straight out of prison. In the data, we find that only 2.6 percent of those
followed were rearrested within 3 months. The log-normal specification, which allows the hazard
to rise and then fall, may be more appropriate. Using the duration command again with the same
covariates but the --lognormal flag, we get a log-likelihood of  1597 as against  1633 for the
Weibull, confirming that the log-normal gives a better fit.
Let us nowfocus on the married coefficient, which is positive in both specifications but larger and
more sharply estimated in the log-normal variant. The first thing is to get the interpretation of the
sign right. Recall that X enters negatively into the intermediate variable w. The Weibull hazard is
w
i
 e
w
i
,so being married reduces the hazard of re-offending, or in other words lengthens the
expected duration out of prison. The same qualitative interpretation applies for the log-normal.
To get a better sense of the married effect, it isuseful to showitsimpact on the hazardacross time.
We can do this by plotting the hazard for two values of the index function X: in each case the
values of all the covariates other than married are set totheir means (or some chosen values) while
married is set first to 0 then to 1. Example32.8 provides a script that does this, and the resulting
plots are shown in Figure32.1. Note that when computing the hazards we need to multiply by the
Jacobian of the transformation from t
i
to w
i
logt
i
x
i
=, namely 1=t. Note also that the
estimate of  is available via the accessor $sigma, but it is also present as the last element in the
coefficient vector obtained via $coeff.
Afurther difference between the Weibull and log-normal specifications is illustrated in the plots.
The Weibull isan instance ofa proportional hazard model. This means that forany sets ofvalues of
thecovariates, x
i
andx
j
,the ratioofthe associatedhazardsisinvariant with respect to duration. In
this example the Weibull hazard for unmarried individualsis always 1.1637 times that for married.
In the log-normal variant,on the other hand, this ratio gradually declines from 1.6703at one month
to 1.1766 at 100 months.
5
Germán Rodríguez of Princeton University has a page discussing this example and displaying estimates from Stata
athttp://data.princeton.edu/pop509a/recid1.html.
How to change pdf to ppt on - SDK Library service:C# Create PDF from PowerPoint Library to convert pptx, ppt to PDF in C#.net, ASP.NET MVC, WinForms, WPF
Online C# Tutorial for Creating PDF from Microsoft PowerPoint Presentation
www.rasteredge.com
How to change pdf to ppt on - SDK Library service:VB.NET Create PDF from PowerPoint Library to convert pptx, ppt to PDF in vb.net, ASP.NET MVC, WinForms, WPF
VB.NET Tutorial for Export PDF file from Microsoft Office PowerPoint
www.rasteredge.com
Chapter 32. Discrete and censored dependent variables
301
Example 32.7: Weibull model forrecidivism data
Input:
open recid.gdt
list X = workprg priors tserved felon alcohol drugs \
black married educ age
duration durat 0 X ; cens
duration durat 0 X ; cens --lognormal
Partial output:
Model 1: Duration (Weibull), using observations 1-1445
Dependent variable: durat
coefficient
std. error
z
p-value
--------------------------------------------------------
const
4.22167
0.341311
12.37
3.85e-35 ***
workprg
-0.112785
0.112535
-1.002
0.3162
priors
-0.110176
0.0170675
-6.455
1.08e-10 ***
tserved
-0.0168297
0.00213029
-7.900
2.78e-15 ***
felon
0.371623
0.131995
2.815
0.0049
***
alcohol
-0.555132
0.132243
-4.198
2.69e-05 ***
drugs
-0.349265
0.121880
-2.866
0.0042
***
black
-0.563016
0.110817
-5.081
3.76e-07 ***
married
0.188104
0.135752
1.386
0.1659
educ
0.0289111
0.0241153
1.199
0.2306
age
0.00462188
0.000664820
6.952
3.60e-12 ***
sigma
1.24090
0.0482896
Chi-square(10)
165.4772
p-value
2.39e-30
Log-likelihood
-1633.032
Akaike criterion
3290.065
Model 2: Duration (log-normal), using observations 1-1445
Dependent variable: durat
coefficient
std. error
z
p-value
---------------------------------------------------------
const
4.09939
0.347535
11.80
4.11e-32 ***
workprg
-0.0625693
0.120037
-0.5213
0.6022
priors
-0.137253
0.0214587
-6.396
1.59e-10 ***
tserved
-0.0193306
0.00297792
-6.491
8.51e-11 ***
felon
0.443995
0.145087
3.060
0.0022
***
alcohol
-0.634909
0.144217
-4.402
1.07e-05 ***
drugs
-0.298159
0.132736
-2.246
0.0247
**
black
-0.542719
0.117443
-4.621
3.82e-06 ***
married
0.340682
0.139843
2.436
0.0148
**
educ
0.0229194
0.0253974
0.9024
0.3668
age
0.00391028
0.000606205
6.450
1.12e-10 ***
sigma
1.81047
0.0623022
Chi-square(10)
166.7361
p-value
1.31e-30
Log-likelihood
-1597.059
Akaike criterion
3218.118
SDK Library service:Online Convert PowerPoint to PDF file. Best free online export
Creating a PDF from PPTX/PPT has never been so easy! Web Security. Your PDF and PPTX/PPT files will be deleted from our servers an hour after the conversion.
www.rasteredge.com
SDK Library service:How to C#: Convert PDF, Excel, PPT to Word
Convert Jpeg to PDF; Merge PDF Files; Split PDF Document; Remove Password from PDF; Change PDF Permission Settings. How to C#: Convert PDF, Excel, PPT to Word.
www.rasteredge.com
Chapter 32. Discrete and censored dependent variables
302
Example 32.8: Create plots showing conditional hazards
open recid.gdt -q
# leave ’married’ separate for analysis
list X = workprg priors tserved felon alcohol drugs \
black educ age
# Weibull variant
duration durat 0 X married ; cens
# coefficients on all Xs apart from married
matrix beta_w = $coeff[1:$ncoeff-2]
# married coefficient
scalar mc_w = $coeff[$ncoeff-1]
scalar s_w = $sigma
# Log-normal variant
duration durat 0 X married ; cens --lognormal
matrix beta_n = $coeff[1:$ncoeff-2]
scalar mc_n = $coeff[$ncoeff-1]
scalar s_n = $sigma
list allX = 0 X
# evaluate X\beta at means of all variables except marriage
scalar Xb_w = meanc({allX}) * beta_w
scalar Xb_n = meanc({allX}) * beta_n
# construct two plot matrices
matrix mat_w = zeros(100, 3)
matrix mat_n = zeros(100, 3)
loop t=1..100 -q
# first column, duration
mat_w[t, 1] = t
mat_n[t, 1] = t
wi_w = (log(t) - Xb_w)/s_w
wi_n = (log(t) - Xb_n)/s_n
# second col: hazard with married = 0
mat_w[t, 2] = (1/t) * exp(wi_w)
mat_n[t, 2] = (1/t) * pdf(z, wi_n) / cdf(z, -wi_n)
wi_w = (log(t) - (Xb_w + mc_w))/s_w
wi_n = (log(t) - (Xb_n + mc_n))/s_n
# third col: hazard with married = 1
mat_w[t, 3] = (1/t) * exp(wi_w)
mat_n[t, 3] = (1/t) * pdf(z, wi_n) / cdf(z, -wi_n)
endloop
colnames(mat_w, "months unmarried married")
colnames(mat_n, "months unmarried married")
gnuplot 2 3 1 --with-lines --supp --matrix=mat_w --output=weibull.plt
gnuplot 2 3 1 --with-lines --supp --matrix=mat_n --output=lognorm.plt
SDK Library service:C# PDF Convert: How to Convert MS PPT to Adobe PDF Document
PDF; Merge PDF Files; Split PDF Document; Remove Password from PDF; Change PDF Permission Settings. C# PDF Convert: How to Convert MS PPT to Adobe PDF Document.
www.rasteredge.com
SDK Library service:How to C#: Convert Word, Excel and PPT to PDF
Convert Jpeg to PDF; Merge PDF Files; Split PDF Document; Remove Password from PDF; Change PDF Permission Settings. How to C#: Convert Word, Excel and PPT to PDF
www.rasteredge.com
Chapter 32. Discrete and censored dependent variables
303
0.006
0.008
0.010
0.012
0.014
0.016
0.018
0.020
0
20
40
60
80
100
months
Weibull
unmarried
married
0.006
0.008
0.010
0.012
0.014
0.016
0.018
0.020
0
20
40
60
80
100
months
Log-normal
unmarried
married
Figure 32.1: Recidivism hazard estimates for married and unmarried ex-convicts
SDK Library service:VB.NET PowerPoint: Process & Manipulate PPT (.pptx) Slide(s)
If you want to change the order of current processing control add-on can do PPT creating, loading powerful & profession imaging controls, PDF document, image to
www.rasteredge.com
SDK Library service:C# TIFF: Learn to Convert MS Word, Excel, and PPT to TIFF Image
C# TIFF - Conversion from Word, Excel, PPT to TIFF. Learn How to Change MS Word, Excel, and PowerPoint to TIFF Image File in C#. Overview
www.rasteredge.com
Chapter 32. Discrete and censored dependent variables
304
Alternative representations of the Weibull model
One pointto watch out for with theWeibull duration model isthat theestimatesmay be represented
in different ways. The representation given by gretl is sometimes calledthe accelerated failure-time
(AFT) metric. An alternative that one sometimessees isthe log relative-hazard metric; in fact thisis
the metricused in Wooldridge’s presentation of the recidivism example. To get from AFT estimates
to log relative-hazard form it is necessary to multiply the coefficients by  
1
. For example, the
married coefficient in the Weibull specification as shown here is 0.188104 and ˆ is 1.24090, so the
alternative value is  0:152, which is what Wooldridge shows (2002a, Table 20.1).
Fitted values and residuals
By default, gretl computes fitted values (accessible via $yhat) as the conditional mean of duration.
The formulae are shown below (where — denotes the gamma function, and the exponential variant
is just Weibull with  1).
Weibull
Log-logistic
Log-normal
expX—1
expX

sin
expX
2
=2
The expression given for the log-logistic mean, however, is valid only for  < 1; otherwise the
expectation is undefined, a point that is not noted in all software.
6
Alternatively, ifthe --mediansoption isgiven,gretl’s duration command will produce conditional
medians as the content of$yhat. For the Weibull the median isexpXlog2; for the log-logistic
and log-normal it is just expX.
The values we give for the accessor $uhat are generalized (Cox–Snell) residuals, computed as the
integrated hazard function, which equals the negative of the log of the survivor function:
ˆu
i
Ót
i
;x
i
;   logSt
i
;x
i
;
Under the null of correct specification of the model these generalized residuals should follow the
unit exponential distribution, which has mean and variance both equal to 1 and density e 1. See
Cameron and Trivedi(2005)forfurtherdiscussion.
6
The predict adjunct to the streg command in Stata 10, for example, gaily produces large negative values for the
log-logistic mean in durationmodels with  >1.
SDK Library service:VB.NET PowerPoint: Convert & Render PPT into PDF Document
VB.NET PowerPoint - Render PPT to PDF in VB.NET. What VB.NET demo code can I use for fast PPT (.pptx) to PDF conversion in .NET class application?
www.rasteredge.com
SDK Library service:VB.NET PowerPoint: Read & Scan Barcode Image from PPT Slide
VB.NET PPT PDF-417 barcode scanning SDK to detect PDF-417 barcode image from PowerPoint slide. VB.NET APIs to detect and decode
www.rasteredge.com
Chapter 33
Quantile regression
33.1 Introduction
In Ordinary Least Squares (OLS) regression, the fitted values,
ˆ
y
i
X
i
ˆ
, represent the conditional
mean of the dependent variable—conditional, that is, on the regression function and the values
of the independent variables. In median regression, by contrast and as the name implies, fitted
values represent the conditional median of the dependent variable. It turns out that the principle of
estimation for median regression is easily stated (though not so easily computed), namely, choose
ˆ
so as to minimize the sum of absolute residuals. Hence the method is known as Least Absolute
Deviations or LAD. While the OLS problem has a straightforward analytical solution, LAD is a linear
programming problem.
Quantile regression is a generalization of median regression: the regression function predicts the
conditional -quantile of the dependent variable—for example the first quartile (  :25) or the
ninth decile (  :90).
If the classical conditions for the validity of OLS are satisfied—that is, if the error term is indepen-
dently andidentically distributed, conditional on X—then quantile regression is redundant: all the
conditional quantiles of the dependent variable will march in lockstep with the conditional mean.
Conversely, if quantile regression reveals that the conditional quantiles behave in a manner quite
distinct from the conditional mean, this suggests that OLS estimation is problematic.
As of version 1.7.5, gretl offers quantile regression functionality (in addition to basic LAD regres-
sion, which has been available since early in gretl’s history via the lad command).
1
33.2 Basic syntax
The basic invocation of quantile regression is
quantreg tau reglist
where
 reglist is a standardgretl regression list (dependent variable followed by regressors, including
the constant if an intercept is wanted); and
 tau is the desired conditional quantile, in the range 0.01 to 0.99, given either as a numerical
value or the name of a pre-defined scalar variable (but see below for a further option).
Estimation is via the Frisch–Newton interior point solver (PortnoyandKoenker,1997), which issub-
stantially faster than the “traditional” Barrodale–Roberts (1974) simplex approach for large prob-
lems.
1We gratefullyacknowledge our borrowingfromthe quantregpackageforGNUR (version4.17). . The e core ofthe
quantreg package is composed of Fortran code written by Roger Koenker; this is accompanied by various driver and
auxiliary functions written in the R language by Koenker and Martin Mächler. The latter functions have been re-worked
inC for gretl. We have added some guardsagainstpotentialnumerical problemsin smallsamples.
305
Chapter 33. Quantile regression
306
By default, standard errors are computed according to the asymptotic formula given byKoenker
and Bassett(1978). Alternatively,ifthe--robustoptionisgiven,weusethesandwichestimator
developed inKoenkerandZhao (1994).
2
33.3 Confidence intervals
An option --intervals isavailable. When this isgiven we print confidence intervals forthe param-
eter estimates instead of standard errors. These intervals are computed using the rank inversion
method and in general they are asymmetrical about the point estimates—that is, they are not sim-
ply “plus or minus so many standard errors”. The specifics of the calculation are inflected by
the --robust option: without this, the intervals are computed on the assumption of IID errors
(Koenker,1994); with it, they use the heteroskedasticity-robust estimator developed byKoenker
and Machado(1999).
By default, 90 percent intervals are produced. You can change thisby appendinga confidence value
(expressed as a decimal fraction) to the intervals option, as in
quantreg tau reglist --intervals=.95
When the confidence intervals option is selected, the parameter estimates are calculated using
the Barrodale–Roberts method. This is simply because the Frisch–Newton code does not currently
support the calculation of confidence intervals.
Two further details. First, the mechanisms for generating confidence intervals for quantile esti-
matesrequirethat the model hasat least two regressors (includingthe constant). Ifthe --intervals
option isgiven fora model containing only one regressor,an erroris flagged. Second,when a model
is estimated in this mode, you can retrieve the confidence intervals using the accessor $coeff_ci.
This produces a k  2 matrix, where k is the number of regressors. The lower bounds are in the
first column, the upper bounds in the second. See also section33.5 below.
33.4 Multiple quantiles
As a further option, you can give tau as a matrix—either the name of a predefined matrix or in
numerical form, as in {.05, .25, .5, .75, .95}. The given model is estimated for all the 
values and the results are printed in a special form, as shown below (in this case the --intervals
option was also given).
Model 1: Quantile estimates using the 235 observations 1-235
Dependent variable: foodexp
With 90 percent confidence intervals
VARIABLE
TAU
COEFFICIENT
LOWER
UPPER
const
0.05
124.880
98.3021
130.517
0.25
95.4835
73.7861
120.098
0.50
81.4822
53.2592
114.012
0.75
62.3966
32.7449
107.314
0.95
64.1040
46.2649
83.5790
income
0.05
0.343361
0.343327
0.389750
0.25
0.474103
0.420330
0.494329
0.50
0.560181
0.487022
0.601989
0.75
0.644014
0.580155
0.690413
0.95
0.709069
0.673900
0.734441
2
Thesecorrespondto the iid and nidoptionsinR’s quantreg package, respectively.
Chapter 33. Quantile regression
307
0.3
0.35
0.4
0.45
0.5
0.55
0.6
0.65
0.7
0.75
0
0.2
0.4
0.6
0.8
1
tau
Coefficient on income
Quantile estimates with 90% band
OLS estimate with 90% band
Figure 33.1: Regression of foodexpenditure on income; Engel’s data
The gretl GUI has an entry for Quantile Regression (under /Model/Robust estimation), and you can
select multiple quantiles there too. In that context, just give space-separated numerical values (as
per the predefined options, shown in a drop-down list).
When you estimate a model in this way most of the standard menu items in the model window
are disabled, but one extra item is available—graphs showing the  sequence for a given coeffi-
cient in comparison with the OLS coefficient. An example is shown in Figure33.1. This sort of
graph providesa simple means of judging whether quantile regression is redundant (OLS is fine) or
informative.
In the example shown—based on data on household income and food expenditure gathered by
Ernst Engel (1821–1896)—it seems clear that simple OLS regression is potentially misleading. The
“crossing” of the OLS estimate by the quantile estimates is very marked.
However, it is not always clear what implications should be drawn from this sort of conflict. With
the Engel data there are two issues to consider. First, Engel’s famous “law” claims an income-
elasticity of food consumption that is less than one, and talk of elasticities suggests a logarithmic
formulation of the model. Second, there are two apparently anomalous observations in the data
set: household 105 has the third-highest income but unexpectedly low expenditure on food (as
judged from a simple scatter plot), while household 138 (which also has unexpectedly low food
consumption) has much the highest income, almost twice that of the next highest.
With n  235 it seems reasonable to consider dropping these observations. If we do so, and adopt
alog–log formulation, we get the plot shown in Figure33.2. The quantile estimates still cross the
OLS estimate, but the “evidence against OLS” is much less compelling: the 90 percent confidence
bands of the respective estimates overlap at all the quantiles considered.
33.5 Large datasets
As noted above, when you give the --intervals option with the quantreg command, which calls
for estimation of confidence intervals via rank inversion, gretl switches from the default Frisch–
Newton algorithm to the Barrodale–Roberts simplex method.
Chapter 33. Quantile regression
308
0.76
0.78
0.8
0.82
0.84
0.86
0.88
0.9
0.92
0.94
0.96
0
0.2
0.4
0.6
0.8
1
tau
Coefficient on log(income)
Quantile estimates with 90% band
OLS estimate with 90% band
Figure 33.2: Log–log regression;2 observations droppedfrom full Engel data set.
This isOK for moderately large datasets(up to,say, a fewthousand observations) but on very large
problems the simplex algorithm may become seriously bogged down. For example, Koenkerand
Hallock(2001)presentananalysisofthedeterminantsofbirthweights,using198377observations
and with 15 regressors. Generating confidence intervals via Barrodale–Roberts for a single value of
took about half an hour on a Lenovo Thinkpad T60p with 1.83GHz Intel Core 2 processor.
Ifyou want confidence intervals in such cases, you are advised not to use the --intervals option,
but to compute them using the method of “plus or minus so many standard errors”. (One Frisch–
Newton run took about 8 seconds on the same machine, showing the superiority of the interior
point method.) The script below illustrates:
quantreg .10 y 0 xlist
scalar crit = qnorm(.95)
matrix ci = $coeff - crit * $stderr
ci = ci~($coeff + crit * $stderr)
print ci
The matrixci will contain the lower and upper bounds of the (symmetrical) 90 percent confidence
intervals.
To avoid a situation where gretl becomes unresponsive for a very long time we have set the maxi-
mum number of iterations for the Borrodale–Roberts algorithm to the (somewhat arbitrary) value
of 1000. We will experiment further with this, but for the meantime if you really want to use this
method on a large dataset, and don’t mind waiting for the results, you can increase the limit using
the set command with parameter rq_maxiter, as in
set rq_maxiter 5000
Chapter 34
Nonparametric methods
The main focus of gretl is on parametric estimation, but we offer a selection of nonparametric
methods. The most basic ofthese
 varioustestsfordifference in distribution (Sign test,Wilcoxon rank-sum test,Wilcoxon signed-
rank test);
 the Runs test for randomness; and
 nonparametric measures of association: Spearman’s rho and Kendall’s tau.
Details on the above can be found by consulting the help for the commands difftest, runs, corr
and spearman. In the GUI program these items are found under the Tools menu and the Robust
estimation item under the Model menu.
In this chapter we concentrate on two relatively complex methods for nonparametric curve-fitting
and prediction, namely William Cleveland’s “loess” (also known as “lowess”) and the Nadaraya–
Watson estimator.
34.1 Locally weighted regression (loess)
Loess (Cleveland,1979) is a nonparametric smoother employing locally weighted polynomial re-
gression. It is intended to yield an approximation to g when the dependent variable, y, can be
expressed as
y
i
gx
i

i
for some smooth function g.
Given a sample ofn observations on the variables y and x, the procedure is to run a weighted least
squares regression (a polynomial of order d = 0, 1 or 2 in x) localized to each data point, i. In each
such regression the sample consists of the r nearest neighbors (in the x dimension) to the point i,
with weights that are inversely related to the distance jx
i
x
k
j, k  1;:::;r. The predicted value
i
is then obtained by evaluating the estimated polynomial at x
i
. The most commonly used order
is d  1.
Abandwidth parameter 0 < q 1 controls the proportion of the total number of data points used
in each regression; thus r  qn (rounded up to an integer). Larger values of q lead to a smoother
fitted series, smaller values to a series that tracks the actual data more closely; 0:25  q  0:5 is
often a suitable range.
In gretl’s implementation of loess the weighting scheme is that given by Cleveland, namely,
w
k
x
i
Wh
1
i
x
k
x
i

where h
i
is the distance between x
i
and its r
th
nearest neighbor, and W is the tricube function,
Wx 
(
1  jxj33 for jxj <1
0
for jxj 1
309
Documents you may be interested
Documents you may be interested