﻿
Schermelleh-Engel et al.: Evaluating the fit of Structural Equation Models
33
tion in degrees of freedom. For example, the saturated model with as many free pa-
rameters as there are variances and covariances in S yields a χ
2
of zero, whereas the
independence model, a very restrictive model, usually has a very large χ
2
value (cf.
Mueller, 1996, p. 89). Thus, a  good model  fit may result either from  a correctly
specified model or from a highly overparameterized model.
Dependence on sample size. With increasing sample size and a constant number of
degrees of freedom, the χ
2
value increases. This leads to the problem that plausible
models might be rejected based on a significant χ
2
statistic even though the discrep-
ancy between the sample and the model-implied covariance matrix is actually irrele-
vant. On the other hand, as sample size decreases, the χ
2
value decreases as well and
the model test may indicate nonsignificant probability levels even though the dis-
crepancy between the sample and the model-implied covariance matrix is consider-
able. Therefore not too much emphasis should be placed on the significance of the χ
2
statistic. Jöreskog and Sörbom (1993) even suggest to use χ
2
not as a formal test
statistic but rather as a descriptive goodness-of-fit index. They propose to compare
the magnitude of χ
2
with the  expected value of the sample  distribution, i.e., the
number of degrees of freedom, as E(χ
2
) = df.  For a good model fit, the ratio χ
2
/df
should be as small as possible. As there exist no absolute standards, a ratio between
2 and 3 is indicative of a "good" or "acceptable" data-model fit, respectively. How-
ever, the problem of sample size dependency cannot be eliminated by this procedure
(Bollen, 1989, p. 278).
χ
Difference Test
In applications of covariance structure analysis, researchers often face the problem of
choosing among two or more alternative models. The choice of which measure to use for
selecting one of several competing models depends on whether or not the models are
nested.
A specific model (Model A) is said to be nested within a less restricted model (Model
B) with more parameters and less degrees of freedom than Model A, if Model A can be
derived from Model B by fixing at least one free parameter in Model B or by introduc-
ing other restrictions, e.g., by constraining a free parameter to equal one or more other
parameters.  For  example,  in  multi-sample  comparisons  of  factorial  invariance,  any
model with some parameters constrained to be  invariant over the  multiple groups is
nested under the corresponding model in which the respective parameters are uncon-
strained, and the model in which all parameters are invariant is nested under both these
Pdf to text - control Library system:C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net, ASP.NET MVC, WinForms, WPF application
C# PDF to Text (TXT) Converting Library to Convert PDF to Text
www.rasteredge.com
Pdf to text - control Library system:VB.NET PDF Convert to Text SDK: Convert PDF to txt files in vb.net, ASP.NET MVC, WinForms, WPF application
VB.NET Guide and Sample Codes to Convert PDF to Text in .NET Project
www.rasteredge.com
34
MPR-Online 2003, Vol. 8, No. 2
models. Any two models are nested when the free parameters in the more restrictive
model are a subset of the free parameters in the less restrictive model.
As the test statistic of each of the nested models follows a χ
2
distribution, the differ-
ence in χ
2
values between two nested models is also χ
2
distributed (Steiger, Shapiro, &
Browne, 1985), and the number of degrees of freedom for the difference is equal to the
difference in degrees of freedom for the two models. Under appropriate assumptions, the
difference in model fit can be tested using the χ
2
difference test
)
(
)
(
)
(
B
2
B
A
2
A
diff
2
diff
df
df
df
−χ
χ
(9)
(Bentler, 1990; Bollen, 1989; Jöreskog, 1993), where
2
A
χ  denotes the χ
2
value of Model A, a model that is a restricted version of Model B,
i.e., Model A has less free parameters and more degrees of freedom (df
A
) and is thus
nested within Model B,
2
B
χ  denotes the χ
2
value of Model B, a model that is less restricted and therefore has
more free parameters and less degrees of freedom (df
B
) than Model A, and
df
diff
= df
A
df
B
If the χ
2
difference is significant, the null hypothesis of equal fit for both models is re-
jected and Model B should be retained. But if the χ
2
difference is nonsignificant, which
means that the fit of the restricted model (Model A) is not significantly worse than the
fit of the unrestricted model (Model B), the null hypothesis of equal fit for both models
cannot be rejected and the restricted model (Model A) should be favored.
The χ
2
difference test applied to nested models has essentially the same strengths and
weaknesses as the χ
2
test applied to any single model, namely, the test is directly af-
fected by sample size, and for large samples trivial differences may become significant.
For the χ
2
difference test to be valid, at least the least restrictive model of a sequence of
models (in our example Model B) should fit the data.
It should be noted that the Satorra-Bentler scaled χ
2
values resulting from robust es-
timation methods cannot be used for χ
2
difference testing because the difference between
two scaled χ
2
values for nested models is not distributed as a χ
2
(Satorra, 2000). Re-
cently, Satorra  and Bentler (2001)  developed  a  scaled difference χ
2
test  statistic  for
control Library system:C# PDF Text Extract Library: extract text content from PDF file in
Text: Extract Text from PDF. |. Home ›› XDoc.PDF ›› C# PDF: Extract PDF Text. Enable extracting PDF text to another PDF file, TXT and SVG formats.
www.rasteredge.com
control Library system:VB.NET PDF Text Extract Library: extract text content from PDF
PDF ›› VB.NET PDF: Extract PDF Text. Advanced Visual Studio .NET PDF text extraction control, built in .NET framework 2.0 and compatible with Windows system.
www.rasteredge.com
Schermelleh-Engel et al.: Evaluating the fit of Structural Equation Models
35
moment structure  analysis. They could show that simple hand calculations based on
output from nested runs can give the desired χ
2
difference test of nested models using
the scaled χ
2
. These calculations may be obtained from Mplus by asking for the MLM
estimator.
If models are not nested, they may be compared on the basis of descriptive goodness-
of-fit measures that take parsimony as well as fit into account, e.g., the Akaike Informa-
tion Criterion (Akaike, 1974, 1987), which can be used regardless of whether models for
the same data can be ordered in a nested sequence or not (see below). A more detailed
discussion of alternative methods for comparing competing models is given in Kumar
and Sharma (1999), Raykov and Penev (1998), and Rigdon (1999).
Part II: Descriptive Goodness-of-Fit Measures
Because of the drawbacks of the χ
2
goodness-of-fit tests, numerous descriptive fit in-
dices have been developed that are often assessed intuitively. These indices are derived
from ML, WLS, GLS, or ULS, but in the following we will not differentiate between
these methods (for further information on ML-, WLS-, and GLS-based descriptive fit
indices, cf. Hu & Bentler, 1998). Many of these measures are intended to range between
zero (no fit) and one (perfect fit), but as Hu and Bentler (1995) note, the sampling dis-
tributions of goodness-of-fit indices are unknown with the exception of χ
2
so that critical
values for fit indices are not defined. As a reasonable minimum for model acceptance,
Bentler and Bonett (1980) proposed a value of .90 for normed indices that are not par-
simony adjusted (cf. Hoyle & Panter, 1995), while .95 should be indicative of a good fit
relative to the baseline model (Kaplan, 2000). But recently, Hu and Bentler (1995, 1998,
1999) gave evidence that .90 might not be a reasonable cutoff for all fit indices under all
circumstances: "The rule of thumb to consider models acceptable if a fit index exceeds
.90 is clearly an inadequate rule" (Hu & Bentler, 1995, p. 95). They suggested to raise
the rule of thumb minimum standard for the CFI and the NNFI (see below) from .90 to
.95 to reduce the number of severely misspecified models that are considered acceptable
based on the .90 criterion (Hu & Bentler, 1998, 1999).
Descriptive Measures of Overall Model Fit
Due to the sensitivity  of  the χ
2
statistic to sample size, alternative goodness-of-fit
measures have been developed. Measures of overall model fit indicate to which extent a
control Library system:C# PDF insert text Library: insert text into PDF content in C#.net
|. Home ›› XDoc.PDF ›› C# PDF: Insert Text to PDF. Powerful .NET PDF edit control allows modify existing scanned PDF text.
www.rasteredge.com
control Library system:Online Convert PDF to Text file. Best free online PDF txt
Online PDF to Text Converter. Download Free Trial. Convert a PDF to Text. Just upload your file by clicking on the blue button
www.rasteredge.com
36
MPR-Online 2003, Vol. 8, No. 2
structural equation model corresponds to the empirical data. These criteria are based on
the difference between the sample covariance matrix S and the model-implied covari-
ance matrix
)
ˆ
Σ
. The following indices are descriptive measures of overall model fit:
Root  Mean  Square  Error  of  Approximation  (RMSEA),  Root  Mean  Square  Residual
(RMR), and Standardized Root Mean Square Residual (SRMR).
Root Mean Square Error of Approximation (RMSEA)
The usual test of the null hypothesis of exact fit is invariably false in practical situa-
tions and will almost certainly be rejected if sample size is sufficiently large. Therefore a
more sensible approach seems to be to assess whether the model fits approximately well
in the population (cf. Kaplan, 2000, p. 111). The null hypothesis of exact fit is replaced
by the null hypothesis of "close fit" (Browne & Cudeck, 1993, p. 146). Thus, the Root
Mean Square Error of Approximation (RMSEA; Steiger, 1990) is a measure of approxi-
mate fit in the population and is therefore concerned with the discrepancy due to ap-
proximation.
RMSEA is estimated by
a
ˆ
ε , the square root of the estimated discrepancy due to ap-
proximation per degree of freedom:
( ( ))
a
ˆ
,
1
ˆ
max
,0
1
θ
ε
=
F
df
N
(10)
where
))
ˆ
( , , (
θ
F
is the minimum of the fit function,
df = s – t  is the number of degrees of freedom, and
N is the sample size.
The RMSEA is bounded below by zero. Steiger (1990) as well as Browne and Cudeck
(1993) define a "close fit" as a RMSEA value less than or equal to .05. According to
Browne and Cudeck (1993), RMSEA values  .05 can be considered as a good fit, values
between .05 and .08 as an adequate fit, and values between .08 and .10 as a mediocre
fit, whereas values > .10 are not acceptable. Although there is general agreement that
the value of RMSEA for a good model should be less than .05, Hu and Bentler (1999)
suggested an RMSEA of less than .06 as a cutoff criterion. In addition, a 90% confi-
control Library system:C# PDF Text Search Library: search text inside PDF file in C#.net
|. Home ›› XDoc.PDF ›› C# PDF: Search PDF Text. C#.NET PDF SDK - Search and Find PDF Text in C#.NET. C#.NET PDF DLLs for Finding Text in PDF Document.
www.rasteredge.com
control Library system:VB.NET Create PDF from Text to convert txt files to PDF in vb.net
C# File: Split PDF; C# Page: Insert PDF pages; C# Page: Delete PDF pages; C# Read: PDF Text Extract; VB.NET PDF - Create PDF from Text in C#.NET.
www.rasteredge.com
Schermelleh-Engel et al.: Evaluating the fit of Structural Equation Models
37
dence interval (CI) around the point estimate enables an assessment of the precision of
the RMSEA estimate. On the basis of the CI, it is possible to say with a certain level of
confidence that the given interval contains the true value of the fit index for that model
in the population (MacCallum, Browne, & Sugawara, 1996). The lower boundary (left
side) of the confidence interval should contain zero for exact fit and be < .05 for close
fit. Note that when the model fits well in the population, the lower end of the confi-
dence interval is truncated at zero, which leads to an asymmetry of the confidence in-
terval. RMSEA is regarded as relatively independent of sample size, and additionally
favors parsimonious models (Browne & Cudeck, 1993; Kaplan, 2000).
For an understanding of RMSEA it is important to distinguish between two different
kinds of error. The error of approximation, which is of primary interest here, represents
the lack of fit of the model to the population covariance matrix Σ. The minimum fit
function value one would obtain if the model could be fitted to the population covari-
ance matrix is a possible measure of this error. In contrast, the error of estimation re-
flects the differences between the model fitted to the population covariance matrix Σ
(if this could be done) and the model fitted to the sample covariance matrix S (Browne
& Cudeck, 1993, p. 141). From the viewpoint of model fit in the population, the error of
estimation is of secondary interest only. Because the fit function value
))
ˆ
( , , (
θ
F
SΣ
, which
refers to the sample covariance matrix, would be a biased estimator of the population
error of approximation, RMSEA includes a term inversely proportional to N – 1 which
serves as a correction for bias (Browne & Cudeck, 1993, p. 143).
Root Mean Square Residual (RMR) and Standardized RMR (SRMR)
It was already mentioned that the residuals are given by the elements of the matrix
)
ˆ
ΣS
. These are sometimes called "fitted residuals" because they express the remain-
ing discrepancies between the covariance matrices S and
)
ˆ
Σ
once the parameters of
the model are estimated.
The Root Mean Square Residual index (RMR) of Jöreskog and Sörbom (1981, p. 41;
1989) is an overall badness-of-fit measure that is based on the fitted residuals. Con-
cretely, RMR is defined as the square root of the mean of the squared fitted residuals,
1)/2
(
ˆ )
(
1 1
2
+
∑∑
=
= =
p p
s
RMR
p
i
i
j
ij
ij
σ
(11)
control Library system:C# Create PDF from Text to convert txt files to PDF in C#.net, ASP
ASP.NET: Create PDF. ASP.NET: Convert PDF. ASP.NET: Edit PDF Text. ASP.NET: Edit PDF Image. C#.NET PDF - Create PDF from Text in C# Using XDoc.PDF SDK for .NET.
www.rasteredge.com
control Library system:VB.NET PDF delete text library: delete, remove text from PDF file
from PDF. |. Home ›› XDoc.PDF ›› VB.NET PDF: Delete Text from PDF. Free VB.NET PDF SDK library for deleting PDF text in Visual Studio .NET application.
www.rasteredge.com
38
MPR-Online 2003, Vol. 8, No. 2
where
s
ij
is an element of the empirical covariance matrix S,
ij
σ
ˆ  is an element of the model-implied matrix covariance
)
ˆ
Σ
, and
p is the number of observed variables.
In principle, RMR values close to zero suggest a good fit. But as the elements of S
and
)
ˆ
Σ
are scale dependent, the fitted residuals are scale dependent, too, which im-
plies that RMR depends on the sizes of the variances and covariances of the observed
variables. In other words, without taking the scales of the variables into account it is
virtually impossible to say whether a given RMR value indicates good or bad fit.
To overcome this problem, the Standardized Root Mean Square Residual (SRMR)
has been introduced (Bentler, 1995, p. 271). Here, the residuals
ij
ij
s
σ
ˆ
are first divided
by the standard deviations
ii
i
s
=
and
jj
j
s
=
of the respective manifest variables,
which  leads  to  a  standardized  residual  matrix  with  elements
ˆ
(
)/(
)
ij
ij
i j
− σ
=
s
ss
ˆ /(
)
ij
ij
i j
r − σ
ss  where r
ij
is the observed  correlation between the respective variables
(Bentler, 1995, p. 90). In contrast to LISREL (see below), EQS provides this matrix
explicitly. Calculating the root mean square of the such defined standardized residuals
in analogy to Equation 11 leads to the SRMR which is available in both LISREL and
EQS. Again, a value of zero indicates perfect fit, but it is still difficult to designate cut-
off values for good and for acceptable fit because of sample size dependency and sensi-
tivity to misspecified models (Hu & Bentler, 1998). A rule of thumb is that the SRMR
should be less than .05 for a good fit (Hu & Bentler, 1995), whereas values smaller than
.10 may be interpreted as acceptable.
The standardized residuals given above are similar – but in general not identical – to
the correlation residuals suggested by Bollen (1989, p. 258). Both share the main idea
that in an overall fit measure based on residuals, the observed variables should enter in
standardized form such that all matrix elements contributing to the fit measure are on
comparable scales. Thus the SRMR, same as the RMR, remains a purely descriptive fit
index.
Unfortunately  the term  "standardized  residuals" also  appears in a second meaning
that is independent of the SRMR. In this meaning, the residuals themselves get stan-
dardized: Besides the fitted residuals, the LISREL program provides a matrix of stan-
Schermelleh-Engel et al.: Evaluating the fit of Structural Equation Models
39
dardized residuals which are obtained by dividing each fitted residual by its large-sample
standard error (Jöreskog & Sörbom, 1989, p. 28). Being independent of the units of
measurements of the variables as the standardized residuals discussed before, they also
allow an easier interpretation than the fitted residuals. In the present case, however, the
standardized residuals can be interpreted approximately in an inferential sense, namely,
in a way similar to z scores. Provided that the SRMR or other fit indices signalize bad
fit, single standardized residuals whose absolute values are greater than 1.96 or 2.58 can
be useful for detecting the source of misfit. The largest absolute value indicates the ele-
ment that is most poorly fitted by the model. Because the kind of standardized residu-
als considered here refers to a standard error, the absolute values tend to increase with
increasing sample size if the magnitudes of the fitted residuals remain essentially con-
stant.
As the RMR and the SRMR are overall measures based on squared residuals, they
can give no information about the directions of discrepancies between S and
)
ˆ
Σ
. In a
residual  analysis,  regardless  of  whether  unstandardized  or  standardized  residuals are
used and which kind of standardization is preferred, it is important to take the sign of a
residual into account when looking for the cause of model misfit. Given that an empiri-
cal covariance is positive, a positive residual indicates that the model underestimates
the sample covariance. In this case, the empirical covariance is larger than the model-
implied covariance. A negative residual indicates that the model overestimates the sam-
ple covariance, that is, the empirical covariance is smaller than the model-implied co-
variance.
Descriptive Measures Based on Model Comparisons
The basic idea of comparison indices is that the fit of a model of interest is compared
to the fit of some baseline model. Even though any model nested hierarchically under
the target model (the model of interest) may serve as a comparison model, the inde-
pendence model is used most often. The independence model assumes that the observed
variables are measured without error, i.e., all error variances are fixed to zero and all
factor loadings are fixed to one, and that all variables are uncorrelated. This baseline
model is a very restrictive model in which only p parameters, namely the variances of
the variables, have to be estimated. An even more restrictive baseline model than the
independence model is the null model, a model in which all parameters are fixed to zero
(Jöreskog & Sörbom, 1993, p. 122) and hence, no parameters have to be estimated. The
40
MPR-Online 2003, Vol. 8, No. 2
fit index for a baseline model will usually indicate a bad model fit and serves as a com-
parison value. The issue is whether the target model is an improvement relative to the
baseline model.
Often used measures based on model comparisons are the Normed Fit Index (NFI
),
the Nonnormed Fit Index (NNFI
), the Comparative Fit Index (CFI
), the Goodness-of-
Fit Index (GFI
), and the Adjusted Goodness-of-Fit Index (AGFI
), which will be ex-
plained below in more detail.
Normed Fit Index (NFI) and Nonnormed Fit Index (NNFI)
The Normed Fit Index (NFI) proposed by Bentler and Bonnett (1980) is defined as
i
t
2
i
2
t
2
i
2
t
2
i
1
χ
χ
1
χ
χ
χ
F
F
NFI
= −
= −
=
(12)
where
2
i
χ  is the chi-square of the independence model (baseline model),
2
t
χ  is the chi-square of the target model, and
is the corresponding minimum fit function value.
NFI values range from 0 to 1, with higher values indicating better fit. When F
t
= F
i
NFI equals zero; when F
t
= 0, NFI equals one, which suggests that the target model is
the best possible improvement over the independence model. Although the theoretical
boundary of NFI is one, NFI may not reach this upper limit even if the specified model
is correct, especially in small samples (Bentler, 1990, p. 239). This can occur because
the expected value of
2
t
χ  is greater than zero:
df
E
(χ )=
2
t
. The usual rule of thumb for
this index is that .95 is indicative of good fit relative to the baseline model (Kaplan,
2000, p. 107), whereas values greater than .90 are typically interpreted as indicating an
acceptable fit (Marsh & Grayson, 1995; Schumacker & Lomax, 1996).
A disadvantage of the NFI is that it is affected by sample size (Bearden, Sharma, &
Teel, 1982). In order to take care of this problem, Bentler and Bonnett (1980) extended
the work by Tucker and Lewis (1973) and developed the Nonnormed Fit Index (NNFI
),
Schermelleh-Engel et al.: Evaluating the fit of Structural Equation Models
41
also known as the Tucker-Lewis Index (TLI
). The NNFI measures relative fit and is
defined as
1)
( / / ) ) 1/(
( / / ) ) ( / / )
(χ / / ) ) 1
(χ / / ) ) (χ χ / / )
i
i
t
t
i
i
i
2
i
t
2
t
i
2
i
=
=
N
df
F
df
F
df
F
df
df
df
NNFI
(13)
where
2
i
χ  is the chi-square of the independence model (baseline model),
2
t
χ  is the chi-square of the target model,
is the corresponding minimum fit function value, and
df  is the number of degrees of freedom.
The NNFI ranges in general from zero to one, but as this index is not normed, values
can sometimes leave this range, with higher NNFI values indicating better fit. A rule of
thumb for this index is that .97 is indicative of good fit relative to the independence
model, whereas values greater than .95 may be interpreted as an acceptable fit. As the
independence model almost always has a large χ
2
, NNFI values are often very close to
one (Jöreskog & Sörbom, 1993, p. 125), so that a value of .97 seems to be more reason-
able as an indication of a good model fit than the often stated cutoff value of .95.
NNFI takes the degrees of freedom of the specified model as well as the degrees of
freedom of the independence model into consideration. More complex, i.e., less restric-
tive models are penalized by a downward adjustment, while more parsimonious, i.e.,
more restrictive models are rewarded by an increase in the fit index. An advantage of
the NNFI is that it is one of the fit indices less affected by sample size (Bentler, 1990;
Bollen, 1990; Hu & Bentler, 1995, 1998).
Comparative Fit Index (CFI)
The Comparative Fit Index (CFI; Bentler, 1990), an adjusted version of the Relative
Noncentrality Index (RNI
) developed by McDonald and Marsh (1990), avoids the un-
derestimation of fit often noted in small samples for Bentler and Bonett's (1980) normed
fit index (NFI
). The CFI is defined as
),0]
),(χ
[(χ
max
),0]
[(χ
max
1
i
2
i
t
2
t
t
2
t
df
df
df
CFI
= −
(14)