Schermelleh-Engel et al.: Evaluating the fit of Structural Equation Models 
33 
tion in degrees of freedom. For example, the saturated model with as many free pa-
rameters as there are variances and covariances in S yields a χ
2
of zero, whereas the 
independence model, a very restrictive model, usually has a very large χ
2
value (cf. 
Mueller, 1996, p. 89). Thus, a  good model  fit may result either from  a correctly 
specified model or from a highly overparameterized model.  
 Dependence on sample size. With increasing sample size and a constant number of 
degrees of freedom, the χ
2
value increases. This leads to the problem that plausible 
models might be rejected based on a significant χ
2
statistic even though the discrep-
ancy between the sample and the model-implied covariance matrix is actually irrele-
vant. On the other hand, as sample size decreases, the χ
2
value decreases as well and 
the model test may indicate nonsignificant probability levels even though the dis-
crepancy between the sample and the model-implied covariance matrix is consider-
able. Therefore not too much emphasis should be placed on the significance of the χ
2
statistic. Jöreskog and Sörbom (1993) even suggest to use χ
2
not as a formal test 
statistic but rather as a descriptive goodness-of-fit index. They propose to compare 
the magnitude of χ
2
with the  expected value of the sample  distribution, i.e., the 
number of degrees of freedom, as E(χ
2
) = df.  For a good model fit, the ratio χ
2
/df 
should be as small as possible. As there exist no absolute standards, a ratio between 
2 and 3 is indicative of a "good" or "acceptable" data-model fit, respectively. How-
ever, the problem of sample size dependency cannot be eliminated by this procedure 
(Bollen, 1989, p. 278).  
χ
Difference Test 
In applications of covariance structure analysis, researchers often face the problem of 
choosing among two or more alternative models. The choice of which measure to use for 
selecting one of several competing models depends on whether or not the models are 
nested.  
A specific model (Model A) is said to be nested within a less restricted model (Model 
B) with more parameters and less degrees of freedom than Model A, if Model A can be 
derived from Model B by fixing at least one free parameter in Model B or by introduc-
ing other restrictions, e.g., by constraining a free parameter to equal one or more other 
parameters.  For  example,  in  multi-sample  comparisons  of  factorial  invariance,  any 
model with some parameters constrained to be  invariant over the  multiple groups is 
nested under the corresponding model in which the respective parameters are uncon-
strained, and the model in which all parameters are invariant is nested under both these 
Pdf to text - control Library system:C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net, ASP.NET MVC, WinForms, WPF application
C# PDF to Text (TXT) Converting Library to Convert PDF to Text
www.rasteredge.com
Pdf to text - control Library system:VB.NET PDF Convert to Text SDK: Convert PDF to txt files in vb.net, ASP.NET MVC, WinForms, WPF application
VB.NET Guide and Sample Codes to Convert PDF to Text in .NET Project
www.rasteredge.com
34 
MPR-Online 2003, Vol. 8, No. 2 
models. Any two models are nested when the free parameters in the more restrictive 
model are a subset of the free parameters in the less restrictive model. 
As the test statistic of each of the nested models follows a χ
2
distribution, the differ-
ence in χ
2
values between two nested models is also χ
2
distributed (Steiger, Shapiro, & 
Browne, 1985), and the number of degrees of freedom for the difference is equal to the 
difference in degrees of freedom for the two models. Under appropriate assumptions, the 
difference in model fit can be tested using the χ
2
difference test  
)
(
)
(
)
(
B
2
B
A
2
A
diff
2
diff
df
df
df
−χ
χ
(9) 
(Bentler, 1990; Bollen, 1989; Jöreskog, 1993), where  
2
A
χ  denotes the χ
2
value of Model A, a model that is a restricted version of Model B, 
i.e., Model A has less free parameters and more degrees of freedom (df
A
) and is thus 
nested within Model B,  
2
B
χ  denotes the χ
2
value of Model B, a model that is less restricted and therefore has 
more free parameters and less degrees of freedom (df
B
) than Model A, and  
df
diff
= df
A
 df
B
If the χ
2
difference is significant, the null hypothesis of equal fit for both models is re-
jected and Model B should be retained. But if the χ
2
difference is nonsignificant, which 
means that the fit of the restricted model (Model A) is not significantly worse than the 
fit of the unrestricted model (Model B), the null hypothesis of equal fit for both models 
cannot be rejected and the restricted model (Model A) should be favored.  
The χ
2
difference test applied to nested models has essentially the same strengths and 
weaknesses as the χ
2
test applied to any single model, namely, the test is directly af-
fected by sample size, and for large samples trivial differences may become significant. 
For the χ
2
difference test to be valid, at least the least restrictive model of a sequence of 
models (in our example Model B) should fit the data.  
It should be noted that the Satorra-Bentler scaled χ
2
values resulting from robust es-
timation methods cannot be used for χ
2
difference testing because the difference between 
two scaled χ
2
values for nested models is not distributed as a χ
2
(Satorra, 2000). Re-
cently, Satorra  and Bentler (2001)  developed  a  scaled difference χ
2
test  statistic  for 
control Library system:C# PDF Text Extract Library: extract text content from PDF file in
Text: Extract Text from PDF. |. Home ›› XDoc.PDF ›› C# PDF: Extract PDF Text. Enable extracting PDF text to another PDF file, TXT and SVG formats.
www.rasteredge.com
control Library system:VB.NET PDF Text Extract Library: extract text content from PDF
PDF ›› VB.NET PDF: Extract PDF Text. Advanced Visual Studio .NET PDF text extraction control, built in .NET framework 2.0 and compatible with Windows system.
www.rasteredge.com
Schermelleh-Engel et al.: Evaluating the fit of Structural Equation Models 
35 
moment structure  analysis. They could show that simple hand calculations based on 
output from nested runs can give the desired χ
2
difference test of nested models using 
the scaled χ
2
. These calculations may be obtained from Mplus by asking for the MLM 
estimator. 
If models are not nested, they may be compared on the basis of descriptive goodness-
of-fit measures that take parsimony as well as fit into account, e.g., the Akaike Informa-
tion Criterion (Akaike, 1974, 1987), which can be used regardless of whether models for 
the same data can be ordered in a nested sequence or not (see below). A more detailed 
discussion of alternative methods for comparing competing models is given in Kumar 
and Sharma (1999), Raykov and Penev (1998), and Rigdon (1999). 
Part II: Descriptive Goodness-of-Fit Measures 
Because of the drawbacks of the χ
2
goodness-of-fit tests, numerous descriptive fit in-
dices have been developed that are often assessed intuitively. These indices are derived 
from ML, WLS, GLS, or ULS, but in the following we will not differentiate between 
these methods (for further information on ML-, WLS-, and GLS-based descriptive fit 
indices, cf. Hu & Bentler, 1998). Many of these measures are intended to range between 
zero (no fit) and one (perfect fit), but as Hu and Bentler (1995) note, the sampling dis-
tributions of goodness-of-fit indices are unknown with the exception of χ
2
so that critical 
values for fit indices are not defined. As a reasonable minimum for model acceptance, 
Bentler and Bonett (1980) proposed a value of .90 for normed indices that are not par-
simony adjusted (cf. Hoyle & Panter, 1995), while .95 should be indicative of a good fit 
relative to the baseline model (Kaplan, 2000). But recently, Hu and Bentler (1995, 1998, 
1999) gave evidence that .90 might not be a reasonable cutoff for all fit indices under all 
circumstances: "The rule of thumb to consider models acceptable if a fit index exceeds 
.90 is clearly an inadequate rule" (Hu & Bentler, 1995, p. 95). They suggested to raise 
the rule of thumb minimum standard for the CFI and the NNFI (see below) from .90 to 
.95 to reduce the number of severely misspecified models that are considered acceptable 
based on the .90 criterion (Hu & Bentler, 1998, 1999).  
Descriptive Measures of Overall Model Fit 
Due to the sensitivity  of  the χ
2
statistic to sample size, alternative goodness-of-fit 
measures have been developed. Measures of overall model fit indicate to which extent a 
control Library system:C# PDF insert text Library: insert text into PDF content in C#.net
|. Home ›› XDoc.PDF ›› C# PDF: Insert Text to PDF. Powerful .NET PDF edit control allows modify existing scanned PDF text.
www.rasteredge.com
control Library system:Online Convert PDF to Text file. Best free online PDF txt
Online PDF to Text Converter. Download Free Trial. Convert a PDF to Text. Just upload your file by clicking on the blue button
www.rasteredge.com
36 
MPR-Online 2003, Vol. 8, No. 2 
structural equation model corresponds to the empirical data. These criteria are based on 
the difference between the sample covariance matrix S and the model-implied covari-
ance matrix 
)
ˆ
Σ
. The following indices are descriptive measures of overall model fit: 
Root  Mean  Square  Error  of  Approximation  (RMSEA),  Root  Mean  Square  Residual 
(RMR), and Standardized Root Mean Square Residual (SRMR).  
Root Mean Square Error of Approximation (RMSEA) 
The usual test of the null hypothesis of exact fit is invariably false in practical situa-
tions and will almost certainly be rejected if sample size is sufficiently large. Therefore a 
more sensible approach seems to be to assess whether the model fits approximately well 
in the population (cf. Kaplan, 2000, p. 111). The null hypothesis of exact fit is replaced 
by the null hypothesis of "close fit" (Browne & Cudeck, 1993, p. 146). Thus, the Root 
Mean Square Error of Approximation (RMSEA; Steiger, 1990) is a measure of approxi-
mate fit in the population and is therefore concerned with the discrepancy due to ap-
proximation.  
RMSEA is estimated by 
a
ˆ
ε , the square root of the estimated discrepancy due to ap-
proximation per degree of freedom:  
( ( ))
a
ˆ
,
1
ˆ
max
,0
1
θ
ε
=
F
df
N
(10) 
where  
))
ˆ
( , , (
θ
F
is the minimum of the fit function, 
df = s – t  is the number of degrees of freedom, and  
N is the sample size. 
The RMSEA is bounded below by zero. Steiger (1990) as well as Browne and Cudeck 
(1993) define a "close fit" as a RMSEA value less than or equal to .05. According to 
Browne and Cudeck (1993), RMSEA values  .05 can be considered as a good fit, values 
between .05 and .08 as an adequate fit, and values between .08 and .10 as a mediocre 
fit, whereas values > .10 are not acceptable. Although there is general agreement that 
the value of RMSEA for a good model should be less than .05, Hu and Bentler (1999) 
suggested an RMSEA of less than .06 as a cutoff criterion. In addition, a 90% confi-
control Library system:C# PDF Text Search Library: search text inside PDF file in C#.net
|. Home ›› XDoc.PDF ›› C# PDF: Search PDF Text. C#.NET PDF SDK - Search and Find PDF Text in C#.NET. C#.NET PDF DLLs for Finding Text in PDF Document.
www.rasteredge.com
control Library system:VB.NET Create PDF from Text to convert txt files to PDF in vb.net
C# File: Split PDF; C# Page: Insert PDF pages; C# Page: Delete PDF pages; C# Read: PDF Text Extract; VB.NET PDF - Create PDF from Text in C#.NET.
www.rasteredge.com
Schermelleh-Engel et al.: Evaluating the fit of Structural Equation Models 
37 
dence interval (CI) around the point estimate enables an assessment of the precision of 
the RMSEA estimate. On the basis of the CI, it is possible to say with a certain level of 
confidence that the given interval contains the true value of the fit index for that model 
in the population (MacCallum, Browne, & Sugawara, 1996). The lower boundary (left 
side) of the confidence interval should contain zero for exact fit and be < .05 for close 
fit. Note that when the model fits well in the population, the lower end of the confi-
dence interval is truncated at zero, which leads to an asymmetry of the confidence in-
terval. RMSEA is regarded as relatively independent of sample size, and additionally 
favors parsimonious models (Browne & Cudeck, 1993; Kaplan, 2000).  
For an understanding of RMSEA it is important to distinguish between two different 
kinds of error. The error of approximation, which is of primary interest here, represents 
the lack of fit of the model to the population covariance matrix Σ. The minimum fit 
function value one would obtain if the model could be fitted to the population covari-
ance matrix is a possible measure of this error. In contrast, the error of estimation re-
flects the differences between the model fitted to the population covariance matrix Σ  
(if this could be done) and the model fitted to the sample covariance matrix S (Browne 
& Cudeck, 1993, p. 141). From the viewpoint of model fit in the population, the error of 
estimation is of secondary interest only. Because the fit function value 
))
ˆ
( , , (
θ
F
SΣ
, which 
refers to the sample covariance matrix, would be a biased estimator of the population 
error of approximation, RMSEA includes a term inversely proportional to N – 1 which 
serves as a correction for bias (Browne & Cudeck, 1993, p. 143). 
Root Mean Square Residual (RMR) and Standardized RMR (SRMR) 
It was already mentioned that the residuals are given by the elements of the matrix 
)
ˆ
ΣS 
. These are sometimes called "fitted residuals" because they express the remain-
ing discrepancies between the covariance matrices S and 
)
ˆ
Σ
once the parameters of 
the model are estimated. 
The Root Mean Square Residual index (RMR) of Jöreskog and Sörbom (1981, p. 41; 
1989) is an overall badness-of-fit measure that is based on the fitted residuals. Con-
cretely, RMR is defined as the square root of the mean of the squared fitted residuals, 
1)/2
(
ˆ )
(
1 1
2
+
∑∑
=
= =
p p
s
RMR
p
i
i
j
ij
ij
σ
(11) 
control Library system:C# Create PDF from Text to convert txt files to PDF in C#.net, ASP
ASP.NET: Create PDF. ASP.NET: Convert PDF. ASP.NET: Edit PDF Text. ASP.NET: Edit PDF Image. C#.NET PDF - Create PDF from Text in C# Using XDoc.PDF SDK for .NET.
www.rasteredge.com
control Library system:VB.NET PDF delete text library: delete, remove text from PDF file
from PDF. |. Home ›› XDoc.PDF ›› VB.NET PDF: Delete Text from PDF. Free VB.NET PDF SDK library for deleting PDF text in Visual Studio .NET application.
www.rasteredge.com
38 
MPR-Online 2003, Vol. 8, No. 2 
where  
s
ij
is an element of the empirical covariance matrix S,  
ij
σ
ˆ  is an element of the model-implied matrix covariance 
)
ˆ
Σ
, and  
p is the number of observed variables. 
In principle, RMR values close to zero suggest a good fit. But as the elements of S 
and 
)
ˆ
Σ
are scale dependent, the fitted residuals are scale dependent, too, which im-
plies that RMR depends on the sizes of the variances and covariances of the observed 
variables. In other words, without taking the scales of the variables into account it is 
virtually impossible to say whether a given RMR value indicates good or bad fit. 
To overcome this problem, the Standardized Root Mean Square Residual (SRMR) 
has been introduced (Bentler, 1995, p. 271). Here, the residuals 
ij
ij
s
σ
ˆ
are first divided 
by the standard deviations 
ii
i
s
=
and 
jj
j
s
=
of the respective manifest variables, 
which  leads  to  a  standardized  residual  matrix  with  elements 
ˆ
(
)/(
)
ij
ij
i j
− σ
=
s
ss
ˆ /(
)
ij
ij
i j
r − σ
ss  where r
ij
is the observed  correlation between the respective variables 
(Bentler, 1995, p. 90). In contrast to LISREL (see below), EQS provides this matrix 
explicitly. Calculating the root mean square of the such defined standardized residuals 
in analogy to Equation 11 leads to the SRMR which is available in both LISREL and 
EQS. Again, a value of zero indicates perfect fit, but it is still difficult to designate cut-
off values for good and for acceptable fit because of sample size dependency and sensi-
tivity to misspecified models (Hu & Bentler, 1998). A rule of thumb is that the SRMR 
should be less than .05 for a good fit (Hu & Bentler, 1995), whereas values smaller than 
.10 may be interpreted as acceptable. 
The standardized residuals given above are similar – but in general not identical – to 
the correlation residuals suggested by Bollen (1989, p. 258). Both share the main idea 
that in an overall fit measure based on residuals, the observed variables should enter in 
standardized form such that all matrix elements contributing to the fit measure are on 
comparable scales. Thus the SRMR, same as the RMR, remains a purely descriptive fit 
index.  
Unfortunately  the term  "standardized  residuals" also  appears in a second meaning 
that is independent of the SRMR. In this meaning, the residuals themselves get stan-
dardized: Besides the fitted residuals, the LISREL program provides a matrix of stan-
Schermelleh-Engel et al.: Evaluating the fit of Structural Equation Models 
39 
dardized residuals which are obtained by dividing each fitted residual by its large-sample 
standard error (Jöreskog & Sörbom, 1989, p. 28). Being independent of the units of 
measurements of the variables as the standardized residuals discussed before, they also 
allow an easier interpretation than the fitted residuals. In the present case, however, the 
standardized residuals can be interpreted approximately in an inferential sense, namely, 
in a way similar to z scores. Provided that the SRMR or other fit indices signalize bad 
fit, single standardized residuals whose absolute values are greater than 1.96 or 2.58 can 
be useful for detecting the source of misfit. The largest absolute value indicates the ele-
ment that is most poorly fitted by the model. Because the kind of standardized residu-
als considered here refers to a standard error, the absolute values tend to increase with 
increasing sample size if the magnitudes of the fitted residuals remain essentially con-
stant. 
As the RMR and the SRMR are overall measures based on squared residuals, they 
can give no information about the directions of discrepancies between S and 
)
ˆ
Σ
. In a 
residual  analysis,  regardless  of  whether  unstandardized  or  standardized  residuals are 
used and which kind of standardization is preferred, it is important to take the sign of a 
residual into account when looking for the cause of model misfit. Given that an empiri-
cal covariance is positive, a positive residual indicates that the model underestimates 
the sample covariance. In this case, the empirical covariance is larger than the model-
implied covariance. A negative residual indicates that the model overestimates the sam-
ple covariance, that is, the empirical covariance is smaller than the model-implied co-
variance. 
Descriptive Measures Based on Model Comparisons 
The basic idea of comparison indices is that the fit of a model of interest is compared 
to the fit of some baseline model. Even though any model nested hierarchically under 
the target model (the model of interest) may serve as a comparison model, the inde-
pendence model is used most often. The independence model assumes that the observed 
variables are measured without error, i.e., all error variances are fixed to zero and all 
factor loadings are fixed to one, and that all variables are uncorrelated. This baseline 
model is a very restrictive model in which only p parameters, namely the variances of 
the variables, have to be estimated. An even more restrictive baseline model than the 
independence model is the null model, a model in which all parameters are fixed to zero 
(Jöreskog & Sörbom, 1993, p. 122) and hence, no parameters have to be estimated. The 
40 
MPR-Online 2003, Vol. 8, No. 2 
fit index for a baseline model will usually indicate a bad model fit and serves as a com-
parison value. The issue is whether the target model is an improvement relative to the 
baseline model.  
Often used measures based on model comparisons are the Normed Fit Index (NFI
), 
the Nonnormed Fit Index (NNFI
), the Comparative Fit Index (CFI
), the Goodness-of-
Fit Index (GFI
), and the Adjusted Goodness-of-Fit Index (AGFI
), which will be ex-
plained below in more detail. 
Normed Fit Index (NFI) and Nonnormed Fit Index (NNFI) 
The Normed Fit Index (NFI) proposed by Bentler and Bonnett (1980) is defined as 
i
t
2
i
2
t
2
i
2
t
2
i
1
χ
χ
1
χ
χ
χ
F
F
NFI
= −
= −
=
(12) 
where 
2
i
χ  is the chi-square of the independence model (baseline model), 
2
t
χ  is the chi-square of the target model, and  
 is the corresponding minimum fit function value. 
NFI values range from 0 to 1, with higher values indicating better fit. When F
t
= F
i
NFI equals zero; when F
t
= 0, NFI equals one, which suggests that the target model is 
the best possible improvement over the independence model. Although the theoretical 
boundary of NFI is one, NFI may not reach this upper limit even if the specified model 
is correct, especially in small samples (Bentler, 1990, p. 239). This can occur because 
the expected value of 
2
t
χ  is greater than zero: 
df
E
(χ )=
2
t
. The usual rule of thumb for 
this index is that .95 is indicative of good fit relative to the baseline model (Kaplan, 
2000, p. 107), whereas values greater than .90 are typically interpreted as indicating an 
acceptable fit (Marsh & Grayson, 1995; Schumacker & Lomax, 1996).  
A disadvantage of the NFI is that it is affected by sample size (Bearden, Sharma, & 
Teel, 1982). In order to take care of this problem, Bentler and Bonnett (1980) extended 
the work by Tucker and Lewis (1973) and developed the Nonnormed Fit Index (NNFI
), 
Schermelleh-Engel et al.: Evaluating the fit of Structural Equation Models 
41 
also known as the Tucker-Lewis Index (TLI
). The NNFI measures relative fit and is 
defined as 
1)
( / / ) ) 1/(
( / / ) ) ( / / )
(χ / / ) ) 1
(χ / / ) ) (χ χ / / )
i
i
t
t
i
i
i
2
i
t
2
t
i
2
i
=
=
N
df
F
df
F
df
F
df
df
df
NNFI
(13) 
where 
2
i
χ  is the chi-square of the independence model (baseline model), 
2
t
χ  is the chi-square of the target model, 
 is the corresponding minimum fit function value, and  
df  is the number of degrees of freedom. 
The NNFI ranges in general from zero to one, but as this index is not normed, values 
can sometimes leave this range, with higher NNFI values indicating better fit. A rule of 
thumb for this index is that .97 is indicative of good fit relative to the independence 
model, whereas values greater than .95 may be interpreted as an acceptable fit. As the 
independence model almost always has a large χ
2
, NNFI values are often very close to 
one (Jöreskog & Sörbom, 1993, p. 125), so that a value of .97 seems to be more reason-
able as an indication of a good model fit than the often stated cutoff value of .95.  
NNFI takes the degrees of freedom of the specified model as well as the degrees of 
freedom of the independence model into consideration. More complex, i.e., less restric-
tive models are penalized by a downward adjustment, while more parsimonious, i.e., 
more restrictive models are rewarded by an increase in the fit index. An advantage of 
the NNFI is that it is one of the fit indices less affected by sample size (Bentler, 1990; 
Bollen, 1990; Hu & Bentler, 1995, 1998).  
Comparative Fit Index (CFI) 
The Comparative Fit Index (CFI; Bentler, 1990), an adjusted version of the Relative 
Noncentrality Index (RNI
) developed by McDonald and Marsh (1990), avoids the un-
derestimation of fit often noted in small samples for Bentler and Bonett's (1980) normed 
fit index (NFI
). The CFI is defined as 
),0]
),(χ
[(χ
max
),0]
[(χ
max
1
i
2
i
t
2
t
t
2
t
df
df
df
CFI
= −
(14) 
42 
MPR-Online 2003, Vol. 8, No. 2 
where  
max denotes the maximum of the values given in brackets, 
2
i
χ  is the chi-square of the independence model (baseline model), 
2
t
χ  is the chi-square of the target model, and  
df is the number of degrees of freedom. 
The CFI ranges from zero to one with higher values indicating better fit. A rule of 
thumb for this index is that .97 is indicative of good fit relative to the independence 
model, while values greater than .95 may be interpreted as an acceptable fit. Again a 
value of .97 seems to be more reasonable as an indication of a good model fit than the 
often stated cutoff value of .95. Comparable to the NNFI, the CFI is one of the fit indi-
ces less affected by sample size (Bentler, 1990; Bollen, 1990; Hu & Bentler, 1995, 1998, 
1999).  
Goodness-of-Fit-Index (GFI) and Adjusted Goodness-of-Fit-Index (AGFI) 
The Goodness-of-Fit-Index  (GFI;  Jöreskog  &  Sörbom,  1989; Tanaka  & Huba,  1984) 
measures the relative amount of the variances and covariances in the empirical covari-
ance matrix S that is predicted by the model-implied covariance matrix 
)
ˆ
(θΣ
. Accord-
ing to Jöreskog and Sörbom (1993, p. 123), this implies testing how much better the 
model fits as compared to "no model at all" (null model), i.e., when all parameters are 
fixed to zero. The GFI seems to be inspired by analogy with the concept of a coefficient 
of determination (Mulaik et al., 1989, p. 435) and is defined as 
2
n
2
t
n
t
1
1
χ
χ
= −
= −
F
F
GFI
(15) 
where 
2
n
χ  is the chi-square of the null model (baseline model), 
2
t
χ  is the chi-square of the target model, and  
F is the corresponding minimum fit function value. 
Documents you may be interested
Documents you may be interested