The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education's Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
Effective Programs 
in Middle and High School Mathematics: A 
Best-Evidence Synthesis 
Robert E. Slavin 
Cynthia Lake 
Johns Hopkins University 
Cynthia Groff 
University of Pennsylvania 
Version 1.3 
August, 2008 
This paper was written under funding from the Institute of Education Sciences, U.S. Department 
of Education (Grant No. R305A040082). However, any opinions expressed are those of the authors and 
do not necessarily represent Department of Education positions or policies. 
We thank Steve Ross, Carole Torgerson, and Bette Chambers for comments on an earlier draft, 
and we thank Dewi Smith, Susan Davis, and Sharon Fox for their help. 
Effective Programs in Middle and High School Mathematics 
This article reviews research on the achievement outcomes of mathematics programs for 
middle and high schools. Study inclusion requirements included use of a randomized or matched 
control group, a study duration of at least twelve weeks, and equality at pretest. There were 100 
qualifying studies, 26 of which used random assignment to treatments. Effect sizes were very 
small (weighted mean ES=+0.03 in 40 studies) for mathematics curricula, and for computer-
assisted instruction (ES=+0.10 in 38 studies).  They were larger (weighted mean ES=+0.18 in 22 
studies) for instructional process programs, especially cooperative learning (weighted mean 
ES=+0.42 in 9 studies). Consistent with an earlier review of elementary programs, this article 
concludes that programs that affect daily teaching practices and student interactions have larger 
impacts on achievement measures than those emphasizing textbooks or technology alone. 
Effective Programs in Middle and High School Mathematics 
The mathematics achievement of America’s middle and high school students is an issue 
of great concern to policymakers as well as educators. Many believe that secondary math 
achievement is a key predictor of a nation’s long term economic potential (see, for example, 
Friedman, 2006). In countries other than the U.S., results of international comparisons of 
mathematics achievement, such as the PISA study (Thomson, Cresswell, & De Bortoli, 2003) 
and the TIMSS study (IEA, 2003) are front-page news, because it is widely believed that their 
students’ performance in math and science is of great importance to their nations’ competitive 
strength for the future. 
The performance of U.S. students is neither disastrous nor stellar, and it is improving. On 
the PISA study (Thomson, Cresswell, & De Bortoli, 2003), American 15-year olds ranked 28
out of 40, behind such similar nations as Canada, Australia, France, and Germany, and far behind 
Hong Kong, Finland, Korea, and Japan. On TIMSS (IEA, 2003), U.S. eighth graders ranked 14
out of 34 in 2003, but on a positive note, U.S. TIMSS scores and rank have gained significantly 
since 1995. On the U.S. National Assessment of Educational Progress (NAEP, 2007), eighth 
graders are also showing steady progress. From 52% of eighth graders scoring at “basic” or 
better in 1990, 71% scored at that level in 2007, and the percent scoring “proficient” or better 
doubled, from 15% in 1990 to 32% in 2005. This is much in contrast to the situation in reading, 
where eighth graders in 2007 are scoring only slightly better than those in 1992. 
The problem of mathematics performance in American middle and high schools is not 
primarily a problem of comparisons to other countries, however, but more a problem within the 
U.S. There are enormous differences between the performance of white and middle class 
students and that of minority and disadvantaged students, and the gap is not diminishing. On the 
2007 NAEP, 39% of white students scored proficient or better, compared to 9% of African-
American, 13% of Hispanic, and 14% of American Indian students. Similarly, 39% of non-poor 
eighth graders achieved at proficient or better, in comparison to 13% of students who qualify for 
free lunch. Improvements are needed for all students, of course, but the crisis is in schools serving 
many poor and minority children. 
Clearly, to continue to advance in mathematics achievement, we must improve the 
quality of math instruction received by all students. What tools do we have available to intervene 
in middle and high schools to significantly improve their mathematics outcomes? Which 
textbooks, technology applications, and professional development approaches are known to be 
effective? The purpose of this review is to apply consistent methodological standards to the 
research on all types of mathematics programs for middle and high schools to find answers to 
these questions. 
Although there have been reviews of research on effective classroom teaching practices 
in math (e.g., Anthony & Walshaw, 2007), a comprehensive review systematically comparing 
the evidence base supporting alternative programs in middle and high school mathematics has 
never been done. The What Works Clearinghouse (2007) did review research on middle school 
textbooks and computer programs. As of this writing, it has posted “effectiveness ratings” for six 
programs. It rated two programs, I Can Learn (a core computer curriculum) and Saxon Math (a 
Effective Programs in Middle and High School Mathematics 
back-to-the-basics textbook) as having “positive effects,” two (UCSMP Algebra and The Expert 
Mathematican) as having “potentially positive effects,” and two (Connected Mathematics and 
Transition Mathematics) as having “mixed effects.” Clewell et al. (2004) briefly reviewed 
studies of math and science curricula and professional development models for middle and high 
schools, but did not draw any conclusions. There have also been reviews of research on the use 
of computer technology in mathematics, and these have included studies at the middle and high 
school level (e.g., Becker, 1991; Chambers, 2003; Murphy, Penuel, Means, Korbak, Whaley, & 
Allen, 2002). Project 2061 (AAAS, 2000) evaluated various middle school math programs to 
determine the degree to which they correspond to current conceptions of curriculum, but did not 
focus on student outcomes. 
The National Research Council (2004; see also Confrey, 2006) commissioned a blue-
ribbon panel to review research on the outcomes of mathematics textbooks for grades K-12. 
They identified 63 quasi-experimental studies that met their standards, but decided that they did 
not warrant any conclusions. It said nothing about outcomes of particular programs or types of 
programs, and took the position that studies showing differences in student outcomes are not 
sufficient, regardless of the quality of the evaluation design, unless the content has been 
reviewed by math educators and mathematicians to be sure that they correspond to current 
conceptions of appropriate curriculum. Since none of the 63 studies did this, the NRC panelists 
decided not to present the outcome evidence it had found. 
The current review builds on a systematic review of research on the outcomes of 
mathematics programs for elementary students, grades K-6, by Slavin & Lake (in press). That 
review focused on three types of programs: mathematics curricula (e.g., Everyday Mathematics, 
Saxon Math), computer-assisted instruction (e.g., SuccessMaker, Compass Learning), and 
professional development programs (e.g., cooperative learning, classroom management, 
tutoring). Studies were included if they compared experimental and well-matched control groups 
over periods of at least 12 weeks on standardized measures of objectives pursued equally by all 
groups. A total of 87 studies met these criteria, of which 36 used random assignment to 
treatments. Combining effects across studies within categories, Slavin & Lake (in press) found 
limited effects of the math curricula (median ES=+0.10 in 13 studies), better effects of computer-
assisted instruction (median ES=+0.19 in 38 studies), and the best effects and the highest-quality 
studies for instructional process programs (median ES=+0.33 in 36 studies). Within categories, 
effect sizes for randomized and matched studies were nearly identical. 
Focus of the Current Review
The present review uses procedures identical to those used by Slavin & Lake (in press) to 
review research on mathematics programs for middle and high schools, grades 6-12 (sixth 
graders appeared in the earlier review if they were in elementary schools, in the current review if 
they were in middle schools). As in Slavin & Lake (in press), the intention of the present review 
is to place all types of programs intended to enhance the mathematics achievement of middle and 
high school students on a common scale, to provide educators with meaningful, unbiased 
information that they can use to select programs most likely to make a difference for their 
Effective Programs in Middle and High School Mathematics 
students’ standardized test scores. The review also seeks to identify common characteristics of 
programs likely to make a difference in student math achievement. This synthesis includes all 
kinds of approaches to math instruction, and groups them in three categories. Mathematics 
curricula focus primarily on textbooks. These include the programs developed under funding 
from the National Science Foundation beginning in the early 1990s, such as the University of 
Chicago School Mathematics Project (UCSMP) and Connected Mathematics, as well as standard 
textbooks produced by commercial publishers. Computer-assisted instruction (CAI) refers to 
programs that use technology to enhance mathematics achievement. CAI programs can be 
supplementary, as when students are sent to computer labs for additional practice (e.g., 
Jostens/Compass Learning), or they can be core, substantially replacing the teacher with self-
paced instruction on the computer (e.g., Cognitive Tutor, I Can Learn). CAI is the one category 
of mathematics programs that has been extensively reviewed in the past, most recently by Kulik 
(2003), Murphy et al. (2002), and Chambers (2003), and core CAI programs were included in the 
What Works Clearinghouse (2007) review of middle school math programs. The third category, 
instructional process programs, is the most diverse. All programs in this category rely primarily 
on professional development to give teachers effective strategies for teaching mathematics. 
These include programs focusing on cooperative learning, individualized instruction, mastery 
learning, and comprehensive school reform, as well as on programs more explicitly focused on 
mathematics content. 
Review Methods
The review methods are essentially identical to those used by Slavin & Lake (in press), 
who used a technique called best evidence synthesis (Slavin, 1986), which seeks to apply 
consistent, well-justified standards to identify unbiased, meaningful information from 
experimental studies, discussing each study in some detail, and pooling effect sizes across 
studies in substantively justified categories. The method is very similar to meta-analysis (Cooper, 
1998; Lipsey & Wilson, 2001), adding an emphasis on description of each study’s contribution. 
It is also very similar to the methods used by the What Works Clearinghouse (2007), with a few 
exceptions noted in the following section. (See Slavin, 2008, for an extended discussion and 
rationale for the procedures used in both reviews.) 
Literature Search Procedures
A broad literature search was carried out in an attempt to locate every study that could 
possibly meet the inclusion requirements. This included obtaining all of the middle school 
studies cited by the What Works Clearinghouse (2007), the middle and high school studies cited 
by the National Research Council (2004), by Clewell et al., and by other reviews of mathematics 
programs, including technology programs that teach math (e.g., Chambers, 2003; Kulik, 2003; 
Murphy et al., 2002). Electronic searches were made of educational databases (JSTOR, ERIC, 
EBSCO, PsychInfo, Dissertation Abstracts), web-based repositories, and education publishers’ 
websites. Besides searching by key terms, we conducted searches by program name and 
attempted to contact producers and developers of reading programs to check whether they knew 
of studies that we had missed. Citations of studies appearing in the first wave of studies were 
Effective Programs in Middle and High School Mathematics 
also followed up. Unlike the What Works Clearinghouse, which excludes studies more than 20 
years old, studies meeting the selection criteria were included if they were published from 1970 
to the present. Through these procedures we identified and reviewed more than 500 studies of 
secondary math interventions. 
Effect Sizes
In general, effect sizes were computed as the difference between experimental and 
control individual student posttests after adjustment for pretests and other covariates, divided by 
the unadjusted control group standard deviation (SD). If the control group SD was not available, 
a pooled SD was used. Procedures described by Lipsey & Wilson (2001) and Sedlmeier & 
Gigerenzor (1989) were used to estimate  effect sizes when unadjusted standard deviations were 
not available, as when the only standard deviation presented was already adjusted for covariates, 
or when only gain score SD’s were available. School- or classroom-level SD’s were adjusted to 
approximate individual-level SD’s, as aggregated SD’s tend to be much smaller than individual 
SD’s. If pretest and posttest means and SD’s were presented but adjusted means were not, effect 
sizes for pretests were subtracted from effect sizes for posttests.  When effect sizes were 
averaged, they were weighted by sample size, up to a cap weight of 2500 students. 
Criteria for Inclusion
Criteria for inclusion of studies in this review were as follows: 
1.  The studies evaluated programs for middle and high school mathematics. Studies 
of variables, such as ability grouping, block scheduling, and single-sex 
classrooms, were not reviewed. 
2.  The studies involved middle and high school students in grades 7-12, plus sixth 
graders if they were in middle schools. 
3.  The studies compared children taught in classes using a given mathematics 
program to those in control classes using an alternative program or standard 
4.  Studies could have taken place in any country, but the report had to be available 
in English. The report had to have been published in 1970 or later. 
5.  Random assignment or matching with appropriate adjustments for any pretest 
differences (e.g., analyses of covariance) had to be used. Regression discontinuity 
designs would have been included, but no such studies were located. Otherwise, 
studies without control groups, such as pre-post comparisons, and comparisons to 
“expected” gains, were excluded.  
Effective Programs in Middle and High School Mathematics 
6.  Pretest data had to be provided, unless studies used random assignment of at least 
30 units (individuals, classes, or schools) and there were no indications of initial 
inequality. Studies with pretest differences of more than 50% of a standard 
deviation were excluded, because even with analyses of covariance, large pretest 
differences cannot be adequately controlled for, as underlying distributions may 
be fundamentally different.  Studies in which treatments had been in place before 
pretesting were excluded. 
7.  The dependent measures included quantitative measures of mathematics 
performance, such as standardized mathematics measures. Experimenter-made 
measures were accepted if they were described as comprehensive measures of 
mathematics, which would be fair to the control groups, but measures of math 
objectives inherent to the program (but unlikely to be emphasized in control 
groups) were excluded. The exclusion of measures inherent to the experimental 
treatment is a key difference between the procedures used in the present review 
and those used by the What Works Clearinghouse.  
8.  A minimum treatment duration of 12 weeks was required. This requirement is 
intended to focus the review on practical programs intended for use for the whole 
year, rather than brief investigations. Brief studies may not allow programs to 
show their full effect. On the other hand, brief studies often advantage 
experimental groups that focus on a particular set of objectives during a limited 
time period while control groups spread that topic over a longer period. 
9.  Studies had to have at least two teachers and 15 students in each treatment group. 
Appendix 1 lists studies that were considered but excluded according to these criteria, as well as 
the reasons for exclusion. Appendix 2 lists abbreviations used throughout the review. 
Categories of Research Design
Four categories of research designs were identified. Randomized experiments (RE) were 
those in which students, classes, or schools were randomly assigned to treatments, and data 
analyses were at the level of random assignment. When schools or classes were randomly 
assigned but there were too few schools or classes to justify analysis at the level of random 
assignment, the study was categorized as a randomized quasi-experiment (RQE) (Slavin, 2008). 
Several studies claimed to use random assignment because students were assigned to classes by a 
scheduling computer, but scheduling constraints (such as conflicts with advanced or remedial 
courses taught during the same period) can greatly affect such assignments. Studies using 
scheduling computers were categorized as matched, not random. Matched (M) studies were ones 
in which experimental and control groups were matched on key variables at pretest, before 
posttests were known, while matched post-hoc (MPH) studies were ones in which groups were 
matched retrospectively, after posttests were known. For reasons described by Slavin (2008), 
studies using fully randomized designs are less likely to overestimate statistical significance, but 
all randomized experiments are preferable to matched studies, because randomization eliminates 
Effective Programs in Middle and High School Mathematics 
selection bias. Among matched designs, prospective designs are strongly preferred to post-hoc or 
retrospective designs. In the text and in tables, studies of each type of program are listed in this 
order: RE, RQE, M, MPH. Within these categories, studies with larger sample sizes are listed 
first. Therefore, studies discussed earlier in each section should be given greater weight than 
those listed later, all other things being equal. 
Mathematics Curricula
Much of the debate in mathematics instruction revolves around the use of innovative 
textbooks or curricula. The curricula that have been evaluated fall into three distinct categories. 
One is innovative strategies based on the NCTM Standards, which focus on problem-solving, 
alternative solutions, and conceptual understanding. The most widely used programs of this type, 
the University of Chicago School Mathematics Project (UCSMP), Connected Mathematics, and 
Core-Plus Mathematics, were all created under NSF funding. Another category is traditional 
commercial textbooks, such as McDougal-Littell and Prentice Hall, that are also based on 
NCTM Standards but have a more traditional balance between algorithms, concepts, and 
problem solving. Finally, there is Saxon Math, a back-to-the-basics textbook that emphasizes a 
step-by-step approach to mathematics. 
In the Slavin & Lake (in press) review of elementary mathematics programs and in What 
Works Clearinghouse (2008 a, b) reviews of research on elementary and middle school 
textbooks, effects of alternative curricula were found to be very small, and rarely statistically 
Table 1 summarizes the qualifying studies of mathematics curricula, which are then 
described in detail. 
NSF-Supported Programs
University of Chicago School Mathematics Project (UCSMP)
The University of Chicago School Mathematics Project (UCSMP) is the premier example 
of research-based mathematics reform in the U.S. Under National Science Foundation and other 
funding, the UCSMP created and evaluated programs for elementary and secondary schools. 
(The elementary programs are disseminated under the name Everyday Mathematics.) UCSMP 
Effective Programs in Middle and High School Mathematics 
materials, published by SRA-McGraw Hill, are by far the most widely used of the NSF-funded 
mathematics reform programs in schools throughout the U.S.  
The focus of all of the UCSMP programs is on putting into daily practice the NCTM 
(1989, 2000) Standards. These programs strongly emphasize problem-solving, multiple 
solutions, conceptual understanding, and applications. Calculators and other technology are 
extensively used. 
UCSMP is also the most extensively evaluated of all mathematics curricula. Many of the 
studies lack control groups, or only used measures inherent to the program, and therefore do not 
meet the standards of the present review. However, there are also several studies that compare 
UCSMP and control students on measures that assess the content studied in both groups, and 
these are reviewed here. 
UCSMP Transition Mathematics
Hedges, Stodolsky, Mathison, & Flores (1986) evaluated the UCSMP Transition 
Mathematics program in grades 7-9 Pre-Algebra/General Math classes. Twenty matched pairs of 
classes were compared on the Scott Foresman General Mathematics scale. Classes were well 
matched at pretest. At posttest, 30% of students were allowed to use calculators. Because 
calculators are a key part of UCSMP but were used (only occasionally) in only one-third of 
control classes, analyses involving the students who used calculators are biased toward the 
UCSMP students, as the study authors note. Among the students who did not use calculators, 
there were no significant differences (ES=-0.08, n.s.). 
Plude (1992) evaluated UCSMP-Transitional Mathematics in a Connecticut middle 
school. Eighth graders in two classes using UCSMP were compared to those in six traditional 
classes. Students were pre- and posttested on the HSST General Math assessment and the 
Orleans-Hanna Pre-Algebra test. Students in the UCSMP classes gained more than controls on 
the HSST (ES=+0.28) but not on the Orleans-Hanna (ES=+0.04), for a mean effect size of +0.16. 
Thompson, Senk, Witonsky, Usiskin, & Kaeley (2005) evaluated the second edition of 
the UCSMP Transition Mathematics program. In this study, four classes in three diverse middle 
schools were matched with four control classes in the same schools, using a variety of standard 
textbooks. Most students were in grades 7-8. The High School Subject Tests (HSST) General 
Math assessment was used as a pre-and posttest. Adjusted posttests non-significantly favored the 
control group (ES=- 0.14, n.s.). 
Swann (1996) evaluated the UCSMP Transition Mathematics program in a post-hoc 
matched evaluation in a suburban Lexington, South Carolina middle school. Seventh graders 
who had performed above the 75
percentile on the South Carolina Basic Skills Assessment 
Program (BSAP) in fifth grade used Transition Mathematics in 1993-94. They were individually 
matched with seventh graders from the previous year who also scored above the 75
on BSAP and had used traditional texts. There were 260 students in each group. At the end of 
Effective Programs in Middle and High School Mathematics 
seventh grade, there were no differences on the Stanford Achievement Test (SAT-8) total 
mathematics (ES=-0.07, n.s.). Looking at subtests, however, there were interesting patterns. 
Students in the Transition Mathematics classes scored significantly higher on Mathematics 
Applications (ES=+0.26, p<.001), but the control group scored significantly higher on 
Mathematics Computation (ES=-0.42, p<.001). There were no differences on Concepts of 
Number (ES=-0.10, n.s.). A subset of 72 high-achieving students who took the PSAT in eighth 
grade were individually matched with a control group on fifth grade BSAP scores. On PSAT-
Mathematics the Transition Mathematics students scored significantly higher than controls 
(ES=+0.32, p<.05). Averaging the SAT-8 Total Mathematics and the PSAT-Mathematics effect 
sizes yields an average of ES=+0.12. The pattern of findings suggests that the effects of 
Transition Mathematics for these high-achieving students were to increase applications skill (an 
emphasis of the program) at the expense of skill in computations. 
UCSMP Algebra
A large-scale cluster randomized experiment evaluating an early form of UCSMP 
Algebra I was reported by Swafford & Kepner (1980). Teachers within 20 schools were 
randomly assigned to experimental or control conditions in a year-long experiment. Of these, 17 
teacher pairs were used in the final analyses. There were a total of 679 experimental and 611 
control students with complete pre- and posttest data. On the ETS Cooperative Mathematics 
Test: Algebra I, adjusted posttests favored the control group (ES= -0.15). Posttest scores were 
not significantly different at the teacher level but were significantly different (p<.001) at the 
student level. There were modest positive effects on a treatment-specific test, but this measure 
did not meet the standards of the review. 
Mathison, Hedges, Stodolsky, Flores, & Sarther (1989) evaluated UCSMP Algebra in 
schools across the U.S. The study compared eighth and ninth grade classes in which students had 
or had not experienced the UCSMP Transitional Mathematics program in the previous year and 
then experienced UCSMP Algebra or alternative programs. Classes of each type were matched 
on Iowa Algebra Aptitude Test (IAAT) scores and demographics. The posttest was the HSST: 
Algebra. There were no significant differences between UCSMP and control classes, whether or 
not students had previously experienced Transitional Mathematics. The effect size was estimated 
at ES=-0.19.  
Thompson, Senk, Witonsky, Usiskin, & Kaeley (2006) evaluated the Second Edition of 
UCSMP Algebra. Six classes in three diverse schools were matched with control classes in the 
same schools. Control classes used a variety of standard textbooks. Most students were ninth 
graders. UCSMP and control classes were well matched at pretest. At posttest (HSST: Algebra), 
UCSMP and control students were not significantly different, but the adjusted effect size was 
positive (ES=+0.22, n.s.). 
UCSMP Geometry
