Effective Programs in Middle and High School Mathematics 
The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education’s Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
applicants, even controlling for test scores). However, when there are fewer obvious reasons to 
expect strong selection bias, randomized and well-matched studies may produce similar results. 
See Cook et al. (2008) and Slavin (2008) for more on this. 
Sample Size Matters
Another important methodological observation is the profound impact of sample size. 
Large studies (sample size ≥ 250 students or 10 classes) had smaller median effect sizes in every 
category: Math curricula (+0.06 large, +0.12 small), CAI (+0.07 large, +0.21 small), and 
instructional process (+0.18 large, +0.22 small). In fact, focusing on the larger studies, only 
instructional process programs have robust achievement effects. See Slavin & Smith (2008) for 
more on this issue. 
Summarizing Evidence of Effectiveness for Current Programs
One of the most difficult issues in the review of “what works” research is in summarizing 
outcomes of many studies, balancing factors such as methodological quality, effect sizes, sample 
sizes, and other factors. For example, simply computing average effect sizes (as in meta-
analyses) risks over-emphasizing small and biased experiments, while restricting the review to 
randomized experiments would result in a small number of studies, many of which might have 
small samples, brief durations, or other features that greatly limit generalizability. Slavin (2007) 
discussed these issues and proposed a rating system similar to that used by the What Works 
Clearinghouse for the strength of evidence for educational programs. It balances methodological 
quality (favoring randomized experiments), effect size, and larger samples (at least 250 
students). This system was used previously by Slavin & Lake (in press) and Slavin et al. (2008). 
Programs were categorized as follows. 
Strong Evidence of Effectiveness
At least two studies, one of which is a large randomized or randomized quasi-
experimental study, or multiple smaller studies, with a median effect size of at least +0.20. A 
large study is defined as one in which at least ten classes or schools, or 250 students, were 
assigned to treatments. Smaller studies are counted as equivalent to a large study if their 
collective sample sizes is at least 250 students.  
Moderate Evidence of Effectiveness
At least two qualifying studies or multiple smaller studies with a collective sample size of 
500 students, with a median effect size of at least +0.20.  
This being said, there were several interesting patterns in the research on middle and high 
school mathematics programs. One surprising observation is the lack of evidence that it matters 
very much which textbook schools choose (weighted mean ES=+0.03 across 40 studies). NSF-
funded curricula such as UCSMP, Connected Mathematics, and Core-Plus might have been 
expected to at least show significant evidence of effectiveness for outcomes such as problem-
solving or concepts and applications, but the quasi-experimental studies that qualified for this 
review find little evidence of strong effects even in these areas. The weighted mean effect size 
for 24 studies of NSF-funded programs was 0.00, even lower than the median of +0.12 reported 
for elementary NSF-funded programs by Slavin & Lake (in press).  
It is possible that the standardized tests and state assessments used in the qualifying 
studies may have failed to detect some of the more sophisticated skills taught in NSF-funded 
programs but not other programs, a concern expressed by Confrey (2006) and Schoenfeld (2006) 
in their criticisms of the What Works Clearinghouse. However, in light of the small effects seen 
on outcomes such as problem solving, probability and statistics, geometry, and algebra, it seems 
unlikely that misalignment between the NSF-sponsored curricula and the standardized tests 
account for the modest outcomes. 
Studies of computer-assisted instruction found a weighted mean effect size (ES=+0.10) 
higher than that found for mathematics curricula, and less than to the median for CAI studies 
(ES=+0.19) reported by Slavin & Lake (in press) for elementary CAI studies. 
The most striking conclusion from the review, however, is the evidence supporting 
instructional process strategies, especially cooperative learning.  Eight studies, five of which 
were randomized experiments or randomized quasi-experiments, found strong impacts (weighted 
mean ES=+0.42) of cooperative learning programs.  
The debate about mathematics reform has focused primarily on curriculum, not on 
professional development or instruction (see, for example, AAAS, 2000; Confrey, 2006; NCTM, 
1989, 2000, 2006; NRC, 2004). Yet this review, in agreement with the review of elementary 
math programs by Slavin & Lake (in press), suggests that in terms of outcomes on traditional 
measures, such as standardized tests and state accountability assessments, curriculum differences 
appear to be less consequential than instructional differences. This is not to say that curriculum is 
unimportant. There is no point in teaching the wrong mathematics. The research on the NSF-
supported curricula is at least comforting in showing that reform-oriented curricula are no less 
effective than traditional curricula on traditional measures, so their contribution to non-
traditional outcomes does not detract from traditional ones (Schoenfeld, 2006). The movement 
led by NCTM to focus math instruction more on problem solving and concepts may account for 
the gains over time on NAEP, which itself focuses substantially on these domains.  
Also, it is important to note that the three types of approaches to mathematics instruction 
reviewed here do not conflict with each other, and may have additive effects if used together. For 
example, schools might use an NSF-supported curriculum such as UCSMP or Connected 
Mathematics with well-structured cooperative learning and supplemental computer-assisted 
instruction, and the effects may be greater than those of any of these programs by themselves. 
However, the findings of this review suggest that educators as well as researchers might do well 
to focus more on how the classroom is organized to maximize student engagement and 
motivation, rather than expecting that choosing one or another textbook by itself will move 
students forward. In particular, both the elementary review (Slavin & Lake, in press) and the 
current review find that the programs that produce consistently positive effects on achievement 
are those that fundamentally change what students do every day in their core math classes. 
As noted earlier, the most important problem in mathematics education in the U.S. is the 
gap in performance between middle and lower class students and between White and Asian-
American students and African American, Hispanic, and Native American students. The studies 
summarized in this review took place in widely diverse settings, and several of them reported 
outcomes separately for various subgroups. Overall, there is no clear pattern of differential 
effects for students of different social class or ethnic backgrounds. Programs found to be 
effective with any subgroup tend to be effective with all groups. This suggests that educational 
leaders could reduce achievement gaps by providing research-proven programs to schools 
serving many disadvantaged and minority students. Special funding to help high-poverty, low-
achieving schools adopt proven programs could help schools with many students struggling in 
math to implement innovative programs with strong evidence of effectiveness, as long as the 
schools agree to participate in the full professional development process used in successful 
studies and to implement all aspects of the program with quality and integrity. 
The mathematics performance of America’s students does not justify complacency. In 
particular, schools serving many students at risk need more effective programs. This article 
points to math programs for middle and high school students that have the strongest evidence 
bases today. Hopefully, higher quality evaluations of a broader range of programs will appear in 
the coming years. We must use what we know now at the same time as we work to improve our 
knowledge base in the future, so that all students receive the most effective mathematics 
instruction we can give them.  
