The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education's Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
Conclusions: One-to-One Tutoring with Classroom Instructional Process Approaches
The weighted mean effect size for the lowest achievers in Success for All across 9 
qualifying studies was +0.52, similar to the effect size for phonetic tutoring programs. Where the 
results are different, however, is in long-term outcomes. Most of the SFA studies provided the 
program over at least a three-year period, and generally found stable or increasing effect sizes 
over the years (see, for example, Borman et al., 2007). Slavin et al. (1993) evaluated continued 
treatment over six years (K-5), and then a followup study by Borman & Hewes (2003) followed 
SFA students to eighth grade. These long-term studies found that positive effects of Success for 
All maintained over time. This is in contrast to the findings of long-term follow-ups of one-to-
one tutoring alone without classroom interventions after tutoring. These findings may suggest 
more broadly that even the most effective first grade tutoring approaches require followup with 
ongoing intervention in the later grades. This issue is discussed further later in this article. 
Instructional Technology
Over the past 30 years, one of the most common solutions applied for children who are 
struggling to learn to read is to give them computer-assisted instruction (CAI) software. Modern 
CAI programs adapt to children’s specific needs and give them activities with graphics and 
exciting elements that can supplement classroom instruction. However, previous reviews of 
research on elementary CAI applications in reading find few positive effects (Dynarski et al., 
The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education’s Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
2007; Kulik, 2003; Slavin et al., in press). Table 6 summarizes research on outcomes of 
instructional technology for children who are at the lowest performance levels of their classes. 
Becker (1994) evaluated Jostens with grade 2-5 students in a high-poverty school in 
Baltimore. A total of 56 low-achieving students were matched and then randomly assigned to use 
the Jostens integrated learning system in either reading or in math. The Jostens group achieved 
non-significantly better scores on the California Achievement Test than did students who did not 
use the reading software (ES=+0.41). 
Sinkis (1993) evaluated Jostens with Title I students in a pullout program in 8 schools in 
an urban district in the northeast. Four schools used Jostens and four served as matched controls. 
Students in grades 2-6 were involved, but second and fourth grade pretests were more than 50% 
of a standard deviation apart. Among third graders (n=71E, 63C), MAT Reading Comprehension 
posttests adjusted for pretests had an effect size of +0.14 (n.s.). Corresponding effect sizes for 
fifth graders (n=83E, 61C) were +0.22 (n.s.), and for sixth graders (n=74E, 70C) the effect size 
was -0.01 (n.s.), for a mean across grades of ES=+0.12. 
The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education’s Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
Standish (1995) evaluated Jostens among second graders in two suburban Delaware 
schools. The Jostens schools had 4 teachers and 56 students, while the control school had 5 
teachers and 83 students. The schools were well matched on cognitive ability tests and 
demographics. On MAT6 Reading posttests, adjusted for cognitive ability tests and demographic 
variables, the effect size for a Title I subgroup (n=22E, 21C) was +0.55.  
Fast ForWord
Fast ForWord, published by Scientific Learning, is a computerized program designed on 
the theory that many children with reading and language delays have auditory processing 
disorders. It uses computer games that slow and magnify acoustic changes within normal speech 
to “retrain the brain” to process information more effectively. The program was developed by 
neuroscientists who demonstrated that having children use computer games of this type showed 
improvements in “temporal processing” skills (Merzenich et al., 1996; Tallal et al., 1996). The 
initial model was expanded into software for use in schools, adding exercises on reading skills 
such as word recognition, decoding, fluency, spelling, and vocabulary. Children participate in 
Fast ForWord 90-100 minutes per day, 5 days a week, for 6-8 weeks, so it is intended to make a 
substantial difference in a relatively short time.  
While many studies of Fast ForWord have been done, most did not qualify for the 
current review.  Most were too brief (less than 12 weeks), and most used measures of language, 
not reading.  The most rigorous of the brief studies, an 8-week randomized evaluation by 
The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education’s Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
Borman & Rachuba (2009), found no differences between Fast ForWord and control students on 
reading measures.  
The one randomized study of Fast Forward that met 12-week duration criterion is an 
evaluation by Rouse & Krueger (2004).  That study involved four schools in a Northeastern city.  
All schools were implementing Success for All (Slavin & Madden, 2009). About 66% of students 
were Hispanic and 27% were African American, 59% qualified for free or reduced-price lunches, 
and 61% came from homes in which a language other than English was spoken. Children in 
grades 3-6 who were in the bottom 20% on the state’s standardized test and had parent 
permission were randomly assigned to the Fast ForWord (n=237) or control (n=217) conditions. 
Students in the Fast ForWord group participated in one of two eight-week “flights” in spring, 
2001. Students in grades 3 and 5 received an average of 35 days of treatment in January-March, 
and those in grades 4 and 6 received an average of 28 days in March-June.  A variety of 
measures were given just before and just after treatment, and thus did not meet the duration 
requirement of 12 weeks.  However, the study analyzed state reading test data from Fall, 2000, 
and Fall, 2001. On posttests adjusted for pretests, there were no differences between Fast 
ForWord and control students (ES=+0.05, n.s.). Sub-analyses of data for children who received 
the full treatment also showed no differences.  Finally, outcomes were near zero on the 
immediate posttests.  
Marion (2004) evaluated Fast ForWord in fifth and sixth grades in rural Appalachian 
Grainger County, Tennessee.  Almost all students were White, and 52% received free or 
The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education’s Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
reduced-price lunches.  Students who received Fast ForWord (N=215) were matched with those 
who did not (N=134) on Terra Nova pretests.  On Terra Nova posttests, adjusted for pretests, 
Fast ForWord students in the lowest quartile (n=34E, 29C) scored non-significantly higher 
(ES=+0.15, n.s.). 
Lexia Learning Systems has two supplemental computer-assisted instruction programs: 
Phonics Based Reading (PBR) and Strategies for Older Students (SOS).  They consist of various 
activities that teach phonetic word-attack strategies to promote automaticity in word recognition. 
Students typically participate in 2 to 4 20-30-minute sessions a week. Macaruso and his colleagues 
evaluated the Lexia programs in a year-long study in 10 first-grade classes in 5 Boston schools 
(Macaruso et al., 2006). One class in each school was assigned to the experimental group and another 
to the control group. Over 50% of the 83 students in the experimental group and the 84 students in 
the control group were eligible for free or reduced-price lunch. Controlling for pretests, the mean 
effect size for all students was +0.22 on the Gates-MacGinitie Reading Test. For Title 1 students, the 
effect size was +0.67. 
Other Supplemental CAI
Dynarski, Agodini, Heaviside, Novak, Carey, & Campuzano (2007) evaluated the use in 
first grades of five CAI reading programs, Destination Reading, Waterford, Headsprout, Plato 
Focus, and Academy of Reading. Outcomes for individual programs were not reported, so this is 
The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education’s Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
an evaluation of modern uses of technology in first grade reading in general, not of any particular 
approach. The study involved 43 schools in 11 districts. A total of 158 teachers (89E, 69C) and 
their 2619 students (1516E, 1103C) were randomly assigned within schools to CAI or control 
conditions. CAI students used the programs 94 minutes per week, on average. Control classes 
also often had computers, and used them for purposes such as reading assessment and practice, 
averaging 18 minutes per week. 
Schools involved in the study were very diverse, and were located throughout the US. 
However, they were relatively disadvantaged, with 49% of students eligible for free or reduced-
price lunches and 76% of schools receiving Title I. Overall, 44% of students were White, 31% 
African American, and 22% Hispanic. 
Students were pre- and posttested on the SAT-9. There were no differences for students 
in general. N’s for the lowest 33% of students were 505E, 367C. An analysis of effects on the 
number of children who had posttests below the 33
percentile found no differences (ES=+0.02, 
Campuzano, Dynarski, Agodini, & Rall (2009) reported outcomes for a smaller second 
cohort of first graders, most of whom were taught by a subset of the same teachers as those in the 
first cohort. Four of the five programs remained in use, Destination Reading, Waterford, 
Headsprout, and Plato Focus. The numbers of first graders in the lowest third of their classes 
was 130E, 102C. The technology products were used less than half as often in the second yar 
(19.7 hours) as in the first (42.6 hours). Controlling for pretests, the posttest effect size for the 
The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education’s Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
number of children scoring below the 33
percentile was -0.39. A weighted average effect size 
across the two cohorts was  
The same study evaluated four CAI programs at the fourth grade level: Leapfrog, Read 
180, Academy of Reading, and Knowledge Box, used an average of 98 minutes per week. 
Overall, 64% of these students were eligible for free- or reduced price lunches, 57% were 
African American, 23% were Hispanic, and 17% were White. 118 classrooms (63E, 55C) were 
randomly assigned to treatments, with 2265 students (1231E, 1034C). N’s for the lowest 33% 
were 410E, 345C. On SAT10, there were no differences in the proportions of students scoring 
below the 33
percentile (ES= -0.01). 
Campuzano et al. (2009) also reported second-cohort data for fourth graders taught by a 
subset of the teachers who taught the first cohort. Two of the four first-cohort programs remained 
in use: LeapTrack and Academy of Reading. N’s were 52E, 43C. The programs were used 
somewhat more often in the second year (16 hours) than in the first (12 hours). Effects on the 
number of children scoring below the 33
percentile were nonsignificantly positive (ES=+0.48). 
A weighted average effect size for the two cohorts was +0.04. 
Becker (1994) reported a randomized evaluation of an ILS program called CNS.  A total 
of 60 low-achieving students in grades 2-5 in an integrated Baltimore school with 50% of 
children receiving free lunch were randomly assigned within 9 classes to use CNS either in 
The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education’s Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
reading or in math.  The math students served as a control group in the reading evaluation.  On 
CAT reading scores controlling for pretests, effect sizes for low achievers averaged +0.10 (n.s). 
Ramey (1991) carried out an evaluation of several interventions for low-achieving 
students in Seattle. One of these was computer-assisted instruction in reading. Matched students 
in grades 2-5 in 1989-90 received either CAI (n=62) or traditional pullout instruction in small 
groups (n=220). (There was also an untreated control group, but its pretest scores were too high 
to qualify in this review.) On CAT-Reading, adjusted for pretests, effect sizes were +0.22 (n.s.) 
at the end of the treatment year and +0.24 (n.s.) at the end of a follow-up year. 
In a small study in two Virginia Title I schools, Bass, Ries, & Sharpe (1986) evaluated 
the use of a variety of software in grades 5-6. Students in one school using CAI (n=73) were 
compared to those in a matched school (n=72). Students were pre- and posttested on the SRA 
and the Virginia Basic Learning Skills Test. Averaging fifth and sixth grade scores, effect sizes 
were +0.22 for the SRA and +0.13 for the BLS, for a mean of +0.18. 
Chiang et al. (1978) evaluated a supplementary CAI strategy with students with a variety 
of special needs, mainly learning disabilities. The students ranged in age from 7 to 12, with an 
average age of 10. They were in four schools in Cupertino, California, a middle class suburb of 
San Francisco. Students using CAI (n=65) were individually matched with similar students in 
other schools in the district who did not use CAI (n=72). On PIAT Reading Recognition (given 
in May), controlling for September pretests, the effect size was  +0.18 (n.s.), and it was +0.26 
(n.s.) for PIAT Reading Comprehension. 
The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education’s Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
Roth & Beck (1987) carried out an evaluation of two microcomputer programs, called 
Construct-a-Word and Hint and Hunt, designed to build decoding and word recognition skills.  
They compared three fourth-grade classes in a low SES, low achieving urban school to three 
classes in a matched comparison school. Experimental students used the computers about 20 
minutes a day, three times a week, over a school year, in addition to their usual reading instruction. 
Among low achievers (reading below a grade equivalent of 3.0), n’s were 20E, 17C. On CAT 
Vocabulary, effect sizes were estimated at +0.98, but on CAT Reading Comprehension there were 
no differences (estimated ES = -0.10).  Averaging across the two measures gives a mean ES of 
Coomes (1985) evaluated the use of a variety of drill and practice software in four middle 
class schools in Texas. For low achievers (n=18E, 18C), the effect size was non-significant but 
positive (+0.30, n.s.). 
Conclusions: Instructional Technology
Across 14 qualifying studies (5 randomized), IT had minimal impacts on the achievement of 
struggling readers. The weighted mean effect size was only +0.09. 
Findings on Key Issues
The review of programs for struggling readers examined many important questions 
beyond the overall outcomes of various approaches. The following sections address these 
questions. In each case, we consider both within-study and between-study comparisons. The 
The Best Evidence Encyclopedia is a free web site created by the Johns Hopkins University School of Education’s Center for Data-Driven 
Reform in Education (CDDRE) under funding from the Institute of Education Sciences, U.S. Department of Education.  
within-study comparisons use the same study inclusion criteria as those applied for the main 
review, but in a few cases studies that compared alternative treatments but did not qualify for 
inclusion due to the lack of a control group representing ordinary practice are cited if they met all 
other inclusion criteria. 
The Importance of Phonics
Across all categories of programs, almost all successful programs have a strong emphasis 
on phonics. As noted earlier, one-to-one tutoring programs in which teachers were the tutors had 
a much more positive weighted mean effect size if they had a strong phonetic emphasis (mean 
ES= +0.69 in 9 studies). One-to-one tutoring programs with less of an emphasis on phonics, 
specifically Reading Recovery and TEACH, had a weighted mean effect size of +0.23. (Reading 
Recovery now has more of an emphasis on phonics, but only the Burroughs-Lange (2008) 
London study took place recently enough to reflect this change). Within-study comparisons 
support the same conclusion. Iverson & Tunmer (1993) compared Reading Recovery as 
ordinarily used at the time to a version with a phonetic emphasis, and found non-significantly 
more positive effects for the phonetic version (ES=+0.23). Hatcher et al. (1994) also compared a 
Reading Recovery-like treatment to the same treatment with a strong phonology component and 
to a tutoring model focusing only on phonology (which did not involve reading of real books). 
The combination of phonology and reading was much more effective than the Reading 
Recovery-like treatment (mean ES=+0.39). Averaging ordinary Reading Recovery and a version 
