a. Histogram of average user and critic movie scores  
b. Relative use of different scores by users and critics 
0%
5%
10%
15%
20%
25%
30%
35%
40%
45%
50%
1
2
3
4
5
Rating type
% incidence in data set
Users
Critics
0
5
10
15
20
25
30
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Average score
Number of movies
Users
Critics
Figure 1: Comparison of user and critic rating behavior.
0
20
40
60
80
100
120
1
3
5
7
9
11
13
15
17
19
21
23
25
27
Days since release
Box Office
Ratings Volume
Figure 2: Daily boxoffice revenues and corresponding daily volume of user ratings for“Spider-Man”
(all values have been normalized so that Day 1=100)
in our data set exhibit very similar patterns. The correlation between total box office and total
number of ratings for all movies in our data set is 0.80. This suggests that users rate movies soon
after they watch them. It also suggests that the volume of online ratings should best be thought of
as a proxy of past sales.
4 Models
Sinceoneofourobjectivesisto assistmovieexhibitorsin bettermanaging supply(i.e. thenumberof
screenson which a movieis exhibited each week) weareinterested in forecasting both a movie’stotal
revenues as well as its revenue trajectory over time. In common with most models of new product
sales growth (Mahajan et al. 1990; Meade 1984), our model is based on a hazard rate formulation.
The hazard rate ofproductadoption is theinstantaneous probabilitythat a representativeconsumer
11
Convert pdf to text on - application SDK tool:C# PDF Convert to Text SDK: Convert PDF to txt files in C#.net, ASP.NET MVC, WinForms, WPF application
C# PDF to Text (TXT) Converting Library to Convert PDF to Text
www.rasteredge.com
Convert pdf to text on - application SDK tool:VB.NET PDF Convert to Text SDK: Convert PDF to txt files in vb.net, ASP.NET MVC, WinForms, WPF application
VB.NET Guide and Sample Codes to Convert PDF to Text in .NET Project
www.rasteredge.com
who has not yet adopted a (durable) product will do so at time t. Assuming that the size of the
market is known, if F(t) denotes the cumulative fraction of adopters at time t and
_
F(t) denotes its
derivative with respect to time (i.e the instantaneous rate of adoption at time t), the hazard rate
of adoption is defined as:
h(t)=
Pr[adopts at time t]
Pr[adopts at time ¿ ‚ t]
=
_
F(t)
1¡F(t)
(1)
If the size of the market is N and the purchase price is p, total revenues, M, are given by
M= Np. From equation (1), the evolution of cumulative revenues R(t)= MF(t) is then governed
by the following differential equation:
_
R(t)= (M ¡ R(t))h(t)
(2)
From a theoretical perspective, hazard rate models have been shown to provide good approxi-
mations ofthe aggregateoutcome of a large number of individual-level stochastic product adoption
processes (Chatterjeeand Eliashberg 1990). From a practical perspective, most growth curves used
in sales forecasting by practitioners can be derived from equation (2) by assuming different func-
tional forms for the hazard rate h(t). For example, a constant hazard rate h(t) = a gives rise to an
exponential curve, whereas a monotonically increasing or decreasing hazard rate h(t) = at
b
gives
rise to a Weibull distribution. The well-known Bass model (Bass 1969) also arises as a special case
of (2) if we set h(t) = P + QR(t). A common interpretation of the Bass model is that product
adoption is driven by two forces: an “external” force, that typically relates to advertising and pub-
licity and is represented by the coefficient P, and an “internal” force that relates to word-of-mouth
and is represented by the coefficient Q multiplied by the cumulative number of past adopters.
Figure 3 shows a plot of the empirical hazard rate curves corresponding to a representative
subset of movies in our sample. We immediately see that these curves fall into two categories:
hazard rates that steadily decline over time, corresponding to wide-release (“blockbuster”) movies,
and curves that increase then decline, corresponding to narrow-release(“sleeper”)movies. Theform
of the curves immediately rules out the use of constant and monotonically increasing hazard rate
models. Interestingly, our empirical results also rule out the standard version of the Bass model,
12
application SDK tool:Online Convert PDF to Text file. Best free online PDF txt
Download Free Trial. Convert a PDF to Text. Easy converting! We try to make it as easy as possible to convert your PDF files to Text.
www.rasteredge.com
application SDK tool:VB.NET PDF Text Extract Library: extract text content from PDF
PDF ›› VB.NET PDF: Extract PDF Text. Advanced Visual Studio .NET PDF text extraction control, built in .NET framework 2.0 and compatible with Windows system.
www.rasteredge.com
a. Illustrative subset of wide-release movies  
b. Illustrative subset of sleeper movies 
0
0.02
0.04
0.06
0.08
0.1
0.12
1
2
3
4
5
6
7
8
9
Weeks since release
Hazard Rate
0
0.00005
0.0001
0.00015
0.0002
0.00025
1
2
3
4
5
6
7
8
9
10
Weeks since release
Hazard Rate
Figure 3: Empirical hazard rates of movie revenues in our data set.
whereboth coefficients P;Q areassumed to bepositive(thestandard version of the model implies a
monotonically increasing hazard rate). In the rest ofthe paper we will relax the assumption Q> 0
and willallow coefficientQto takenegativevalues as well (corresponding to negativeword-of-mouth
about a movie).
Drawing upon the unique properties of the motion picture industry, we propose a novel set
of hazard rate models that are better able to fit the shape of movie revenues. Our models are
theoretically justified by the following two observations: (i) the bulk of a movie’s marketing effort
occurs just before a movie’s premiere and declines rapidly post-release
7
;most movies, thus, get an
initial publicity “jolt” that diminishes in later weeks, (ii) word-of-mouth is localized in time; people
talkmoreabout moviesimmediatelyafterwatching them, and lessas timegoesby
8
.Weincorporate
these two observations into the Bass hazard rate h(t) = P + QR(t) by introducing discount factors
–and " that model the post-release decay of movie publicity and the time-locality (“perishability”)
of word-of-mouth respectively. We obtain the following family of modified Bass hazard functions:
h(t) = P–
t
+Q
Zt
¿=0
_
R(t¡ ¿)"
¿
d¿ 0 • – • 1; 0 • " • 1
(3)
Substituting into (2) we obtain our revenue forecasting equation:
7
Elberse and Anand (2005) report that the highest median TV advertising spending occursimmediatelybeforea
movie’s opening weekend; it drops to less than 30% of its peakvaluein thefollowing week and to less than 10% in
later weeks.
8
Eliashberg et. al (2000) recognize and explicitlytake this phenomenon into consideration in their MOVIEMOD
pre-release forecasting model. Elberse and Eliashberg (2003) also implicitly incorporate the“perishability” of word-
of-mouth in their modelbyusing a word-of-mouth proxyvariablethat is based onlyonprevious-period (rather than
cumulative) data.
13
application SDK tool:C# PDF Text Extract Library: extract text content from PDF file in
Text: Extract Text from PDF. |. Home ›› XDoc.PDF ›› C# PDF: Extract PDF Text. Enable extracting PDF text to another PDF file, TXT and SVG formats.
www.rasteredge.com
application SDK tool:VB.NET PDF Convert to Jpeg SDK: Convert PDF to JPEG images in vb.
Convert PDF to HTML. Convert PDF to SVG. Convert PDF to Text. Convert PDF to JPEG. Convert PDF to Png, Gif, Bitmap Images. File &
www.rasteredge.com
_
R(t) = (M ¡R(t))(P–
t
+Q
Zt
¿=0
_
R(t ¡¿)"
¿
d¿)
(4)
Despite its apparent complexity, equation (4) has a simple intuitive interpretation: the instan-
taneousprobabilitythat a non-adopterwill adopt a product attime t is proportional to the residual
impactof earlypublicity surrounding theproduct, aswellasword-of-mouth from previous adopters,
where the impact of conversations with recent adopters is greater than the impact of conversations
with earlier adopters (or, alternatively, where recent adopters talk more than early adopters). The
above equation defines a fairly general class of models. Depending on the values of parameters
P;Q;M;–;", hazard function that are monotonically increasing, monotonically decreasing, or in-
verse U-shaped (first increasing, then decreasing) can be generated. For – = " = 1, equation (4)
reduces to the standard Bass model.
Given a sample of movies with known weekly box office revenues, production, and ratings data,
estimation of a revenue forecasting model based on equation (4) requires two steps: First, using
nonlinear least squares estimation, equation (4) is fitted to weekly box office revenue data. This
step produces a set of coefficients P
i
;Q
i
;M
i
;–
i
;"
i
for each movie in our sample. Second, linear
prediction models are developed for each of the 5 coefficients by regressing the estimates produced
by the first step against the set of available covariates. To forecast future box office revenues of a
new moviewereverse theprocess: Using early (production, boxoffice, and online ratings) data and
the prediction models of the second step we derive estimates
^
P;
^
Q;
^
M;
^
–;^" of the five coefficients
for the new movie. Substitution into (4) and numerical integration then provide a forecast of the
movie’s cumulative revenues at any future point in time.
We experimented with fitting the full 5-parameter model to revenue data of our sample. Al-
though model fit to weekly revenue data was excellent (Adjusted R
2
>0:99), the overall ability of
the model to forecast revenues was very poor, since the errors of the five linear prediction mod-
els generated by the second step of the model estimation procedure were compounded in the final
forecast.
Amore effective model was obtained by limiting the degrees of freedom of equation (4). Specif-
ically, we assume that (i) discount factors –;" do not change across different movies, and (ii) the
maximum theoretical market size N is the same for all movies and equal to the entire population
14
application SDK tool:C# PDF Convert to Jpeg SDK: Convert PDF to JPEG images in C#.net
C# PDF - Convert PDF to JPEG in C#.NET. C#.NET PDF to JPEG Converting & Conversion Control. Convert PDF to JPEG Using C#.NET. Add necessary references:
www.rasteredge.com
application SDK tool:VB.NET PDF Convert to HTML SDK: Convert PDF to html files in vb.
Convert PDF to HTML. |. Home ›› XDoc.PDF ›› VB.NET PDF: PDF to HTML. Convert PDF to HTML in VB.NET Demo Code. Add necessary references:
www.rasteredge.com
of moviegoers. The theoretical justification for the lastassumption is based on the observation that
most moviesare taken out of theatersnotwhen they exhaust theirfull market potential, butrather,
when their rate of revenue growth falls below the opportunity cost of screening the movie (relative
to screening a newer, potentially more profitable movie)
9
.Based on this observation, we make the
(arguably, rather extreme) assumption that, if a movie remains on theaters forever, all moviegoers
will eventually watch it, albeit at an arbitrarily slow rate. If we take – and " as given, the above
two assumptions leave our model with only two free parameters (P
i
;Q
i
)per movie.
We acknowledge that our assumption regarding a movie’s eventual number of adopters (equal
to the entire population for all movies) is unorthodox, especially in comparison with the traditional
Bass model literature. Observe, however, that, whereas an accurate estimate of a product’s max-
imum market potential is essential in the traditional Bass model, it is less so in our model. The
traditional Bass model h(t) = P + QR(t); P;Q > 0 has a monotonically increasing hazard rate.
Therefore, the only way in which the sales curve can level off is if the market is exhausted. This
propertymakes theshape of sales forecasts particularly sensitive to the estimated maximum market
potential. The more general model formulation we propose allows the hazard rate to become arbi-
trarily small before the market is saturated. As long as we choose M to be higher than the highest
total revenues of any product in our sample, our model is capable of approximating a large variety
of sales growth curves using only two free parameters. Most notably, our model does not require
the direct estimation of a movie’s market potential as a separate parameter, avoiding an additional
source of forecasting error.
Of course, the litmus test of any forecasting model is its forecasting accuracy. Appendix A (to
be read after Section 5) compares the forecasting accuracy of our 2-parameter models with that
of a more conventional 3-parameter family that assumes that a movie’s total box office revenues
represent its market potential. We show that the 2-parameter family outperforms the 3-parameter
family by a factor of almost 100%.
9
The increasingly profitable secondary market of movie rentals and DVDs provides compelling evidence for the
validity of this assumption.
15
application SDK tool:C# PDF Convert to HTML SDK: Convert PDF to html files in C#.net
easy for C# developers to convert and transform style that are included in target PDF document file original formatting and interrelation of text and graphical
www.rasteredge.com
application SDK tool:VB.NET PDF Convert to Word SDK: Convert PDF to Word library in vb.
VB.NET PDF - Convert PDF to MS Office Word in VB.NET. VB.NET Tutorial for How to Convert PDF to Word (.docx) Document in VB.NET. Best
www.rasteredge.com
Production, marketing, and  distribution strategy 
BDG 
Production budget (in millions of $) 
MKT 
Estimated marketing costs (in millions of $) 
SCR 
Number of screens in opening week 
SLEEPER  Categorical variable indicating if movie is sleeper or wide-release 
MPAA Rating (dummy variables) 
G, PG, PG13, R, NR 
Genre (dummy variables) 
SCIFI, THRILLER, COMEDY, ROMANCE, DRAMA, ACTION, KIDS 
Professional Critic Ratings 
CRAVG 
Arithmetic mean of professional critics reviews 
User Ratings 
BAVG 
Balanced arithmetic mean of user ratings posted during opening weekend* 
TOT 
Total number of user ratings posted during opening weekend 
AENTR 
Entropy of age group distribution of opening weekend raters 
GENTR 
Entropy of gender distribution of opening weekend raters 
Box office data 
BOX 
Box office revenues during opening weekend  (in millions of $) 
*Average of arithmetic means of ratings posted by males and females 
Table 4: List of independent variables.
5 Results
Independent Variables
Table 4 lists all independent variables used in subsequent analyses.
Production,Marketing and Availability. Severalauthorshaveshown thatthebudget, advertising
and availability of a film is significantly related to its box office performance (Litman 1983; Litman
and Kohl 1989; Litman and Ahn 1998; Ravid 1999; Elberse and Eliashberg 2003). Accordingly, we
includea movie’sproductionbudget(BDG), marketing budget(MKT),numberofopening weekend
screens (SCR) to our variable list.
Release Strategy. Most movies are released using one of two distinct strategies. Wide-release
16
or “blockbuster” movies (such as Star Wars) open simultaneously in large numbers of theaters
worldwide and are accompanied by intensive pre-release marketing campaigns. Revenues for such
movies typically peak during the first weekend and exhibit a steady decline in subsequent weeks.
“Sleeper” movies (such as My Big Fat Greek Wedding) are initially released in small numbers of
theaters withmodest marketing campaigns and rely on word-of-mouth for growth. Revenuestreams
for such movies typically increase for several weeks before they start to decline. Given the different
growth patterns of these two movie categories, it is reasonable to expect that release strategy
will have an important impact on parameters P and Q. Accordingly, we use a dummy variable
(SLEEPER) to distinguish between the two classes of movies in our sample. We coded a movie as
a“sleeper” if its number of opening weekend screens was less than 300
10
.
MPAA Ratings. Ravid (1999) found MPAA ratings to be significant variables in his regressions.
We code MPAA ratings using five dummy variables (G, PG, PG13, R, and NR).
Genre. Severalpapers haveincluded thegenreofa film as a control variable (AustinandGordon
1987; Litman 1983; Litman and Ahn 1998). Wecollected thegenredescription from Yahoo! Movies
and coded a movie’s genreusing 7 dummy variables (Sci-Fi, Thriller, Children, Romance, Comedy,
Action, Drama).
Professional Critics. An important objective of our study is to compare the relative predictive
power of professional critics and user ratings. Accordingly, we included the arithmetic mean of the
numerical equivalent (see Section 3) of all professional critic ratings published by Yahoo for each
movie (CRAVG).
User Ratings. Past work on onlineword-of-mouth has considered therelationship of the volume,
valence, and dispersion of online conversations to product revenues (Godes and Mayzlin 2004; Liu
2004; Duan et al. 2005). We use the total number of posted ratings during the first three days
of a movie’s release (TOT) as our measure of volume. We base our measure of valence on the
arithmetic mean of posted ratings during the same period. Given the substantial discrepancy that
exists between the demographics of online reviewers and those of moviegoers (Table 2), we found
that a balanced average (BAVG) metric, equal to the average of the arithmetic means of ratings
posted by (self-reported) male and female Yahoo users during the period of interest, performed
10
Our data set exhibiteda clear clustering of movieswith regards to the numberof opening weekend screens: The
highest numberofopeningweekendscreensfora movieclassifiedas“sleeper” was208. Inconstrast,the lowest number
of opening weekend screensfor a wide-release moviewas 809.
17
better than the raw average of all posted ratings.
According to the theory of strong and weak ties (Granovetter 1973), word-of-mouth is more
effectivewhen itspreads among differentsocial groups thanwhen it remainsconfinedwithina single
group. The dispersion of online word-of-mouth about a product has, thus, been shown to exhibit
positive correlation with the evolution of its revenues (Godes and Mayzlin 2004). Finding a good
metric for dispersion was tricky in our context, because Yahoo! Movies does not allow threaded
discussions through which one could infer a network of strong and weak ties. We hypothesized,
however, that dispersion can be proxied through some measure of the demographic (gender, age)
diversity of each movie’s raters. The underlying assumption is that most movie conversations take
place within social groups of similar age or of the same gender. To test this hypothesis we included
the entropy of the (self-reported) gender and age distribution of each movie’s opening weekend
raters to our list of independent variables
11
.
Nonlinear Model Estimation
As we discuss in Section 4, estimation of our 2-parameter model requires fixing the values of pa-
rameters M;–;" for all movies. Since we did not have a basis for selecting a particular set of –;",
we estimated separate models for all possible combinations of discount factors in increments of 0.1.
This gave us 100 models. Furthermore, we found that, as long as it was higher than the total
revenues of the highest-grossing movie in our sample, the choice of M was not very crucial to the
model’s forecasting accuracy (even though it did affect the combination of –;" that produced the
best results). The reported results are based on assuming M=$1000 million. This, in turn, corre-
sponds to the assumption of a population of 166 million moviegoers and an average ticket price of
$6.
The average fit of equation (4) to weekly revenuevectors of movies in our data set was excellent
with an average R
2
> 0:98 for all pairs of discount factors where – = ". Model fit deteriorated
rapidly as parameters – and " diverged from each other
12
.
11
Given a population whose members are distributed among a finite number of disjoint classes i = 1;:::;N with
respective probabilities p
i
,entropy, defined as H =¡
P
i
p
i
logp
i
,represents a measureof population diversity with
respect to that classification. Entropy is minimized if all members of the population belong to the same class. On
theother hand,entropy is maximized if thepopulation is evenlydistributed among all classes.
12
We were intrigued by this interesting empirical relationship; a rigorous exploration of its causes, however, falls
outsideof the scope ofthis paper. Onepossibleexplanation isthat themechanismsof decay (“consumer forgetting”)
aresimilarfor stimulireceived through publicity orword-of-mouthchannels. Thus, whenaveraged across allmovies,
18
Regression Analysis
In this section we report the results of regressing the sets of coefficients P
i
and Q
i
obtained by the
previous nonlinear estimation step to our list of independent variables. In selecting each model, we
followed a variable selection procedure similar to the traditional stepwise selection method: in each
step, weincluded a significantvariable(atthe5%level)thatbroughtthehighestincreaseinadjusted
R
2
and checked if inclusion of that variable caused a blow-up of the varianceinflation factor (VIF),
acommonly used measure of multicollinearity. Following each variable inclusion step, we removed
any previously included variables that were no longer significant (at the 6% level). We stopped
adding variables when the adjusted R
2
did not increase, when additional variables were no longer
significant, orwhen adding newvariables resulted in VIF higherthan 8 for any of thevariables. We
repeated the above procedure for all combinations of discount factors and only accepted the subset
of variables that were significant in all 100 models. The resulting models are summarized in Table
5
13
.
Coefficient P.Coefficient P can bepredicted with veryhigh accuracy (Adj-R
2
=0:99) from first
weekendbox-officedata (BOX). Thisisnotsurprisingandfollowsdirectlyfromthemodeldefinition.
(For t = 0, equation (4) gives P =
_
R(0)=M) To get a better sense of the conceptual significance of
coefficientP weremovedBOX from thelistofindependent variables and repeated variableselection
on the remaining covariates. We obtained a lower but still respectable (Adj-R
2
=0:78) model fit.
The two variables that were significant were marketing budget (MKT) and user ratings volume
(TOT), supporting our interpretation ofcoefficient P ascapturing the “external” forces (marketing,
publicity) that drive initial movie revenues
14
.
Coefficient Q. Five variables were significant in predicting coefficient Q. Among categorical
variables, SLEEPER and PG were significant. Thesignificanceof SLEEPER is consistent with the
higher relative importance of word-of-mouth for sleeper movies. The (positive) significance of PG
relates to the fact that movies with less restrictive MPAA ratings generally do better in the box
publicity and word-of-mouth decay at the same rate. Further investigation is needed to explore the validity of this
hypothesisand thepresence or absence of similar relationships in other markets.
13
Thespecificcoefficientsofeachmodeldependonthechoiceofdiscountfactors –and". Table5reportscoefficients
obtainedfor – ="=0:6.
14
We believe that the high statistical significance of the volume of opening week ratings (TOT) in predicting
coefficient P is simply aconsequenceofthehigh correlation(0.80)between TOT and BOX,rather than a statement
about the impact of the volume of ratings on initial movie performance. TOT here acts simply as a proxy of box
officerevenues,capturinga fractionofthevarianceofrevenuesthatcannotbeaccountedforbythevariationof MKT.
19
Dependent Variable: P 
Variable 
Coefficient 
(Std. Coeff.) 
Std. Error  t-value  p-value 
BOX 
1.71E-03 
2.33E-05 
73.51 
(0.99)  
Intercept 
1.86E-03 
5.77E-04 
3.23 
0.001 
Adjusted R
2
0.99  
F-statistic 
5404.00  
p-value 
Dependent Variable: P (BOX removed from variable list) 
Variable 
Coefficient 
(Std. Coeff.) 
Std. Error  t-value  p-value 
TOT 
5.23E-05 
4.60E-06 
11.37 
(0.66)  
MKT 
1.19E-03 
1.80E-04 
6.65 
(0.38)  
Intercept 
-1.08E-02 
4.23E-03 
-2.54 
0.01 
Adjusted R
2
0.78   
F-statistic 
140.10   
p-value 
Dependent Variable: Q 
Variable 
Coefficient 
(Std. Coeff.) 
Std. Error  t-value  p-value 
SLEEPER 
3.85E-04 
7.00E-05 
5.51 
(0.46)  
PG 
1.65E-04 
5.60E-05 
2.97 
0.004 
(0.21)  
BAVG 
1.65E-04 
3.70E-05 
4.46 
(0.39)  
CRAVG 
3.10E-05 
1.40E-05 
2.22 
0.02 
(0.20)  
GENTR 
2.84E-04 
1.48E-04 
1.92 
0.05 
(0.15)  
Intercept 
-9.00E+04 
1.40E-04 
-6.42 
Adjusted R
2
0.61   
F-statistic 
26.07   
p-value 
Table 5: Regression models for predicting coefficients P and Q.
20
Documents you may be interested
Documents you may be interested