pdf viewer control without acrobat reader installed c# : Add photo to pdf for control SDK platform web page wpf .net web browser piantadosi2014zipfs1-part2681

15).
The non-stationarity of word frequencies has an important theoretical implication for explanations of
Zipf’s law. The frequencies of words we observe are actually averages over contexts: the probability of
uttering a word w is given by
P(W = w) =
X
c
P(c)P(W = wjC = c)
(3)
where P(W = wjC = w) is the probability of w in a particular context c. If the observed frequency is an
average over contexts, then our explanation of Zipf’s law must respect the fact that it is an average, and not
explain it with a model that is incompatible with context-dependent frequencies.
3.6 Word frequency varies according to many forces
Thanks in large part to the recent availability of gigantic, freely-available, longitudinal corpora like Lin et
al. (2012), recent studies have also been able to chart changes in word frequencies throughout modern time.
These studies generally reveal substantial complexity in the forces that shape word frequencies. Altmann,
Pierrehumbert, and Motter (2011) show that a word’s niche, its characteristic features and the environment
in which it is used, strongly in uence the word’s change in frequency. More specically, they argue that
some of the non-stationarity of word frequencies results from features of individuals like desires to convey
information or identify with a particular social group. Petersen, Tenenbaum, Havlin, and Stanley (2012)
show that word usage varies according to social, technological, and political pressures. In the simplest case,
of course people start saying words like \email" once email is invented; but these trends extend to, for
instance, measurable dierences in word frequencies and word-birth and death in periods of drastic social
and political change. Pagel, Atkinson, and Meade (2007) show that word frequency and language change
are closely linked, such that low frequency words tend to evolve the most.
In general, these studies suggest that any theory aiming to explain Zipf’s law must connect to the
forces that shape frequencies, and with language change in general. How is it that processes aecting how
frequencies change and how lexica evolve all yield a relatively conserved distribution across time? How
does the nature of|perhaps drastic|language change maintain the distribution? Any theory which is not
directly compatible with change must be missing a large part of what determines frequencies.
3.7 Power laws arise from (almost) nothing
Awide range of explanations of Zipf’s law make reference to optimization and language change. However,
we next show that this cannot be the entire story: a near-Zipan word frequency distribution occurs even for
wholly novel words whose content and use could not have been shaped by any processes of language change.
In a behavioral experiment, twenty ve subjects were recruited from Amazon’s mechanical turk an online
platform that is becoming increasingly popular for experimental psychology (Paolacci, Chandler, & Ipeirotis,
2010; Gibson, Piantadosi, & Fedorenko, 2011; Buhrmester, Kwang, & Gosling, 2011; Mason & Suri, 2012).
Participants were given the following prompt: \An alien space ship crashes in the Nevada desert. Eight
creatures emerge, a Wug, a Plit, a Blicket, a Flark, a Warit, a Jupe, a Ralex, and a Timon. In at least 2000
words, describe what happens next." Subjects’ relative frequency distribution of each of these eight novel
words was then computed on their produced text. Because dierent subjects may pick a dierent creatures
as their \primary" character in the text, the analysis aggregated statistical by rank across subjects. It used
the sampling methods described for Figure 1(a) to determine the estimated frequency f(r) of each subject’s
r’th most frequent word, and then collapsed this distribution across subjects by rank. Thus, the frequency
we report for the r’th most frequent word is the sum (or, scaled, mean) of each individual subject’s r’th
most frequent word. This aggregation was done to decrease noise since each subject uses each word only a
handful of times
13
.
The resulting subject-average frequency distribution is shown in Figure 8. This clearly demonstrates
near-Zipan scaling in frequency, despite the fact that all words are in some sense equivalent in the prompt|
participants are not told, for instance, that one creature is extra salient, or that they should primarily describe
13However,becauseweuseseparatesubsetsofthesampletoestimaterandf(r),thismethoddoesnotintroduceanyspurious
eects or non-independence errors.
11
Add photo to pdf for - insert images into PDF in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Sample C# code to add image, picture, logo or digital photo into PDF document page using PDF page editor control
add image to pdf acrobat; add image pdf acrobat
Add photo to pdf for - VB.NET PDF insert image library: insert images into PDF in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Guide VB.NET Programmers How to Add Images in PDF Document
acrobat add image to pdf; add jpg to pdf form
0.0
0.5
1.0
1.5
2.0
Log frequency rank
2.4
2.2
2.0
1.8
1.6
Log normalized frequency
α=0.31
β=0.00
R
2
=0.98 ***
R
2
adj
=1.00
Figure 8: An approximate power law distribution of novel alien names used by subjects in making up a story.
one character. The context was chosen to bias them as little as possible about how much to describe each
creature and what role it would play in their novel story. Moreover, subjects show this distribution even
though they are told almost nothing about the creatures (other than that they crashed from an Alien ship)
and are told absolutely nothing about what happens next. Even in this context words still approximately
follow the power law distribution, although larger-scale studies should be used to check that this eect is
seen within individuals and is not the result of averaging together subjects.
In general, these ndings suggest that a parsimonious, broad-coverage explanation for near-Zipan distri-
butions in language|one that can explain this experiment|should be applicable to people speaking about
entirely novel, relatively unspecied referents.
3.8 Zipf’s law occurs in other human systems
Interestingly, Zipf’s law occurs in very many aspects of human society, including communication other than
natural language. For instance, Zipan (or near-Zipan) frequency distributions occur in music (Manaris et
al., 2005; D. H. Zanette, 2006, among others). They are observed in computer systems in the distribution
of hardware instructions for programming languages (Shooman & Laemmel, 1977; Chen, 1991; Veldhuizen,
2005; Concas, Marchesi, Pinna, & Serra, 2007, among others), across many levels of abstraction in software
(Louridas, Spinellis, & Vlachos, 2008), in n-tuples in computer code (Gan, Wang, & Han, 2009), and in
many aspects of the internet (Adamic & Huberman, 2002). These ndings complement the general result
that Zipan distributions occur in some form in a striking number of physical and biological systems (W. Li,
2002; Mitzenmacher, 2004; Newman, 2005; Farmer & Geanakoplos, 2006; S. A. Frank, 2009; Saichev et al.,
2010). An important question for future work is to determine how broadly the word frequency distribution
should be explained|should we seek explanations that unify language with music and perhaps other areas
like computer software? Or does the profusion of derivations of Zipf’s law mean that we shouldn’t place such
astrong weight on all-encompassing explanations, as very dierent mechanisms may give rise to the power
law in dierent domains?
4 Models of Zipf’s law
Now that we have reviewed a number of empirical phenomena about word frequencies, we next consider
several of the attempts to explain Zipf’s law in language, and relate these to the empirical phenomena just
reviewed. These include explanations based on very simple statistical models (random typing, preferential
re-use), the organization of semantic systems, deep optimization properties of communication, and universal
12
VB.NET Image: Mark Photo, Image & Document with Polygon Annotation
What's more, if coupled with .NET PDF document imaging add-on, the VB.NET annotator SDK can easily generate polygon annotation on PDF file without using
add picture to pdf online; add jpg to pdf
VB.NET Image: Image Cropping SDK to Cut Out Image, Picture and
VB.NET image cropper control SDK; VB.NET image cropping method to crop picture / photo; you can adjust the size of created cropped image file, add antique effect
how to add image to pdf in preview; add image to pdf file
0
2
4
6
8
10
Log
e
frequency rank
14
12
10
8
6
4
Loge
α=0.77
β=−0.55
R
2
=0.89 ***
R
2
adj
=1.00
Figure 9: Frequency distribution of the 25;000 most frequent \words" in the ANC, where \e" rather than
space (\ ") was treatedas a wordboundary. This exhibits a clear near-Zipandistribution, withthe frequency
of these words falling o much like (2).
properties of computational systems. As described above, very little of this work has sought independent
tests of the key assumptions nor addressed the range of empirical phenomena described above. As we will
see, none of the accounts is compellingly adequate alone. However, it may be true that there is no unitary
explanation for word frequencies and that multiple causal forces are at play.
4.1 Random typing accounts
Given the ubiquity and robustness of Zipf’s law, some have argued that the law is essentially a statistical
artifact. This view is even widespread in certain communities and advocated by some prominent linguists
like Chomsky (personal communication). The random typing account holds that Zipf’s law is uninteresting
because it holds even in very trivial statistical systems, like a monkey randomly banging on a typewriter
(Miller, 1957; W. Li, 1992; Conrad & Mitzenmacher, 2004). Such a monkey will occasionally hit the space
bar, creating a word boundary, and we can then look at the distribution of \word" frequencies. It turns
out, that they follow a Zipan distribution even though words are created entirely at random, one letter at
atime. Intuitively, short words will tend to have a high probability, with the probability or frequency of
words falling o approximately geometrically in their length. Although this process is clearly not an apt
description of how humans generate language (see Howes, 1968; Piantadosi, H., & Gibson, 2013), the idea is
that it should be treated as a null hypothesis about how language may be in the absence of other forces.
Indeed, the theoretical challenge raised by this model can be illustrated by taking a corpus of text
and dividing it on a character other than the space (\ ") character, treating, for instance, \e" as a word
boundary14. Doing this robustly recovers a near-Zipan distribution over these articial \words," as shown
in Figure 9. This shows some interesting deviations from the shape of the curve for natural language, but
the general pattern is unmistakably similar to Figure 1(a), with a strong decrease in \word" frequency that
14Suchthatthestring\Iateaenchiladaforeaster"wouldbesegmentedinto\words"I-at,-an-,nchilada-for-,ast,r.
13
VB.NET Image: Image Scaling SDK to Scale Picture / Photo
To help you know more about this VB.NET image scaling control add-on, we scaling control SDK API, developer can only scale one image / picture / photo at a
add image to pdf file acrobat; add image pdf document
C# Image: How to Add Antique & Vintage Effect to Image, Photo
this C#.NET antique effect creating control add-on is widely used in modern photo editors, which powerful & profession imaging controls, PDF document, tiff
how to add image to pdf in acrobat; how to add a jpeg to a pdf
falls o like a power law (linear on this plot) with length. So if the distribution occurs for even linguistically
nonsensical \word" boundaries (like \e"), perhaps its presence in real language is not in need of explanation.
Some work has examined the ways in which the detailed statistics of random typing models look unlike
that observed in real human language (Tripp & Feitelson, 1982; Baayen, 2001; Ferrer i Cancho & Sole,
2002; Ferrer i Cancho & Elvevag, 2010; D. Manin, 2008, 2009). For instance, random typing models
predict that the number of word types of a given length should decay exponentially in length; but in
real language, this relationship is not even monotonically decreasing (D. Manin, 2009). Indeed, even the
particular frequency distributiondoes not appear well-approximatedby simple random typing models (Ferrer
iCancho & Elvevag, 2010), although in other work Ferrer-i-Cancho is a strong proponent of such models
(Ferrer i Cancho & Moscoso del Prado Martn, 2011). Of course, random-typing advocates might point
out that tweaking the details of random typing models (e.g. changing letter frequencies, introducing N’th
order Markov dependence) might allow them to t the details of human language (for Zipf’s law in Markov
processes with random transitions, see Kanter & Kessler, 1995).
As such, a stronger argument than the details of the distribution is to recognize that they do not capture
anything like the real causal process and therefore are poor scientic theories (Howes, 1968; Piantadosi et al.,
2013). Indeed, once we appreciate that humans know words in their entirety and generate them intentionally
to convey a meaning, it no longer makes sense to consider null hypotheses based on sub-word processes whose
key feature is that a word’s frequency is wholly determined by its components (e.g. letters) (Howes, 1968;
Ferrer i Cancho & Elvevag, 2010; Piantadosi et al., 2013). In the real cognitive system, people know whole
words and do not emit sub-word components at random, and so clearly such processes cannot explain the
cognitive origins of the law|a \deeper" (D. Manin, 2008) explanation is needed.
This counterpoint was articulated early by Howes (1968), but his reply has not been widely appreciated:
\If Zipf’s law indeed referred to the writings of ‘random monkeys,’ Miller’s [random typing] argument would
be unassailable, for the assumptions he bases it upon are appropriate to the behavior of those conjectural
creatures. But to justify his conclusion that people also obey Zipf’s law for the same reason, Miller must
perforce establish that the same assumptions are also appropriate to human language. In fact, as we shall
see, they are directly contradicted by well-known and obvious properties of languages." Those facts are, of
course, that language is not generatedat random, by accidentally happening to create a word boundary. The
question remains, then, why is it that real processes of language generation give rise to this word frequency
distribution.
Beyond the theoretical arguments against random typing accounts, such accounts are not compatible
with several empirical facts reviewed earlier. The systematicity of word frequencies across meanings (Section
3.1) are particularly problematic for random typing models, since any process that is remotely like random
typing will be unable to explain such patterns. One certainly would not be able to explain why cardinal
number words also follow a near-Zipan distribution, ordered precisely by magnitude. Moreover, random
typing accounts cannot explain the variability across syntactic categories (Section 3.4)|why would certain
word categories appear not to follow the model? Nor can it explain the tendency of subjects to follow the
distribution for novel words (Section 3.7), and the simplest forms of random typing models are incompatible
with the non-stationarity word frequencies exhibit (Section 3.5).
4.2 Simple stochastic models
One of the oldest approaches to explaining Zipf’s law is to posit simple stochastic models of how words tend
to be re-used in text. The idea is that preferential re-use will lead to a very skewed frequency distribution
since frequent words will tend to get re-used even more. Intuitively, if you say, say, \pineapple" once you
are more likely to repeat it later in the text, and such re-use can often be shown under certain assumptions
to lead to Zipan or near-Zipan distributions. For instance, building on work of Yule (1944), Simon (1955)
introduces a stochastic model that assumes (i) preferential re-use of previously frequent words, and (ii) a
constant probability of introducing a new word. The stochastic model that Simon describes can be imagined
to sequentially generate a text according to these assumptions, giving rise to a particular word frequency
distribution over word types. Extensive discussion of this type of model and related ones can be found in
Mitzenmacher (2004), Baayen (2001) and Farmer and Geanakoplos (2006), and a sophisticated and recent
variant can be found in D. Zanette and Montemurro (2005).
This general class of models occupies an interesting ground between the psychological implausibility of
14
VB.NET Image: Image Resizer Control SDK to Resize Picture & Photo
VB.NET Image & Photo Resizing Overview. The practical this VB.NET image resizer control add-on, can powerful & profession imaging controls, PDF document, image
add photo to pdf file; how to add an image to a pdf
VB.NET Image: How to Save Image & Print Image Using VB.NET
NET programmers save & print image / photo / picture from NET method and demo code to add image printing printing multi-page document files, like PDF and Word
add picture to pdf reader; how to add picture to pdf
random typing models and psychologically plausible models that capture, for instance, subjects’ knowledge
of whole words. However, like random typing models, they do not plausibly connect real causal stories
of language generation. As D. Manin (2008) writes, \Simon’s model seems to imply that the very fact of
some words being frequent and others infrequent is a pure game of chance." Such models only show that if
language generation behaved like a certain stochastic model, then it would give rise to Zipf’s law. It fails to
establish what exactly it would mean for real human speakers to behave like the model, especially concerning
the intentional production of meaningful language.
In this vein, Herdan (1961) wrote of Simon (1955)’s model: \For mathematical models to be of real value
it is necessary that (1) the relationship between events of which the mathematical structure is to be a model
should be what the mathematician believes it to be; (2) that the assumptions needed for constructing the
model should be sensible, i.e. in accordance with how the operations in question take place; and (3) that the
formulae derived in this way should t the observed facts. None of these requirements must be neglected if
the model is to fulll its purpose. It is now a sad fact that model construction in mathematical linguistics
seems dogged by the neglect of one or other of these requirements, especially the rst, which cannot but
have in its wake the neglect of the other two." Human speech is created with a purpose and the explanation
for the frequency distribution must take into account this intentionality|why does an intentional process
result in the Zipan distribution? That is the fact that theories should seek to explain.
Further, it is not clear that the randomness of this kind of model can easily be connected to systematic
relationships betweenmeaning and frequency (Section 3.1). However, insome situations the simple stochastic
model may actually be correct. The near-Zipan use of novel words (Section 3.7) may be explained by these
kinds of processes|perhaps in deciding how to continue their story, participants essentially sample from
past referents with a probability that scales with recent use. It is useful to consider if this idea might even
generalize to all language production: perhaps language is constrained by other factors like syntax, but on a
large scale is characterized by stochastic re-use along the lines of Simon’s model. Indeed, it is likely that given
the non-stationarity of word frequencies (Section 3.5) something like these models must be approximately
true. Words really are more likely to be re-used later in discourse. However, the underlying cause of this is
muchdeeper than these models assume. Words are re-used in language (probably) not because of an intrinsic
preference for re-use itself, but instead because there is a latent hidden variable, a topic, that in uences word
frequencies.
4.3 Semantic accounts
If the meanings of words in part determine frequency it is useful to consider whether semantic organization
itself may give rise to the word frequency distribution. Guiraud (1968) argued that the law could result
from basic ternary (true/false/undened) elements of meaning called semes (e.g. animate/inanimate) with
each word coding some number of semes. If semes must be communicated in speech this setup can give rise
to a Zipan word frequency distribution. Another hypothesis along the lines of semantics was put forth by
D. Manin (2008), who argued that the law could result from labeling of a semantic hierarchy (e.g. Collins
&Quillian, 1969; Fellbaum, 1998), combined with a pressure to avoid synonymy. Intuitively, if words label
dierent levels of semantic space and evolve to avoid too much overlap, the lexicon arrives at coverings of
semantic space which, he shows via simulation, will result in Zipf’s law.
This theory motivatedthe comparisons inSection3.3, which examinedwords whose meanings are strongly
constrained by the world. It is unlikely that language had much of a \choice"|or optimizing pressure|in
choosing which of the possible ways of labeling months, planets, or elements, since these meanings are highly
constrained by the natural world. Yet we see near-Zipan distributions for even these words. We nd similar
results for words whose referential content is xed, like taboo words (Section 3.2). The results on number
words (Section 3.1) provide another compelling case where choice of semantic referent by the lexicon is not
likely to explainword frequencies which are nonetheless power laws. The behavioral experiment (Section 3.7)
additionally indicates even for words which are initially, in some sense, on equal ground and whose specic
semantics is not given, people still follow a near-Zipan distribution. All of these results do not indicate
that semantic explanations play no role in determining word frequencies, but only that they are likely not
the entire story
15
.
15
In evaluating theories, one might wonder if these semantic comparisons are essentially just random subsets of words, and
that a random subset of a Zipan distribution may tend to look Zipan. Therefore, it may not be very strong evidence against
15
VB.NET Image: Tutorial for Flipping Image Using Our .NET Image SDK
version of .NET imaging SDK and add the following becomes a mirror reflection of the photo on the powerful & profession imaging controls, PDF document, tiff
add signature image to pdf; how to add a picture to a pdf file
C# PDF remove image library: remove, delete images from PDF in C#.
Support removing vector image, graphic picture, digital photo, scanned signature, logo, etc. Remove Image from PDF Page Using C#. Add necessary references:
how to add an image to a pdf in acrobat; how to add an image to a pdf file
4.4 Communicative accounts
Various authors have also explained the Zipan distribution according to communicative optimization prin-
ciples. Zipf (1949) himself derived the law by considering a trade-o between speakers and listener’s eort.
Mandelbrot (1953) shows how the Zipan distribution could arise from minimizing information-theoretic
notions of cost (Mandelbrot, 1962, 1966), ideas further developed by D. Manin (2009), and Ferrer i Cancho
and colleagues (Ferrer i Cancho & Sole, 2003; Ferrer i Cancho, 2005a; i Cancho, 2005) and more recently
Salge et al. (2013).
In Ferrer i Cancho and Sole (2003), the authors imagine optimizing a matrix A = fA
ij
gwhere A
ij
is 1
if the i’th word can refer to the j’th meaning. In their framework, speakers pay a cost proportional to the
diversity of signals they must convey and listeners pay a cost proportional to the (expected) entropy over
referents given a word (for variants and elaborations, see Ferrer i Cancho & Daz-Guilera, 2007) . There is
asingle parameter which trades o the cost between speakers and listeners, and the authors show that for
avery particular setting of this parameter  = 0:41 they recover a Zipan distribution.
While mathematically sophisticated, their approach makes several undesirable choices. In the implemen-
tation, it assumes that meanings are all equally likely to be conveyed, an assumption which is likely far
from true even in constrained semantic domains (Figure 5). Later versions of this model (Ferrer i Cancho,
2005b) study variants without this assumption, but it is not clear|for any model|what the psychologically
relevant distribution should be for how often each meaning is needed, and how robust this class of models is
to that distribution
16
,or how such accounts might incorporate other eects like memory latency, frequency
eects, or context-based expectations.
Second, the assumption that speakers’ diculty is proportional to the entropy over signals is not justied
by data and is not predicted from a priori means|a better a priori choice might have been the entropy over
signals conditioned on a meaning since this captures the uncertainty for the psychological system. In this
vein, none of the assumptions of the model are tested or justied on independent psychological grounds.
Thirdly, this work requires a very specic parameter   0:4 to recover Zipf’s law, and the authors show
that it no longer does, for  = 0:5 or  = 0:3. The required specicity of this parameter is undesirable from
the perspective of statistical modeling|the so-called \Spearman’s principle" (Glymour, Scheines, Spirtes, &
Kelly, 1987)|as it suggests non-robustness.
In the context of the corpus analyses provided above, communicative accounts would likely have diculty
explaining near-Zipan distribution for xed referential content (Section 3.2) and variability of ts across
syntactic categories (Section 3.4). Theories based on communicative optimization like Ferrer i Cancho and
Sole (2003) are basedon choosing which meanings go with which words|when optimizedfor communication,
this process is supposed to give rise to the law. But we still see it in domains where this mapping is
highly constrained (Section 3.3) and for number words (Section 3.1) where it is hard to imagine what
such optimization might mean. Therefore, it is unclear on a conceptual level how these accounts might
handle such data. It is also not straightforward to see how communicative accounts could accommodate the
behavioral results (Section 3.7), since it is hard to imagine in what sense communication of names might be
actively optimized by speakers simply telling a story. The intentionality of storytelling|wanting to convey
asequence of events you have just thought of|seems very dierent than the language-wide optimization of
information-theoretic quantities required by communicative accounts.
This is certainly not to say that there is no way a communicative theory could account for the facts or
that communicative in uences play no role. An adequate theory has just not been formalized or empirically
evaluated yet17.
theories based on meaning that we still see Zipan distributions when we control or constrain meaning. However, note that
theories based on meaning explain the distributionstarting from semantics. They explain patterns across the entire lexicon by
appealing to semantic properties of single words, and so cannot explain the subsets of words that look Zipan but don’t have
the required semantic properties.
16A resultonalargeclassofmeaningdistributionsmighthelpthatissue.
17
Moving forward, however, it will be important for communicative accounts to explicitly address predictability of words.
As Shannon (1948) demonstrated, the predictability (negative log probability) of a word is the measure of the information it
conveys. This means that a theory based on communication should be intrinsically linked to theories of what human language
comprehenders nd predictable (e.g. Demberg & Keller, 2008; Levy, 2008; Levy & Jaeger, 2007; A. Frank & Jaeger, 2008;
Jaeger, 2010; Piantadosi, Tily, & Gibson, 2011; N. J. Smith & Levy, inpress)and how much informationiseectively conveyed
for such mechanisms.
16
4.5 Explanations based on universality
The models described so far explain Zipf’s law from psychological or statistical processes. But it is also
possiblethat Zipf’s law in language arises from a universal pressure that more generally explains its prevalence
throughout thesciences. Ananalogy is that of theCentral Limit Theorem (CLT) and the normal distribution.
When a normal distribution is observed in the world (in, e.g., human heights), commonly the CLT is taken to
explain why that distribution is found, since the theorem shows that normal distributions should be expected
in many places|in particular where many independent additive processes are at play
1819
. It is reasonable to
ask if there is a such a theorem for power laws: do they simply arise \naturally" in many domains according
to some universal law? Perhaps even the multitude of derivations of Zipf’s law indicate that the presence of
the law in language is not so surprising or noteworthy.
There are in fact derivations of Zipf’s law from very fundamental principles that in principle span elds.
Corominas-Murtra and Sole (2010) show that Zipan distributions of symbol sequences can be derived in
the (maximally general) framework of algorithmic information theory (M. Li & Vitanyi, 2008), considering
symbols to be observations of a system growing in size, but which is constrained to have bounded algorithmic
complexity. Their account even explains the exponent   1 observed in language, providing a compelling
explanation of Zipf’s law in general complex systems. Y. I. Manin (2013) provides a related account de-
riving Zipf’s law from basic facts about Kolmogorov complexity and Levin’s probability distribution (see
also Veldhuizen, 2005). S. A. Frank (2009) studies entropy maximizing processes, relating power laws to
normal distributions and other common laws in the sciences. In general, these accounts say that we should
have expected Zipf’s law to appear in many systems simply due to the intrinsic properties of information,
complexity, and computation.
Similarly, there have alsobeensomewhat more de ationary universalexplanations. Remarkably, Belevitch
(1959), showedhow a Zipandistributioncouldarise from a rst-order approximation to most common distri-
butions; he then showed how the Zipf-Mandelbrot law arose from a second-order approximation. In this kind
of account, Zipf’s law could essentially be a kind of statistical artifact of using a frequency/frequency-rank
plot, when the real underlying distribution of frequencies is any of a large class of distributions.
All of these accounts based on universal a priori notions are interesting because they would explain
the surprising scope of Zipf’s law across the sciences without requiring many domain-specic assumptions.
However, one troubling shortcoming of these theories as explanations is that they have not been used to
generate novel predictions; it is hard to know what type of data could falsify them, or how we would know
if they are really the \right" explanation as opposed to any of the more psychologically-motivated theories.
Do the assumptions they require really hold in human psychology, and how would we know? One interesting
test might be for these kinds of explanations to derive predictions for the variance beyond Zipf’s law that
should be expected in any nite sample, and perhaps in some situations even predict correlated errors like
those seen in Figure 1(b). If Zipf’s law is universal, we would require additional mechanisms to explain
domains where Zipf’s law less well or for dierent parameters (Section 3.4) or how it could also hold given
systematic relationships with meaning (Section 3.1). It is unclear if the behavioral experiment (Section 3.7)
is compatible with these accounts|what might people be doing psychologically in this experiment, and how
does it translate into universal derivations of Zipf’s law?
4.6 Other models
We note that there are many other accounts of Zipf’s law in language and elsewhere, actually giving rise
to a fat tail of theories of the law. For instance, Baek et al. (2011) shows how Zipf’s law can be derived
from processes that randomly divide elements into groups. Arapov and Shrejder (1978) argue that Zipf’s
law can be derived by simultaneously maximizing two entropies: the number of dierent texts creatable by a
lexicon and the number of dierent ways the same text can be created by a lexicon. As argued by D. Manin
(2008), this approach compellingly lacks a priori justication and a possible optimizing mechanism. Other
18
For generalizations of the CLT that are connected to power-laws and similar distributions, see Gnedenko and Kolmogorov
(1968) and Roehner and Winiwarter (1985).
19In actuality,itmaynotevenbeclearfor most commonsituationshowtheassumptionsoftheCLT or its generalizations
hold (Lyon, in press). The true reason for the ubiquity of normal distribution may be related to its other properties, such as
entropy-maximation (Lyon, in press), suggesting that maximum-entropy derivations may be most fruitful for explaining Zipf’s
law broadly (see, e.g. S. A. Frank, 2009).
17
optimizations of, e.g. Fisher information (Hernando et al., 2009), can also give rise to Zipan distributions.
Popescu (2009, Chapter 9) sketch a simple vocabulary growth model. Parker-Rhodes and Joyce (1956) argue
that the distribution arises by a linear search through words in long-term memory ordered by frequency
during normal language processing, where the time required to scan a word is proportional to the number
of words scanned. To date, there is no evidence for this kind of process in normal language use. In general,
it is not clear that any of these kinds of accounts could handle the gamut of empirical phenomena reviewed
above, and to our knowledge none have proposed and evaluated independent tests of their assumptions.
5 Conclusion and forward directions
Word frequencies are extremely interesting. They are one of the most basic properties of humans’ commu-
nicative system and play a critical role in language processing and acquisition
20
. It is, in short, remarkable
that they can be well-characterized by a simple mathematical law. With good cause, many have attempted
to derive this law from more basic principles. Notably, theories of language production or discourse do not
explain the law.
This review has highlighted several limitations in this vast literature. First, the method of plotting word
frequency distributions has obscured an important fact: word frequencies are not actually so simple. They
show statistically-reliable structure beyond Zipf’s law that likely will not be captured with any simple model.
At the same time, the large-scale structure is robustly Zipan.
Second, essentiallyallof theprior literature has focusedvery narrowly on deriving the frequency/frequency-
rank power law, while ignoring these types of broader features of word frequencies. This in some sense repre-
sents a misapplication of eort towards explaining an eect|the Zipan distribution|instead of uncovering
the causal forces driving word frequencies in the rst place. This is what makes so many derivations of
Zipf’s law unsatisfying: they do not account for any psychological processes of word production, especially
the intentionality of choosing words in order to convey a desired meaning. A focus on explaining what words
are needed at each point in a normal conversation would begin to explain why word frequencies look like
they do. Until then, a deep mystery remains: why should language generation mechanisms follow such a
precise mathematical law, even in cases of constrained meanings and totally novel words, but apparently not
identically for all syntactic categories?
It should be clear that this question will only be addressable by broadly studying properties of word
frequencies beyond the frequency distribution itself. The empirical phenomena reviewed here (Section 3)
have aimed to encourage more comprehensive evaluation of theories of the Zipan distribution that is ob-
served. This review has revealed that likely none of the previous accounts are sucient alone and that
the facts surrounding word frequencies are complex and subtle. A sticking point for many theories will
be the behavioral results showing Zipf’s law for novel words (Section 3.7). These results likely have to do
with properties of human memory since it is hard to think of other pressures in this experiment that would
lead people into power-law use of words. Indeed, human memory has independently been characterized as
following powers laws (see Wickelgren, 1974, 1977; Wixted & Ebbesen, 1991, 1997; Wixted, 2004a, 2004b).
Such scaling relationships are broadly observed elsewhere in cognition (Kello et al., 2010). If these properties
of memory are the underlying cause of near-Zipan laws in language, it could provide a parsimonious and
general explanation, able to unify word frequencies with memory, while also explaining the occurrence of
related laws in other systems humans use like computer software and music (Section 3.8).
Interestingly, if human memory is the underlying cause of Zipf’s law in language, we are left to ask why
memory has the form that it does. A plausible hypothesis advocated by Anderson and Schooler (1991) is
that memory is well-adapted to environmental stimuli, meaning that Zipan structures in the real world
might ultimately create the observed form of word frequencies distributions. Of course, any such theory
of word frequencies would require substantial elaboration in order to address the complexities of how well
20
While itrarely entersinto discussions of the originsof Zipf’s law, it’simportanttopointout that people really do appear to
know word frequencies. Evidence for this is apparent in both detailed, controlled (e.g. Dahan, Magnuson, & Tanenhaus, 2001)
and broad-coverage (e.g. Demberg & Keller, 2008) analyses of language processing (see Ellis, 2002, for a review). Similarly,
frequency eects are observed in language production (Oldeld & Wingeld, 1965; Jescheniak & Levelt, 1994; Levelt, 1999).
These eects show that speakers know something about the frequencies with which words occur in their input, and that this
type of knowledge is used in online processing.
18
Zipan distributions t dierent types of words, the residual deviations from the distribution observed in
language (Section 2), and interactions with semantics (Section 3.1, 3.2).
In general, the absence of novel predictions from authors attempting to explain Zipf’s law has led to a
very peculiar situation in the cognitive sciences, where we have a profusionof theories to explain an empirical
phenomenonyet very little attempt todistinguish those theories using scientic methods. This is problematic
precisely because there are so many ways to derive Zipf’s law that the ability to do so is extremely weak
evidence for any theory. An upside of this state of the eld is that it is ripe for empirical research. The
downside is that because proposals of theories have not been based on incremental empirical discoveries,
many can be easily shown to be inadequate using only minimal new data. The key will be for explanations
of Zipf’s law to generate novel predictions and to test their underlying assumptions with more data than the
law itself. Until then, the prior literature on Zipf’s law has mainly demonstrated that there are many ways
to derive Zipf’s law. It has not provided any means to determine which explanation, if any, is on the right
track.
6 Acknowledgments
I’m very grateful to Leon Bergen, Ev Fedorenko, and Kyle Mahowald for providing detailed comments on
this paper. Andreea Simona Calude James generously shared the data visualized in Figure 2. I am highly
appreciative of Dmitrii Manin, Bob McMurray and an anonymous reviewer for providing extremely helpful
comments on this work. Research reported in this publication was supported by the Eunice Kennedy Shriver
National Institute Of Child Health & Human Development of the National Institutes of Health under Award
Number F32HD070544. The content is solely the responsibility of the authors and does not necessarily
represent the ocial views of the National Institutes of Health.
19
References
Adamic, L. A., & Huberman, B. A. (2002). Zipf’s law and the Internet. Glottometrics, 3(1), 143{150.
Altmann, E. G., Pierrehumbert, J. B., & Motter, A. E. (2009). Beyond word frequency: Bursts, lulls, and
scaling in the temporal distributions of words. PLOS ONE, 4(11), e7678.
Altmann, E. G., Pierrehumbert, J. B., & Motter, A. E. (2011). Niche as a determinant of word fate in online
groups. PLOS ONE, 6(5), e19009.
Anderson, J., & Schooler, L. (1991). Re ections of the environment in memory. Psychological Science, 2(6),
396.
Arapov, M., & Shrejder, Y. (1978). Zakon cipfa i princip dissimmetrii sistem [Zipf’s law and system
dissymmetry principle]. Semiotics and Informatics, 10, 74{95.
Baayen, R. (2001). Word frequency distributions (Vol. 1). Kluwer Academic Publishers.
Baek, S. K., Bernhardsson, S., & Minnhagen, P. (2011). Zipf’s law unzipped. New Journal of Physics,
13(4), 043004.
Belevitch, V. (1959). On the statistical laws of linguistic distributions. Annales de la Societe Scientique de
Bruxelles, 73(3), 301{326.
Blei, D. M., & Laerty, J. D. (2007). A correlated topic model of science. The Annals of Applied Statistics,
17{35.
Blei, D. M., & Laerty, J. D. (2009). Topic models. Text mining: classication, clustering, and applications,
10, 71.
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. the Journal of machine Learning
research, 3, 993{1022.
Buhrmester, M., Kwang, T., & Gosling, S. D. (2011). Amazon’s mechanical turk a new source of inexpensive,
yet high-quality, data? Perspectives on Psychological Science, 6(1), 3{5.
Calude, A. S., & Pagel, M. (2011). How do we use language? shared patterns in the frequency of word
use across 17 world languages. Philosophical Transactions of the Royal Society B: Biological Sciences,
366(1567), 1101{1107.
Carroll, J. B. (1967). On sampling from a lognormal model of word frequency distribution. Computational
analysis of present-day American English, 406{424.
Carroll, J. B. (1969). A rationale for an asymptotic lognormal form of word-frequency distributions.
Chater, N., & Brown, G. D. (1999). Scale-invariance as a unifying psychological principle. Cognition, 69(3),
B17{B24.
Chen, Y.-S. (1991). Zipf’s law in natural languages, programming languages, and command languages: the
Simon-Yule approach. International journal of systems science, 22(11), 2299{2312.
Clark, E. V. (1987). The principle of contrast: A constraint on language acquisition. Mechanisms of language
acquisition. Hillsdale, NJ: Erlbaum.
Cleveland, W. S., Grosse, E., & Shyu, W. M. (1992). Local regression models. Statistical models in S,
309{376.
Collins, A. M., & Quillian, M. R. (1969). Retrieval time from semantic memory. Journal of verbal learning
and verbal behavior, 8(2), 240{247.
Concas, G., Marchesi, M., Pinna, S., & Serra, N. (2007). Power-laws in a large object-oriented software
system. Software Engineering, IEEE Transactions on, 33(10), 687{708.
Conrad, B., & Mitzenmacher, M. (2004). Power laws for monkeys typing randomly: the case of unequal
probabilities. Information Theory, IEEE Transactions on, 50(7), 1403{1414.
Corominas-Murtra, B., & Sole, R. V. (2010). Universality of zipf’s law. Physical Review E, 82(1), 011102.
Dahan, D., Magnuson, J. S., & Tanenhaus, M. K. (2001). Time course of frequency eects in spoken-word
recognition: Evidence from eye movements. Cognitive psychology, 42(4), 317{367.
Dehaene, S., & Mehler, J. (1992). Cross-linguistic regularities in the frequency of number words. Cognition,
43(1), 1{29.
Demberg, V., & Keller, F. (2008). Data from eye-tracking corpora as evidence for theories of syntactic
processing complexity. Cognition, 109(2), 193{210.
Dumais, S. T. (2005). Latent semantic analysis. Annual Review of Information Science and Technology,
38(1), 188{230.
Egghe, L. (1999). On the law of Zipf-Mandelbrot for multi-world phrases.
20
Documents you may be interested
Documents you may be interested