how to display pdf file in c# : Get text from pdf file c# Library application class asp.net windows azure ajax Excel9-part227

that date. And if you were to dissolve the individual pennies in, say, concen-
trated nitric acid, and then were to analyze for their constituent metal ions,
you  would  find  that  the  heavy  penny contains  mostly  copper,  while the
lighter ones are mostly zinc, which is a lighter metal, and therefore makes a
lighter coin.
Indeed,  the  US government  switched over from copper to copper-clad
zinc when  the  value  of a penny  became less  than the cost of  the  copper
needed  to  make  it.  The assumption  that  all  pennies  are  minted equal  is
therefore incorrect:  pennies  follow at  least  two  different weight  distribu-
tions, one for old, copper pennies, the other for the more recent, zinc ones.
And, yes, there are still others, such as the steel pennies issued during World
War II. But those you would have recognized immediately as different by
their color.
Mixing the two distributions yields arbitrary results, because the average
weight reflects what fraction of older pennies is included in the sample, and
that fraction may depend on the source of the pennies: did they come from
the bank (which usually issues new pennies), from your pocketbook, or from
your older sister’s penny collection? Arbitrarily throwing out the heavy ones
is also incorrect. The only correct approach is (1) to recognize that there is a
problem,  (2)  to  identify  its  source  (which  in  this  case  is  relatively  easy,
because the year  of minting is printed on each penny),  (3) to report that
there are two different types of pennies involved, and (4) to give the average
weights and the corresponding standard deviations for both distributions.
And if you don’t have the time, resources and/or energy to collect enough
old pennies to  report a meaningful  average weight for the heavy  ones, at
least mention that your result is valid for recent pennies, and that an older
one was found to be much heavier.
Discussions of statistics often include a section on outliers. You have just
read such a section, although it did not have that label, and certainly did not
include a set of ‘criteria’ for outlier rejection. By definition, outliers are those
results that do not seem to fit within the assumption that all experimental
data obey a single, ‘normal’ distribution. Some outliers will result from out-
right errors, such as inadvertently exchanging the place of two numbers as
you note down a weight, or experimental artifacts, such as the effect of a
power glitch on the reading of an electronic instrument. The existence of
such outliers may tempt you to reject all outliers. Please resist that tempta-
tion: many outliers  reflect  perfectly respectable measurements, of a phe-
nomenon  that  just  does  not  happen  to  follow  a  single,  Gaussian
distribution. We have just given two examples of such behavior. The distri-
bution of molecular velocities in an ideal gas does not quite fit a Gaussian
distribution,  but  instead  exhibits  an  asymmetric  distribution.  And  the
penny weights show two distinct distributions rather than a single one. In
general, then, there is no justification to reject outliers without good cause,
and the mere fact that they are  outliers, no matter how far  off, is in itself
insufficient  cause:  by  that  criterion,  the  heavy  penny  would  have  been
2.9 What is ‘normal’?
77
Get text from pdf file c# - extract text content from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Feel Free to Extract Text from PDF Page, Page Region or the Whole PDF File
extract text from pdf file using java; copy pdf text with formatting
Get text from pdf file c# - VB.NET PDF Text Extract Library: extract text content from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
How to Extract Text from PDF with VB.NET Sample Codes in .NET Application
export text from pdf to word; c# get text from pdf
rejected. As a chemist, you may sometimes have to cook your chemicals, but
you should never cook your books. Do not let outliers make liars out of you.
After the above examples, the reader may well ask why it is that almost all
natural  scientists  routinely  use  standard  deviations  and  other  measures
based on a Gaussian distribution. And why these same assumptions are also
used  in most of the remainder of  this book.  For the  answer we return  to
section 2.1, where we saw that the precise distribution of the experimental
deviations can be observed only when we take a very large number of repeat
measurements. We seldom take of the order of 10 000 repeat measurements;
if we take only 100, we would not be able to tell from the data whether the
underlying distribution is precisely Gaussian or only approximately so, as
you will see by comparing Figs. 2.1-2 and 2.1-4. But this is an argument that
can easily  be  inverted: even for a quite  large number of repeat measure-
ments, such as 100, the precise distribution is really immaterial. This is why
the Gaussian distribution, with its well-established formalism, is commonly
used,  and  justifiably  so.  As  long  as  the  actual  distribution  more  or  less
resembles a bell-shaped curve, it is usually not worth the quite considerable
effort required to establish and use a more appropriate distribution for each
particular system being studied, because (except for very large data sets) the
actual deviations do not yet adhere closely enough to such a distribution to
make a perceivable difference. However, there are times when it is danger-
ous to assume a single Gaussian distribution, namely when evidence to the
contrary stares us in the face, as it does in the case of outliers.
2.10
Poissonian statistics
In section 2.1 we already indicated that some types of measurements follow
other  than  Gaussian  types  of  statistics.  Here  we  will  briefly  illustrate
Poissonian statistics. These are in general called for whenever the experiment
is a continuous one (e.g., it measures some parameter as a function of time t)
yet its experimental result is quantized, as it is, e.g., in the measurement of
radioactivity, in the opening and closing of ion-conducting channels in lipid
bilayer  membranes,  or  in  single-photon  counting. What  all  these  have  in
common is that the outcome of the experiment is discrete rather than contin-
uous: a radioactive nucleus is either in its original state or has decayed, an ion
channel is either open or closed, a photon has either been counted or not.
The  Poisson distribution  describes the probability  P
N
(t) that, in a time
interval 
, N discrete events (such as radionuclide disintegrations, openings
of a individual ion channels, or photon detections) will have taken place.
That probability is
(2.10-1)
where 
is the likelihood of such an event occurring per unit time.
P
N
(
)=
(

)
e

N!
78
Introduction to statistics
C# PDF File Merge Library: Merge, append PDF files in C#.net, ASP.
page reordering and PDF page image and text extraction Note: When you get the error "Could not load file or part illustrates how to combine three PDF files into
extract all text from pdf; c# extract text from pdf
C# PDF insert text Library: insert text into PDF content in C#.net
String inputFilePath = Program.RootPath + "\\" 1.pdf"; PDFDocument doc = new PDFDocument(inputFilePath); // Get a text manager from the document object
delete text from pdf online; can't copy and paste text from pdf
As can be seen in Fig. 2.10 this is a decidedly asymmetrical distribution.
Moreover,  since  the  outcome  can  only  assume  discrete  values,  the
Poissonian  distribution  is  a  collection  of  points  rather  than  a  curve.  Yet
another difference between the Gaussian and Poissonian distribution is that
(2.10-1) contains only one parameter, 
,whereas the Gaussian distribution
(2.1-1)  has  two:  the  average  value  x and  the  standard  deviation 
σ
.  The
average value 〈N 〉of the Poissonian distribution is
〈N〉=

(2.10-2)
while its standard deviation is
(2.10-3)
Consequently, knowledge of N, the number of observed events, automati-
cally implies the corresponding standard deviation. For instance, when 100
radioactive  disintegrations  have been  counted,  the  standard deviation  of
the result is √100= 10, i.e., the result has a relative standard deviation of
10/100 =0.10  or  10%,  whereas  40 000  events  must  be  measured  for  the
answer to have a relative standard deviation of 0.5%. These matters are men-
tioned here primarily in order to illustrate that the standard deviation, even
of repeat measurements of the same basic phenomenon, is not always given
by (2.2-2).
2.11
How likely is the improbable?
We will now briefly consider a question that is posed with increasing fre-
quency in our society: how probable is the improbable? How likely is it that a
spermicide  or  a  drug  used  during  pregnancy  causes  a  birth  defect,  that
power lines or portable phones cause cancer, or that working at a computer
monitor causes a miscarriage? While this matter can be explained without
benefit of a spreadsheet (as can almost any topic covered in this book) we
σ
=√

=√〈N 〉
2.11 How likely is the improbable?
79
Fig.2.10:The first five terms of the Poisson distribution (markers). The connecting line
segments are drawn merely to indicate which points have the same N-values.
C# PDF Annotate Library: Draw, edit PDF annotation, markups in C#.
PDF and edit font size and color in text box field Note: When you get the error "Could not load file Learn how to retrieve all annotations from PDF file in C#
extract highlighted text from pdf; extract text from pdf c#
C#: Use OCR SDK Library to Get Image and Document Text
you will see how to use RaterEdge .NET OCR SDK in your application to extract and get text from Tiff Extracted text can be output to Word or PDF document.
extract formatted text from pdf; copy text from pdf to word
will use the spreadsheet to illustrate combinatorics. To set the problem we
start  with  a  verbatim  quote  from  a  short  review  by  K.  R.  Foster  entitled
‘Miscarriage  and  video  display  terminals:  an update’  (Chapter  6  in K.  R.
Foster, D. E. Bernstein, & P. W. Huber, Phantom Risk, MIT Press 1993):
‘The  link  between  miscarriages  and  use  of  video  display  terminals
(VDTs) became a public issue around 1980 with the reports of clusters of
reproductive mishaps in women users of VDTs.’
‘All together, about a dozen clusters were reported. These included 7
adverse outcomes of 8 pregnancies at the offices of the solicitor general
in Ottawa; 10 out of 19 at the offices of the attorney general in Toronto; 7
of 13 at the Air Canada offices at Dorval Airport, Montreal; 8 of 12 at
Sears, Roebuck in Dallas, Texas; 10 of 15 at the Defense Logistics Agency
in Atlanta; 3 of 5 at Pacific Northwest Bell in Renton, Washington; and 5
in 5 at Surrey Memorial Hospital in Vancouver. The problems included
birth defects, spontaneous abortions, respiratory problems in the new-
borns, Down’s syndrome, spina bifida, and premature birth.
Despite attempts by health authorities to investigate the matter, the
clusters were never  adequately explained. I have  been able to locate
reports  of  a  follow-up  investigation  by  the  US  Army  Environmental
Hygiene Agency of the cluster at the Defense Logistics Agency (Tezak
1981), and by the Centers for Disease Control (1981) of the cluster at
Sears, Roebuck. Both verified the existence of a cluster; neither estab-
lished any apparent link to the women’s use of VDTs.
The interpretation of a cluster is problematic. Any unexpected group-
ing of problems (a cluster) may indicate some problem of public health
significance. More commonly, investigation by health authorities of a
reported  cluster  fails  to identify  a  problem  that  can  be  remedied by
public  health measures.  However  tragic the  outcomes  may be to  the
people involved, the grouping of cases may have been a statistical event
with no epidemiologic significance. Roughly one pregnancy in five ends
in spontaneous abortion (the reported rates vary widely, depending on
how early pregnancy is diagnosed); roughly 3 children in a hundred are
born with a major birth defect. Simple calculation will show that many
clusters  will occur every year  among  the 10  million  North  American
women who  use VDTs. The  issue,  so  easily  raised,  took  a  decade  to
resolve.’
Foster then goes on to describe the numerous studies aimed at proving or
disproving a causal relation between use of computer monitors by pregnant
women and birth defects in their offspring, especially the epidemiological
evidence. He concludes that, while ‘one can never achieve complete consis-
tency in epidemiologic studies’ …  ‘they certainly rule out the large increases
in risk that some people inferred from the clusters.’
The question that will concern us here is the ‘simple calculation’. In other
80
Introduction to statistics
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
C#.NET extract image from multiple page adobe PDF Extract various types of image from PDF file, like XObject Get JPG, JPEG and other high quality image files
extract text from pdf acrobat; extract pdf text to excel
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
C#.NET Sample Code: Extract PDF Pages and Save into a New PDF File in C#.NET. You can easily get pages from a PDF file, and then use these pages to create and
copy text from pdf to word with formatting; copy pdf text to word
words, are the observed clusters to be expected (on the basis of the statistical
chances  of  spontaneous  abortions  and birth  defects,  and  the number  of
women involved), or do they need an adequate explanation? In order to find
out,  we  will, for the sake of the  argument, assume that  Foster’s data  are
correct: that 20% of pregnancies end in spontaneous abortions, that 3% of
children born (of the resulting 80% of pregnancies carried to completion)
are born with a major birth defect (hence for a combined total of 20%+0.03
×80%= 22.4% of all pregnancies), and that the affected group consisted of
10 million North American women.
We first consider the simplest case: the five out of five women at Surrey
Memorial Hospital. When a single woman has a chance of 22.4% or 0.224 of a
problem pregnancy, the chance that two women will both have a problem
pregnancy is 0.224
2
=0.0502 or just over 5%. Likewise, the chance that three,
four, or five women will all have a problem pregnancy is 0.224
3
, 0.224
4
, and
0.224
5
, respectively. We use a pocket calculator or a spreadsheet to find that
0.224
5
=0.000564 or  0.0564%. When  we  subdivide the 10  million women
into 2 million groups of five, each group will have a chance of 0.00056 of
having five out of five problem pregnancies. In two million possible groups
of five women we therefore expect 2 000000×0.000564=1128 of such clus-
ters to occur. In this light, it is not very alarming to find that one such cluster
has been reported, when one may expect many more to occur every year just
on the basis of random chance.
The other examples are somewhat harder to calculate, because not all
women in the cluster suffered problem pregnancies. It is here that we must
use some combinatorics,and itis here that we will use the spreadsheet. For
our example we will focus first on the three out of five women at Pacific
Northwest Bell.We will call them Anne, Beth, Christine, Denise, and Elaine,
or A,B, C, D, and E for short. Since all we know is that three out of five expe-
rienced problem pregnancies, but not which ones, we must count the
various ways in which three ofthe five women can be involved. Here wego:
the ten possible combinations of three specific women out of the group of
five are
ABC, ABD, ABE, ACD, ACE, ADE, BCD, BCE, BDE, and CDE
The probability that three specific women out of five will have a problem
pregnancy (with probability 0.224) and two will not (with a probability of
1–0.224=0.776 for a problem-free pregnancy) will be (0.224)
3
×(0.776)
2
=
0.000677 or 0.0677%. As we just saw, the probability that any three women of
the  group  will  experience  problem  pregnancies  will  be  ten  times  larger,
because there are ten different possible combinations of three in the group
of five women. Consequently, the chance is 10 ×(0.224)
3
×(0.776)
2
=0.0677
or 6.77%. Again assuming that we can make 2 million groups of five women
out of the 10 million female workers exposed to VDTs, we have a probability
of 2 000 000×0.0677, or more than one hundred thousand of such clusters
2.11 How likely is the improbable?
81
C# PDF Text Search Library: search text inside PDF file in C#.net
Able to find and get PDF text position details in C#.NET application. Allow to search defined PDF file page or the whole document.
get text from pdf image; cut and paste text from pdf
VB.NET PDF Annotate Library: Draw, edit PDF annotation, markups in
annotating features, provides developers with a great .NET solution to annotate .pdf file with both text & graphics. From this page, you will get a simple VB
extract text from pdf online; find and replace text in pdf file
each year, just by chance. Of course, not all of the ten million women orga-
nize themselves in groups of five, but the point is still valid: given the rather
large prevalence of problem pregnancies, the results for the five women at
Surrey Memorial Hospital were almost certainly a chance occurrence, and
should not be used to imply that VDTs caused the problem.
Now to the combinatorics. The integers specifying how many combina-
tions are possible, such as the number 10 above, can be expressed mathe-
matically. Here we will use an alternative, more graphical approach, called
the Pascal triangle. (Incidentally, this same logic is used in determining the
multiplicity of proton NMR lines for nuclei with spin 
1
2
such as 
1
H and 
13
C.)
In the Pascal triangle, each number is the sum of the two numbers diago-
nally above it; the triangle starts at its top with a single 1. It represents the
coefficients  of  the  various  terms  in  (a+b)
n
=a
n
+na
n-1
b+
+b
n
,  where
b=1-a. The m
th
coefficient  can  be expressed  mathematically as n!  /{m!
(n -m)!},  but  the  Pascal  triangle  will  be  easier  to  read  for  most  non-
mathematicians. For n =5, the spreadsheet gives the coefficients 1, 5, 10, 10,
5, and 1 for 5, 4, 3, 2, 1, and 0 problem pregnancies respectively.
Instructions for exercise 2.11
Open a spreadsheet.
In cell Z1 deposit the number 1.
In cell B2 deposit the instruction=A1+C1.
Copy this instruction to cell C3, where it will read=B2+D2.
Highlight block B2:C3, then grab its handle (at its right bottom) and drag it to cell C12.
Release the mouse, but keep the area B2:C22 highlighted. Now grab the handle again,
and drag it to cell X12.
Release the mouse, and click somewhere outside the highlighted area. That is it: you
have now computed all terms in the first 11 rows of the Pascal triangle!
If you want to compute more rows of the Pascal triangle, you need to use more than the
top 12 rows and 24 columns of the spreadsheet, while the seed (the value ‘1’ in cell W1)
must be moved to a location further to the right in row 1. For example, move the seed to
W1 and copy the instruction from B2:C3 to C22, then to AR22, to get the first 21 rows. 
The special method of copying the instruction in B2 to the rest of the sheet is used here
merely to keep the unused, interstitial spaces from filling up with zeroes, and thereby
cluttering up the screen. Verify that you will indeed get the same result, but with zeroes
in all the unfilled spaces, by deleting instruction (3), and by then simply copying the
instruction of cell B2 to block B2:X12.
10 Even when you follow the above instructions (1) through (7), there will still be quite a
few zeroes in the top of this table, which clutter it up. (Note that we are talking here
only about the appearance of things; the actual computation is so simple and so fast
82
Introduction to statistics
that we have nothing better to discuss!) Excel does not have an instruction to replace
these zeroes by blanks.
11 Fortunately, Excel 97 allows you to make them invisible (which amounts to virtually
the same thing) by selecting the command sequence Fo
rmat Cond
itional
Formatting. In the resulting dialog box, select Cell Value is … equal to … 0, then press
F
ormat, under the ‘Font’ tab click on C
olor and select white (or whatever background
color you use), then click OK twice to exit the dialog box. Now all zeroes will be dis-
played and printed in the background color, which will make them invisible. Sorry, this
handy trick is not available in earlier versions of Excel. 
Now that we have the coefficients, we can return to the problem posed
earlier: how extraordinary are the reported clusters, or are they just what one
might expect on the basis of pure chance, with or without video display ter-
minals? The statement in the above quote that ‘the clusters were never ade-
quately explained’ suggests that such an explanation is required, whereas
pure chance neither requires nor has an explanation.
For  seven  out  of  eight  we  have  the  probability  8×(0.224)
7
×(0.776)=
0.000176, which must be multiplied by 10
7
/8 =1.25 million for the number
of possible groups of eight that can be formed from 10 million workers. The
resulting probability of observing such a cluster of problem pregnancies is
therefore 220 per annum.
For eight out of 12 we find, similarly, 495 ×(0.224)
8
×(0.776)
4
×10
7
/12 =
948; for seven in a cluster of 13: 1716×(0.224)
7
×(0.776)
6
×10
7
/13=8156; for
10 out of 15: 3003 ×(0.224)
10
×(0.776)
5
×10
7
/15=179; for 10 of 19: 92378 ×
(0.224)
10
×(0.776)
9
×10
7
/19=1578.  None  of  these  are  found  to  be  rare
events, and they therefore do not require a special explanation in terms of
VDTs or other potential scapegoats. It is clearly the alarmist presentation of
the data (or, to put it more charitably, our tendency to infer a causal relation
even where none exists) that suggests that there is a problem. The combina-
tion of  a high incidence  of problem pregnancies (22.4%)  and  a  very large
group of women is the reason that these seemingly rare events are, actually,
quite to be expected! Does his give VDTs a clean bill of health? Not necessar-
ily, since they would have to have a quite significant effect before that could
be measured above such a high background ‘noise’ of statistically expected
problem pregnancies. But, perhaps, the efforts of society could be directed
more profitably to bringing down the ‘normal’ rate of problem pregnancies,
instead of spending scarce resources on highly speculative, unproven effects.
2.12
Summary
In this chapter we have encountered some of the principles of statistics. In
the first spreadsheet exercise, we explored some properties of the Gaussian
2.12 Summary
83
distribution,  which  is  usually  assumed  to  describe  the  distribution  of
random fluctuations of measurements around their mean values, as long as
a sufficiently large number of such observations is considered. Likewise, we
saw in the second spreadsheet exercise that random noise can be averaged
out, but that doing so again requires a large data set, i.e., much redundancy.
One may not always be willing or able to collect such a large set of observa-
tions, nor would it always be worth the time and effort spent.
In practice, then, we often take a much smaller sample; as a consequence,
the calculated parameters, including their standard deviations, will them-
selves  still  be  subject  to  random  fluctuations,  and  therefore  should  be
treated as such rather than as precise values. If you determine the mass of a
precipitate from triplicate weighings, don’t list the standard deviation of that
determination to five significant figures: it is most likely that the first figure is
already tentative.
In the next two sections we encountered the problem of propagation of
experimental  imprecision  through  a  calculation.  When  the  calculation
involves only one parameter, taking its first derivative will provide the rela-
tion between the imprecision in the derived function and that in the meas-
ured parameter. In general, when the final result depends on more than one
independent experimental parameter, use of partial derivatives is required,
and the variance in the result is the sum of the variances of the individual
parameters,  each  multiplied  by  the  square  of  the  corresponding  partial
derivative. In practice, the spreadsheet lets us find the required answers in a
numerical way that does not require calculus, as illustrated in the exercises.
While we still need to understand the principle of partial differentiation, i.e.,
whatit does, at least in this case we need not know how to do it, because the
spreadsheet (and, specifically, the macro PROPAGATION, see section 10.3)
can simulate it numerically.
In section 2.5 we introduced the concept of weighting, i.e., of emphasizing
certain data over others, by assigning individual weights inversely propor-
tional  to the variance of each  point.  In section 3.4  we will return  to  this
subject, albeit with a somewhat different emphasis.
Section 2.6 illustrated the simplest example of least-squares fitting to a
function, namely that of fitting data to the proportionality y =ax. This is the
equation for a straight line through the origin, and has only one ‘adjustable’
parameter,  the  slope  a.  In  section  2.7  we  then  considered  the  general
straight line with arbitrary intercept, y =a
0
+a
1
x, i.e., with two adjustable
parameters, of which the earlier examples, y= (=a
0
), and y =ax (
=
a
1
x),
are special cases. Again  reflecting the statistical  nature of a least-squares
analysis, both of these methods work best when there is a large redundancy
of input data, so that the experimental ‘noise’ is effectively averaged out as
long as it is random. In that respect, our radiocarbon dating example was of
marginal validity, and was used here only to illustrate the method.
We then emphasized the importance of looking at graphs of the data and
y
84
Introduction to statistics
their residuals, because such graphs can often show whether an inappropri-
ate model is used. The moral of this exercise is that least-squares analysis,
while very powerful  in fitting data to  a  known relationship,  cannot  (and
should not) be used to help select the type of relation to be fitted. That infor-
mation must come from somewhere else, preferably from a sound under-
standing of the theory behind the phenomenon studied.
In section 2.9 we considered the usual assumption that random effects
follow a  single, Gaussian distribution. We took a theoretical example of a
random distribution (and what better ‘random’ distribution could you get
than that from the theory of randomly moving ideal gas molecules?), so that
sampling error cannot be blamed for the result. We found what looks like a
Gaussian distribution, but is not quite one. Then we looked at an example
where an obvious ‘outlier’ is a perfectly legitimate member of another distri-
bution. The take-home lesson of that section is: the assumption that impre-
cision follows a single Gaussian distribution is just that, an assumption. It is
often a close approximation, but it is certainly no law of nature.
In  section  2.10  we  briefly  considered  another  distribution,  especially
important for stochastic observations such as made in radiochemistry and
electrophysiology, while in section 2.11 we took a quick look at the likeli-
hood of seemingly unlikely events.
In connection with these later sections it might be well to realize that the
role of statistics in chemistry is, usually, quite different from that in, say, epi-
demiology or sociology. In chemistry we typically start with a known rela-
tionship between a small (and typically known) number of parameters. We
then minimize the role of experimental fluctuations by collecting an abun-
dance of input data, and by using that large data set to determine the few
underlying parameters. The resulting data reduction lessens the effect of the
random fluctuations on the resulting parameters.
In the ‘softer’  sciences, the specific form of the relationship may not be
known or, worse, it may not even be known whether a relationship exists at
all. In that case, the question to be answered by statistics is not how to extract
the best numerical parameters from the data, but how to establish whether
or not a relationship exists in the first place. It is here that concepts such as
correlation coefficients become relevant. In quantitative chemical analysis,
there are few such ambiguities, since the causal relations are usually well-
established and seldom at issue. On the other hand, further statistical meas-
ures  such  as  confidence  limits,  based  on  a  (seldom  experimentally
supported) presumption of a single Gaussian distribution, are more strongly
favoring a  particular, mathematically  convenient model  than seems to be
realistic or prudent for the subject matter of this workbook, and thereby tend
to provide an overly rosy picture of the data. For this reason, statistical meas-
ures beyond standard deviations will not be considered here.
We  started this  chapter by considering  life insurance, and we  will  now
return to this model. Life or death are, of course, binary options, while time
2.12 Summary
85
is continuous. In principle, the appropriate statistics for life insurance are
therefore  based  on  the  Poissonian  distribution.  Gauss  was  hesitant  to
publish his work on least squares, because he could find no fully satisfactory
justification for it – consequently, he only published what he had found after
Legendre  had  independently  discovered  and  published  it.  In  retrospect,
there is indeed a much better theoretical foundation for Poissonian statis-
tics,  because  we now  know that  mass is  quantized, as  are  most forms  of
energy, while time is not.
Fortunately,  for  a  sufficiently  large  cohort,  the  Poissonian  distribution
approaches the Gaussian one, a general limit more carefully described by
the central limit theorem of statistics. Because of the large individual fluc-
tuations in the human life span, insurance companies must operate with a
large number of subscribers. Under those circumstances they can use statis-
tics to set their premiums so as to provide a useful service to society while
also making a profit.
Clearly, the life expectancies of different groups are different: women tend
to outlive men, non-smokers on average live longer than smokers, etc. There
are  clearly  genetic  as  well  as  behavioral  factors  involved  here:  gender  is
genetic, smoking  is not. When the various subgroups  are still sufficiently
large,  their subgroup statistics are still  meaningful, and their  distinct life
expectancies can be established. Such statistical data are only valid within
the context of leaving all other variables constant.
What such statistics cannot do is predict how the average life expectancy
may change  with  changing  circumstances  (except  retrospectively,  which
hardly  qualifies  as  a  prediction).  For  example,  despite  the  fact  that  life
expectancy is strongly linked to genetics (fruit flies on average have much
shorter  life  spans  that  people,  while  bristlecone  pines  tend  to  outlive
people),  the  life  expectancies  of  people  in  the  developed  world  have
increased dramatically over the past century, as the result of improvements
in the quality of drinking water, in hygienics, in the availability of sewers and
antibiotics, etc. Such changes primarily affect the bias of the measurements,
rather than their spread.
Statistics can only deal with effects that change the bias after they have
occurred. This is so because statisticians are only able to draw their conclu-
sions by keeping all other factors constant. When such other factors are not
constant, statistics  loses its predictive power. From the  very beginning of
statistics, this inherent limitation has confused some of its practitioners. For
example, Francis Galton, an early statistician and the developer of the corre-
lation coefficient, also coined the term eugenics, and believed that he could
prove statistically that some races were superior to others. He couldn’t, and
he didn’t, but similar, essentially self-serving arguments, dressed up in sta-
tistical clothes to give them a semblance of scientific objectivity, regularly
reappear. For example, statistics showing a racial bias of IQ are sometimes
offered as ‘proof’ of the superiority of one race (typically that of its authors)
over another, implicitly assuming that societal race-dependent biases such
86
Introduction to statistics
Documents you may be interested
Documents you may be interested