Chapter 13: Selecting data for analysis
123
SPLIT FILE allows multiple sets of data present in one data file to be analyzed separately
using single statistical procedure commands.
Specify a list of variable names to analyze multiple sets of data separately. Groups
of adjacent cases having the same values for these variables are analyzed by statistical
procedure commands as one group. An independent analysis is carried out for each group
of cases, and the variable values for the group are printed along with the analysis.
When a list of variable names is specified, one of the keywords LAYERED or SEPARATE
may also be specified. If provided, either keyword are ignored.
Groups are formed only by adjacent cases. To create a split using a variable where like
values are not adjacent in the working file, you should first sort the data by that variable
(seeSection12.8[SORTCASES],page120).
Specify OFF to disable SPLIT FILE and resume analysis of the entire active dataset as a
single group of data.
When SPLIT FILE is specified after TEMPORARY, it affects only the next procedure (see
Section 13.6 [TEMPORARY], page 123).
13.6 TEMPORARY
TEMPORARY.
TEMPORARY is used to make the effects of transformations following its execution tem-
porary. These transformations will affect only the execution of the next procedure or
procedure-like command. Their effects will not be saved to the active dataset.
The only specification on TEMPORARY is the command name.
TEMPORARY may not appear within a DO IF or LOOP construct. It may appear only once
between procedures and procedure-like commands.
Scratch variables cannot be used following TEMPORARY.
An example may help to clarify:
DATA LIST /X 1-2.
BEGIN DATA.
2
4
10
15
20
24
END DATA.
COMPUTE X=X/2.
TEMPORARY.
COMPUTE X=X+3.
DESCRIPTIVES X.
DESCRIPTIVES X.
Pdf form fill - C# PDF Form Data fill-in Library: auto fill-in PDF form data in C#.net, ASP.NET, MVC, WinForms, WPF
Online C# Tutorial to Automatically Fill in Field Data to PDF
auto fill pdf form from excel; create a fillable pdf form
Pdf form fill - VB.NET PDF Form Data fill-in library: auto fill-in PDF form data in vb.net, ASP.NET, MVC, WinForms, WPF
VB.NET PDF Form Data fill-in library: auto fill-in PDF form data in vb.net, ASP.NET, MVC, WinForms, WPF
convert pdf to fillable form; form pdf fillable
Chapter 13: Selecting data for analysis
124
The data read by the first DESCRIPTIVES are 4, 5, 8, 10.5, 13, 15. The data read by the
first DESCRIPTIVES are 1, 2, 5, 7.5, 10, 12.
13.7 WEIGHT
WEIGHT BY var
name.
WEIGHT OFF.
WEIGHT assigns cases varying weights, changing the frequency distribution of the active
dataset. Execution of WEIGHT is delayed until data have been read.
If a variable name is specified, WEIGHT causes the values of that variable to be used as
weighting factors for subsequent statistical procedures. Use of keyword BY is optional but
recommended. Weighting variables must be numeric. Scratch variables may not be used
for weighting (seeSection6.7.5[ScratchVariables],page43).
When OFF is specified, subsequent statistical procedures will weight all cases equally.
Apositive integer weighting factor w on a case will yield the same statistical output as
would replicating the case w times. A weighting factor of 0 is treated for statistical purposes
as if the case did not exist in the input. Weighting values need not be integers, but negative
and system-missing values for the weighting variable are interpreted as weighting factors of
0. User-missing values are not treated specially.
When WEIGHT is specified after TEMPORARY, it affects only the next procedure (see
Section 13.6 [TEMPORARY], page 123).
WEIGHT does not cause cases in the active dataset to be replicated in memory.
C# WPF PDF Viewer SDK to annotate PDF document in C#.NET
Text box. Click to add a text box to specific location on PDF page. Line color and fill can be set in properties. Copyright © <2000-2016> by <RasterEdge.com>.
pdf create fillable form; create fillable forms in pdf
VB.NET PDF Password Library: add, remove, edit PDF file password
passwordSetting.IsAnnot = True ' Allow to fill form. passwordSetting document. passwordSetting.IsAssemble = True ' Add password to PDF file.
convert word to fillable pdf form; convert excel spreadsheet to fillable pdf form
Chapter 14: Conditional and Looping Constructs
125
14 Conditional and Looping Constructs
This chapter documents pspp commands used for conditional execution, looping, and flow
of control.
14.1 BREAK
BREAK.
BREAK terminates execution of the innermost currently executing LOOP construct.
BREAK is allowed only inside LOOP. . .END LOOP. SeeSection14.4[LOOP],page126, for
more details.
14.2 DO IF
DO IF condition.
...
[ELSE IF condition.
...
]. ..
[ELSE.
...]
END IF.
DO IF allows one of several sets of transformations to be executed, depending on user-
specified conditions.
If the specified boolean expression evaluates as true, then the block of code following
DO IF is executed. If it evaluates as missing, then none of the code blocks is executed. If
it is false, then the boolean expression on the first ELSE IF, if present, is tested in turn,
with the same rules applied. If all expressions evaluate to false, then the ELSE code block
is executed, if it is present.
When DO IF or ELSE IF is specified following TEMPORARY (seeSection 13.6 [TEMPO-
RARY], page 123),theLAGfunctionmaynotbeused(see [LAG], page 57).
14.3 DO REPEAT
DO REPEAT dummy
name=expansion. ...
...
END REPEAT [PRINT].
expansion takes one of the following forms:
var
list
num
or
range. . .
’string’.. .
ALL
num
or
range takes one of the following forms:
number
num1 TO num2
C# PDF Password Library: add, remove, edit PDF file password in C#
passwordSetting.IsAnnot = true; // Allow to fill form. passwordSetting document. passwordSetting.IsAssemble = true; // Add password to PDF file.
convert fillable pdf to word fillable form; pdf add signature field
VB.NET PDF - Annotate PDF with WPF PDF Viewer for VB.NET
Text box. Click to add a text box to specific location on PDF page. Line color and fill can be set in properties. Copyright © <2000-2016> by <RasterEdge.com>.
change font size in pdf fillable form; convert pdf to fill in form
Chapter 14: Conditional and Looping Constructs
126
DO REPEAT repeats a block of code, textually substituting different variables, numbers,
or strings into the block with each repetition.
Specify a dummy variable name followed by an equals sign (‘=’) and the list of replace-
ments. Replacements can be a list of existing or new variables, numbers, strings, or ALL to
specify all existing variables. When numbers are specified, runs of increasing integers may
be indicated as num1 TO num2, so that ‘1 TO 5’ is short for ‘1 2 3 4 5’.
Multiple dummy variables can be specified. Each variable must have the same number
of replacements.
The code within DO REPEAT is repeated as many times as there are replacements for each
variable. The first time, the first value for each dummy variable is substituted; the second
time, the second value for each dummy variable is substituted; and so on.
Dummy variable substitutions work like macros. They take place anywhere in a line
that the dummy variable name occurs. This includes command and subcommand names,
so command and subcommand names that appear in the code block should not be used
as dummy variable identifiers. Dummy variable substitutions do not occur inside quoted
strings, comments, unquoted strings (such as the text on the TITLE or DOCUMENT command),
or inside BEGIN DATA.. .END DATA.
Substitution occurs only onwhole words, so that, for example, a dummy variable PRINT
would not be substituted into the word PRINTOUT.
New variable names used as replacements are not automatically created as variables, but
only if used in the code block in a context that would create them, e.g. on a NUMERIC or
STRING command or on the left side of a COMPUTE assignment.
Any command may appear within DO REPEAT, including nested DO REPEAT commands.
If INCLUDE or INSERT appears within DO REPEAT, the substitutions do not apply to the
included file.
If PRINT is specified on END REPEAT, the commands after substitutions are made are
printed to the listing file, prefixed by a plus sign (‘+’).
14.4 LOOP
LOOP [index
var=start TO end [BY incr]] [IF condition].
...
END LOOP [IF condition].
LOOP iterates a group of commands. A number of termination options are offered.
Specify index
var to make that variable count from one value to another by a particular
increment. index
var must be a pre-existing numeric variable. start, end, and incr are
numeric expressions (seeChapter7[Expressions],page46.)
During the first iteration, index
var is set to the value of start. During each successive
iteration, index
var is increased by the value of incr. If end > start, then the loop terminates
when index
var > end; otherwise it terminates when index
var < end. If incr is not specified
then it defaults to +1 or -1 as appropriate.
If end > start and incr < 0, or if end < start and incr > 0, then the loop is never executed.
index
var is nevertheless set to the value of start.
Modifying index
var within the loop is allowed, but it has no effect on the value of
index
var in the next iteration.
VB.NET PDF - Annotate PDF Online with VB.NET HTML5 PDF Viewer
fill color and transparency are all can be altered in properties. Drawing Tab. Item. Name. Description. 7. Draw free form. Users can draw freehand annotation on
pdf form filler; add signature field to pdf
C# HTML5 PDF Viewer SDK to annotate PDF document online in C#.NET
fill color and transparency are all can be altered in properties. Drawing Tab. Item. Name. Description. 7. Draw free form. Users can draw freehand annotation on
add attachment to pdf form; best pdf form filler
Chapter 14: Conditional and Looping Constructs
127
Specify a boolean expression for the condition on LOOP to cause the loop to be executed
only if the condition is true. If the condition is false or missing before the loop contents are
executed the first time, the loop contents are not executed at all.
If index and condition clauses are both present on LOOP, the index variable is always set
before the condition is evaluated. Thus, a condition that makes use of the index variable
will always see the index value to be used in the next execution of the body.
Specify a boolean expressionfor the condition on END LOOP to cause the loop toterminate
if the condition is true after the enclosed code block is executed. The condition is evaluated
at the end of the loop, not at the beginning, so that the body of a loop with only a condition
on END LOOP will always execute at least once.
If neither the index clause nor either condition clause is present,thenthe loop is executed
max
loops (seeSection16.20[SET],page161) times. The default value of max
loops is 40.
BREAK also terminates LOOP execution (seeSection14.1[BREAK],page125).
Loop index variables are by default reset to system-missing from one case to another,
not left, unless a scratch variable is used as index. When loops are nested, this is usually
undesiredbehavior,whichcan be corrected withLEAVE (seeSection11.5[LEAVE],page101)
or by using a scratch variable as the loop index.
When LOOP or END LOOP is specified following TEMPORARY (see Section13.6[TEMPO-
RARY], page 123),theLAGfunctionmaynotbeused(see [LAG], page 57).
VB.NET PDF Form Data Read library: extract form data from PDF in
RasterEdge .NET PDF SDK is such one provide various of form field edit functions. Demo Code to Retrieve All Form Fields from a PDF File in VB.NET.
pdf signature field; convert pdf file to fillable form online
C#: XDoc.HTML5 Viewer for .NET Online Help Manual
Click to open edited file in web browser in PDF form which can be PDF and Word (.docx). with customized style, like setting shape outline, shape fill and shape
convert pdf fillable form; convert word to pdf fillable form
Chapter 15: Statistics
128
15 Statistics
This chapter documents the statistical procedures that pspp supports so far.
15.1 DESCRIPTIVES
DESCRIPTIVES
/VARIABLES=var
list
/MISSING={VARIABLE,LISTWISE}{INCLUDE,NOINCLUDE}
/FORMAT={LABELS,NOLABELS}{NOINDEX,INDEX}{LINE,SERIAL}
/SAVE
/STATISTICS={ALL,MEAN,SEMEAN,STDDEV,VARIANCE,KURTOSIS,
SKEWNESS,RANGE,MINIMUM,MAXIMUM,SUM,DEFAULT,
SESKEWNESS,SEKURTOSIS}
/SORT={NONE,MEAN,SEMEAN,STDDEV,VARIANCE,KURTOSIS,SKEWNESS,
RANGE,MINIMUM,MAXIMUM,SUM,SESKEWNESS,SEKURTOSIS,NAME}
{A,D}
The DESCRIPTIVES procedure reads the active dataset and outputs descriptive statistics
requested by the user. In addition, it can optionally compute Z-scores.
The VARIABLES subcommand, which is required, specifies the list of variables to be
analyzed. Keyword VARIABLES is optional.
All other subcommands are optional:
The MISSING subcommand determines the handling of missing variables. If INCLUDE is
set, then user-missing values are included in the calculations. If NOINCLUDE is set, which is
the default, user-missing values are excluded. If VARIABLE is set, then missing values are
excluded on a variable by variable basis; if LISTWISE is set, then the entire case is excluded
whenever any value in that case has a system-missing or, if INCLUDE is set, user-missing
value.
The FORMAT subcommand affects the output format. Currently the LABELS/NOLABELS
and NOINDEX/INDEX settings are not used. When SERIAL is set, both valid and missing
number of cases are listed in the output; when NOSERIAL is set, only valid cases are listed.
The SAVE subcommand causes DESCRIPTIVES to calculate Z scores for all the specified
variables. The Z scores are saved to new variables. Variable names are generated by
trying first the original variable name with Z prepended and truncated to a maximum of 8
characters, then the names ZSC000 through ZSC999, STDZ00 through STDZ09, ZZZZ00
through ZZZZ09, ZQZQ00 through ZQZQ09, in that sequence. In addition, Z score variable
names can be specified explicitly on VARIABLES in the variable list by enclosing them in
parentheses after each variable. When Z scores are calculated, pspp ignores TEMPORARY,
treating temporary transformations as permanent.
The STATISTICS subcommand specifies the statistics to be displayed:
ALL
All of the statistics below.
MEAN
Arithmetic mean.
SEMEAN
Standard error of the mean.
STDDEV
Standard deviation.
Chapter 15: Statistics
129
VARIANCE Variance.
KURTOSIS Kurtosis and standard error of the kurtosis.
SKEWNESS Skewness and standard error of the skewness.
RANGE
Range.
MINIMUM
Minimum value.
MAXIMUM
Maximum value.
SUM
Sum.
DEFAULT
Mean, standard deviation of the mean, minimum, maximum.
SEKURTOSIS
Standard error of the kurtosis.
SESKEWNESS
Standard error of the skewness.
The SORT subcommand specifies how the statistics should be sorted. Most of the possi-
ble values should be self-explanatory. NAME causes the statistics to be sorted by name. By
default, the statistics are listed in the order that they are specified on the VARIABLES sub-
command. The A and D settings request an ascending or descending sort order, respectively.
15.2 FREQUENCIES
FREQUENCIES
/VARIABLES=var
list
/FORMAT={TABLE,NOTABLE,LIMIT(limit)}
{AVALUE,DVALUE,AFREQ,DFREQ}
/MISSING={EXCLUDE,INCLUDE}
/STATISTICS={DEFAULT,MEAN,SEMEAN,MEDIAN,MODE,STDDEV,VARIANCE,
KURTOSIS,SKEWNESS,RANGE,MINIMUM,MAXIMUM,SUM,
SESKEWNESS,SEKURTOSIS,ALL,NONE}
/NTILES=ntiles
/PERCENTILES=percent.. .
/HISTOGRAM=[MINIMUM(x
min)] [MAXIMUM(x
max)]
[{FREQ[(y
max)],PERCENT[(y
max)]}] [{NONORMAL,NORMAL}]
/PIECHART=[MINIMUM(x
min)] [MAXIMUM(x
max)]
[{FREQ,PERCENT}] [{NOMISSING,MISSING}]
/BARCHART=[MINIMUM(x
min)] [MAXIMUM(x
max)]
[{FREQ,PERCENT}]
/ORDER={ANALYSIS,VARIABLE}
(These options are not currently implemented.)
/HBAR=. . .
/GROUPED=. . .
The FREQUENCIES procedure outputs frequency tables for specified variables.
FREQUENCIES can also calculate and display descriptive statistics (including median and
mode) and percentiles, and various graphical representations of the frequency distribution.
Chapter 15: Statistics
130
The VARIABLES subcommand is the only required subcommand. Specify the variables
to be analyzed.
The FORMAT subcommand controls the output format. It has several possible settings:
TABLE, the default, causes a frequency table to be output for every variable specified.
NOTABLE prevents them from being output. LIMIT with a numeric argument causes
them to be output except when there are more than the specified number of values in
the table.
Normally frequency tables are sorted in ascending order by value. This is AVALUE.
DVALUE tables are sorted in descending order by value. AFREQ and DFREQ tables are
sorted in ascending and descending order, respectively, by frequency count.
The MISSING subcommand controls the handling of user-missing values. When EXCLUDE,
the default, is set, user-missing values are not included in frequency tables or statistics.
When INCLUDE is set, user-missing are included. System-missing values are never included
in statistics, but are listed in frequency tables.
The available STATISTICS are the same as available in DESCRIPTIVES (seeSection15.1
[DESCRIPTIVES], page 128),withtheadditionofMEDIAN,thedata’s medianvalue,and
MODE, the mode. (If there are multiple modes, the smallest value is reported.) By default,
the mean, standard deviation of the mean, minimum, and maximum are reported for each
variable.
PERCENTILES causes the specified percentiles to be reported. The percentiles should be
presented at alist of numbers between0 and 100 inclusive. The NTILES subcommand causes
the percentiles to be reported at the boundaries of the data set divided into the specified
number of ranges. For instance, /NTILES=4 would cause quartiles to be reported.
The HISTOGRAM subcommand causes the output to include a histogram for each specified
numeric variable. The X axis by default ranges from the minimum to the maximum value
observed in the data, but the MINIMUM and MAXIMUM keywords can set an explicit range.
1
Histograms are not created for string variables.
Specify NORMAL to superimpose a normal curve on the histogram.
The PIECHART subcommand adds a pie chart for each variable to the data. Each slice
represents one value, with the size of the slice proportional to the value’s frequency. By
default, all non-missing values are given slices. The MINIMUM and MAXIMUM keywords can
be used to limit the displayed slices to a given range of values. The keyword NOMISSING
causes missing values to be omitted from the piechart. This is the default. If instead,
MISSING is specified, then a single slice will be included representing all system missing and
user-missing cases.
The BARCHART subcommand produces a bar chart for each variable. The MINIMUM and
MAXIMUM keywords can be used to omit categories whose counts which lie outside the spec-
ified limits. The FREQ option (default) causes the ordinate to display the frequency of each
category, whereas the PERCENT option will display relative percentages.
The FREQ and PERCENT options on HISTOGRAM and PIECHART are accepted but not cur-
rently honoured.
1
Thenumber of bins is chosen accordingtotheFreedman-Diaconis rule: 2IQR(x)n
1=3
,where IQR(x)
is the interquartile range of x and n is the number of samples. Note that EXAMINE uses a different
algorithm to determine bin sizes.
Chapter 15: Statistics
131
The ORDER subcommand is accepted but ignored.
15.3 EXAMINE
EXAMINE
VARIABLES= var1 [var2] . .. [varN]
[BY factor1 [BY subfactor1]
[factor2 [BY subfactor2]]
...
[factor3 [BY subfactor3]]
]
/STATISTICS={DESCRIPTIVES, EXTREME[(n)], ALL, NONE}
/PLOT={BOXPLOT,NPPLOT,HISTOGRAM, SPREADLEVEL[(t)],ALL,NONE}
/CINTERVAL p
/COMPARE={GROUPS,VARIABLES}
/ID=identity
variable
/{TOTAL,NOTOTAL}
/PERCENTILE=[percentiles]={HAVERAGE, WAVERAGE, ROUND, AEM-
PIRICAL, EMPIRICAL}
/MISSING={LISTWISE, PAIRWISE} [{EXCLUDE, INCLUDE}]
[{NOREPORT,REPORT}]
The EXAMINE command is used to perform exploratory data analysis. In particular, it is
useful for testing how closely a distribution follows a normal distribution, and for finding
outliers and extreme values.
The VARIABLES subcommand is mandatory. It specifies the dependent variables and
optionally variables to use as factors for the analysis. Variables listed before the first BY
keyword (if any) are the dependent variables. The dependent variables may optionally
be followed by a list of factors which tell pspp how to break down the analysis for each
dependent variable.
Following the dependent variables, factors may be specified. The factors (if desired)
should be preceded by a single BY keyword. The format for each factor is
factorvar [BY subfactorvar].
Each unique combination of the values of factorvar and subfactorvar divide the dataset
into cells. Statistics will be calculatedfor eachcell and for the entire dataset (unless NOTOTAL
is given).
The STATISTICS subcommand specifies which statistics to show. DESCRIPTIVES will
produce a table showing some parametric and non-parametrics statistics. EXTREME produces
atable showing the extremities of each cell. A number in parentheses, n determines how
many upper and lower extremities to show. The default number is 5.
The subcommands TOTAL and NOTOTAL are mutually exclusive. If TOTAL appears, then
statistics will be produced for the entire dataset as well as for each cell. If NOTOTAL appears,
then statistics will be produced only for the cells (unless no factor variables have been
given). These subcommands have no effect if there have been no factor variables specified.
The PLOT subcommand specifies which plots are to be produced if any. Available plots
are HISTOGRAM, NPPLOT, BOXPLOT and SPREADLEVEL. The first three can be used to visualise
Chapter 15: Statistics
132
how closely each cell conforms to a normal distribution, whilst the spread vs. level plot can
be useful to visualise how the variance of differs between factors. Boxplots will also show
you the outliers and extreme values.
2
The SPREADLEVEL plot displays the interquartile range versus the median. It takes an
optional parameter t, which specifies how the data should be transformed prior to plotting.
The given value t is a power to which the data is raised. For example, if t is given as 2,
then the data will be squared. Zero, however is a special value. If t is 0 or is omitted, then
data will be transformed by taking its natural logarithm instead of raising to the power of
t.
The COMPARE subcommand is only relevant if producing boxplots, and it is only useful
there is more than one dependent variable and at least one factor. If /COMPARE=GROUPS is
specified, then one plot per dependent variable is produced, each of which contain boxplots
for allthe cells. If /COMPARE=VARIABLES is specified, then one plot per cell is produced, each
containing one boxplot per dependent variable. If the /COMPARE subcommand is omitted,
then pspp behaves as if /COMPARE=GROUPS were given.
The ID subcommand is relevant only if /PLOT=BOXPLOT or /STATISTICS=EXTREME has
been given. If given, it should provide the name of a variable which is to be used to
labels extreme values and outliers. Numeric or string variables are permissible. If the ID
subcommand is not given, then the case number will be used for labelling.
The CINTERVAL subcommand specifies the confidence interval to use in calculation of the
descriptives command. The default is 95%.
The PERCENTILES subcommand specifies which percentiles are to be calculated, and
which algorithm to use for calculating them. The default is to calculate the 5, 10, 25, 50,
75, 90, 95 percentiles using the HAVERAGE algorithm.
The TOTAL and NOTOTAL subcommands are mutually exclusive. If NOTOTAL is given and
factors have been specified in the VARIABLES subcommand, then then statistics for the
unfactored dependent variables are produced in addition to the factored variables. If there
are no factors specified then TOTAL and NOTOTAL have no effect.
The following example will generate descriptive statistics and histograms for two vari-
ables score1 and score2. Two factors are given, viz: gender and gender BY culture. There-
fore, the descriptives and histograms will be generated for each distinct value of gender and
for each distinct combination of the values of gender and race. Since the NOTOTAL keyword
is given, statistics and histograms for score1 and score2 covering the whole dataset are not
produced.
EXAMINE score1 score2 BY
gender
gender BY culture
/STATISTICS = DESCRIPTIVES
/PLOT = HISTOGRAM
/NOTOTAL.
Here is a second example showing how the examine command can be used to find
extremities.
2
HISTOGRAM uses Sturges’ rule to determine the number of bins, as approximately 1+log2(n), where n is
the number of samples. Note that FREQUENCIES uses a different algorithm to find the bin size.
Documents you may be interested
Documents you may be interested