317
Reference
© 2010 Mike Scott
11.10
date format
Date Format
Japanese date format year_month_day_hour_minute. At least it is logical, going from larger to
smaller. Why aren't URLs organised in a logical order too?  
11.11
Definitions
11.11.1
definitions
words
The word is defined as a sequence of valid characters with a 
word separator
at each end.
Valid characters include all the letters from A to Z, plus all accented characters which can be used
in the current 
character set
, plus any user-defined acceptable characters to be included within
a word (such as the apostrophe or 
hyphen
). 
A word can be of any length but for one to be stored in a word list, you may set the length you
prefer (maximum of 50 characters) -- any which exceed your limit will get + tagged onto them at
that point. You can decide whether or not to include words including numbers (e.g. $35.50) in 
text
characteristics
.
clusters
A cluster is a group of words which follow each other in a text. The term phrase is not used here
because it has technical senses in linguistics which would imply a grammatical relation between
the words in it. In 
WordList cluster processing
or 
Concord cluster processing
there
can be no certainty of this, though clusters often do match phrases or idioms. See also: 
general
cluster information
.
sentences
The sentence is defined as the full-stop, question-mark or exclamation-mark (.?!) immediately
followed by one or more 
word separators
and then a capital letter in the current language, a
number or a currency symbol. (For more discussion see 
Starts and Ends of Text Segments
or 
Viewer & Aligner technical information
.)
paragraphs
Paragraphs are user-defined. See 
Starts and Ends of Text Segments
for further details.
headings
Headings are also user-defined -- see 
Starts and Ends of Text Segments
.
texts
A text in WordSmith means what most non-linguists would call a text. In a newspaper, for
example, there might be 6 or 7 "texts" on 
each page. This also means that a text = a file on disk. If it doesn't you're better off totally ignoring
the "Texts" column in WS1-WS5 output.
See also: 
Setting Text Characteristics
Key-ness
Key key-word
Associate
318
312
324
83
196
118
336
318
98
288
98
98
83
165
165
158
Pdf reverse page order online - rotate PDF page permanently in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Empower Users to Change the Rotation Angle of PDF File Page Using C#
rotate pages in pdf; pdf page order reverse
Pdf reverse page order online - VB.NET PDF Page Rotate Library: rotate PDF page permanently in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
PDF Document Page Rotation in Visual Basic .NET Class Application
save pdf rotate pages; how to rotate one page in a pdf file
318
WordSmith Tools
© 2010 Mike Scott
11.11.2
word separators
Conventionally one assumes that one word is distinguished from the next by the presence of
spaces at either end. But  WordSmith Tools also includes within word separators certain
standard codes used by most word processors: page eject code (12), tabs (9), carriage return (13)
and line feed (10), end-of-text (26). Besides, 
hyphens
may optionally be considered to split
words like self-access into two words. 
Note that in Chinese and Japanese which do not separate words in this way, any WordSmith
functions which require word-separation will not work unless you get your texts previously tagged
with word-separators.
11.12
demonstration version
The demonstration version of  WordSmith Tools offers all the facilities of the complete suite,
except that any screen which shows a list (of words in a word-list, or concordance lines, etc.) is
limited to a small number of lines which can be shown or printed. (If you save data, all of it will be
saved; it's just that you can't see it all in the demo version.)
See also: Installing
Version Information
Contact Addresses
.
11.13
drag and drop
You can get WordSmith to compute some results simply by dragging. 
If you have WordList open you can simply drag a text file onto it from Windows Explorer and it will
create a word-list there and then using default settings. 
If you have KeyWords open you can simply drag a text file onto it from Windows Explorer. If you
have a valid word list set as the reference corpus, it will compute the key words.
If you drag a word-list made by WordList (.LST ending), a concordance (.CNC), a key word list (.
KWS) etc. onto the Controller
, it will open it with the appropriate tool.
11.14
edit v. type-in mode
Most windows allow you to press keys either
to edit your data (edit mode), or
to get quickly to a place in a list (type-in mode).
Concordance windows use key presses also for setting categories
for the data, or for blanking
out the search word.
324
20
339
316
4
116
116
VB.NET PDF Page Move Library: re-order PDF pages in vb.net, ASP.
Support to reverse page order in adobe PDF document in both .NET Enable move, sort and reorder PDF page in preview. Provide online Visual Basic .NET source code.
how to save a pdf after rotating pages; pdf rotate page
C# PDF Page Move Library: re-order PDF pages in C#.net, ASP.NET
Free online C# code solutions for sorting PDF page order in multiple ways in .NET console program. Support to reverse page order in PDF document.
rotate pdf pages on ipad; change orientation of pdf page
319
Reference
© 2010 Mike Scott
In type-in mode, your key-presses are supposed to help you get quickly
to the list item you're
interested in, e.g by typing 
theocr
to get to (or near to) 
theocracy
in a word list. If you've typed in
5 letters and a match is found, the search stops.
Changing mode is done by right-clicking on the word Set 
and choosing from
the 
menu which opens up.
See also: user-defined categories
.
11.15
file extensions
The standard file-extensions used in WordSmith are
.cnc
concordance file
.lst
word list
.mut
mutual information list
.dcl
detailed consistency list
.tokens, .types
word list index file
.kws
key words file
.kdb
key word database file
.ali
aligner list
.vwr
viewer list
WordSmith does not affect your Windows Registry, unlike most other programs. The reason is
because this can make a system slow down and become unstable, and it also means that to
remove WordSmith you can simply delete the folder it is in.
In the Controller's General settings, or on installing, however, you can if you wish  associate (or
disassociate) the current file-types with WordSmith in the Registry. The advantage of association is
that Windows will know what Tool to open your data files with.
79
116
C# Word: How to Use C# Code to Print Word Document for .NET
document pages in original or reverse order within entire C# Class Code to Print Certain Page(s) of powerful & profession imaging controls, PDF document, image
rotate single page in pdf file; pdf reverse page order
320
WordSmith Tools
© 2010 Mike Scott
11.16
finding source texts
For some calculations the original source texts need to be available. For example, for Concord to
show you more context
than has been saved for each line, it'll need to re-read the source text.
For KeyWords to calculate a dispersion plot
, it needs to look at the source text to find out which
KWs came near each other and compute positions of each KW in the text and KW links
.
If you have moved or deleted the source file(s) in the meantime, this won't be possible.
See also : Editing filenames
Choosing source files
find files
.
11.17
folders\directories
Found in main Settings menu in all Tools. Default folders can be altered in WordSmith Tools or set
as defaults
in wordsmith.ini.
113
172
170
51
33
189
76
321
Reference
© 2010 Mike Scott
Concordance Folder: for your concordance files. 
KeyWords Folder: for your key-word list files.
WordList Folder: where you will usually save
your word-list files.
Aligner: for your dual-text aligned work
Texts Folder: where your text files are to be found.
Downloaded Media: where your sound & video files
will be stored after downloading the first
time from the Internet.
Settings: where your settings files (.ini files and some others) are kept.
If you write the name of a folder which doesn't exist, WordSmith Tools will create it for you if
possible. (On a network, this will depend on whether you have rights to create folders and save
files.)
If you change your Settings folder, you should let WordSmith copy any .ini and other settings
files which have been created so that it can keep track of your language preferences, etc.
Note: in a network, drive letters such as G:, H:, K: change according to which machine you're
running from, so that what is G:\texts\my text.txt on one terminal may be H:\texts\my text.txt on
another. Fortunately network drives also have names structured like this: \
\computer_name\drive_name\
. You will find that these names can be used by WordSmith, with
the advantage that the same text files can be accessed again later.
77
280
145
77
322
WordSmith Tools
© 2010 Mike Scott
If you run WordSmith from an external hard drive or a flash drive
, where again the drive letter
may change, you will find WordSmith arranges that if your folders are on that same drive they will
change drive letter automatically once you have saved your defaults
.
Tip
Use different folders for the different functions in WordSmith Tools. In particular, you may end up
making a lot of word lists and key word lists if you're interested in making databases
of key
words. It is theoretically possible to put any number of files into a folder, but accessing them
seems to slow down after there are more than about 500 in a folder. Use the batch facility to
produce very large numbers of word list or key words files. I would recommend using a 
\keywords folder to store .kdb files, and \keywords\genre1, \keywords\genre2, etc.
for the .kws files for each genre.
See also: finding source texts
.
11.18
formulae
For computing collocation strength, we can use
the joint frequency of two words: how often they co-occur, which assumes we have an idea of how
far away counts as "neighbours". (If you live in London, does a person in Liverpool count as a
neighbour? From the perspective of Tokyo, maybe they do. If not, is a person in Oxford?
Heathrow?)
the frequency word 1 altogether in the corpus
the frequency of word 2 altogether in the corpus
the span or horizons
we consider for being neighbours
the total number of running words in our corpus: total tokens
Mutual Information
Log to base 2 of (A divided by (B times C))
where 
A = joint frequency divided by total tokens
B = frequency of word 1  divided by total tokens
C = frequency of word 2  divided by total tokens
MI3
Log to base 2 of ((J cubed) times E divided by B)
where 
J = joint frequency
F1 = frequency of word 1
F2 = frequency of word 2
E = J + (total tokens-F1) + (total tokens-F2) + (total tokens-F1-F2)
B = (J + (total tokens-F1)) times (J + (total tokens-F2))
20
76
166
320
122
323
Reference
© 2010 Mike Scott
T Score
((X divided by total tokens) - X) divided by (square root of (J)) 
where 
J = joint frequency
F1 = frequency of word 1
F2 = frequency of word 2
X = F1 times F2
Z Score
(J - E) divided by the square root of (E times (1-P))
where 
J = joint frequency
S = collocational span
F1 = frequency of word 1
F2 = frequency of word 2
P = F2 divided by (total tokens - F1)
E = P times F1 times S
Dice Coefficient
(J times 2) divided by (F1 + F2)
where 
J = joint frequency
F1 = frequency of word 1 or corpus 1 word count
F2 = frequency of word 2 or corpus 2 word count
Ranges between 0 and 1.
Log Likelihood
based on Oakes
p. 170-2.
2 times (
a Ln a + b Ln b + c Ln c + d Ln d
- (a+b) Ln (a+b)
- (a+c) Ln (a+c)
- (b+d) Ln (b+d)
- (c+d) Ln (c+d)
+ (a+b+c+d) Ln (a+b+c+d)
)
where 
a = joint frequency
b = frequency of word 1
c = frequency of word 2
d := frequency of pairs involving neither w1 nor w2
and "Ln" means Natural Logarithm
309
324
WordSmith Tools
© 2010 Mike Scott
See also: this link from Lancaster University
Mutual Information
11.19
HistoryList
History List: many of the combo-boxes in WordSmith like this one for choosing a search-word 
remember what you type in so you can look
them up by pressing the down arrow at the right.
11.20
HTML, SGML and XML
These are formats for text exchange. The most well known is HTML, Hypertext Markup Language,
used for distributing texts via the Internet. SGML is Standard Generalized Markup Language, used
by publishers and the BNC
; XML is Extensible Markup Language, intermediate between the other
two.
All these standards use 
plain text
with additional extra tags, mostly angle-bracketed, such as
<h1> and </h1>. The point of inserting these tags is to add extra sorts of information to the text:
1
a header (
<head>
) supplying details of the authorship & edition
2
how it should display (e.g. 
<bold>, <italics>
)
3
what the important sections are (
<h1>
marks a heading, 
<body>
is the body of the text)
4
how special symbols should display (&eacute corresponds to é)
See also: 
Overview of Tags
11.21
hyphens
The character used to separate words. The item "self-help" can be considered as 2 words or 1 word,
depending on Language Settings
.
206
88
83
325
Reference
© 2010 Mike Scott
11.22
international versions
WordSmith can operate with a series of interfaces depending on the language chosen.
If you choose French this is what you see in all of WordSmith.
See also: acknowledgements
308
326
WordSmith Tools
© 2010 Mike Scott
11.23
limitations
The programs in  WordSmith Tools can handle virtually unlimited amounts of text. They can read
text from CD-ROMs, so giving access to corpora containing many millions of words. In practice,
the limits are reached by a) 
storage
and b) patience.
You can have as many copies of each Tool running at any one time as you like. Each one allows
you to work on one set of data.
Tags to ignore
or ones containing an asterisk can span up to 1,000 characters.
When searching for tags to determine whether your text files meet certain requirements
, only
the first 2 megabytes of text are examined. For Ascii that's 2 million characters, for Unicode 1
million.
Tip
Press F9 to see the "About" box -- it shows the version date and how much memory
you have
available. If you have too little memory left, try a) closing down some applications, b) closing
WordSmithTools and re-entering.
See also: Specific Limitations of each Tool
11.24
tool-specific limitations
Concord limitations
You can compute a virtually unlimited number of lines of concordance using Concord.
Concord allows 80 characters for your 
search-word or phrase
, though you can specify an
unlimited number of concordance search-words in a 
search-word file
.
Each concordance can store an unlimited number of collocates with a maximum 
horizon
of 25
words to left and right of your search-word.
WordList limitations
A head entry can hold thousands of 
lemmas
, but you can only join up to 20 items in one go
using F4. Repeat as needed.
Detailed Consistency
lists can handle up to 50 files.
KeyWords limitations
One key-word plot per key-word display. (If you want more, call up the same file in a new display
window.)
number of 
link
-windows per key-word 
plot
display: 20.
number of windows of 
associates
per key key-word display: 20.
Splitter limitations
Each line of a large text file can be up to 10,000 characters in length. That is, there must be an
<Enter> from time to time!
Text Converter limitations
There can be up to 500 strings to search-and-replace for each.
334
88
91
334
326
107
109
122
190
184
170
172
159
Documents you may be interested
Documents you may be interested