display pdf in iframe mvc : Rotate pdf pages and save control SDK platform web page .net wpf web browser 1361039_wordsmith28-part206

267
Utility Programs
© 2010 Mike Scott
Choose in the listbox and drag to one of the windows to left or right of ->. The string inserted will
conform to the format
.
cutting out a header from each file
It can be useful to get a header removed. In the screenshot example, any text which contains </
teiHeader> will get all the beginning of the file up to that point cut out.
Press OK to start; you will see a list of results, as in the screenshot below.
If you want to stop Text Converter at any time, click on the Stop button or press Escape.
Right-click to see the source or the converted result file:
See also: Text Converter Contents
.
10.8.5
Text Converter: syntax
The syntax for a Conversion File
is:
Only lines beginning / or " are used. Others are ignored completely.
Every string for conversion is of the form "A" -> "B". That is, the original string, the one you're
searching for, enclosed in double quotes, is followed by a space, a hyphen, the > symbol, and the
replacement string.
You can use " (double quotes) and hyphen where you like without any need to substitute them,
but for obvious reasons there must not be a sequence like " -> " in your search or replace
string.
Removing all tags
To remove all tags, choose "<*>" -> "" as your search string.
Control Codes
Control codes can be symbolised like this: {CHR(xxx)} where xxx is the number of the code.
Examples: {CHR(13)} is a carriage-return, {CHR(10)} is a line-feed, {CHR(9)} is a tab. To
represent <Enter> which comes at the end of paragraphs and sometimes at the end of each line,
you'd type {CHR(13)}{CHR(10)} which is carriage-return followed immediately by line-feed.
Use {CHR(34)} if you need to refer to double inverted commas. See search-word syntax
for
278
263
278
107
Rotate pdf pages and save - rotate PDF page permanently in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Empower Users to Change the Rotation Angle of PDF File Page Using C#
pdf rotate one page; rotate individual pages in pdf reader
Rotate pdf pages and save - VB.NET PDF Page Rotate Library: rotate PDF page permanently in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
PDF Document Page Rotation in Visual Basic .NET Class Application
rotate one page in pdf reader; rotate all pages in pdf preview
268
WordSmith Tools
© 2010 Mike Scott
more.
Wildcards
You may use the same wildcards as in Concord search-word syntax
. To show a character is to
be taken literally, put it in quotes (e.g. "*","<").  See below for use of the /L parameter.
Whole word, case Insensitive, Confirm, redundant Spaces, redundant
<Enter>s
/C stops to confirm you wish to go ahead before each change.
/W does a whole word search (ensuring the alteration only happens if there's a word separator
on either side) (/W "the" finds the but not other or then or bathe).
/I does a case insensitive search (/I "restaurant" -> "hotel" replaces restaurant with hotel and
RESTAURANT with HOTEL and Restaurant with Hotel, i.e. respecting case as far as possible). 
You can combine these, e.g. 
/IWC "the" -> "this"
/S cuts out all redundant spaces. That is, it will reduce any sequence of two or more spaces to
one, and it also removes some common formatting problems such as a lone space after a carriage-
return or before punctuation marks such as .,; and ). /S can be used on a line of its own or in
combination with other searches.
/E cuts out all redundant <Enter>s. That is, it will reduce any sequence of two or more carriage-
return+line-feeds (what you get when you press Enter or Return) to one. /E can be used on a line of
its own or in combination with other searches.
/L means both the search and replace strings are to be taken as literal. (Normally a sequence like
<#*> would need quotes around each character, thus "<""#""*"">" which is tricky! Put /L at
the start of the line to avoid this.)
See  Documents\wsmith5 \convert.txt to see examples in use.
See also: Text Converter Contents
.
10.8.6
Convert within the text file
Your choices here are 4:
1. cut out a header
107
318
263
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
doc.Save(outPutFilePath). How to VB.NET: Delete Consecutive Pages from PDF. This is a VB .NET example for how to delete a range of pages from a PDF document.
rotate single page in pdf reader; rotate single page in pdf file
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
doc.DeletePage(2); // Save the file. doc.Save(outPutFilePath); Demo Code: How to Delete Consecutive Pages from PDF in C#.NET. How
rotate pdf pages by degrees; reverse page order pdf online
269
Utility Programs
© 2010 Mike Scott
and/or 
2. make one change only 
3. insert numbering
4. use a script to determine a whole set of changes. There is an sample
to see.
If you make one change only you type something into the left box which gets replaced by what is in
the right box. In the case above Dorothy will get changed to <Tab>+Dorothy, that is, the word
Dorothy will get a tab inserted to its left. The tab was inserted simply by dragging it to the box above
it, and when that happened {CHR(9)} appeared automatically being the syntax for a <Tab>. If you
know the decimal number for a character you can specify it as {CHR(n)} or simply #n where n
represents your number.
It might be best to check the confirm each box too if there's any danger of confusing two different
Dorothies with each other. The box which is  checked will get rid of excessive <Enter>s. 
Insert numbering
This allows you to insert paragraph numbering into your corpus texts. When you click the 
specify numbering button you'll get options like these:
277
C# PDF Page Insert Library: insert pages into PDF file in C#.net
how to merge PDF document files by C# code, how to rotate PDF document page doc2.Save(outPutFilePath Add and Insert Multiple PDF Pages to PDF Document Using
pdf rotate pages and save; how to rotate pdf pages and save permanently
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
Able to extract PDF pages and save changes to original PDF file in C#.NET. C#.NET Sample Code: Extract PDF Pages and Save into a New PDF File in C#.NET.
pdf rotate page and save; save pdf rotated pages
270
WordSmith Tools
© 2010 Mike Scott
With these choices, for each of your texts, a string like <para "1"><para "2"> etc. will
get inserted at its start if the paragraph has at least 50 characters. The "only if containing" box
allows you to specify that numbers only get inserted into paragraphs containing  a particular
(case-sensitive) string of your choice, such as Ulan Bator.  
Paragraphs here are identified simply as sequences ending in one <Enter>.
See also: convert whole file
sample conversion file
syntax
Text Converter Contents
.
10.8.7
Convert format of entire text files
To convert a series of whole text files from one format to another, choose one or more of these
options:
270
277
267
263
VB.NET PDF Page Insert Library: insert pages into PDF file in vb.
outPutFilePath As String = Program.RootPath + "\\" Output.pdf" Dim doc1 doc2.InsertPages(pages, pageIndex) ' Output the new document doc2.Save(outPutFilePath
pdf reverse page order preview; how to change page orientation in pdf document
C# Create PDF from Tiff Library to convert tif images to PDF in C#
Similarly, Tiff image with single page or multiple pages is supported. Description: Convert to PDF and save it on the disk. Parameters:
pdf rotate page; rotate one page in pdf
271
Utility Programs
© 2010 Mike Scott
These formats allow you to convert into formats which will be suited to text processing. 
into Unicode:
.... this is a better standard than ANSI as it allows many more characters to be used, suiting lots
C# Create PDF from Word Library to convert docx, doc to PDF in C#.
Able to get word count in PDF pages. Change Word hyperlink to PDF hyperlink and bookmark. Description: Convert to PDF/TIFF and save it on the disk.
rotate all pages in pdf; permanently rotate pdf pages
C# PDF Convert to Tiff SDK: Convert PDF to tiff images in C#.net
Description: Convert to DOCX/TIFF with specified zoom value and save it into stream. Parameters: zoomValue, The magnification of the original PDF page size.
rotate all pages in pdf file; pdf reverse page order online
272
WordSmith Tools
© 2010 Mike Scott
of languages. This is UTF16 Unicode, 2 bytes for each character. (UTF8, a format which was
devised for many languages some years ago when disk space was limited and character encoding
was problematic, is generally not suitable. That's because it uses a variable number of bytes to
represent the different characters. A to Z will be only 1 byte but for example Japanese characters
may well need 2, 3 or even more bytes to represent one character.)
TXT file extensions:
... makes the filename end in .txt (so that Notepad will open without hassling you; Windows was
baffled by the empty filenames of the BNC editions prior to the XML edition). If you choose this you
will be asked whether to force .txt onto all files regardless, or only ones which have no file
extension at all.
curly quotes etc.:
... changes any curly single or double quote marks or apostrophes into straight ones, ellipses into
three dots, and dashes into hyphens. (Microsoft's curly apostrophes differ from straight ones.) 
DOS to Windows: 
.. choose the "codepage" that your old DOS texts were encoded with, eg. DOS 850 Multilingual.
Unix to Windows: 
... Unix-saved texts don't use the same codes for end-of-paragraph as Windows-saved ones.
from Adobe PDF
... into plain text. Not guaranteed to work with every .PDF as formats have changed and some are
complex.
from MS Word or Excel to .txt
... like using "Save as Text" in Word or Excel. Handles .doc, .docx
(Office 2007) and .
xls files. 
340
273
Utility Programs
© 2010 Mike Scott
entities to characters using:
... converts HTML or XML symbols which are hard to read such as &eacute; to ones like é.
Specify these in a text file: html_entities.txt comes with WordSmith so is in your
Documents\wsmith5 folder; look inside and you'll see the syntax.
from column tagged, using <> except column
... The Stuttgart Tree Tagger
produces output like this separating 3 aspects of each word with a
<tab>:
word
pos
lemma
The
DT
the
TreeTagger
NP
TreeTagger
is
VBZ
be
easy
JJ
easy
to
TO
to
use
VB
use
.
SENT
.
If you set the column to 1, Text Converter will convert this to
The<DT><the> TreeTagger<NP><TreeTagger> is<VBZ><be> easy<JJ><easy> to<TO><to> use<VB><use> .<SENT><.>
(it will present the text as running text, no longer in columns, but with a break every 80 characters.)
word_tag to word<tag> mark-up
... converts text like 
It_PP is_VBZ easy_JJ
to
It<PP> is<VBZ> easy<JJ>
Note: before it starts, it will clear out any existing <> markup.
word_TAG to <TAG>word mark-up
The Helsinki corpus
can come tagged like this (COCOA tags)
the_D occasion_N of_P her_PRO$ father's_N$ death_N
and this conversion procedure will change it to
<D>the <N>occasion <P>of <PRO$>her <N$>father's <N>death
274
WordSmith Tools
© 2010 Mike Scott
Note: this procedure does not affect underscores within existing <> markup.
swap tag and word except for
... converts text like 
It<PP> is<VBZ> easy<JJ>
to 
<PP>It <VBZ>is <JJ>easy
or vice-versa. In other words swapping the order of tags and words. The procedure effects a swap at
each space in the non-tagged text sequence.
Fill in the box to the right with any tags which should not be included in the swap, using commas
to separate them, for example sentence and paragraph tags such as <s>,</s>,<p>,</p>
removing all tags
... would convert The<DT><the> TreeTagger<NP><TreeTagger> is<VBZ>... into The
Treetagger is. Can plough through a copy of the whole BNC, for example, and make it
readable. If you have specified a header string it will cut the header up to that point too. Uses the
selected span for looking for the next > when it finds a <.
lemmatised using ...
... converts each file using a lemma file
. Where your source text has "she was tired" and
your lemma file has BE -> AM, WAS, WERE, IS, ARE, then you will get "she be tired" in
your converted text file. Where your source text has "Was she tired?" you'll get "Be she
tired?"
removing line-breaks
... replaces every end of line line-break with a space. Preserves any true paragraph breaks, which
you must ensure are defined (default = <Enter><Enter> -- in other words two line-breaks one
after the other with no words between them).
encrypting using
... allows you to encrypt your text files. You supply your own password. When WordSmith
processes your text files, e.g. when running a concordance it will restore the text as needed but
otherwise the text will be unintelligible. Encrypted files get the file extension .WSencrypted. For
example, if your original is wonderful.txt the copy will be wonderful.WSencrypted.
Requires the safer copy to button above to be selected.
192
275
Utility Programs
© 2010 Mike Scott
See also: convert within text files
MS Word documents
Guide to handling the BNC
10.8.8
Text Converter filtering: move if
This function allows you to specify a word or phrase, look for it in each file, and if it's found move
that file into a new folder. 
The point of it …
Suppose you have a whole set of files some of which contain dialogues between Pip and
Magwich, others containing references to the Great Wall of China or the anatomy of fleas. You
want those with the Pip-Magwich dialogues and you want them to go into a folder called 
Expectations.
How to do it
1. Click on the Filters tab (at the top). 
2. Now the Activated checkbox.
268
340
276
WordSmith Tools
© 2010 Mike Scott
3. Specify a word or phrase the text must contain. This is case sensitive. In this case Magwich
has been specified.
4. Choose whether that word or phrase has to be found 
anywhere in the text, 
anywhere before some other word or phrase, or
between 2 different words or phrases.
5. Decide what happens if the conditions are met:
nothing, i.e. ignore that text file 
copy to a certain folder, or
move to that folder, or 
delete the file (careful!).
You can also decide to build a sub-folder based on the word or phrase you chose in #3. (The idea
is to get your corpus split up into useful sub-folders whose names mean something to you.) 
And you may have the program add .txt (useful if as with the BNC
World Edition there are no file
extensions) and/or convert it to Unicode.
You could also have any texts not containing the word Magwich copied to a specified folder.  
The load BNC World  and load BNC XML  buttons are specific to those two editions of the BNC and
read text files with similar names which you will find in your Documents\wsmith5 folder.
See also: Text Converter Contents
.
263
Documents you may be interested
Documents you may be interested