display pdf in browser from byte array c# : Rotate single page in pdf file software control cloud windows web page html class 1361039_wordsmith25-part203

237
Utility Programs
© 2010 Mike Scott
10
Utility Programs
10.1
Convert Data from Previous Versions
10.1.1
Convert Data from Previous Versions
As WordSmith Tools develops, it has become necessary to store more data along with any given
word-list, concordance etc. For example, data about which language
(s) were selected for a
concordance, notes
now stored with every type of results file, etc. Therefore it has been
necessary to supply a tool to convert data from the formats used in WS 1.0 to 3.0 (last millennium)
to the new format for the current version.
This is the Data Converting tool.
If you try to open a file made with a previous version you should be offered a chance to convert it
first.
Note: as WordSmith develops, its saved data may get more complex in format. A concordance
saved by WordSmith 5 cannot be guaranteed to be readable by WordSmith 4 for that reason.
10.2
WebGetter
10.2.1
overview
The point of it
The idea is to build up your own corpus of texts, by downloading web pages with the help of a
search engine.
What you do
Just type a word or phrase, check the language, and press Download.
How it works
WebGetter visits the search engine you specify and downloads the first 1000 sources or so.
Basically it uses the search engine just as you do yourself, getting a list of useful references. Then
it sends out a robot to visit each web address and download the web page in each case (not from
the search engine's cache but from the original web-site). Quite a few robots may be out there
searching for you at once -- the advantage of this is that one slow download doesn't hold all the
others up.
38
25
Rotate single page in pdf file - rotate PDF page permanently in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Empower Users to Change the Rotation Angle of PDF File Page Using C#
how to rotate all pages in pdf; how to change page orientation in pdf document
Rotate single page in pdf file - VB.NET PDF Page Rotate Library: rotate PDF page permanently in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
PDF Document Page Rotation in Visual Basic .NET Class Application
rotate pdf pages; rotate individual pdf pages reader
238
WordSmith Tools
© 2010 Mike Scott
After downloading a web page, that WebGetter robot checks it meets your requirements (in 
Settings
) and cleans up the resulting text. If the page is big enough, a file with a name very
similar to the web address will be saved to your hard disk.
When it runs out of references, WebGetter re-visits the search engine and gets some more.
See also: Settings
Display
Limitations
10.2.2
settings
238
238
239
241
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
using RasterEdge.XDoc.PDF; How to VB.NET: Delete a Single PDF Page from PDF File. This is a VB .NET example for how to delete a single page from a PDF document.
rotate individual pages in pdf; rotate pdf pages by degrees
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
x86. Demo Code: How to Delete a Single PDF Page from PDF File in C#.NET. How to delete a single page from a PDF document. String
rotate single page in pdf reader; how to rotate all pages in pdf in preview
239
Utility Programs
© 2010 Mike Scott
Language
Choose the language you require from the drop-down list.
Search Engine
The search engine box allows you to choose for example www.google.com.br
for searches on
Brazilian Portuguese or www.google.fr
for French. That is a better guarantee of getting text in the
language you require!
Folder and Time-out
where the texts are to be stored. By defaults it is the \wsmith5 folder stemming from your
My Documents. The folder you specify will act as a root. That is, if you specify c:\temp
and search for "besteirol", results will be stored in c:\temp\besteirol. If you do another
search on say "WordSmith Tools", results for that will go into c:\temp\WordSmith
Tools.
timeout: the number of seconds after which WebGetter robot stops trying a given webpage if
there's no response. Suggested value: 50 seconds.
Requirements
minimum file length (suggested 20Kbytes): the minimum size for each text file downloaded
from the web. Small ones may just contain links to a couple of pictures and nothing much
else.
minimum words (suggested: 300): after each download, WebGetter goes through the
downloaded text file counting the number of words and won't save unless there are enough.
required words: you may optionally type in some words which you require to be present in
each download; you can insist they all be present or any 1 of these.
Clean-up
If you want all the HTML markup removed, you can check this box, setting a suitable span between
< and > markers, 1000 recommended. 
Advanced Options
If you work in an environment with a "Proxy Server", WebGetter will recognise this automatically
and use the proxy unless you uncheck the relevant box. If in doubt ask your network administrator.
You can specify the whole search URL and terms string yourself if you like with a box in the
Advanced options.
See also: Display
Limitations
10.2.3
display
As WebGetter works, it shows the URLs visited. If greyed out, they were too small to be of use or
haven't been contacted yet. 
There is a tab giving access to a list of the successfully downloaded files which will show something
239
241
VB.NET PDF File Merge Library: Merge, append PDF files in vb.net
This guiding page will help you merge two or more PDF documents into a single one in a Visual Basic .NET imaging application.
rotate single page in pdf; how to rotate pdf pages and save
C# PDF File Merge Library: Merge, append PDF files in C#.net, ASP.
PDF file to the end of another and save to a single PDF file. NET document imaging toolkit, also offers other advanced PDF document page processing and
rotate all pages in pdf and save; pdf rotate pages and save
240
WordSmith Tools
© 2010 Mike Scott
like this.
Double-click a file to view and, if you like, edit it in Notepad.
The URLS list looks like this
How to C#: Basic SDK Concept of XDoc.PDF for .NET
insert, delete, re-order, copy, paste, cut, rotate, and save or query data and save the PDF document. The PDFPage class presents a single page in a PDFDocument
pdf save rotated pages; pdf reverse page order online
VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
C#.NET PDF file & pages edit, C#.NET PDF pages extract, copy, paste, C#.NET rotate PDF pages, C# Users can view PDF document in single page or continue
change orientation of pdf page; rotate pdf pages and save
241
Utility Programs
© 2010 Mike Scott
Just double-click an URL to view it in your browser.
See also: Settings
Limitations
10.2.4
limitations
Everything depends on the search engine and the search terms you use. The Internet is a huge
noticeboard; lots of stuff on it is merely ads and catalogue prices etc. The search terms are
collected by the search engines by examining terms inserted by the web page author. There is no
guarantee that the web pages are really "about" the term you specify, though they should be
roughly related in some way.
Use the Settings
to be demanding about what you download, e.g. in requiring certain words or
phrases to be present.
See also: Display
238
241
238
239
VB.NET PDF File & Page Process Library SDK for vb.net, ASP.NET
With VB.NET PDF SDK, PDF document page can be rotated to 90, 180, and 270 in clockwise. Both a single page and whole file pages can be rotated and saved as
rotate pdf page permanently; rotate pdf page few degrees
C# PDF Convert to Tiff SDK: Convert PDF to tiff images in C#.net
TIFF conversion control, C# developers can render and convert PDF document to TIFF image file with no loss in original file quality. Both single page and multi
rotate pdf pages on ipad; saving rotated pdf pages
242
WordSmith Tools
© 2010 Mike Scott
10.3
Corpus Corruption Detector
10.3.1
Aim
The purpose is to check whether one or more of your text files in your corpus doesn't belong. This
could be because 
it has got corrupted so what used to be good text is now just random characters or has got cut
much shorter because of disk problems
it isn't even in the same language as the rest of the corpus
The tool works in any language. It does it by using a known sample of good text (in whatever
language) and comparing that good text with all your corpus.
See also : How to do it
10.3.2
How it works
1. Choose a set of "known good text files" which you're sure of. The program uses these to evaluate
the others.
When you click the button for known good text files, you can choose a number. You might choose
20 good ones so as to get a lot of information about what your corpus is like.
2. Choose your corpus head folder and check the "include sub-folders" box if your corpus spreads
over that folder and sub-folders.
3. The program will anyway look out for oddities such as a text file which has holes in it, eg. where
the system thinks it's 1000 characters long but there are only 700. 
4. If you check the "digraph check" box it will additionally check that the pairs of letters (digraphs)
are of roughly the right frequency in each text file. For example there should be a lot of TH
combinations if your text is in English, and no QF combinations. If you are working with a corpus in
Portuguese and your text files are in Portuguese too, of course the digraphs will be different, and TH
won't be frequent. The program ignores punctuation. 
242
243
Utility Programs
© 2010 Mike Scott
5. If you are doing a digraph check you can vary certain parameters such as how much variation
there may be between the frequencies of the digraphs (a sensible setting for "frequency variation per
1000" could be 30 (in other words 3%)), and "percent fail allowed" (which might be set at say 25 --
this means that up to 25% of the digraph pairs may be out of balance before an alert is sounded).
6. Press Start.
You will see the progress bar moving forward.
If you see a file-name in the top-left box, a click on it will indicate why it was found questionable.
Double-clicking it will open up the text in the window below so you can examine it carefully. 
Filenames of possibly corrupted texts are yellow if the basic check fails, and cream-coloured if the
reason is because of a diagraph mis-match.
In the screenshot, PEN000884.txt is problematic because the file-size on disk is 2591 (there should
be 2591 characters) but there are only 158, as shown in the statusbar at the bottom.
In the case of PEOP020151.txt, the text appears below (after double-clicking the list),
244
WordSmith Tools
© 2010 Mike Scott
and the status bar says the tool has found an imbalance in the digraphs. The text itself has a lot of
blank space at the top but otherwise looks OK (it is supposed to be in Spanish) but the detector
has flagged it up as possibly defective.
10.4
Languages Chooser
10.4.1
Overview
A tool for selecting Languages which you want to process.
You will probably only need to do this once, when you first use WordSmith Tools.
How to get here
The Language Chooser is accessed from the main WordSmith Controller menu: Settings | Adjust
Settings | Text and Languages | Other Languages.
What you will see may look like this:
245
Utility Programs
© 2010 Mike Scott
5 languages have been chosen already. 
At the bottom you will see what the current font can handle, in terms of Windows ANSI or Unicode
text. The Courier New font on the PC this was done on can handle characters in Windows for
Western and Eastern Europe, Cyrillic etc., as well as several ranges within the Unicode standard.
See also : Language
Font
Sort Order
Other Languages
saving your choices
10.4.2
Language
How to get here
The Language Chooser is accessed from the main WordSmith Controller menu: Settings | Adjust
Settings | Text and Languages | Other Languages.
What it does
The list of languages on the left shows all those which are supported by the PC you're using. If
any of them are greyed, that's because although they are "supported" by your version of Windows,
245
247
247
248
249
246
WordSmith Tools
© 2010 Mike Scott
they haven't been installed in your copy of Windows. (To install more multilingual support, you will
need your original Windows cdrom or may be able to find help on the Internet.) 
On the right, there are the currently chosen languages for use with WordSmith. The default
language should be marked #1 and others which you might wish to use with *. For each Chosen
Language, you can specify any symbols which can be included within a word, e.g. the apostrophe
in English, where it makes more sense to think of "don't" as one word than as "don" and "t". You
can also specify whether a hyphen separates words or not (e.g. whether "self-conscious" is to be
considered as 2 words or 1).
To change the status of a chosen language, right-click. This user is about to make Russian the #1
default. To delete any unwanted language, right-click and choose "demote". To add a language,
drag it from the left window to the right, then set the country and font you prefer for that particular
language.
Each time you change language, the list of fonts
available changes, and the sorted words
will change their appearance. The window at the bottom shows which characters can be supported
in Unicode or 1-byte format by the highlighted language.
Some languages do not mark word-separators
.
247
247
318
Documents you may be interested
Documents you may be interested