c# open pdf file in adobe reader : Delete page on pdf application Library tool html .net asp.net online tm1-part1470

getTokenizers
11
Details
read_dtm_Blei_et_al reads the (List of Lists type sparse matrix) format employed by the La-
tent Dirichlet Allocation and Correlated Topic Model C codes by Blei et al (http://www.cs.
princeton.edu/~blei).
MCis a toolkitfor creating vector models from text documents (seehttp://www.cs.utexas.edu/
users/dml/software/mc/). ItemploysavariantofCompressedColumnStorage(CCS)sparse
matrix format, writing data into several files with suitable names: e.g., a file with ‘_dim’ appended
to the base file name stores the matrix dimensions. The non-zeroentries are stored ina file the name
of which indicates the scaling type used: e.g., ‘_tfx_nz’ indicates scaling by term frequency (‘t’),
inverse document frequency (‘f’) and no normalization (‘x’). See ‘README’ in the MC sources for
more information.
read_dtm_MC reads such sparse matrix information with argument file giving the path with the
base file name.
Value
Adocument-termmatrix.
See Also
read_stm_MCinpackageslam.
getTokenizers
Tokenizers
Description
Predefined tokenizers.
Usage
getTokenizers()
Value
Acharacter vector with tokenizers provided by package tm.
See Also
MC_tokenizerand scan_tokenizer.
Examples
getTokenizers()
Delete page on pdf - remove PDF pages in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Provides Users with Mature Document Manipulating Function for Deleting PDF Pages
add and delete pages from pdf; delete page from pdf
Delete page on pdf - VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Visual Basic Sample Codes to Delete PDF Document Page in .NET
delete page pdf acrobat reader; delete a page from a pdf reader
12
inspect
getTransformations
Transformations
Description
Predefined transformations (mappings) which can be used withtm_map.
Usage
getTransformations()
Value
Acharacter vector with transformations provided by package tm.
See Also
removeNumbers, removePunctuation, removeWords, stemDocument,and stripWhitespace.
content_transformertocreatecustomtransformations.
Examples
getTransformations()
inspect
Inspect Objects
Description
Inspect, i.e., display detailed information on a corpus or a term-document matrix.
Usage
## S3 method for class PCorpus
inspect(x)
## S3 method for class VCorpus
inspect(x)
## S3 method for class TermDocumentMatrix
inspect(x)
Arguments
x
Either a corpus or a term-document matrix.
C# PDF File & Page Process Library SDK for C#.net, ASP.NET, MVC
C# File: Merge PDF; C# File: Split PDF; C# Page: Insert PDF pages; C# Page: Delete PDF pages; C# Read: PDF Text Extract; C# Read: PDF
delete pages from pdf preview; delete page pdf
C# PDF Page Insert Library: insert pages into PDF file in C#.net
page processing functions, such as how to merge PDF document files by C# code, how to rotate PDF document page, how to delete PDF page using C# .NET, how to
delete pages out of a pdf file; delete blank pages in pdf
meta
13
Examples
data("crude")
inspect(crude[1:3])
tdm <- TermDocumentMatrix(crude)[1:10, 1:10]
inspect(tdm)
meta
Metadata Management
Description
Accessing and modifying metadata of text documents and corpora.
Usage
## S3 method for class PCorpus
meta(x, tag = NULL, type = c("indexed", "corpus", "local"), ...)
## S3 replacement method for class PCorpus
meta(x, tag, type = c("indexed", "corpus", "local"), ...) <- value
## S3 method for class VCorpus
meta(x, tag = NULL, type = c("indexed", "corpus", "local"), ...)
## S3 replacement method for class VCorpus
meta(x, tag, type = c("indexed", "corpus", "local"), ...) <- value
## S3 method for class PlainTextDocument
meta(x, tag = NULL, ...)
## S3 replacement method for class PlainTextDocument
meta(x, tag = NULL, ...) <- value
## S3 method for class XMLTextDocument
meta(x, tag = NULL, ...)
## S3 replacement method for class XMLTextDocument
meta(x, tag = NULL, ...) <- value
DublinCore(x, tag = NULL)
DublinCore(x, tag) <- value
Arguments
x
For DublinCore aTextDocument, and for meta aTextDocument or aCorpus.
tag
acharacter giving the name of a metadatum. No tag corresponds to allavailable
metadata.
type
acharacter specifying the kind of corpus metadata (see Details).
...
Not used.
value
replacement value.
VB.NET PDF Page Insert Library: insert pages into PDF file in vb.
PDF: Insert PDF Page. VB.NET PDF - How to Insert a New Page to PDF in VB.NET. Easy to Use VB.NET APIs to Add a New Blank Page to PDF Document in VB.NET Program.
delete pages of pdf; acrobat export pages from pdf
C# PDF remove image library: remove, delete images from PDF in C#.
C# File: Merge PDF; C# File: Split PDF; C# Page: Insert PDF pages; C# Page: Delete PDF pages; C# Read: PDF Text Extract; C# Read: PDF
delete a page from a pdf online; delete pages of pdf reader
14
PCorpus
Details
Acorpus has two types of metadata. Corpus metadata ("corpus") contains corpus specific meta-
data in form of tag-value pairs. Document level metadata ("indexed") contains document specific
metadata but is stored in the corpus as a data frame. Document level metadata is typically used
for semantic reasons (e.g., classifications of documents form an own entity due to some high-level
information like the range of possible values) or for performance reasons (single access instead of
extracting metadata of each document). The latter can be seen as a from of indexing, hence the
name "indexed". Document metadata ("local") are tag-value pairs directly stored locally at the
individual documents.
DublinCore is a convenience wrapper to access and modify the metadata of a text document us-
ing the Simple Dublin Core schema (supporting the 15 metadata elements from the Dublin Core
Metadata Element Sethttp://dublincore.org/documents/dces/).
References
Dublin Core Metadata Initiative.http://dublincore.org/
See Also
metaformetadatainpackageNLP.
Examples
data("crude")
meta(crude[[1]])
DublinCore(crude[[1]])
meta(crude[[1]], tag = "topics")
meta(crude[[1]], tag = "comment") <- "A short comment."
meta(crude[[1]], tag = "topics") <- NULL
DublinCore(crude[[1]], tag = "creator") <- "Ano Nymous"
DublinCore(crude[[1]], tag = "format") <- "XML"
DublinCore(crude[[1]])
meta(crude[[1]])
meta(crude)
meta(crude, type = "corpus")
meta(crude, "labels") <- 21:40
meta(crude)
PCorpus
Permanent Corpora
Description
Create permanent corpora.
VB.NET PDF delete text library: delete, remove text from PDF file
VB.NET: Delete a Character in PDF Page. It demonstrates how to delete a character in the first page of sample PDF file with the location of (123F, 187F).
delete a page from a pdf acrobat; best pdf editor delete pages
VB.NET PDF remove image library: remove, delete images from PDF in
C# File: Split PDF; C# Page: Insert PDF pages; C# Page: Delete PDF pages; C# Read: PDF Text Extract; Delete image objects in selected PDF page in ASPX webpage.
delete page from pdf online; add and delete pages in pdf online
PCorpus
15
Usage
PCorpus(x,
readerControl = list(reader = reader(x), language = "en"),
dbControl = list(dbName = "", dbType = "DB1"))
Arguments
x
ASource object.
readerControl a named list of control parameters for reading in content from x.
reader a functioncapable of reading inand processing the format delivered by
x.
language a character givingthe language(preferablyas
IETF
languagetags, see
languageinpackageNLP).ThedefaultlanguageisassumedtobeEnglish
("en").
dbControl
anamed list of control parameters for the underlying database storage provided
by package filehash.
dbName a character giving the filename for the database.
dbType a character giving the database format (seefilehashOptionfor possi-
ble database formats).
Details
Apermanent corpus stores documents outside of R in a database. Since multiple PCorpus R ob-
jects with the same underlying database can exist simultaneously in memory, changes in one get
propagated to all corresponding objects (in contrast to the default R semantics).
Value
An object inheriting from PCorpus and Corpus.
See Also
Corpusforbasicinformationonthecorpusinfrastructureemployedbypackagetm.
VCorpusprovidesanimplementationwithvolatilestoragesemantics.
Examples
txt <- system.file("texts", "txt", package = "tm")
## Not run: PCorpus(DirSource(txt),
dbControl = list(dbName = "pcorpus.db", dbType = "DB1"))
## End(Not run)
C# PDF delete text Library: delete, remove text from PDF file in
C#.NET Sample Code: Delete Text from Specified PDF Page. The following demo code will show how to delete text in specified PDF page. // Open a document.
delete pages from pdf; delete pages pdf file
C# PDF metadata Library: add, remove, update PDF metadata in C#.
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata in .NET Project. Remove and delete metadata from PDF file.
cut pages out of pdf file; delete pages pdf document
16
PlainTextDocument
PlainTextDocument
Plain Text Documents
Description
Create plain text documents.
Usage
PlainTextDocument(x = character(0),
author = character(0),
datetimestamp = as.POSIXlt(Sys.time(), tz = "GMT"),
description = character(0),
heading = character(0),
id = character(0),
language = character(0),
origin = character(0),
...,
meta = NULL,
class = NULL)
Arguments
x
Acharacter giving the plain text content.
author
acharacter or an object of classperson giving the author names.
datetimestamp an object of classPOSIXt or a character string giving the creation date/time in-
formation. If a character string, exactly one of the
ISO
8601 formats defined by
http://www.w3.org/TR/NOTE-datetimeshouldbeused.Seeparse_ISO_8601_datetime
in package NLP for processing such date/time information.
description
acharacter giving a description.
heading
acharacter giving the title or a short heading.
id
acharacter giving a unique identifier.
language
acharacter giving the language (preferably as
IETF
language tags, seelanguage
in package NLP).
origin
acharacter giving information on the source and origin.
...
user-defined document metadata tag-value pairs.
meta
anamed list or NULL (default) giving all metadata. If set all other metadata
arguments are ignored.
class
acharacter vector or NULL (default) giving additional classes to be used for the
created plain text document.
Value
An object inheriting from class, PlainTextDocument andTextDocument.
plot
17
See Also
TextDocumentforbasicinformationonthetextdocumentinfrastructureemployedbypackagetm.
Examples
(ptd <- PlainTextDocument("A simple plain text document",
heading = "Plain text document",
id = basename(tempfile()),
language = "en"))
meta(ptd)
plot
Visualize a Term-Document Matrix
Description
Visualize correlations between terms of a term-document matrix.
Usage
## S3 method for class TermDocumentMatrix
plot(x,
terms = sample(Terms(x), 20),
corThreshold = 0.7,
weighting = FALSE,
attrs = list(graph = list(rankdir = "BT"),
node = list(shape = "rectangle",
fixedsize = FALSE)),
...)
Arguments
x
Aterm-document matrix.
terms
Terms tobeplotted. Defaultsto20randomlychosenterms of the term-document
matrix.
corThreshold
Do not plot correlations below this threshold. Defaults to 0.7.
weighting
Define whether the line width corresponds to the correlation.
attrs
Argument passed to the plot methodfor classgraphNEL.
...
Other arguments passed to thegraphNEL plot method.
Details
Visualization requires that package Rgraphviz is available.
18
readDOC
Examples
## Not run: data(crude)
tdm <- TermDocumentMatrix(crude,
control = list(removePunctuation = TRUE,
removeNumbers = TRUE,
stopwords = TRUE))
plot(tdm, corThreshold = 0.2, weighting = TRUE)
## End(Not run)
readDOC
Read In a MS Word Document
Description
Return a function which reads in a Microsoft Word document extracting its text.
Usage
readDOC(AntiwordOptions = "")
Arguments
AntiwordOptions
Options passed over to antiword.
Details
Formally this function is a function generator, i.e., it returns a function (which reads in a text
document) with a well-defined signature, but can access passed over arguments (e.g., options to
antiword) via lexical scoping.
Note that this MS Word reader needs the tool antiword installed and accessible on your system.
This can convert documents from Microsoft Word version2, 6, 7, 97, 2000, 2002 and 2003 to plain
text, and is available fromhttp://www.winfield.demon.nl/.
Value
Afunction with the following formals:
elem a list with the named component uri which must holda valid file name.
language a string giving the language.
id Not used.
The function returns a PlainTextDocument representing the text and metadata extracted from
elem$uri.
See Also
Readerforbasicinformationonthereaderinfrastructureemployedbypackagetm.
Reader
19
Reader
Readers
Description
Creating readers.
Usage
getReaders()
Details
Readers are functions for extracting textual content and metadata out of elements delivered by a
Source,andforconstructinga TextDocument. Areadermustacceptfollowingargumentsinits
signature:
elem a named list with the components content and uri (as delivered by aSource viagetElem
orpGetElem).
language a character string giving the language.
id a character giving a unique identifier for the created text document.
The element elem is typically providedby a source whereas the language and the identifier are nor-
mally provided by a corpus constructor (for the case that elem$content does not give information
on these two essential items).
In case a reader expects configuration arguments we can use a function generator. A function
generator is indicated by inheriting from class FunctionGenerator and function. It allows us to
process additional arguments, store them in an environment, return a reader function with the well-
defined signature described above, and still be able to access the additional arguments via lexical
scoping. All corpus constructors in package tm check the reader function for being a function
generator and if so apply it to yield the reader with the expected signature.
Value
For getReaders(), a character vector with readers provided by package tm.
See Also
readDOC, readPDF,readPlain, readRCV1, readRCV1asPlain, readReut21578XML, readReut21578XMLasPlain,
readTabular,and readXML.
20
readPDF
readPDF
Read In a PDF Document
Description
Return a function which reads in a portable document format (
PDF
)document extracting both its
text and its metadata.
Usage
readPDF(engine = c("xpdf", "Rpoppler", "ghostscript", "Rcampdf", "custom"),
control = list(info = NULL, text = NULL))
Arguments
engine
acharacter string for the preferred
PDF
extraction engine (see Details).
control
alist of control options for the engine with the named components info and
text (see Details).
Details
Formally this function is a function generator, i.e., it returns a function (which reads in a text docu-
ment) with a well-defined signature, but can access passed over arguments (e.g., the preferred
PDF
extraction engine and control options) via lexical scoping.
Available
PDF
extraction engines are as follows.
"xpdf" (default) command line pdfinfo and pdftotext executables which must be installed and
accessibleonyour system. Suitable utilities are provided bytheXpdf (http://www.foolabs.
com/xpdf/)
PDF
viewer or by the Poppler (http://poppler.freedesktop.org/)
PDF
ren-
dering library.
"Rpoppler" Poppler
PDF
rendering library as provided by the functionsPDF_info andPDF_text
in package Rpoppler.
"ghostscript" Ghostscript using ‘pdf_info.ps’ and ‘ps2ascii.ps’.
"Rcampdf" Perl CAM::PDF
PDF
manipulation library as provided by the functions pdf_info and
pdf_text in package Rcampdf, available from the repository athttp://datacube.wu.ac.
at.
"custom" custom user-provided extraction engine.
Control parameters for engine "xpdf" are as follows.
info a character vector specifying options passed over to the pdfinfo executable.
text a character vector specifying options passed over to the pdftotext executable.
Control parameters for engine "custom" are as follows.
Documents you may be interested
Documents you may be interested