devexpress pdf viewer asp.net mvc : Delete pages of pdf online SDK control API .net web page asp.net sharepoint aquaforestocrsdk1_201-part807

10
5
APIR
EFERENCE
To use the API a reference to Aquaforest.Ocr.Api must be included in your application. If you wish to 
enumerate the OCR results rather than simply generate PDF, RTF or TXT outputs then you will also 
need to add a reference to Aquaforest.Ocr.Definitions.
5.1
PreProcessor Class
A PreProcessor object, which must be created and passed to the Ocr object, controls all of the pre-
processing that can be performed on the input image in order to improve the quality of the output. 
Instantiation of the PreProcessor object will initialise a default set of pre-processing options which 
result in minimal image manipulation. For a full description of the pre-processing options available and 
appropriate values see section 5.1.2 Properties below.
5.1.1
Constructor
PreProcessor preProcessor = new PreProcessor();
5.1.2
Properties
Property
Description
bool Autorotate
Auto-rotate the image – this will ensure all text oriented normally. The 
default value is false (disabled). Note: When using a PDF source 
Autorotation will be disabled on any pages already containing text.
int Binarize
This value should generally only be used under guidance from technical 
support.  It can control the way that color images are processed and 
force binarization with a particular threshold. A value of 200 has been 
shown to generally give good results in testing, but this should be 
confirmed with “typical” customer documents.
int BlankPageThreshold
Use this to set the minimum number of "On Pixels" that must be present 
in the image for a page not to be considered blank. A value of -1 will 
turn off blank page detection. A value of 100 produced reasonable blank 
page detection in testing, but the validity of this should be confirmed 
using “typical” source documents.
int BoxSize
This option is ideal for forms where sometimes boxes around text can 
cause an area to be identified as graphics.  This option removes boxes 
from the temporary copy of the imaged used by the OCR engine.  It 
does not remove boxes from the final image.  Technically, this option 
removes connected elements with a minimum area (in pixels and 
defined by this property).  This option is currently only applied for 
bitonal images.
int Despeckle
Despeckle the image – The method removes all disconnected elements 
within the image that have height or width in pixels less than the 
specified figure.  The maximum value is 9 and the default value is 0.
bool Deskew
Deskew (straighten) the image. The default value is false (disabled).
string Morph
Image Morphology.  This option should generally only be used under 
guidance from technical support. 
Delete pages of pdf online - SDK control API:C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others
www.rasteredge.com
Delete pages of pdf online - SDK control API:VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc
www.rasteredge.com
11
PreProcessor  Class Properties  - Continued
Property
Description
bool NoPictures
By default, if an area of the document is indentified as a graphic area 
then no OCR processing is run on that area.  However, certain 
documents may include areas or boxes that are identified as “graphic” or 
“picture” areas but that actually do contain useful text.  Setting 
NoPictures to false will cause it to ignore areas identified as pictures 
whilst setting it to false will force OCR of areas identified as pictures.
bool RemoveLines
When set to true this will enable the removal of lines. This feature is 
particularly useful where pages contain tables and underlining which 
can prevent the OCR engine from recognising characters. The lines are 
removed only from the image used in OCR and not from the image used 
in the final PDF if PDF creation is enabled.
5.1.3
Methods
Method
Description
ConfigurePDFStamp(string 
prefix, string suffix, 
Nullable<int> start, 
Nullable<int> digits, 
PagePositionEnum position, 
StampType stampType)
Using this method stamps can be configured to be added to each page of 
the PDF output. The stamps contain one or more of the following:
Prefix – a string to be added to the beginning of the stamp, 
before the number section.
Start – the value that the number portion of the stamp should 
start at. The number portion will be incremented by 1 each 
page.
Digits – a value indicating the minimum length that the number 
portion of the stamp should be displayed as. Preceding 0’s will 
be used to pad any numbers less than this whilst numbers 
greater than this will be displayed in full.
Suffix - a string to be added to the end of the stamp, after the 
number section.
Thus a stamp with Prefix = “Beginning”, Start = “1”, Digits = “4” and 
Suffix = “End” would produce the text “Beginning0001End” on the first 
page. Any one of these can be set to null resulting in the exclusion of 
that part from the final text.
Additionally the stamp can be added either as visible searchable text or 
as an image and can be positioned in one of the following:
Top Left
Top Centre
Top Right
Centre Left
Centre
Centre Right
Bottom Left
Bottom Centre
Bottom Right
SDK control API:VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
Easy to delete PDF page in .NET WinForms application and ASPX webpage. Enable specified pages deleting from PDF in Visual Basic .NET class.
www.rasteredge.com
SDK control API:C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
able to delete PDF page in both Visual C# .NET WinForms and ASP.NET WebForms project. Free online C# class source code for deleting specified PDF pages in .NET
www.rasteredge.com
12
5.2
OCR Class
The OCR object is used to control OCR processing, obtain status updates during processing and
retrieve the resulting output from this processing upon completion.
5.2.1
Constructor
Ocr ocr = new Ocr();
5.2.2
Properties
Property
Description
String ResourceFolder
This property can optionally be used to set the location of the resources 
folder when the resources are not located in the same folder as the 
assembly using the API.
SupportedLanguages 
Language
Sets the language to be used for the OCR processing. This takes a value 
from the enumeration SupportedLanguages which is defined in the API.
Default language is English.
bool EnablePDFOutput
Enables or disables the production of Portable Document Format
output. Default value is false (disabled).
bool EnableTextOutput
Enables or disables the production of simple text final output. Default 
value is true (enabled).
bool EnableRTFOutput
Enables or disables the production of Rich Text Format output. Default 
value is false (disabled).
int StartPage
Sets the first page of the source file that the OCR process will be begin 
from (for a multipage source). Throws an 
ArgumentOutOfRangeException if a source file has not been set already 
(by using the ReadBMPSource or ReadTIFFSource method prior to 
setting this property) or if the page is greater than the number of pages 
in the source. By default the whole of the document will be processed.
int EndPage
Sets the last page of the source file that the OCR process will be run to 
(for a multipage source). Throws an ArgumentOutOfRangeException if 
a source file has not been set already (by using the ReadBMPSource or 
ReadTIFFSource method prior to setting this property) or if the page is 
greater than the number of pages in the source. By default the whole of 
the document will be processed.
int CurrentPage
Returns the current page for which the OCR has been performed. This is 
useful only when using Recognize() in another thread.
bool 
HandleExceptionsInternally
When set to true the Ocr object will catch any exceptions for method 
calls and simply return false from the method. The exceptions caught 
are stored in the LastException property overwriting any previous value.
Exception LastException
Stores last exception caught by the Ocr object.
bool EnableConsoleOutput
If enabled then progress messages will be sent to the console. Default is 
false.
SDK control API:C# PDF File & Page Process Library SDK for C#.net, ASP.NET, MVC
C# view PDF online, C# convert PDF to tiff, C# read PDF, C# convert PDF to text, C# extract PDF pages, C# comment annotate PDF, C# delete PDF pages, C# convert
www.rasteredge.com
SDK control API:C# PDF Page Insert Library: insert pages into PDF file in C#.net
document files by C# code, how to rotate PDF document page, how to delete PDF page using C# .NET, how to reorganize PDF document pages and how
www.rasteredge.com
13
OCR Class Properties  - Continued
Property
Description
string TempFolder
Specifies a temporary folder for storing bitmap images and intermediate 
output during OCR processing.  If this is not specified, the first of the 
following environment variables that is defined will be used : TMP, 
TMPDIR, TEMP. 
String License
Specifies the license key
bool EnableConsoleOutput
If set to True, progress messages will be written to the console output.  
Default false.
int EnableDebugOutput
If set to a value greater than 0 (default value) debug messages will be 
written to the console output. Please contact Aquaforest for guidance on 
suitable values if you need to generate debug output.
bool 
RemoveExistingPDFText
RemoveExistingPDFText if set to true will result in the removal of any 
existing text from the output PDF*. 
*Note: when PDF output is generated from a PDF source it is a 
copy of the PDF that is manipulated rather than generating a new 
one. This approach offers several advantages such as potential size 
savings and performance enhancements.
bool 
DeleteTemporaryFilesOnPa
geCompletion
When set to true the temporary files generated for each page during 
OCR processing will be removed as soon as the OCR engine has 
finished with them*. 
*Note: the OCR engine is finished with the temporary files for a 
page as soon as the output for that page is added to the overall 
output. If you wish to use functionality such as ReadPageWords, 
GetPageImage, etc then this will require that the temporary files are 
available for the page requested and so will fail if 
DeleteTemporaryFilesOnPageCompletion is true.
bool Dotmatrix
Set this to true to improve recognition of dot-matrix fonts. Default value 
is false. If set to true for non dot-matrix fonts then the recognition can 
be poor.
5.2.3
Methods
Method
Description
void ReadBMPSource(string fileName)
Checks for the existence of the source file and sets 
up the OCR engine for handling the bitmap image.
void ReadPDFSource(string fileName)
Checks for the existence of the source file and sets 
up the OCR engine for handling the PDF.
void ReadPDFSource(string filename, string 
password)
Checks for the existence of the source file and sets 
up the OCR engine for handling the secure PDF
for which the password is provided. If PDF output 
is generated from this the output will have no 
security settings defined.
SDK control API:VB.NET PDF Page Insert Library: insert pages into PDF file in vb.
add and insert one or multiple pages to existing adobe PDF document in VB.NET. Ability to create a blank PDF page with related by using following online VB.NET
www.rasteredge.com
SDK control API:C# HTML5 PDF Viewer SDK to view PDF document online in C#.NET
C# view PDF online, C# convert PDF to tiff, C# read PDF, C# convert PDF to text, C# extract PDF pages, C# comment annotate PDF, C# delete PDF pages, C# convert
www.rasteredge.com
14
OCR Class Methods  - Continued
Method
Description
void ReadTIFFSource(string fileName)
Checks for the existence of the source file and sets 
up the OCR engine for handling the TIFF image.
void Recognize(PreProcessor preProcessor)
Performs any pre-processing defined in the 
PreProcessor object and then carries out OCR 
processing on the pre-processed image.
Words ReadPageWords(int pagenumber)
Returns an instance of the Words class for the 
specified page.
Words ReadPageWords(int pagenumber, 
Rectangle region)
Returns an instance of the Words class for the 
specified page where the words are fully enclosed 
in the bounds of the region specified.
string ReadPageString(int pagenumber)
Returns a string containing the words from the 
specified page.
string ReadPageString(int pagenumber, Rectangle 
region)
Returns a string containing the words for the 
specified page where the words are fully enclosed 
in the bounds of the region specified.
bool SavePDFOutput(string fileName, bool 
overwriteExisting)
Saves the output to a PDF file with the name 
specified. If any text was extracted then this will 
be searchable in the PDF.
bool SaveRTFOutput(string fileName, bool 
overwriteExisting)
Saves the output to a RTF file with the name 
provided.
bool SaveTextOutput(string fileName, bool 
overwriteExisting)
Saves the text extracted to a simple text file with 
the name provided.
Image GetPageImage(int pageNumber)
Returns a System.Drawing.Image containing the 
processed image.
void DeleteTemporaryFiles()
Removes temporary files created during the OCR 
processing from the system. Note, do not call this 
before you have completely finished processing a 
file.
void Abort()
Stops processing of an ongoing call to Recognize.
Processing will stop on completion of any ongoing 
page.
SDK control API:VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
RasterEdge. PRODUCTS: ONLINE DEMOS: Online HTML5 Document Viewer; Online XDoc.PDF C# File: Split PDF; C# Page: Insert PDF pages; C# Page: Delete PDF pages;
www.rasteredge.com
SDK control API:VB.NET PDF - Convert PDF Online with VB.NET HTML5 PDF Viewer
C# view PDF online, C# convert PDF to tiff, C# read PDF, C# convert PDF to text, C# extract PDF pages, C# comment annotate PDF, C# delete PDF pages, C# convert
www.rasteredge.com
15
5.2.4
Events
Event
Description
void PageCompleted(int pageNumber, bool 
ocrSuccess, bool imageProcessingSuccess, bool 
blankPage)
This event is raised when processing of a page is 
complete. The variable pageNumber indicates 
which page has just completed, the variable 
ocrSuccess indicates whether the OCR for that 
page was successful or not (note, a successful 
OCR does not necessarily indicate that text was 
found on a page), imageProcessingSuccess
indicates whether the pre-process was successful 
for that page, blankPage indicates whether the 
page detected as blank.
void StatusUpdate (object sender, 
StatusUpdateEventArgs statusUpdateEventArgs)
This event is raised when processing of a page is 
complete. The StatusUpdateEventArgs object 
provides access to information relating to the 
status of the page processed.
5.2.5
Subscribing to StatusUpdate using C#
Include a reference to Aquaforest.OCR.Definitions.dll in the solution and define a method to match the 
event signature, see below.
private void OcrStatusUpdate(object sender, StatusUpdateEventArgs
statusUpdateEventArgs)
{
double confidenceScore = statusUpdateEventArgs.ConfidenceScore;
// anything confidenceScore below 1 might be worth investigation
int pageNumber = statusUpdateEventArgs.PageNumber;
int rotation = statusUpdateEventArgs.Rotation; 
// rotation used in 90° steps from beginning
// orientation (0), i.e. 1 = 90, 2 = 180, 3 = 270
bool textAvailable = statusUpdateEventArgs.TextAvailable;
bool imageAvailable = statusUpdateEventArgs.ImageAvailable;
bool blankPage = statusUpdateEventArgs.BlankPage;
}
Finally add a new reference to the event on the OCR object:
_ocr.StatusUpdate += OcrStatusUpdate;
SDK control API:VB.NET PDF - Annotate PDF Online with VB.NET HTML5 PDF Viewer
VB.NET PDF - Annotate PDF Online with VB.NET HTML5 PDF Viewer. Explanation about transparency. VB.NET HTML5 PDF Viewer: Annotate PDF Online. This
www.rasteredge.com
SDK control API:C# HTML5 PDF Viewer SDK to convert and export PDF document to
C# view PDF online, C# convert PDF to tiff, C# read PDF, C# convert PDF to text, C# extract PDF pages, C# comment annotate PDF, C# delete PDF pages, C# convert
www.rasteredge.com
16
5.2.6
Subscribing to StatusUpdate using VB.NET
Include a reference to Aquaforest.OCR.Definitions.dll in the solution and define a method to match the 
event signature, see below.
Declare the OCR object using “WithEvents”:
Private WithEvents _ocr As New Ocr
5.2.7
Enumerations
Enumeration
Description
SupportedLanguages
This enumeration includes all of the languages 
currently supported by the API.
Private Sub OcrPageCompleted(ByVal sender As ObjectByVal
statusUpdateEventArgs As StatusUpdateEventArgs) Handles
_ocr.StatusUpdate
double confidenceScore = statusUpdateEventArgs.ConfidenceScore; 
' anything confidenceScore below 1 might be worth investigation
Integer pageNumber = statusUpdateEventArgs.PageNumber;
Integer rotation = statusUpdateEventArgs.Rotation; 
' rotation used in 90° steps from beginning orientation (0), 
' i.e. 1 = 90, 2 = 180, 3 = 270
Boolean textAvailable = statusUpdateEventArgs.TextAvailable;
Boolean imageAvailable = statusUpdateEventArgs.ImageAvailable;
Boolean blankPage = statusUpdateEventArgs.BlankPage;
End Sub
17
5.3
StatusUpdateEventArgsClass
This class contains information relating to the conversion status of a page.
5.3.1
Constructor
An instance of this class is obtained for each page processed when subscribing to the event 
StatusUpdate.
5.3.2
Properties
Property
Description
int PageNumber
This property returns page for which the object relates to.
int Rotation
A value from 0 to 3 which indicates the rotation used for the output 
in terms of the number of 90° steps away from the orientation in 
which the input page was provided. If AutoRotation is set to false 
this will always be 0.
double ConfidenceScore
Generally a value of 1 or greater would indicate that reasonable 
OCR of a page, but this should be confirmed using “typical” 
source files.
bool TextAvailable
This property indicates whether text was extracted for the page.
bool ImageAvailable
This property indicates whether an image (after all appropriate pre-
processing) was successfully extracted.
bool BlankPage
This property indicates whether the page was detected as blank.
18
5.3.3
Words Class
This class contains a collection of WordData objects which are available on a page by page basis.
5.3.4
Constructor
An instance of this class is obtained by calling the ReadPageWords method on the Ocr object, passing 
the page for which the words are required.
5.3.5
Properties
Property
Description
int Count
This property returns the number of WordData objects in the 
collection.
int Height
This property returns the height of the current word.
int Width
This property returns the width of the current word.
5.3.6
Methods
Method
Description
WordData GetFirst()
Returns the first WordData object in the collection and sets the 
index to this item.
WordData GetNext()
Returns the next WordData object in the collection and sets the 
index to this item.
int GetHeight(int index)
Returns the word height from the WordData object stored at the 
specified index in the collection.
int GetWidth(int index)
Returns the word width from the WordData object stored at the 
specified index in the collection.
19
5.3.7
WordData Class
This class contains the individual characters along with the positional information relating to each 
character in the word and to the word as a whole.
5.3.8
Properties
Property
Description
float AverageCharacterHeight
This property returns the average height of all the characters in the 
word.
float AverageCharacterWidth
This property returns the average width of all the characters in the 
word.
int Bottom
This property returns the bottom of the word.
int CharacterList
This property returns a list of CharacterData objects for the word.
int Height
This property returns the height of the word.
int Left
This property returns the left edge of the word.
int Top
This property returns the Top of the word.
int Width
This property returns the width of the word.
string Word
This property returns the word as a string.
5.4
PdfMerger Class
This class can be used to merge two PDFs 
5.4.1
Constructor
PdfMerger pdfMerger = new PdfMerger("C:\\out\\Merged.pdf");
5.4.2
Methods
Method
Description
void Append(string 
pdfFileToAdd)
Appends the document specified to the in memory PDF document.
void Close()
Writes the output to the file specified in the constructor.
void Dispose()
Clears any resources not yet released. This is useful if Close
(which will automatically free such resources) is not called, for 
example if as a result of an error you do not wish to write the 
merged output.
Documents you may be interested
Documents you may be interested