pdf reader library c# : Remove text from pdf online software SDK dll windows .net winforms web forms NewFormat-AB-LuraTech-PDF-Compressor-Enterprise-User-Manual-v7.4-2016-01-194-part953

PDF Compresor Enterprise – Manual  
www.luratech.com 
info@luratech.com 
Setting up Job Entries: 41 
Usage 
The command must specify the fully qualified path to a valid executable file, optionally with 
arguments. Ensure to enclose the path in quotes if it contains any blanks. 
It is possible to use the special environment variables (see Environment variables) directly in the 
command line. Ensure proper quoting because the values may contain blanks. Before execution 
the PDF Compressor expands any symbols that match the format %Name%. If the variable name 
is not known it is replaced with an empty string. To use the percent sign (%) in the command line 
it must be escaped by another percent sign (%%).  
The  PDF  Compressor  evaluates the exit  code of the process.  Any value  different  from 0 is 
considered as error and  will be  notified in  the log file.  Please note:  Since the command is 
executed  after  the  complete  processing  in  all  its  aspects  an  error  in  the  post-processing 
ĐoŵŵaŶd  ǁill  EOT  ĐhaŶge  the  proĐessiŶg  status  to  ͞&ailed͘͟  IŶ  other  ǁords  a  suĐĐessful 
processing will still be considered successful even if the post-processing command fails. 
Examples 
The following examples should help getting started with a custom post-processing command. 
cmd.exe /c "C:\MyScripts\postproc.bat" 
This line executes a batch script as a custom command. 
powershell.exe "C:\MyScripts\postproc.ps1" 
This line executes a Windows PowerShell script as a custom command. 
C:\ToolDir\MyTool.exe "%LT_OutputFilePath0%"  
This  line runs the  MyTool.exe  as  custom  command  and passes the  output file  as the  first 
argument. 
cmd.exe /c set 
This line prints the whole set of environment variables to the log file. This can be useful to get an 
idea how the environment looks for the command. 
cmd.exe /c "echo %LT_BarcodeValue0% > %%LT_OutputFilePath0:~0, 
-4%%.txt" 
This might be the simplest way to store a recognized barcode in a text file next to the regular 
output file. Note the use of double percent characters to ensure that the LT_OutputFilePath 
variable is not already expanded by PDF Compressor but  later by the command interpreter 
(cmd.exe) to be able to use the substring syntax (:~0,-4).    
For production it might be better to add some error checking, e.g. if a barcode was detected at 
all, and to put everything in a reusable batch script.  
Environment variables 
The following table lists the environment variables that are provided by the PDF Compressor to 
the command.  
Variable name 
Description 
%LT_ProcessingStatus% 
Success|Failure 
The value is set to Success if the processing of the input file(s) 
succeeded or to the value Failure if an error occurred. 
Remove text from pdf online - delete, remove text from PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
how to delete text from pdf; remove text from pdf online
Remove text from pdf online - VB.NET PDF delete text library: delete, remove text from PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
how to delete text from pdf with acrobat; how to remove text watermark from pdf
PDF Compresor Enterprise – Manual  
www.luratech.com 
info@luratech.com 
Setting up Job Entries: 42 
%LT_ErrorMessage% 
This  variable  is  only  available  if  the  processing  failed.  It 
contains a description for the error that happened. 
%LT_JobName% 
The name of the Job that is processed. 
%LT_InputFileCount% 
The number of input files that were processed. Typically the 
ǀalue is ϭ uŶless the joď has the ͞Derge all pages of a folder to 
 siŶgle  PD&  doĐuŵeŶt͟  flag  set  or  additioŶal  iŶput  files 
speĐified oŶ the ͞EŵďeddiŶg͟ taď͘ 
%LT_InputFilePath0% 
%LT_InputFilePath1% 
͙ 
The fully qualified paths to the processed input files.  
There  will  be  %LT_InputFileCount%  many  entries,  counted 
from 0 to (%LT_InputFileCount% - 1). The order in the list is the 
processing order  of  the files.  Additional  input  files  (e.g.  for 
embedding) are listed directly after the main input file they 
belong to. 
The command is executed after the complete processing which 
includes the built-in post-processing. Thus the provided paths 
can be different from the original input paths when move or 
renaming  actions  where applied. If the  job  is  configured to 
delete the input files after successful processing the custom 
command will be provided with the original input file paths but 
at the time the command is executed these files have already 
been deleted. 
Note: For standard jobs there is exactly one input file and the 
variable %LT_InputFilePath0% contains the fully qualified path 
(see also description of %LT_InputFileCount%). 
%LT_OutputFileCount% 
The number of output files that were generated. Typically the 
value is 1 unless the job produces additional output files like 
OCR results as XML or TXT, thumbnail images, or the output 
splitting option is enabled. 
If the processing failed the number of output files is always 0 
because the PDF Compressor removes incomplete output. 
%LT_OutputFilePath0% 
%LT_OutputFilePath1% 
͙ 
The fully qualified paths to the generated output files.  
There will be %LT_OutputFileCount%  many entries,  counted 
from 0 to (%LT_OutputFileCount% - 1). The order in the list is 
the  order  of  generation.  Additional  output  files  (e.g.  OCR 
results)  are  listed  directly  after  the  main  output  file  they 
belong to. 
If the processing failed there are no output files at all because 
the PDF Compressor removes incomplete output. 
Note: For standard jobs there is exactly one output file and the 
variable  %LT_OutputFilePath0%  contains  the  fully  qualified 
C# PDF remove image library: remove, delete images from PDF in C#.
Delete Text from PDF. Text: Replace Text in PDF. Image: Insert Image to PDF. Image: Remove Image from PDF Page. Image: Copy, Paste, Cut
how to delete text from a pdf in acrobat; erase pdf text
VB.NET PDF remove image library: remove, delete images from PDF in
Remove PDF image in preview without adobe PDF reader PDF SDK library download and online VB.NET Except PDF text processing function, RasterEdge XDoc.PDF for
how to delete text from pdf reader; pdf text remover
PDF Compresor Enterprise – Manual  
www.luratech.com 
info@luratech.com 
Setting up Job Entries: 43 
path (see also description of %LT_OutputFileCount%). 
%LT_BarcodeCount% 
The number of recognized barcode values.  
This variable is only set if barcode recognition was activated. 
%LT_BarcodeValue0% 
%LT_BarcodeValue1% 
͙ 
The list of recognized barcode values.  
There  will  be  %LT_  BarcodeCount%  many  entries,  counted 
from 0 to (%LT_ BarcodeCount% - 1). The order in the list is the 
order of detection. 
Configuring OCR and Barcode Recognition 
The OCR tab contains options for configuring the optional OCR – i.e. text recognition from raster 
input documents – and barcode recognition. 
1.  The Mode section lets you control the tradeoff between OCR accuracy and speed. 
a.  Most accurate is the mode which gives the highest accuracy in character recognition. 
It should be used when the input image quality or resolution is low, and recognition 
time is not that critical. 
b.  Balanced is an intermediate mode between most accurate and fast mode. 
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
Ability to remove consecutive pages from PDF file in VB Enable specified pages deleting from PDF in Visual Basic Online source codes for quick evaluation in VB
delete text pdf file; how to delete text in pdf using acrobat professional
VB.NET PDF Password Library: add, remove, edit PDF file password
Remove password from PDF. Dim outputFilePath As String = Program.RootPath + "\\" Remove.pdf" ' Remove password in the input file and output to a new file.
how to delete text in pdf file; remove text from pdf acrobat
PDF Compresor Enterprise – Manual  
www.luratech.com 
info@luratech.com 
Setting up Job Entries: 44 
c.  Fast provides 2 – 2.5 times faster recognition speed at the cost of a moderately 
increased error rate (1.5 – 2 times more errors). On good print quality texts, the OCR 
engine makes an average of 1 – 2 errors per page, and such moderate increase in 
error rate can be tolerated in most cases. 
2.  Select the OCR recognition languages from the list. Text recognition will be more accurate if 
you select  exactly  those  languages  that appear in  your  documents.  More  languages  are 
available upon request (please send e-mail to info@luratech.com
). 
Note: OCR for Chinese, Japanese and Korean (CJK) languages  is available, but requires a 
dedicated license. 
3.  You may choose Additional Output Formats to export the OCR results in various formats in 
addition to the PDF output. 
Note:  Whenever  you  select  an  additional  OCR  output,  the  overwrite  protection  (see 
Overwrite existing within the Output tab under Configuring Data Output, p. 25) is extended 
to the additional file formats. Example: The output name is outfile.pdf, you select additional 
Plain Text OCR output, and Overwrite existing is disabled. If any of the files outfile.pdf or 
outfile.txt already exist, the PDF Compressor will not process the corresponding input file. 
You need to enable Overwrite existing if you want to overwrite existing files. 
Important Note: Some of the additional OCR output formats may create auxiliary files (e.g. 
JPEG images to be used within an output HTML file). These auxiliary files are not subject to 
overwrite protection. Thus an existing file that has the same name as an auxiliary file will be 
overwritten  regardless of the setting for Overwrite  existing.  See  the  list  below  for what 
formats create what auxiliary files. 
a.  Plain Text exports OCR results as unformatted text (ANSI code page). Extension is 
*.txt. No auxiliary files. 
b.  CSV exports OCR results as comma separated values in plain text (ANSI code page). 
This mainly makes sense when the input document contains tables that should be 
imported into some other application. Extension is *.csv. No auxiliary files. 
c.  Rich Text Format exports OCR results in Microsoft RTF format (to be opened with 
Microsoft Word). Extension is *.rtf. No auxiliary files. 
d.  HTML exports OCR results in HTML format. Extension is *.htm. Embedded images are 
stored  as  auxiliary  files  with  naming  convention  <output-name>-<image-
number>.jpg. 
e.  MS  Excel  exports  OCR  results  in  Microsoft  Excel  format.  Extension  is  *.xls.  No 
auxiliary files. 
f.  MS PowerPoint exports OCR results in Microsoft PowerPoint format. Extension is 
*.ppt. An auxiliary directory <output-name>_files is created. It contains various files 
used by the PowerPoint document. 
g.  ALTO exports OCR results in the open XML standard ALTO (Analyzed Layout and Text 
Object). 
h.  XML exports OCR results in XML format. Extension is *.xml. The XML style can be 
chosen from the list next to the XML option.  
C# PDF Digital Signature Library: add, remove, update PDF digital
Delete Text from PDF. Text: Replace Text in PDF. Image: Insert Image to PDF. Image: Remove Image from PDF Page. Image: Copy, Paste, Cut
remove text from pdf reader; how to delete text in pdf file online
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
Free online C# class source code for deleting specified PDF pages in .NET console application. Able to remove a single page from PDF document.
delete text from pdf file; how to erase pdf text
PDF Compresor Enterprise – Manual  
www.luratech.com 
info@luratech.com 
Setting up Job Entries: 45 
i.  Full – all possible XML attributes will be written (large XML files) 
ii.  Simplified – some optional attributes will be suppressed (smaller XML files) 
iii.  Word-level  –  detailed  character  related  information  is  suppressed.  The 
recognized text is set as direct content of the formatting element. Resulting 
XML  files are very small (much smaller than  simplified),  they  are  human 
readable and easier to post process. 
iv.  Line-level – similar to word-level, but without any formatting information.  
v.  ABBYY – corresponds to the default XML format written by the FineReader 
Engine. Contents are written as lines of text surrounded by additional XML 
formatting tags. 
vi.  ABBYY  extended  –  corresponds  to  the  full  range  of  paragraph,  line  and 
character attributes and formatting information available in the ABBYY XML 
format, but without word or character recognition variants. 
Note: If the Deskewing option was chosen along with the ABBYY or ABBYY extended 
XML format the additional Deskew XML coordinates option lets you choose, whether 
coordinates written to the XML files refer to the original image or the deskewed 
results. 
With the Full, Simplified, Word-level and Line-level formats the coordinates given 
within the XML files always relate to the resampled and not deskewed input image 
(compare Advanced Input Options, p. 19). 
4.  Enable Deskewing if you want the OCR engine to deskew (align) your pages. This option only 
applies to raster input documents or PDFs which have been rasterized. 
5.  Auto-detect page orientation rotates the page images in steps of 90 degrees to ensure that 
the text is correctly oriented. This is a useful feature when pages have been scanned with 
wrong orientation, but it only works for raster input documents or PDFs which have been 
rasterized. 
Advanced OCR Options 
The Advanced OCR Options dialog is opened via the Advanced OCR Options button of the OCR 
tab. 
C# PDF Password Library: add, remove, edit PDF file password in C#
Support to add password to PDF document online or in C# String outputFilePath = Program.RootPath + "\\" Remove.pdf"; // Remove password in the input file and
delete text from pdf with acrobat; how to delete text in pdf converter professional
C# PDF bookmark Library: add, remove, update PDF bookmarks in C#.
Ability to remove and delete bookmark and outline entry.GetLocation()); Console.WriteLine("Text: " + entry.GetText NET Sample Code: Update PDF Document Outline
how to erase text in pdf file; erase text in pdf document
PDF Compresor Enterprise – Manual  
www.luratech.com 
info@luratech.com 
Setting up Job Entries: 46 
1.  Unless you have special requirements for the detection of specific typographical fonts, the 
OCR recognized text type list should only contain a selection for the text type Normal. This 
refers to a common typographic type of text.  
Note: Whenever you select more than one entry at once, the OCR process can slow down, 
since it triggers an automatic text type detection among the selected text types. In some 
cases the OCR might even be run several times for the given text types. 
Note: Whenever you select something different from Normal, ordinary text might not be 
detected with an appropriate accuracy. 
If your documents exclusively use a special typographic font given in the list, you should 
select this and only this font from the list to obtain better OCR results. 
If your documents contain a mixture of normal and special typographical fonts, you might 
want to select multiple fonts from the list. OCR will be running slower in this case. 
a.  Normal: This selection corresponds to a common typographic type of text. 
PDF Compresor Enterprise – Manual  
www.luratech.com 
info@luratech.com 
Setting up Job Entries: 47 
b.  Typewriter: This selection tells the OCR engine to presume that the text on the recognized 
page is typed on a typewriter. 
c.  Dot matrix printer: This selection tells the OCR engine to presume that the text on the 
recognized page is printed on a dot matrix printer. 
d.  OCR A: This selection corresponds to a mono-spaced font, designed for Optical Character 
Recognition. Largely used by banks, credit card companies and similar businesses. It is 
specified in ANSI INCITS 17-1981. 
e.  OCR B: This selection corresponds to a font designed for Optical Character Recognition. It 
is the successor of OCR A and standardized in ISO 1073-2. 
f.  MICR E13B: This selection corresponds to a special set of numeric characters printed with 
special magnetic inks. MICR (Magnetic Ink Character Recognition) characters are found in 
a variety of places, including personal checks. 
g.  MICR CMC7: This selection corresponds to the special MICR barcode font (CMC-7). 
2.  Use the Fast binarization method to have the OCR use algorithms for fast image binarization. 
In most cases this leads to noticeable (in special cases dramatically) faster OCR processing 
but can also go along with lower recognition quality. 
3.  Text color detection enables the detection of text and background colors. This is only 
relevant, when Additional Output Formats are used, that can carry text and background color 
information (Rich Text Format, HTML, MS Excel, MS PowerPoint, and XML). Detecting text 
and background colors slightly reduces the recognition speed. 
4.  Detect Pictures is enabled for faster recognition ignoring areas that are recognized as images 
during page analysis. Disable the option to recognize all text on a page even inside pictures. 
5.  Enable the Equalize Brightness option to speed up recognition of input pages with low 
contrast or noisy backgrounds.  
6.  Performance and text structure are also affected by Table Recognition Options. Disabling 
Table recognition may result in slightly faster recognition. The Single line per cell and Split 
only by separators options define the table structure to recognize. 
7.  The option Do not output PDF files disables the output of the compressed PDF file. This only 
makes sense if you are exclusively interested in OCR results output to some of the Additional 
Output Formats as described above. You cannot disable PDF output without choosing at least 
one of the additional output formats. 
8.  The OCR can take a long time or even fail on very large pages, especially if these pages do not 
mostly have textual content. So it makes sense not to do OCR on such pages. Select Skip OCR 
for pages larger than option if you have mixed input that includes normal textual pages as 
well as very large sheets. The maximum dimensions of pages that should be run through the 
OCR can be given in millimeter or inch.  
9.  When processing PDF input without rasterizing there is an option to Skip OCR if page 
contains text already. Please note that the OCR is suppressed for all pages that have any kind 
and amount of real text (set with fonts) on it. It is in no way ensured that the text covers any 
raster images that would processed by OCR otherwise. 
PDF Compresor Enterprise – Manual  
www.luratech.com 
info@luratech.com 
Setting up Job Entries: 48 
10. Some regulations for PDF documents require all fonts to embedded, even those used only for 
hidden text. PDF and PDF/A do not require this and the default behavior of PDF Compressor 
is not to embed these fonts. To comply with the more restrictive rules, select Embed fonts 
for OCR results. 
11. To detect that no text was found in the input document the option Throw error, if no text is 
found may be enabled. 
12. Treat OCR errors as warnings means that errors during OCR are only reported as warning but 
will not stop the processing of the affected document. 
13. Select Put additional OCR output files in separate directory if you want the additional OCR 
output files not to be placed next to the output PDF files, but into its own directory. The 
browse button   lets you select the directory
9
. When processing a whole input directory 
tree (see Configuring Input Data, p. 15), a corresponding subdirectory tree will be created 
under the specified OCR output directory. 
Barcode Options 
The Barcode Options dialog is opened via the Barcode Options buttons of the OCR tab. 
Recognized barcode values can be added to the PDF metadata (see PDF Metadata, p. 33), used 
to specify an output filename (see Configuring Data Output, p. 25), and it can trigger the start of 
9
The text edit window for the directory path accepts file drag & drop: Just drag & drop a folder from the 
Windows® Explorer into this window. 
PDF Compresor Enterprise – Manual  
www.luratech.com 
info@luratech.com 
Setting up Job Entries: 49 
a new output document (output splitting by barcode detection, Configuring Data Output, p. 
25). 
1.  The  Detected  barcode  type  can  be  selected  from  the  drop  down  list.  Auto  Detect  will 
recognize  all  supported  barcode  types.  Many  1D  barcodes  as  well  as  2D  barcodes  are 
supported. 
2.  Select Restrict detection to rectangle if you do not want to detect barcodes from the whole 
page area, but want to specify a certain region, where barcodes are going to be detected.  
The rectangular region is defined by specifying two points (e.g. the upper left corner and the 
lower right corner of the rectangle). A point is given by its distance from the left or right edge 
of the page, and by its distance from the top or bottom edge of the page. Use the drop down 
selectors to set left or right for the horizontal distance, and top or bottom for the vertical 
distance. The distances can by specified in cm or inch. 
3.  The detection of barcodes can be restricted to barcode values that match a given regular 
expression.  Enable  Restrict  to  values  that  match  the  regular  expression  and  enter  the 
corresponding expression into the given field. For a definition of regular expressions see the 
<regexp> part of the syntax defined under Regular Expression Substitution, p. 67. 
Example: If you only want to detect barcodes that begin with the digit 4, followed by any 
number of digits, use the regular expression 4[0-9]* 
4.  Enable Exclude pages with detected barcode to not output pages that contain a barcode that 
is recognized with respect to the restrictions given above. This is typically used when multiple 
input documents are separated by a plain page with barcode for reference. 
5.  Enable Add bookmark for each barcode  to  add a bookmark pointing to  the  page of the 
barcode for each barcode that matches the restrictions given above. If page exclusion is 
activated, the bookmark will point to the next page. The bookmark value is used as the title. 
6.  The option Treat every barcode value as a new value changes the behavior with respect to 
recurring barcode values. The default behavior is to ignore barcode occurrences if their value 
equals the value of the directly preceding barcode. When Treat every barcode value as a new 
value is selected, every barcode instance is treated as if its value were found for the first 
time. 
Configuring File and Data Embedding 
The  Embedding tab of  the  Properties dialog  lets you  configure  options for  several  types of 
embedding files or supplementary data into your PDF output files. 
Configuring Data Embedding 
The three buttons under Data Embedding serve to configure the embedding three different 
kinds of supplementary data in your PDF output files. 
PDF Compresor Enterprise – Manual  
www.luratech.com 
info@luratech.com 
Setting up Job Entries: 50 
All three kinds of data – XMP metadata, PDF bookmarks and XML OCR results – are read from 
files containing XML of a corresponding dialect. The XML encoding must be UTF-8. 
Note: Input processing as configured for  the job (see Configuring Post-Processing, p. 38) to 
move or delete the input files after processing is applied to these files only, if they are located 
next to the main input files (General input directory) and have non-static file names (escape 
sequences in their file name templates). 
Documents you may be interested
Documents you may be interested