open pdf form itextsharp c# : Erase pdf text online Library SDK class wpf azure ajax R&D_Speech_December_2011_-_PDF_Normalization0-part1656

This article is an update of the one released in November 2009 and dedicated to PDF Normalization. It 
contains  up-to-date procedures, additional  details about new  versions  of Esker  Products  and 
supplementary tips… …  
Let’s have a quick overview of which versions of PDF files are managed according to each product: 
Esker DeliveryWare and Esker On Demand support PDF files as input, edit and output: 
Input PDF
 any incoming PDF files up to version 
is supported on EDW 5.0 and up to 
1.6 on 
EOD 4.1
Edit PDF: any PDF files up to version 
can be modified safely by Esker Tools on EDW 5.0 
and up to 
1.6 on EOD 4.1
Output PDF
 EDW 5.0 and EOD 4.1 can generate PDF documents up to version 
These recommendations do not mean that a PDF file with a higher version than the supported ones 
won’t be processed correctly in our products. It just means that we cannot guarantee the success of 
the conversion, as it has not been tested in QA.* 
There are multiple versions of the PDF format and logically, multiple applications able to manage it. 
Esker developed several ones for its internal use and signed some partnership contracts to have the 
right to use some other ones.  
 PS/PDF to PDF/Tiff/Printer Converter <-> GhostScript 
This converter relies on GhostScript, a suite of software based on an interpreter for PS and PDF page 
description languages. Due to Ghostscript licensing, Esker is only allowed to distribute GPL versions 
of GhostScript (i.e. until version 7.05) but you can download an AFPL version on your own. We 
guarantee that Esker DeliveryWare works up to the version 
of GhostScript. EskerOnDemand is 
currently using GhostScript 8.70 on Production environment. 
Esker DeliveryWare essentially uses this converter to convert PostScript and PDF files to Tiff or 
EPMF. Such conversions are essential for output faxing or printing and also sometimes used for OCR 
processing to pass a tif image to the OCR engine.  
 Windows Application to Tiff/PDF/Printer Converter <-> Esker PDF Creator 
This converter automatizes the print procedure from Adobe Reader/Acrobat to the printer and allows 
PDF files to be “normalized”  according to standards that Esker officially supports (color, 300dpi, 
version 1.3, font embedded etc…).  
This printer is based on the production of EPMF converted file through PDFLib library and is able to 
generate its own PDF files. It is essentially used for Normalization (see adequate chapter below) and 
backup conversions. 
Supported versions of Adobe Acrobat for PDF conversions through Esker PDF Creator are versions 
4.0 to 8.0x (see online documentation page for details on how to configure Acrobat: 
Erase pdf text online - delete, remove text from PDF file in, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# developers to use mature APIs to delete and remove text content from PDF document
how to delete text in pdf using acrobat professional; remove text watermark from pdf
Erase pdf text online - VB.NET PDF delete text library: delete, remove text from PDF file in, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Programming Guide to Delete Text from PDF File
delete text pdf acrobat; how to edit and delete text in pdf file online
We recommend using Acrobat 7.0.x or 8.0.x for conversions but please note that this version is 
technically not supported by Adobe on recent 64 bits OS such as 2008 R2 and you might meet the 
following error message when opening a PDF file in a 64 bits environment on Adobe Acrobat 7 or 8: 
This is a simple warning that doesn’t give any compatibility problem. Simply disable it by clicking on 
the “Don’t show this message again” checkbox. 
Versions 9.x and 10.x of Adobe Acrobat have not been tested by the QA so we do not recommend to 
use them yet.  
Report Converter (Crystal Reports) and Microsoft Word/Excel to PDF/Tiff/Printer also use the Esker 
PDF Creator to convert MDB, DOC and XLS files to PDF format. 
 Tiff/Text to PDF - HTML to Tiff/PDF/Printer - RTF to Tiff/PDF/PS/Printer Converter - 
Rules to Tiff/HTML/PDF/Text <-> PDFLib 
All of these converters are able to generate PDF files from different input formats. To do so, they don’t 
use the Esker PDF Creator printer or any external engine but rather base on an internal lib named 
PDFLib. This library owned by Esker is the basis of many converters and also the Esker PDF 
Converter, in a different way. It allows them to create appropriate PDF Files for our EDW processes. 
 PCL to PDF/Tiff 
This converter is not based on an Esker component but relies to a third-party converter named 
JetPCL. It is the only one able to manage PCL files and has its own PDF library to generate PDF files. 
 OCR Converter 
This converter is not based on an Esker component but relies to a third-party converter named 
Scansoft OCR Engine. It is obviously used to OCRize inbound images in rules but it has also the 
ability to generate PDF files, using OCR engine, even if it is in fact never used. 
 Normalization ? Why normalize documents? 
The Adobe PDF format is used and supported as input by Esker DeliveryWare. The problem is that 
there is not only one standard version of this format but multiples ones: many different softwares exist 
for producing PDF documents with various respect of the PDF norm. Some of these tools (FPDF, 
C# HTML5 Viewer: Load, View, Convert, Annotate and Edit PDF
Redact tab on viewer empower users to redact and erase PDF text, erase PDF images and erase PDF pages online. Miscellaneous. • RasterEdge XDoc.
remove text from pdf preview; deleting text from a pdf
C# WinForms Viewer: Load, View, Convert, Annotate and Edit PDF
Draw PDF markups. PDF Protection. • Sign PDF document with signature. • Erase PDF text. • Erase PDF images. • Erase PDF pages. Miscellaneous.
delete text pdf document; remove text from pdf
iText, Adobe InDesign… … ) produce PDF that are not correctly handled by Esker DeliveryWare because 
of particular encoding, specific data, embedded code, exotic images… …  
Moreover, only PDF files with version 1.4 or lower are supported by the PDF recognition engine and 
the PDF transformation engine.  
Ideally, only PDF 1.4 with standard content should be submitted to DeliveryWare. 
But of course, in the real business world, customers do not always control the origin of the PDF 
documents that are submitted to their EDW environment. These documents can come from inbound 
emails, FTP, web services or they might simply come from sources that don’t want to change their 
PDF creation methods. 
In order to make the processing of every inbound PDF possible, we developed the PDF normalization, 
a method to make DeliveryWare able to handle all PDF as input for generating workflows. 
 What are the situations where I will know I have to normalize? 
Basically the pdf normalization is a good solution when you get an issue with an inbound PDF 
document with a format or content data that is not correctly handled by our conversion tools. 
We can identify 3 typical cases that often end by normalization: 
• GhostScript fails to convert the PDF file 
One of the most common issues you can face when designing a PDF workflow is to get a Ghostscript 
error on your inbound document. Usually, this kind of error looks like this 
The conversion engine failed - reason: The converter 'PostScript/PDF to PDF/TIFF/Printer (PS2PDF)' 
cannot convert the file '
C:\PROGRA~1\ESKERP~1\Temp\pdfutd58Pe1ae91ea.pdf' from format '.pdf' to 
format '.tif'. 
Conversion details: Ghostscript returned an error: init call failed in gsdll32.dll library (0xffffff9c)" 
An “i nit call failed”  error message means that Ghostscript was unable to read the file because of its 
format (unsupported version) or special content in its data (invalid object). If the same file, after being 
printed to Esker PDF Creator, is able to be converted by GhostScript, that means the normalization 
would be the solution. 
• PDFManage is not able to read and manipulate the PDF file 
When using PDFTool or PDFAct in a rule, PDFManag is involved and it can cause issue if it is not able 
to handle the submitted PDF file. An error message you could get in such a situation would be the 
following (from ECF traces): 
PDFManag > PDF source file(s) contain(s) an invalid object when writing result file. 
Error: 'File C:\PROGRA~1\ESKERP~1\Temp\Transports\FTP\pdfutd58_Pe1ae91ea.pdf
cannot be 
written (68) PDF source file(s) contain(s) an invalid object when writing result file.' (code 7)
Here, the problem is obviously coming from the content of the PDF file (invalid object) on which you 
can’t have control. Normalizing it would be enough to get rid of that.  
• PDF Content is badly extracted or even lost by Ghostscript 
Sometimes, the Ghostscript conversion can go well but with transforming or losing data inside the PDF 
file, as in this Vietnamese sample (PDF above, result TIF below): 
C# WPF Viewer: Load, View, Convert, Annotate and Edit PDF
Draw markups to PDF document. PDF Protection. • Add signatures to PDF document. • Erase PDF text. • Erase PDF images. • Erase PDF pages. Miscellaneous.
erase text in pdf document; erase text from pdf file
C# HTML5 PDF Viewer SDK to view, annotate, create and convert PDF
setting PDF file permissions. Help C# users to erase PDF text content, images and pages online in ASP.NET. RasterEdge C#.NET HTML5
how to delete text from a pdf; delete text in pdf file online
If it appears that the same conversion using Esker PDF Creator gives acceptable results, the 
Normalization would be helpful to maintain the PDF content integrity.  
 What is exactly Normalization ? 
The process of PDF normalization is simple as shown on the schema below: 
Since almost all PDF generation tools produce PDF that can we viewed by Adobe Acrobat Reader, we 
use the Adobe Acrobat Reader to print the PDF document on the “Esker PDF Creator” Printer. 
This printer produces a version 1.3 PDF document completely re-encoded with our PDF generation 
engine. This PDF is now fully supported by our PDF transformation and recognition engines. 
C# PDF Text Redact Library: select, redact text content from PDF
application. Free online C# source code to erase text from adobe PDF file in Visual Studio. NET class without adobe reader installed.
delete text pdf acrobat professional; acrobat remove text from pdf
C# PDF Image Redact Library: redact selected PDF images in
Viewer, C# Online Dicom Viewer, C# Online Jpeg images as text redaction, you can specify custom text to appear How to Erase PDF Images in .NET Using C# Class
delete text from pdf with acrobat; delete text pdf
 How is the Normalization Process implemented inside Esker DeliveryWare ? 
The Normalization Process inside Esker DeliveryWare consists in two steps that are preformed just 
before the conversion process. 
1. The Check PDF Action that decides which PDF documents must be normalized 
2. The Normalize PDF Action that performs the normalization itself described previously. 
The Check PDF Action 
This action parses all PDF attachments of the message and decides if the attachment needs some 
normalization. To improve performances, it is necessary to normalize only documents that are not 
correctly handled:
that’s the purpose of the CheckPdf action. The normalization criteria must be 
customized to adapt to specific customer documents to only normalize the documents that require it. 
This action is configured through the registry: 
[HKEY_LOCAL_MACHINE\SOFTWARE\SSTAI\Connector Container\Actions\checkpdf] 
To decide if an attachment requires normalization the action checks: 
1.  The version of the PDF 
2.  The properties of the PDF 
We use a filter on the following properties of the PDF: 
 PdfCreator, creator of the PDF document 
 PdfProducer, application used to produce the PDF document (will become PDFLib after) 
 PdfSubject, subject of the PDF document 
 PdfTitle, title of the PDF document 
 PdfKeyword, keywords of the PDF document 
 PdfOriginalName, original name of the PDF document 
 PdfMinor, minor version number of the PDF document 
 PdfMajor, major version of the PDF document 
How to C#: Special Effects
Erase. Set the image to current background color, the background color can be set by:ImageProcess.BackgroundColor = Color.Red. Encipher.
erase text from pdf; how to delete text from pdf with acrobat
Customize, Process Image in .NET Winforms| Online Tutorials
Include crop, merge, paste images; Support for image & documents rotation; Edit images & documents using Erase Rectangle & Merge Block function;
how to delete text from a pdf in acrobat; pdf text watermark remover
We can view these properties with using the file\properties menu of Adobe Acrobat Reader. The 
conditions must be expressed as a LDAP filter. For instance, the condition “All PDF files produced by 
the application iText with versions higher than 1.4 can be defined as below:  
This filter has to be defined in the following regKey value: 
[HKEY_LOCAL_MACHINE\SOFTWARE\SSTAI\Connector Container\Actions\checkpdf\settings] 
PdfPropertiesFilter (REG_MULTI_SZ) 
MaxPdfVersion (=x.y) 
3.  Any properties of the Message itself 
We can use any custom properties of the message to decide which PDF must be normalized. This 
allows forcing PDF normalization through a GDR rule for example.  
This filter has to be defined according to a specific transport type (for instance PU) in the following 
regKey value: 
[HKEY_LOCAL_MACHINE\SOFTWARE\SSTAI\Connector Container\Actions\checkpdf\Filters] 
<TransportType> (REG_SZ) 
Note that you can't mix PDF settings and PU settings in the same LDAP filter in registry.  
If you need to normalize PDF documents in different ways according to complex business criteria, you 
also have the possibility to declare two (or more) CheckPdf actions in the registry with exclusive Filters 
criteria, making sure they don’t have the same name (CheckPdf and CheckPdf2 for instance). 
Anyway, if the CheckPdf action decides that the PDF attachment needs normalization, the resulting 
message is  marked for normalization with adding  a value “N ormalizePdf=1”  on the message 
properties. That can be checked through the Esker DeliveryWare Administration console by doing 
properties on the message and clicking on the “Show all properties” button to look at the xml 
The Normalize PDF Action 
This action parses all PDF attachments of the message that are marked for normalization (with the 
attribute NormalizePdf set to 1). 
Then using the “Native Application Printing converter”, we use Adobe Acrobat/Reader to print the PDF 
on the “Esker PDF Creator” printer and to get a normalized PDF. This new PDF is used as the current 
attachment document. 
.NET Imaging Processing SDK | Process, Manipulate Images
Basic image edit function support, such as Erase Rectangle, Merge Block, etc Go to our Online Tutorials to find detailed user guide and check out how much they
how to erase text in pdf file; delete text from pdf file
This is similar to a conversion test inside the Esker DeliveryWare Administration MMC with the “Native 
Application converter” requesting a conversion of the input PDF to PDF format with specifying 
normalize parameters 
What should I do to enable the PDF normalization? 
PDF normalization settings must be handled with care since they have an impact on performances. Do 
not  set  this  solution  unless  you  need  it  and  you  exactly  know  what  you  are  doing. 
If you submit PDF files from various sources to Esker Platform, you should identify which source 
generates PDF files that are not correctly handled and define a filter to set the PDF normalization 
process only for the PDF files coming from this source. 
First of all, take care that the Adobe Acrobat must not be held by another resource while Normalization 
is active. To prevent any conversion issue, shut down all instances of Adobe Acrobat on the server 
before starting up the Normalization.  
The Normalization is supported on Esker DeliveryWare 5.0 on 32bit and 64bit environments. 
It was also used on EOD and FlyDoc but is now deprecated (see chapter: PDF Normalization on 
Esker on Demand
To activate PDF Normalization on EDW, please follow the procedure described in Solution 2033: 
How to setup PDF normalization:
Or in the Online documentation:
Note that you’ll have to restart Esker Connector Container at the end of the procedure, in order to 
enable the feature. 
As we saw in the previous chapter, the Normalization process is very useful to automatically format 
PDF documents that need it, in a transparent and customizable way. 
This is useful and optimized in a DeliveryWare environment but what about a shared environment like 
Esker On Demand ? 
 Why not normalizing on EOD? 
One of the fundamental concepts of Esker onDemand is that a global setting is shared between all 
customers. Since the PDF normalization is defined using registry keys, the customized filters and 
settings for normalization (such as the ones contained in CheckPdf and NormalizePdf regKeys) apply 
on all documents submitted on the platform. 
Based on that fact, there can be only one filter for CheckPdf , complex enough to handle all the 
specific  conditions  from  every  customers’  PDF  document that  need  normalization.  The  more 
customers required normalization, the more it caused headaches for EOD team: 
 The LDAP filter became quickly very big and very complex 
 It was more and more difficult to maintain it efficiently, as some PDF files were normalized for 
one customer because of another customer’s filter requirement 
 The Esker PDF Creator usage was growing dangerously, giving performance concerns 
That’s why this solution was definitely considered as deprecated on Esker OnDemand 
 How can we normalize PDF files on EOD? 
Of course, it’s still possible to normalize PDF documents in the EOD environment. But it has to be built 
using GDR Rules: the first rule of your workflow will be a normalization rule, designed in binary input 
mode which will retrieve the input documents and transmit them to Data Capture (or equivalent) 
through PU transport. 
The great advantage of this solution is that it will be customer-specific and won’t affect global traffic 
uselessly. On the other hand, you won’t be able to filter the documents to normalize using internal 
criterias (such as specific PDFProducer). 
This can be done by adding the following information onto the attachment that is transmitted into the 
PU transport:  
 Input format=".PDF"  
 Output format=".PDF" 
 Converter to use="Windows application to TIFF/PDF/Printer" (or "_Application Printing" which 
is the 'internal' name of the converter) 
 Conversion options= "?FORCE" (will have no impact other than 'forcing' the conversion)  
If you really want to be highly specific, you can also design this rule to open the PDF as text reference 
file and keep only the first line: it contains %PDF-<version>. Just keep in mind to attach "input file" and 
not "current document" in that case. 
A recurring concern for PS consultants implementing a Sales Order Process automatisation is that the 
SO rules are designed with inbound images by default (tif format). If some inbound Sales Orders are 
submitted in PDF format, that means a conversion will be necessary from PDF to TIFF before 
processing them in the rule and potentially a great loss of quality. 
Actually, it’s important to understand that the OCR Engine only handles TIFF files so even if you put 
PDF file into a rule designed for Image, it will convert it internally to TIFF before OCRizing it. 
The best way to work around this limitation is of course to recreate the SOP rules with inbound PDF 
format type but it can be long and complex, carrying a risk of forgetting some important details. 
That’s why sometimes, a first step of the process consists in normalizing the inbound document flow to 
only pass tif files to the data capture rule. The pdf to tif conversion is usually done using Ghostscript 
but if the pdf files received by our customers cannot be converted correctly by Ghostscript, we are 
facing an issue and need to convert the pdf files to tif using Acrobat and printing on the Esker tif 
One problem with this is that the Esker tif creator generates faxable tif files and lowers the quality of 
pdf files so it is not really well adapated to an OCR process.  
In order to resolve this issue, R&D developed a specific solution to setup 2 new printers named Esker 
TIFBW creator and Esker TIFColor creator. These printers allow to generate TIF files without 
compression, thus in high quality. This particular kind of PDF->TIF normalization is particularly 
adapted to high-quality PDF files that lose much quality when simply converted to TIFF through the 
standard Esker TIFF Creator printer  
You can find details and setup for these printers in SalesForce, solution 2602: 
Esker TIFBW creator and Esker TIFColor creator printers:  
1) I generated a mailing in PDF Format by opening his PDF file with Adobe Reader and by sending it 
through  FlyDoc  printer.    There  was  a  problem  because  of  characters  font  embedding. 
What is font embedding? Where can I configure it? And where can I check it? What is it used for? Are 
there PDF files without no embedded font? If so, how document fonts are defined ? 
Font embedding refers to the ability to embed font files into a document, such as a PDF file. This has 
been a feature of Adobe Acrobat and some other applications for many years. It is controversial 
because it can potentially allow copyrighted fonts to be freely distributed. 
It is used to encapsulate the needed fonts inside the document and make them as mobile as the 
document. Even if your recipient does not have the needed fonts installed on his OS, he will be able to 
display the document with the characters in the adequate font. 
Fonts embedding can be checked through PDF properties, tab Fonts. It can be configured during the 
PDF generation, through the PDF producer options. 
A PDF document with no font embedding will need to be read on a computer with an OS containing 
the definition of the fonts described within it, or else the characters will display with a basic font. 
2) How the recipient address extraction is supposed to work when printing a pdf document on the 
Flydoc printer ? When using FlyDoc web application and uploading directly a PDF document? 
When using FlyDoc printing, the recipient address is captured through text extraction after EPMF 
conversion. By using the web application, Ghostscript is called in an internal rule to capture the 
address. No OCR is used. 
3) I copied the content of a PDF file and pasted it in Notepad. I then noticed that characters displayed 
like garbage in the notepad while they were quite pretty in Adobe Acrobat. Why? Can this kind of PDF 
file be produced by a Esker converter? Is there a way to fix it without turning it into an image then 
OCRizing it? 
This is not a problem linked to fonts. Such a thing means that Adobe Acrobat has been able to 
determine the characters display by decoding some weird characters but notepad (and by extension, 
Windows) is not able to do so. This PDF appears as corrupted from a DeliveryWare point of view and 
none of our text extractors will be able to read it. The only way to process this file is to normalize it 
through Esker PDF Creator. 
Of course, our converters never produce such files. 
4) I converted a .doc document with beautiful pictures inside from MS Word to PDF, using Esker PDF 
Creator. After the conversion, the pictures have lost some quality. Why? How images are handled 
during a PDF conversion? Is it possible to reduce the loss of quality? 
Such a thing is possible in some specific occasions. Actually, a printer only prints what it receives from 
its viewer (Adobe Acrobat for instance). Here, the printer got what MS Word displayed during the 
printing pre-visualization so the quality of images should be the exact same. If images looked better 
before conversion, it is because an option has been set to “On” in PDF Creator properties, named 
“High Quality Image Under-Sampling”. This allows the printer to degrade the image quality in order to 
lighten the document size. 
5) I regularly submit PDF files version 1.5 to EDW and get some conversion issues. I got replied from 
Support that Esker does not support this PDF version, but it exists since 2003. Esker seems to be late 
about this ! 
Why is there no evolution in the PDF versions that we support? Are there major technical differences 
between PDF 1.4 and higher ? 
Esker is only allowed to distribute GPL versions of GhostScript. That’s why only the 7.05 version is 
delivered on the installation CD of DeliveryWare. The highest supported version of PDF is then the 
same that GS 7.05 supports: PDF 1.4. Moreover, PDFManag has been adapted to this version too. 
Since delivered versions of PdfManage and GhostScript have been tested for PDF 1.4, Esker EDW 
only supports up to this version. 
That doesn’t mean higher versions of PDF files won’t work in all cases, by the way. Normalization also 
exists to work around this limitation. 
6)  Normalization seems to  level the output PDF version: Why  not applying it  everytime and 
everywhere ? Are there some risks/drawbacks to do so? 
The normalization generates PDF files with an identical output version, that’s true. This version is 1.3 
by design. But to do such a thing, the Esker PDF Creator is used to print all inbound PDF document 
before submitting it to the adequate input connector. Moreover, it forces documents to go through a 
funnel where documents can be treated one by one. 
This is a supplementary step that can slow down the production processing. This is why it is not 
applied by design on Esker EDW installations. 
7) When sending FlyDoc mailings, a « stamping »is done on documents for recipient address and 
barcodes. What exactly is this « stamping »? Is it possible to corrupt a document after stamping? 
The « stamping » is a mandatory step for all MOD sending. It consists in printing some postal 
information directly inside the document body, for routing purpose. In concrete terms, numerous and 
barcode information for recipient address will be added to the header page, through PDFAct or 
EPMF2All converters. Logically, it shouldn’t corrupt the document since it is formatted with an Esker 
tool on output. 
8) What are the supported versions of Adobe Acrobat for PDF conversions? How could they be 
configured (in Acrobat or registry) to support EDW? 
ITS recommends to use version 7.0.x or 8.0.x. Version 7.0.8 is the version that is installed on our EOD 
servers. The more recent Adobe Acrobat versions are not officially supported yet. 
The configuration of Adobe Acrobat is quite light: it consists in preventing a splash screen to be 
displayed, activating the Trust Manager and removing the automatic checks for Acrobat updates. 
Settings  to  apply/edit  can  be  found  in  the  following  online  documentation  page:
Documents you may be interested
Documents you may be interested