how to upload only pdf file in asp.net c# : Search pdf documents for text SDK control API .net azure asp.net sharepoint PDF-Converter-Services---User-Guide-(1)0-part512

PDF Converter Services - 
User & Developer Guide 
Muhimbi Ltd 
Version 8.0 
Search pdf documents for text - search text inside PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn how to search text in PDF document and obtain text content and location information
search pdf files for text; make pdf text searchable
Search pdf documents for text - VB.NET PDF Text Search Library: search text inside PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn How to Search Text in PDF Document and Obtain Text Content and Location Information in VB.NET application
find text in pdf image; convert pdf to word searchable text
C# HTML5 Viewer: Load, View, Convert, Annotate and Edit PDF
For some important PDF documents, you may can select PDF text region, copy and paste PDF text for edit for C# .NET also supports to search PDF text, which help
search text in pdf image; select text in pdf file
C# PDF File Compress Library: Compress reduce PDF size in C#.net
is designed to offer C# developers to compress existing PDF documents in .NET size, images size reducing can help to reduce PDF file size Embedded search index.
convert pdf to searchable text; search text in multiple pdf
PDF Converter Services - User & Developer Guide
PDF Converter Services - User & Developer Guide - Version 8.0 - 07/12/15 
© Copyright 2015, Muhimbi Ltd 
Page 3 of 124 
Document Control
Draft 
Author 
Date 
Comment 
3.0 
Muhimbi 
13/11/2009  Revised for version 3.0 
3.1 
Muhimbi 
19/01/2010  Updated for version 3.1 
3.2 
Muhimbi 
23/02/2010  Updated for version 3.2 
3.4 
Muhimbi 
12/04/2010  Revised for PDF Converter Services 
3.5 
Muhimbi 
03/06/2010  Updated for version 3.5 
4.0 
Muhimbi 
10/09/2010  Updated for version 4.0 
4.1 
Muhimbi 
03/01/2011  Updated for version 4.1 
5.0 
Muhimbi 
26/04/2011  Updated for version 5.0 
5.1 
Muhimbi 
06/09/2011  Updated for version 5.1 
5.2 
Muhimbi 
12/01/2012  Updated for version 5.2 
6.0 
Muhimbi 
08/06/2012  Updated for version 6.0 
6.1 
Muhimbi 
02/10/2012  Updated for version 6.1 
7.0 
Muhimbi 
28/03/2013  Updated for version 7.0 
7.1 
Muhimbi 
24/10/2013  Updated for version 7.1 
7.2 
Muhimbi 
04/04/2013  Updated for version 7.2 
7.2.1 
Muhimbi 
04/07/2013  Updated for version 7.2.1 
7.3 
Muhimbi 
26/02/2015  Updated for version 7.3 
8.0 
Muhimbi 
04/12/2015  Updated for version 8.0 
Purpose and audience of document 
This document explains how to access the Muhimbi PDF Converter Services 
(MDCS) using its Web Services interface. 
The intended audience is any developer that wishes to convert documents or 
web pages to PDF format from their own code.  
Disclaimer 
© Muhimbi. All  rights reserved. No part of this document  may be altered, reproduced or 
distributed in any form without the expressed written permission of Muhimbi. 
This  document  was  created  strictly  for  information  purposes.  No  guarantee,  contractual 
specification or condition shall be derived from this document unless agreed to in writing. 
Muhimbi reserves the right to make changes in the products and services described in this 
document at any time without notice and this document does not represent a commitment on the 
part of Muhimbi in the future. 
While Muhimbi uses reasonable efforts to ensure that the information and materials contained in 
this document are current and accurate, Muhimbi makes no representations or warranties as to 
the accuracy, reliability or completeness of  the  information,  text, graphics, or other  items 
contained in the document. Muhimbi expressly disclaims liability for any errors or omissions in 
the materials contained in the document and would welcome feedback as to any possible errors 
or inaccuracies contained herein.  
Muhimbi shall not be liable for any special, indirect, incidental, or consequential damages, 
including without limitation, lost revenues or lost profits, which may result from the use of these 
materials. All offers are non-binding and without obligation unless agreed to in writing. 
C# PDF Print Library: Print PDF documents in C#.net, ASP.NET
XDoc.HTML5 Viewer. view, Annotate,Convert documents online using ASPX. Page: Rotate a PDF Page. PDF Read. Text: Extract Text from PDF. Text: Search Text in PDF.
convert a scanned pdf to searchable text; how to select text in pdf image
VB.NET PDF Print Library: Print PDF documents in vb.net, ASP.NET
view, Annotate,Convert documents online using ASPX. PDF Read. Text: Extract Text from PDF. Text: Search Text in PDF. Image: Extract Image from PDF.
pdf search and replace text; search a pdf file for text
PDF Converter Services - User & Developer Guide
PDF Converter Services - User & Developer Guide - Version 8.0 - 07/12/15 
© Copyright 2015, Muhimbi Ltd 
Page 4 of 124 
Contents
1
Introduction 
6
2
Features and functionality 
7
2.1
Supported document formats 
8
3
Web Services interface / Object Model 
9
3.1
Overview 
9
3.2
Conversion 
10
3.2.1
The Convert Method 
10
3.2.2
The OpenOptions class 
11
3.2.3
The ConversionSettings class 
11
3.2.4
The ConverterSpecificSettings_InfoPath class 
12
3.2.5
The ConverterSpecificSettings_WordProcessing class 
14
3.2.6
The ConverterSpecificSettings_HTML class 
14
3.2.7
The ConverterSpecificSettings_Cad class 
15
3.2.8
The ConverterSpecificSettings_Presentations class 
17
3.2.9
The ConverterSpecificSettings_MSG class 
17
3.2.10
The ConverterSpecificSettings_Spreadsheets class 
19
3.2.11
The ConverterSpecificSettings_CommandLineConverter class 
19
3.2.12
The ConverterSpecificSettings_PDF class 
19
3.2.13
The OutputFormatSpecificSettings_PDF class 
20
3.2.14
The SystemSettings class 
20
3.2.15
The TaskMonitorSettings class 
21
3.3
Working with ProcessBatch (Merging / Splitting files) 
22
3.3.1
Merging files 
22
3.3.2
Splitting files 
23
3.3.3
The ProcessingOptions class 
25
3.3.4
The MergeSettings class 
25
3.3.5
The FileSplitOptions class 
26
3.3.6
The SourceFile class 
26
3.3.7
The FileMergeSettings class 
27
3.3.8
The BatchResults class 
27
3.3.9
The BatchResult class 
27
3.4
OCR (Optical Character Recognition) 
28
3.4.1
The OCRSettings class 
28
3.4.2
The OCRRegion class 
29
3.4.3
The OCRResult class 
30
3.4.4
The RegionText class 
30
3.5
Watermarking 
31
3.5.1
The Watermark class 
31
3.5.2
The Element class 
32
3.5.3
Individual Element Types 
33
3.5.4
The Defaults class 
35
3.5.5
Embedding field codes in the Text element 
36
3.6
Table Of Contents 
37
3.6.1
The TocSettings class 
37
3.6.2
The NameValuePair class 
38
3.7
Configuration and Diagnostics 
39
3.7.1
Retrieving Configuration settings 
39
3.7.2
Running Diagnostic tests 
40
3.8
Exception handling 
41
4
Programmatically processing documents 
42
4.1
PDF Conversion in .NET 
42
4.2
PDF Conversion in Java (WSImport) 
45
C# WinForms Viewer: Load, View, Convert, Annotate and Edit PDF
C#.NET WinForms Viewer SDK provides C# WinForms Viewer, which is also an powerful documents and images Select PDF text on viewer. • Search PDF text in preview.
search pdf documents for text; converting pdf to searchable text format
C# WPF Viewer: Load, View, Convert, Annotate and Edit PDF
Overview. RasterEdge C#.NET WPF Viewer SDK is an powerful documents and images viewer. Select PDF text on viewer. • Search PDF text in preview.
pdf text search; pdf editor with search and replace text
PDF Converter Services - User & Developer Guide
PDF Converter Services - User & Developer Guide - Version 8.0 - 07/12/15 
© Copyright 2015, Muhimbi Ltd 
Page 5 of 124 
4.3
PDF Conversion in Java (Axis2) 
48
4.4
PDF Conversion in Ruby / Rails 
52
4.5
PDF Conversion in PHP 
56
4.6
Cross-Converting between document types 
60
4.6.1
Cross-Converting file types using a Web Service call 
61
4.6.2
Convert InfoPath to MS-Word, Excel, XPS and PDF 
61
4.7
Merging multiple files into a single PDF using .NET 
65
4.8
Merging multiple files into a single PDF using Java 
69
4.9
Splitting PDFs into multiple documents 
72
4.10
Converting HTML / web pages using a Web Service call 
75
4.10.1
Inserting Page Breaks when converting HTML to PDF 
76
4.11
Converting PDF to PDF/A1b or PDF/A2b 
77
4.12
Controlling which InfoPath views to Export to PDF 
81
4.12.1
Use a special view for exporting to PDF 
81
4.12.2
Determine at runtime which views to export 
82
4.12.3
View prioritisation rules 
82
5
Working with watermarks 
83
5.1
Watermarking in .NET 
83
5.2
Watermarking in Java 
88
6
Carry out OCR (Optical Character Recognition) 
91
6.1
OCR files using .NET 
92
6.2
OCR files using Java 
96
7
Post processing PDF Files 
99
7.1
Specifying PDF Viewer Preferences 
99
7.2
Set PDF Version, Enable Fast Web Views and control Font embedding  100
8
Building a Table Of Contents 
102
8.1
Object Model 
102
8.2
XML Source Data 
104
8.3
XSL Transformation 
105
8.4
Testing & Troubleshooting 
108
9
Troubleshooting 
109
9.1
Problems parsing the WSDL 
109
9.2
Converting documents takes a long time 
109
9.3
The PDF file does not look the same as the source file 
109
9.4
An evaluation message is displayed in each converted document 
109
9.5
InfoPath Forms fail to convert 
110
9.6
Converting non supported files 
110
Appendix - Relevant articles on the Muhimbi Blog 
111
Appendix - Licensing 
113
Appendix 
Class Diagrams 
115
VB.NET PDF File Merge Library: Merge, append PDF files in vb.net
VB.NET Guide and Sample Codes to Merge PDF Documents in VB.NET Project. Batch merge PDF documents in Visual Basic .NET class program.
pdf find text; text searchable pdf file
C# Word - Search and Find Text in Word
view, Annotate,Convert documents online using ASPX. edit, C#.NET PDF pages extract, copy, paste, C#.NET rotate PDF pages, C#.NET search text in PDF, C#.NET
how to make a pdf file text searchable; how to select all text in pdf
PDF Converter Services - User & Developer Guide
PDF Converter Services - User & Developer Guide - Version 8.0 - 07/12/15 
© Copyright 2015, Muhimbi Ltd 
Page 6 of 124 
 Introduction 
This document explains how to access the Muhimbi PDF Converter Services 
(MDCS)  using  its  Web  Services  interface.  The  intended  audience  is  any 
developers that wish to convert documents or web pages to PDF format, OCR 
Images, Apply watermarks or control PDF Security from their own code. 
It is assumed that the audience has some familiarity with programming against 
Web Services based interfaces. 
For more details about this product please see: 
1.  Product Information:  
http://www.muhimbi.com/Products/PDF-Converter-Services.aspx
2.  Product Overview: 
http://support.muhimbi.com/entries/21251792-Where-can-I-find-an-
overview-of-the-capabilities-of-the-PDF-Converter-
3.  Knowledge Base / Frequently Asked Questions: 
http://support.muhimbi.com/
4.  Release Notes: 
http://www.muhimbi.com/support/documentation/PDF-Converter-
Services/Release-Notes.aspx
5.  Installation & Administration Guide: 
http://www.muhimbi.com/support/documentation/PDF-Converter-
Services/Administration-Guide.aspx
6.  PDF Converter related content on the Muhimbi Blog: 
http://blog.muhimbi.com/search/label/PDF%20Converter%20Services
To keep on top of the latest news and releases, please subscribe to our blog or 
twitter feed at http://www.muhimbi.com/contact.aspx
PDF Converter Services - User & Developer Guide
PDF Converter Services - User & Developer Guide - Version 8.0 - 07/12/15 
© Copyright 2015, Muhimbi Ltd 
Page 7 of 124 
 Features and functionality 
The MDCS is a highly scalable and robust server side framework for converting 
typical office documents to PDF format using a Web Services based interface.  
The key features are: 
Convert  popular document  types  including MS-Office,  AutoCAD,  HTML, 
MSG (email) and images to PDF or XPS format with perfect fidelity.  
Cross-convert between formats including XLS to XLSX, DOCX to DOC, 
XLS to DOC, InfoPath to DOC and XLS and many more. 
Apply Optical Character Recognition (OCR) to convert images and scans 
into fully searchable and indexable documents. 
Scalable architecture that allows  multiple  conversions to run in parallel. 
The service can be scaled up by adding additional CPUs and scaled out by 
using standard HTTP Load Balancers. 
Runs as a Windows Service. No need to install or configure IIS or other 
web service frameworks. 
Convert password protected documents. 
Apply  security  settings  to  generated  PDF  files  including  encryption, 
password protection and multiple levels of PDF Security options to prevent 
users from printing documents or copy a document’s content.
Flexible watermarking system allowing different watermarks for individual 
pages (odd, even, portrait, landscape, specific page numbers etc) 
Merge multiple documents into a single PDF file or split up a PDF file into 
multiple documents. 
Generate regular PDF files or files in PDF/A format. 
Strip or embed fonts. 
Set PDF Viewer Preferences. 
Linearize PDF files (a.k.a Fast Web View). 
Generate  high  resolution  PDF  Files  optimised  for  printing  or  normal 
resolution files optimised for use on screen. 
Dynamically  refresh  a  document’s  content  before  generating  the  PDF. 
Ideal for merging content from external sources into your PDF file. 
Control  how  to  convert  hidden  /  selected  content  such  as  PowerPoint 
Slides, InfoPath views and Excel worksheets. 
Add custom converters using a simple plug-in architecture. 
In  addition to the features described  above, the MDCS software stack  also 
contains a layer of functionality to control concurrency, request queuing and 
watchdog services to deal with unresponsive and runaway processes.  
The MDCS is built on top of the WCF Framework. Full details about WCF and 
how  it  can  be  configured  /  tuned  can  be  found  on  the  following  page: 
http://msdn.microsoft.com/en-us/library/ms731925.aspx
PDF Converter Services - User & Developer Guide
PDF Converter Services - User & Developer Guide - Version 8.0 - 07/12/15 
© Copyright 2015, Muhimbi Ltd 
Page 8 of 124 
2.1  Supported document formats 
The MDCS supports the most common file formats including MS-Word, Excel, 
PowerPoint,  InfoPath,  MSG,  EML  (email),  Visio  and  Microsoft  Publisher. 
Legacy file formats starting with Office 95 are supported as well as the latest 
formats used by Office 2013. Non MS-Office related file types such as HTML, 
AutoCAD and common image formats are supported as well. 
Supported 
Not Supported 
MS-Word 
doc, docx, docm, dot, dotx, 
dotm, rtf, txt, wps, xml, odt, ott, 
mht, html, htm, wpd 
Excel 
xls, xlsx, xlsm, xlsb, xml, csv, 
dif, ods, ots, mht, html, htm 
xltx, xltm, xlt, txt (tab 
delimited), prn, slk, 
xlam, xla 
PowerPoint 
ppt, pptx, pptm, xml, odp, otp, 
pps, ppsx, ppsm 
potx, potm, pot, 
thmx, ppam, ppa 
InfoPath 
xml, infopathxml 
Publisher 
pub 
Email 
eml, msg 
Visio & Vector 
formats 
vsd, vdx, svg, svgz, vdw, vsdx, 
vss, vssx, vst, vstx 
HTML & Web pages  html, htm, mht and any url that 
returns HTML such as .aspx or 
.jsp. 
Image formats 
gif, png, jpg, bmp, tif, tiff 
AutoCAD formats
1
dwg, dxf 
The PDF Converter also supports output in non-PDF file formats. For details 
see section 4.6 Cross-Converting between document types
1
The AutoCAD converter has several automatic recolouring options. For details see AutoCAD specific 
switches in the Administration Guide, subsection Tuning the Document Conversion Service
PDF Converter Services - User & Developer Guide
PDF Converter Services - User & Developer Guide - Version 8.0 - 07/12/15 
© Copyright 2015, Muhimbi Ltd 
Page 9 of 124 
 Web Services interface / Object Model 
Although the Object Model exposed by the web service is easy to understand, 
the  system  provides  very  powerful  functionality,  including  watermarking, 
security,  PDF  Merging  and  fine  grained  control  over  how  PDF  files  are 
generated. 
3.1  Overview 
The web service contains the following methods: 
Convert: Convert the file in the sourceFile byte array using the specified 
openOptions and conversionSettings. The generated PDF or XPS file is 
returned as a byte array as well. 
GetConfiguration: Retrieve  information  about  which  converters  are 
supported and the associated file extensions. Consider calling this service 
once to retrieve a list of valid file extensions, and check if a file is supported 
before it is submit to the web service. This will prevent a lot of redundant 
traffic resulting in increased scalability. 
GetDiagnostics: Run a diagnostics test that carries out an internal end-to-
end test for each specified converter type. Call this method to check if the 
service and all prerequisites have been deployed correctly. 
ProcessBatch:  Process  multiple  files  in  one  call.  Currently  limited  to 
merge and split operations. 
The ApplySecurity, ApplyWatermark  and ProcessChanges  methods  are 
identical at this moment in time and are provided for convenience only. They all 
take exactly the same parameters as the Convert method, but they can act on 
PDF  files  only  and  basically  apply  whatever  combination  of  Watermarks, 
Security Settings and other information is provided. 
The full object model is discussed below, larger versions of the diagrams can 
be found at the end of this document. 
The WSDL can be found at the following location. Change localhost to the 
actual host name if the MDCS is located on a different machine.  
http://localhost:41734/Muhimbi.DocumentConverter.WebService/?wsdl 
PDF Converter Services - User & Developer Guide
PDF Converter Services - User & Developer Guide - Version 8.0 - 07/12/15 
© Copyright 2015, Muhimbi Ltd 
Page 10 of 124 
3.2  Conversion 
Perhaps not surprisingly, the core of the object model consists of classes and 
enumerations related to the actual conversion of documents.  
This section describes these conversion related classes and methods in detail, 
the various enumerations are self describing. For code examples see chapters 
4 - Programmatically processing documents  and 5 - Working with watermarks
3.2.1  The Convert Method 
The Convert method, part of the DocumentConverterService interface, carries 
out the actual conversion. It accepts 3 parameters: 
1. sourceFile: A byte[] containing the actual file to convert, e.g. an Excel file. 
2. openOptions: The options to use when opening the source file, e.g. Macro 
Security settings and credentials. For details see section 3.2.2. 
3. conversionSettings: The settings to apply when converting the file to PDF 
format, e.g. watermarks, outputformat, security settings, etc. For details see 
section 3.2.3. 
The method returns a byte[] containing the generated file. Errors are raised as 
instances of the type WebServiceFaultException.  
Documents you may be interested
Documents you may be interested