how to upload only pdf file in asp.net c# : How to search a pdf document for text Library control component .net azure windows mvc PDF-Converter---User-Guide-(1)10-part487

PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 101 of 140 
15.1.1  OCR files using SharePoint Designer workflows 
It is possible to carry out OCR using our standard Convert Document workflow 
activity, but that  requires  knowledge  of our XML syntax
, which -  although 
powerful - is less than user friendly. To make life easier we have created a 
separate Workflow Activity named Convert to OCRed PDF. This is what it 
looks like. 
 
The  workflow  sentence  is  consistent  with  the  other  Muhimbi  Workflow 
Activities and largely self-describing: 
1. this document: The source document to Convert and OCR. For most 
workflows  selecting Current Item  will  suffice,  but  some  scenarios  may 
require the look up of a different item.   
2. this file: The name and location to write the generated file to. Leave this 
field empty to use the same location and name as the source file. Please 
note that if your source file is already in PDF format then leaving this field 
empty will overwrite it. For details about how to specify paths to different 
libraries / site collections see Appendix - Specifying path and file names
3. include / exclude meta data
: Control if the source file’s SharePoint meta
-
data is copied to the destination file.  
4. OCR language:  The  language  the  source  document  is  written  in.  It 
defaults  to  English,  but  we  currently  support Arabic, Danish, German, 
English, Dutch, Finnish, French, Hebrew, Hungarian, Italian, Norwegian, 
Portuguese, Spanish and Swedish.  
5. OCR Performance:  Specify  the  performance  /  accuracy  of  the  OCR 
engine. It is recommended to leave this on the default Slow but accurate 
setting.  
6. Whitelist / Blacklist:  Control  which  characters  are  recognised.  For 
example limit  recognition to numbers by whitelisting  1234567890. This 
prevents, for example, a 0 (zero) to be recognised as the letter o or O.  
7. Pagination: In some specific cases a single image spans multiple pages. 
Enable pagination for those cases.  
8. Regions: By default the entire page is OCRed. To limit OCR to certain 
parts of a page, e.g. a header and/or footer, you can specify one or more 
regions using our XML syntax. Have a look at this blog post
, but only use 
the part that starts with (and includes) <Regions>…</Regions>. 
9. List ID: The ID of the list the processed file was written to. This can later 
in the workflow be used to perform additional tasks on the file such as a 
check-in or out.  
10. Item ID: The ID of the processed file. Can be used with the List ID. 
How to search a pdf document for text - search text inside PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn how to search text in PDF document and obtain text content and location information
convert a scanned pdf to searchable text; pdf text search tool
How to search a pdf document for text - VB.NET PDF Text Search Library: search text inside PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn How to Search Text in PDF Document and Obtain Text Content and Location Information in VB.NET application
find and replace text in pdf; pdf find and replace text
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 102 of 140 
15.1.2  OCR files using Nintex Workflow 
It is possible to carry out OCR using our standard Convert Document workflow 
activity, but that  requires  knowledge  of our XML syntax
, which -  although 
powerful - is less than user friendly. To make life easier we have created a 
separate Workflow Activity named Convert to OCRed PDF. It is compatible 
with Nintex Workflow 2007, 2010 & 2013 and this is what it looks like. 
C# Word - Search and Find Text in Word
C# Word - Search and Find Text in Word. Learn How to Search Text in PDF Document and Obtain Text Content and Location Information. Overview.
how to select all text in pdf; pdf find highlighted text
C# PowerPoint - Search and Find Text in PowerPoint
C# PowerPoint - Search and Find Text in PowerPoint. Learn How to Search Text in PDF Document and Obtain Text Content and Location Information. Overview.
how to search text in pdf document; how to search pdf files for text
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 103 of 140 
For a comprehensive example and details about how to enable the Nintex 
Workflow  integration  see  chapter  4 Converting Documents using Nintex 
Workflow.  
The fields supported by this Workflow Activity are as follows: 
1. Destination Path: The location to write the generated file to. Leave this 
field empty to use the same location as the source file. For details about 
how to specify paths to different libraries / site collections see Appendix - 
Specifying path and file names. 
2. Output File Name: The name of the generated file. Leave this field empty 
to use the same name as the source file. Please note that if your source 
file is already in PDF format, and the Destination Path is the same as the 
Source Path, then leaving this field empty will overwrite it.   
3. Meta data: 
Control if the source file’s SharePoint meta
-data is copied to 
the destination file.  
4. Language: The language the source document is written in. It defaults to 
English, but we support Arabic, Danish, German, English, Dutch, Finnish, 
French, Hebrew, Hungarian, Italian, Norwegian, Portuguese, Spanish and 
Swedish.  
5. Performance: Specify the performance / accuracy of the OCR engine. It is 
recommended to leave this on the default Slow but accurate setting.  
6. Whitelist / Blacklist:  Control  which  characters  are  recognised.  For 
example limit  recognition to numbers by whitelisting  1234567890. This 
prevents, for example, a 0 (zero) to be recognised as the letter o or O.  
7. Pagination: In some specific cases a single image spans multiple pages. 
Enable pagination for those cases.  
8. Regions: By default the entire page is OCRed. To limit OCR to certain 
parts of a page, e.g. a header and/or footer, you can specify one or more 
regions using our XML syntax. Have a look at this blog post
, but only use 
the part that starts with (and includes) <Regions>…</Regions>. 
9. Output List ID: If you wish to carry out further actions on the generated 
file, e.g. send it by email or perform a check-in, then you can optionally 
store the ID of the List the file was written to in a workflow variable of type 
String.  
10. PDF List Item ID: Similarly to Output List ID, the Item ID of the generated 
file can optionally be stored in a  workflow variable  of  type Item ID  (in 
SharePoint 2007) or Integer (in SharePoint 2010 / 2013).  
11. Source List ID & List Item:  The  item  that  triggered  the  workflow  is 
processed by default. You can optionally specify the ID of a different List 
and List Item using workflow variables. Please use the same data types as 
used by Output List ID and Output List Item ID.  
12. Error Handling: 
Similar  to  the  way  some  of  Nintex’  own  Workflow 
Activities  allow  errors  to  be  captured  and  evaluated  by  subsequent 
actions, all of Muhimbi’s Workflow Activities a
llow the same. By default this 
facility is disabled meaning that any error terminates the workflow.  
C# PDF delete text Library: delete, remove text from PDF file in
The following C# coding example illustrates how to perform PDF text deleting function in your .NET project, according to search option. // Open a document.
how to search a pdf document for text; pdf editor with search and replace text
C# PDF replace text Library: replace text in PDF content in C#.net
The following C# coding example illustrates how to perform PDF text replacing function in your .NET project, according to search option. // Open a document.
find text in pdf files; how to select text in a pdf
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 104 of 140 
15.1.3  OCR files using a web Service call 
For a detailed example about how to use the Web Services interface to carry 
out OCR  and  generate  fully  searchable and  indexable  PDF  files  see this 
Knowledge Base article
15.2  Extract text from image based content 
A new OCR related facility has been added to the product with the introduction 
of  version  7.2.  This  new  facility  allows  text  on  (part  of)  a  page  to  be 
recognised and returned to the workflow for further processing.  
A common use for this is to extract a particular area of text from documents 
that all use a common template or layout. For example, if a reference number 
can always be found at the top right corner of scanned documents then that 
text can be extracted and stored in a SharePoint column from where it can be 
included in searches or be used in further workflow steps. 
15.2.1  Extract text using OCR and SharePoint Designer Workflows 
Once the PDF Converter is installed you will find a number of new Workflow 
Activities in SharePoint Designer. One of these activities is named Extract 
Text using OCR and looks as follows.   
The  workflow  sentence  is  consistent  with  the  other  Muhimbi  Workflow 
Activities and largely self-describing: 
1. this document: The source document to OCR and extract text from. For 
most  workflows selecting Current Item will  suffice, but some scenarios 
may require the look up of a different item.   
2. OCR language:  The  language  the  source  document  is  written  in.  It 
defaults  to  English,  but  we  support Arabic, Danish, German, English, 
Dutch,  Finnish,  French,  Hebrew,  Hungarian,  Italian,  Norwegian, 
Portuguese, Spanish and Swedish.  
3. OCR Performance:  Specify  the  performance  /  accuracy  of  the  OCR 
engine. It is recommended to leave this on the default Slow but accurate 
setting.  
4. Whitelist / Blacklist:  Control  which  characters  are  recognised.  For 
example limit  recognition to numbers by whitelisting  1234567890. This 
prevents, for example, a 0 (zero) to be recognised as the letter o or O.  
5. Pagination: In some specific cases a single image spans multiple pages. 
Enable pagination for those cases.  
C# HTML5 PDF Viewer SDK to view PDF document online in C#.NET
Easy to search PDF text in whole PDF document. C# HTML5 PDF Viewer: View PDF Online. 13. Page Thumbnails. Navigate PDF document with thumbnails. 14. Text Search.
cannot select text in pdf; text select tool pdf
VB.NET PDF replace text library: replace text in PDF content in vb
will guide you how to replace text in specified PDF page. 'Open a document Dim doc As PDFDocument = New PDFDocument(inputFilePath) 'Set the search options Dim
can't select text in pdf file; how to select all text in pdf file
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 105 of 140 
6. Region: Specify the x, y, width and height of the region to retrieve text 
from. The unit of measure (UOM) is pt, 1/72
nd
of an inch. When extracting 
text from non-PDF files, e.g. a TIFF or PNG, then please take into account 
that internally the image is first converted to PDF, which may add margins 
around the image but guarantees that a single 
unified - UOM is used 
across all file formats. If you are not sure how internal conversion affects 
the dimensions of your image or scan then use our software to convert the 
file to PDF and open it in a PDF reader.  
7. Page: By default text is extracted from all pages and concatenated. To 
extract the text from a specific page specify the page number in this field.  
8. Result: The recognised text will be stored in this variable (type String)  
15.2.2  Extract text using OCR and Nintex Workflow 
The new Extract text using OCR activity is compatible with Nintex Workflow 
2007, 2010 & 2013. 
VB.NET PDF- View PDF Online with VB.NET HTML5 PDF Viewer
Easy to search PDF text in whole PDF document. VB.NET HTML5 PDF Viewer: View PDF Online. 13. Page Thumbnails. Navigate PDF document with thumbnails. 14. Text Search
pdf text select tool; search text in pdf image
C# PDF Text Highlight Library: add, delete, update PDF text
The following C# coding example illustrates how to perform PDF text highlight function in your .NET project, according to search option. // Open a document.
how to make a pdf file text searchable; pdf search and replace text
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 106 of 140 
For a comprehensive example and details about how to enable the Nintex 
Workflow  integration  see  chapter  4 Converting Documents using Nintex 
Workflow
The fields supported by this Workflow Activity are as follows: 
1. Language: The language the source document is written in. It defaults to 
English, but we support Arabic, Danish, German, English, Dutch, Finnish, 
French, Hebrew, Hungarian, Italian, Norwegian, Portuguese, Spanish and 
Swedish.  
2. Performance: Specify the performance / accuracy of the OCR engine. It is 
recommended to leave this on the default Slow but accurate setting.  
3. Whitelist / Blacklist:  Control  which  characters  are  recognised.  For 
example limit  recognition to numbers by whitelisting  1234567890. This 
prevents, for example, a 0 (zero) to be recognised as the letter o or O.  
4. Pagination: In some specific cases a single image spans multiple pages. 
Enable pagination for those cases.  
5. Region: Specify the x, y, width and height of the region to retrieve text 
from. The unit of measure (UOM) is pt, 1/72
nd
of an inch. When extracting 
text from non-PDF files, e.g. a TIFF or PNG, then please take into account 
that internally the image is first converted to PDF, which may add margins 
around the image but guarantees that a single - unified - UOM is used 
across all file formats. If you are not sure how internal conversion affects 
the dimensions of your image or scan then use our software to convert the 
file to PDF and open it in a PDF reader.  
6. Page Number:  By  default  text  is  extracted  from  all  pages  and 
concatenated. To extract the text from a specific page specify the page 
number in this field.  
7. Output Text:  The  recognised text  will  be  stored in  this  variable (type 
String).  
8. Source List ID & List Item:  The  item  that  triggered  the  workflow  is 
processed by default. You can optionally specify the ID of a different List 
and List Item using workflow variables. Please use data type string for the 
List ID workflow variable. For the Item ID use type Item ID  (in SharePoint 
2007) or Integer (in SharePoint 2010 / 2013)  
9. Error Handling: 
Similar  to  the  way  some  of  Nintex’  own
Workflow 
Activities  allow  errors  to  be  captured  and  evaluated  by  subsequent 
actions, all of Muhimbi’s Workflow Activities allow the same. By default this 
facility is disabled meaning that any error terminates the workflow.  
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 107 of 140 
16  Copying Meta-Data 
Some of the 
product’s 
Workflow Activities and conversion screens provide the 
ability to copy-meta as part of the conversion process. This works well, but it is 
an ‘all or nothing’ approach.
To provide users with a more flexible way of copying meta-data, and setting 
an 
item’s content type
, we provide a separate SharePoint Designer and Nintex 
Workflow Activity to deal with this kind of operation. 
The high level functionality is as follows: 
Standalone Workflow Activity that can be used in combination with any of 
Muhimbi’s
Workflow Activities, or without them. 
Copy all meta-data or only selected fields. 
Copy meta-data to files in different folders or site collections. 
Change the content type to either the source file’s, destination file’s, the 
default content type for the library or a specific named content type. 
Copy  content  of AuthorCreated  and Modified  fields  by  explicitly 
specifying  these  field  names.  This information  is  not  copied  when  the 
default ‘copy all fields’ option is enabled. It is not possible to copy the 
Editor field as that is always overwritten by the workflow. 
16.1  Copying Meta-Data from SharePoint Designer Workflows 
To insert the Copy Meta-Data Activity into a workflow click the Action button in 
the SharePoint Designer Workflow editor and select Copy Meta Data. This 
inserts the following workflow sentence.  
The parameters are largely self describing and use the same format as the 
other Workflow Activities. 
This document: The source document to copy the meta-data from. For 
most  workflows  selecting Current Item will  suffice,  but  some  custom 
scenarios (e.g. Site workflows) may require the look up of a different item.  
This File: The path and file name to copy the meta-data to. Please make 
sure that the path does not include the host name, e.g. µhttp://you
r s
ite/…¶.
For more details see Appendix - Specifying path and file names. 
Fields: By default the content of all fields is copied to the destination file. 
However, if you wish to copy only specific fields then the field names can 
be specified in this list. You can separate fields using line breaks, ‘,’ or ‘;’ 
and you can use both internal and display field names. 
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 108 of 140 
Content type: While copying meta-data you have full control over the 
content type of the destination file. The following options can be specified: 
o
(source): The content type of the source file is copied to the 
destination file. Please include the round brackets. 
o
(target): The content type of the destination file is not modified and 
remains what it was before the  copy  operation. Please include the 
round brackets. 
o
(default): The default content type for the document library is applied 
to the destination file. Please include the round brackets. 
o
Name  of  Content  type: The destination file is set to a specific, 
named, content type. Please do not use round brackets around the 
name of the content type. 
Parameter ‘List ID’
: The ID of the file the meta-data was copied to. This 
can later in the workflow be used to perform additional tasks on the file 
such as performing a check-in or out. 
Parameter ‘List Item ID’
: The ID of the list that holds the file that the 
meta-data was copied to. 
16.2  Copying Meta-Data using a Nintex Workflow 
For a full example of how to use Muhimbi’s Workflow Activities using Nintex 
Workflow see Chapter 4 Converting Documents using Nintex Workflow. The 
fields supported by this Workflow Activity are as follows: 
Target Path: Enter the path of the target file to copy meta-data to, either:  
o
Leave empty to use the same directory as the source file.  
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 109 of 140 
o
A relative path to a sub site / document library / folder.  
o
An absolute path to a different site collection.  
Please make sure the path does not include the host name, e.g. 
µhttp://your site/…¶.
For more details see Appendix - Specifying path 
and file names. 
Target File Name: The name of the file to copy the meta-data to. Leave 
empty to use the source file, which can be useful if you just wish to set the 
content type of a file. 
Copy these fields:  By default the content of all fields is copied to the 
destination file. However, if you wish to copy only specific fields then the 
field names can be specified in this list. You can separate fields using line 
breaks, ‘,’ or ‘;’ and you can use both
internal and display field names. 
Set Content type: While copying meta-data you have full control over the 
content type of the destination file. The following options can be specified: 
o
(source): The content type of the source file is copied to the 
destination file. Please include the round brackets. 
o
(target): The content type of the destination file is not modified and 
remains what  it  was  before  the  copy  operation. Please include the 
round brackets. 
o
(default): The default content type for the document library is applied 
to the destination file. Please include the round brackets. 
o
Name  of  Content  type: The destination file is set to a specific, 
named, content type. Please do not use round brackets around the 
name of the content type. 
Out List ID: If you wish to carry out further actions on the target file, e.g. 
perform a check-in, then you can optionally write the ID of the List that 
holds the target file to a workflow variable of type String. 
Out List Item ID: Similarly to Out List ID, the Item ID of the target file can 
optionally be written to a workflow variable of type Item ID  (in SharePoint 
2007) or Integer (in SharePoint 2010 / 2013). 
Source List ID & List Item: The item that triggered the workflow is used 
as the  source item  by  default.  You  can  optionally  specify  the ID  of  a 
different List and List Item using workflow variables. Please use the same 
data types as used by Out List ID and Out List Item ID
Error  Handling: 
Similar  to  the  way  some  of  Nintex’  own  Workflo
Activities  allow  errors  to  be  captured  and  evaluated  by  subsequent 
actions, all of Muhimbi’s Workflow Activities allow the same. By default this 
facility is disabled meaning that any error terminates the workflow. 
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 110 of 140 
17  Building a Table Of Contents 
One of the more popular features provided by the PDF Converter is the ability 
to  convert  and  merge  multiple  documents  into  a  single  PDF,  all  in  one 
operation (See chapter 10 for details).  Although this facility works very well, 
and  even  includes  the  ability  to  generate  PDF  bookmarks  to  aid  with 
navigation inside the merged document, a common request is to add a full 
Table Of Contents (TOC) to the merged document as well. 
In this chapter the focus is on generating a Table Of Contents via our API 
(See  our  separate  Developer  Guide).  However,  if  you  wish  to  use  this 
functionality from a SharePoint Workflow, then please continue reading as 
well. We might have to get a little bit technical, but once you’re familiar with 
the concepts, you can use our XML based workflow syntax 
as described in 
Appendix  -  Override  default  conversion  settings  - to generate a table of 
contents from SharePoint Designer, Nintex and K2 based workflows. 
A copy of this chapter can also be found on our Blog
17.1  Object Model 
The classes relevant to dealing with TOCs are as follows 
MergeSettings: When merging multiple files and generating a single table 
of contents, follow the normal procedure for merging files (sample code
and populate the MergeSettings.TOCSettings property as per the sample 
code below.  
ConversionSettings: To generate a table of contents for a single 
document  (so  not  as  part  of  a  merge  operation),  follow  the  normal 
procedure for  converting  or  processing  a single file (sample code
) and 
populate ConversionSettings.TOCSettings as per the sample code below.  
TOCSettings: All settings related to the generation of the TOC can be 
found in this class. The available properties are as follows:  
o
Bookmark: The TOC itself can have its own PDF bookmark to aid 
with navigation. Specify the text in this property.  
o
Location: TOCs can be added to the Front or Back of the document. 
Enter the relevant option here.  
Documents you may be interested
Documents you may be interested