pdf xchange c# : How to extract data from pdf file using java Library control component .net azure winforms mvc PDF-Converter---User-Guide-(1)10-part1773

PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 101 of 140 
15.1.1  OCR files using SharePoint Designer workflows 
It is possible to carry out OCR using our standard Convert Document workflow 
activity, but that  requires  knowledge  of our XML syntax
, which -  although 
powerful - is less than user friendly. To make life easier we have created a 
separate Workflow Activity named Convert to OCRed PDF. This is what it 
looks like. 
 
The  workflow  sentence  is  consistent  with  the  other  Muhimbi  Workflow 
Activities and largely self-describing: 
1. this document: The source document to Convert and OCR. For most 
workflows  selecting Current Item  will  suffice,  but  some  scenarios  may 
require the look up of a different item.   
2. this file: The name and location to write the generated file to. Leave this 
field empty to use the same location and name as the source file. Please 
note that if your source file is already in PDF format then leaving this field 
empty will overwrite it. For details about how to specify paths to different 
libraries / site collections see Appendix - Specifying path and file names
3. include / exclude meta data
: Control if the source file’s SharePoint meta
-
data is copied to the destination file.  
4. OCR language:  The  language  the  source  document  is  written  in.  It 
defaults  to  English,  but  we  currently  support Arabic, Danish, German, 
English, Dutch, Finnish, French, Hebrew, Hungarian, Italian, Norwegian, 
Portuguese, Spanish and Swedish.  
5. OCR Performance:  Specify  the  performance  /  accuracy  of  the  OCR 
engine. It is recommended to leave this on the default Slow but accurate 
setting.  
6. Whitelist / Blacklist:  Control  which  characters  are  recognised.  For 
example limit  recognition to numbers by whitelisting  1234567890. This 
prevents, for example, a 0 (zero) to be recognised as the letter o or O.  
7. Pagination: In some specific cases a single image spans multiple pages. 
Enable pagination for those cases.  
8. Regions: By default the entire page is OCRed. To limit OCR to certain 
parts of a page, e.g. a header and/or footer, you can specify one or more 
regions using our XML syntax. Have a look at this blog post
, but only use 
the part that starts with (and includes) <Regions>…</Regions>. 
9. List ID: The ID of the list the processed file was written to. This can later 
in the workflow be used to perform additional tasks on the file such as a 
check-in or out.  
10. Item ID: The ID of the processed file. Can be used with the List ID. 
How to extract data from pdf file using java - extract form data from PDF in C#.net, ASP.NET, MVC, Ajax, WPF
Help to Read and Extract Field Data from PDF with a Convenient C# Solution
fill in pdf form reader; extract pdf form data to excel
How to extract data from pdf file using java - VB.NET PDF Form Data Read library: extract form data from PDF in vb.net, ASP.NET, MVC, Ajax, WPF
Convenient VB.NET Solution to Read and Extract Field Data from PDF
how to extract data from pdf file using java; how to make pdf editable form reader
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 102 of 140 
15.1.2  OCR files using Nintex Workflow 
It is possible to carry out OCR using our standard Convert Document workflow 
activity, but that  requires  knowledge  of our XML syntax
, which -  although 
powerful - is less than user friendly. To make life easier we have created a 
separate Workflow Activity named Convert to OCRed PDF. It is compatible 
with Nintex Workflow 2007, 2010 & 2013 and this is what it looks like. 
Generate and draw Data Matrix for Java
correction is valid for all 2D barcodes like QR Code, Data Matrix and PDF 417 in Download the Java Data Matrix Generation Package and extract the file.
how to save a pdf form in reader; extract data from pdf form
Generate and draw PDF 417 for Java
Error correction is valid for all 2D barcodes like QR Code, Data Matrix and PDF 417 in Download the Java PDF 417 Generation Package and extract the file
export pdf form data to excel spreadsheet; extract data from pdf forms
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 103 of 140 
For a comprehensive example and details about how to enable the Nintex 
Workflow  integration  see  chapter  4 Converting Documents using Nintex 
Workflow.  
The fields supported by this Workflow Activity are as follows: 
1. Destination Path: The location to write the generated file to. Leave this 
field empty to use the same location as the source file. For details about 
how to specify paths to different libraries / site collections see Appendix - 
Specifying path and file names. 
2. Output File Name: The name of the generated file. Leave this field empty 
to use the same name as the source file. Please note that if your source 
file is already in PDF format, and the Destination Path is the same as the 
Source Path, then leaving this field empty will overwrite it.   
3. Meta data: 
Control if the source file’s SharePoint meta
-data is copied to 
the destination file.  
4. Language: The language the source document is written in. It defaults to 
English, but we support Arabic, Danish, German, English, Dutch, Finnish, 
French, Hebrew, Hungarian, Italian, Norwegian, Portuguese, Spanish and 
Swedish.  
5. Performance: Specify the performance / accuracy of the OCR engine. It is 
recommended to leave this on the default Slow but accurate setting.  
6. Whitelist / Blacklist:  Control  which  characters  are  recognised.  For 
example limit  recognition to numbers by whitelisting  1234567890. This 
prevents, for example, a 0 (zero) to be recognised as the letter o or O.  
7. Pagination: In some specific cases a single image spans multiple pages. 
Enable pagination for those cases.  
8. Regions: By default the entire page is OCRed. To limit OCR to certain 
parts of a page, e.g. a header and/or footer, you can specify one or more 
regions using our XML syntax. Have a look at this blog post
, but only use 
the part that starts with (and includes) <Regions>…</Regions>. 
9. Output List ID: If you wish to carry out further actions on the generated 
file, e.g. send it by email or perform a check-in, then you can optionally 
store the ID of the List the file was written to in a workflow variable of type 
String.  
10. PDF List Item ID: Similarly to Output List ID, the Item ID of the generated 
file can optionally be stored in a  workflow variable  of  type Item ID  (in 
SharePoint 2007) or Integer (in SharePoint 2010 / 2013).  
11. Source List ID & List Item:  The  item  that  triggered  the  workflow  is 
processed by default. You can optionally specify the ID of a different List 
and List Item using workflow variables. Please use the same data types as 
used by Output List ID and Output List Item ID.  
12. Error Handling: 
Similar  to  the  way  some  of  Nintex’  own  Workflow 
Activities  allow  errors  to  be  captured  and  evaluated  by  subsequent 
actions, all of Muhimbi’s Workflow Activities a
llow the same. By default this 
facility is disabled meaning that any error terminates the workflow.  
C# PowerPoint: Read, Decode & Scan Barcode Image from PowerPoint
C# PowerPoint: Data Matrix Barcode Reader, C# PowerPoint C# PowerPoint: Decode PDF-417 Barcode Image, C# PowerPoint linear barcode image from PowerPoint file in
using pdf forms to collect data; cannot save pdf form in reader
Data Matrix .NET Windows Forms Bar Code Control
using Rasteredge.WinForms.Barcode; // construct a linear barcode Print Data Matrix Barcodes with .NET WinForms Barcode barcode and save into image file in gif
extract pdf form data to xml; extract data out of pdf file
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 104 of 140 
15.1.3  OCR files using a web Service call 
For a detailed example about how to use the Web Services interface to carry 
out OCR  and  generate  fully  searchable and  indexable  PDF  files  see this 
Knowledge Base article
15.2  Extract text from image based content 
A new OCR related facility has been added to the product with the introduction 
of  version  7.2.  This  new  facility  allows  text  on  (part  of)  a  page  to  be 
recognised and returned to the workflow for further processing.  
A common use for this is to extract a particular area of text from documents 
that all use a common template or layout. For example, if a reference number 
can always be found at the top right corner of scanned documents then that 
text can be extracted and stored in a SharePoint column from where it can be 
included in searches or be used in further workflow steps. 
15.2.1  Extract text using OCR and SharePoint Designer Workflows 
Once the PDF Converter is installed you will find a number of new Workflow 
Activities in SharePoint Designer. One of these activities is named Extract 
Text using OCR and looks as follows.   
The  workflow  sentence  is  consistent  with  the  other  Muhimbi  Workflow 
Activities and largely self-describing: 
1. this document: The source document to OCR and extract text from. For 
most  workflows selecting Current Item will  suffice, but some scenarios 
may require the look up of a different item.   
2. OCR language:  The  language  the  source  document  is  written  in.  It 
defaults  to  English,  but  we  support Arabic, Danish, German, English, 
Dutch,  Finnish,  French,  Hebrew,  Hungarian,  Italian,  Norwegian, 
Portuguese, Spanish and Swedish.  
3. OCR Performance:  Specify  the  performance  /  accuracy  of  the  OCR 
engine. It is recommended to leave this on the default Slow but accurate 
setting.  
4. Whitelist / Blacklist:  Control  which  characters  are  recognised.  For 
example limit  recognition to numbers by whitelisting  1234567890. This 
prevents, for example, a 0 (zero) to be recognised as the letter o or O.  
5. Pagination: In some specific cases a single image spans multiple pages. 
Enable pagination for those cases.  
.NET Windows Forms GS1-128 Bar Code Control & SDK
a global standard for exchanging data between different using Rasteredge.WinForms. Barcode; // construct a linear barcode object and save into image file in gif
extract data from pdf form fields; change font size pdf form reader
Java Imaging SDK Library: Document Image Scan, Process, PDF
convert and compress a multitude of file formats, such as Gif, Png, Tiff, Jpeg2000, DICOM, JBIG2, PDF, MS Word & 2D barcodes, including QR Code, Data Matrix Code
extract data from pdf c#; extracting data from pdf files
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 105 of 140 
6. Region: Specify the x, y, width and height of the region to retrieve text 
from. The unit of measure (UOM) is pt, 1/72
nd
of an inch. When extracting 
text from non-PDF files, e.g. a TIFF or PNG, then please take into account 
that internally the image is first converted to PDF, which may add margins 
around the image but guarantees that a single 
unified - UOM is used 
across all file formats. If you are not sure how internal conversion affects 
the dimensions of your image or scan then use our software to convert the 
file to PDF and open it in a PDF reader.  
7. Page: By default text is extracted from all pages and concatenated. To 
extract the text from a specific page specify the page number in this field.  
8. Result: The recognised text will be stored in this variable (type String)  
15.2.2  Extract text using OCR and Nintex Workflow 
The new Extract text using OCR activity is compatible with Nintex Workflow 
2007, 2010 & 2013. 
Data Matrix C#.NET Integration Tutorial
to print Data Matrix using C# BarCode datamatrix.generateBarcodeToByteArray(); //Generate Data Matrix barcodes & Document Imaging SDK and Java Document Imaging
flatten pdf form in reader; pdf data extraction
Create Data Matrix with VB.NET, Data Matrix Bar Code Generating
Rasteredge.Barcode.DataMatrix class to generate Data Matrix barcodes by using VB.NET professional .NET Document Imaging SDK and Java Document Imaging
extract data from pdf form to excel; extracting data from pdf forms to excel
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 106 of 140 
For a comprehensive example and details about how to enable the Nintex 
Workflow  integration  see  chapter  4 Converting Documents using Nintex 
Workflow
The fields supported by this Workflow Activity are as follows: 
1. Language: The language the source document is written in. It defaults to 
English, but we support Arabic, Danish, German, English, Dutch, Finnish, 
French, Hebrew, Hungarian, Italian, Norwegian, Portuguese, Spanish and 
Swedish.  
2. Performance: Specify the performance / accuracy of the OCR engine. It is 
recommended to leave this on the default Slow but accurate setting.  
3. Whitelist / Blacklist:  Control  which  characters  are  recognised.  For 
example limit  recognition to numbers by whitelisting  1234567890. This 
prevents, for example, a 0 (zero) to be recognised as the letter o or O.  
4. Pagination: In some specific cases a single image spans multiple pages. 
Enable pagination for those cases.  
5. Region: Specify the x, y, width and height of the region to retrieve text 
from. The unit of measure (UOM) is pt, 1/72
nd
of an inch. When extracting 
text from non-PDF files, e.g. a TIFF or PNG, then please take into account 
that internally the image is first converted to PDF, which may add margins 
around the image but guarantees that a single - unified - UOM is used 
across all file formats. If you are not sure how internal conversion affects 
the dimensions of your image or scan then use our software to convert the 
file to PDF and open it in a PDF reader.  
6. Page Number:  By  default  text  is  extracted  from  all  pages  and 
concatenated. To extract the text from a specific page specify the page 
number in this field.  
7. Output Text:  The  recognised text  will  be  stored in  this  variable (type 
String).  
8. Source List ID & List Item:  The  item  that  triggered  the  workflow  is 
processed by default. You can optionally specify the ID of a different List 
and List Item using workflow variables. Please use data type string for the 
List ID workflow variable. For the Item ID use type Item ID  (in SharePoint 
2007) or Integer (in SharePoint 2010 / 2013)  
9. Error Handling: 
Similar  to  the  way  some  of  Nintex’  own
Workflow 
Activities  allow  errors  to  be  captured  and  evaluated  by  subsequent 
actions, all of Muhimbi’s Workflow Activities allow the same. By default this 
facility is disabled meaning that any error terminates the workflow.  
Data Matrix Web Server Control for ASP.NET
Server Control in IIS (without using Visual Studio Port/datamatrix/datamatrix.aspx? DATA=YourDatainDataMatrix NET Document Imaging SDK and Java Document Imaging
how to save filled out pdf form in reader; how to fill pdf form in reader
.NET JBIG 2 SDK | Encode & Decode JBIG 2 Images
Highly-efficient data/image compression, 2-5 times than CCITT G3, CCITT G4; Simple to reduce PDF file size using JBIG2 compression within PDF;
how to save editable pdf form in reader; extract data from pdf file
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 107 of 140 
16  Copying Meta-Data 
Some of the 
product’s 
Workflow Activities and conversion screens provide the 
ability to copy-meta as part of the conversion process. This works well, but it is 
an ‘all or nothing’ approach.
To provide users with a more flexible way of copying meta-data, and setting 
an 
item’s content type
, we provide a separate SharePoint Designer and Nintex 
Workflow Activity to deal with this kind of operation. 
The high level functionality is as follows: 
Standalone Workflow Activity that can be used in combination with any of 
Muhimbi’s
Workflow Activities, or without them. 
Copy all meta-data or only selected fields. 
Copy meta-data to files in different folders or site collections. 
Change the content type to either the source file’s, destination file’s, the 
default content type for the library or a specific named content type. 
Copy  content  of AuthorCreated  and Modified  fields  by  explicitly 
specifying  these  field  names.  This information  is  not  copied  when  the 
default ‘copy all fields’ option is enabled. It is not possible to copy the 
Editor field as that is always overwritten by the workflow. 
16.1  Copying Meta-Data from SharePoint Designer Workflows 
To insert the Copy Meta-Data Activity into a workflow click the Action button in 
the SharePoint Designer Workflow editor and select Copy Meta Data. This 
inserts the following workflow sentence.  
The parameters are largely self describing and use the same format as the 
other Workflow Activities. 
This document: The source document to copy the meta-data from. For 
most  workflows  selecting Current Item will  suffice,  but  some  custom 
scenarios (e.g. Site workflows) may require the look up of a different item.  
This File: The path and file name to copy the meta-data to. Please make 
sure that the path does not include the host name, e.g. µhttp://you
r s
ite/…¶.
For more details see Appendix - Specifying path and file names. 
Fields: By default the content of all fields is copied to the destination file. 
However, if you wish to copy only specific fields then the field names can 
be specified in this list. You can separate fields using line breaks, ‘,’ or ‘;’ 
and you can use both internal and display field names. 
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 108 of 140 
Content type: While copying meta-data you have full control over the 
content type of the destination file. The following options can be specified: 
o
(source): The content type of the source file is copied to the 
destination file. Please include the round brackets. 
o
(target): The content type of the destination file is not modified and 
remains what it was before the  copy  operation. Please include the 
round brackets. 
o
(default): The default content type for the document library is applied 
to the destination file. Please include the round brackets. 
o
Name  of  Content  type: The destination file is set to a specific, 
named, content type. Please do not use round brackets around the 
name of the content type. 
Parameter ‘List ID’
: The ID of the file the meta-data was copied to. This 
can later in the workflow be used to perform additional tasks on the file 
such as performing a check-in or out. 
Parameter ‘List Item ID’
: The ID of the list that holds the file that the 
meta-data was copied to. 
16.2  Copying Meta-Data using a Nintex Workflow 
For a full example of how to use Muhimbi’s Workflow Activities using Nintex 
Workflow see Chapter 4 Converting Documents using Nintex Workflow. The 
fields supported by this Workflow Activity are as follows: 
Target Path: Enter the path of the target file to copy meta-data to, either:  
o
Leave empty to use the same directory as the source file.  
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 109 of 140 
o
A relative path to a sub site / document library / folder.  
o
An absolute path to a different site collection.  
Please make sure the path does not include the host name, e.g. 
µhttp://your site/…¶.
For more details see Appendix - Specifying path 
and file names. 
Target File Name: The name of the file to copy the meta-data to. Leave 
empty to use the source file, which can be useful if you just wish to set the 
content type of a file. 
Copy these fields:  By default the content of all fields is copied to the 
destination file. However, if you wish to copy only specific fields then the 
field names can be specified in this list. You can separate fields using line 
breaks, ‘,’ or ‘;’ and you can use both
internal and display field names. 
Set Content type: While copying meta-data you have full control over the 
content type of the destination file. The following options can be specified: 
o
(source): The content type of the source file is copied to the 
destination file. Please include the round brackets. 
o
(target): The content type of the destination file is not modified and 
remains what  it  was  before  the  copy  operation. Please include the 
round brackets. 
o
(default): The default content type for the document library is applied 
to the destination file. Please include the round brackets. 
o
Name  of  Content  type: The destination file is set to a specific, 
named, content type. Please do not use round brackets around the 
name of the content type. 
Out List ID: If you wish to carry out further actions on the target file, e.g. 
perform a check-in, then you can optionally write the ID of the List that 
holds the target file to a workflow variable of type String. 
Out List Item ID: Similarly to Out List ID, the Item ID of the target file can 
optionally be written to a workflow variable of type Item ID  (in SharePoint 
2007) or Integer (in SharePoint 2010 / 2013). 
Source List ID & List Item: The item that triggered the workflow is used 
as the  source item  by  default.  You  can  optionally  specify  the ID  of  a 
different List and List Item using workflow variables. Please use the same 
data types as used by Out List ID and Out List Item ID
Error  Handling: 
Similar  to  the  way  some  of  Nintex’  own  Workflo
Activities  allow  errors  to  be  captured  and  evaluated  by  subsequent 
actions, all of Muhimbi’s Workflow Activities allow the same. By default this 
facility is disabled meaning that any error terminates the workflow. 
PDF Converter for SharePoint - User Guide
PDF Converter for SharePoint - User Guide - Version  8.0 - 15/10/15 
© Copyright 2015, Muhimbi Ltd 
Page 110 of 140 
17  Building a Table Of Contents 
One of the more popular features provided by the PDF Converter is the ability 
to  convert  and  merge  multiple  documents  into  a  single  PDF,  all  in  one 
operation (See chapter 10 for details).  Although this facility works very well, 
and  even  includes  the  ability  to  generate  PDF  bookmarks  to  aid  with 
navigation inside the merged document, a common request is to add a full 
Table Of Contents (TOC) to the merged document as well. 
In this chapter the focus is on generating a Table Of Contents via our API 
(See  our  separate  Developer  Guide).  However,  if  you  wish  to  use  this 
functionality from a SharePoint Workflow, then please continue reading as 
well. We might have to get a little bit technical, but once you’re familiar with 
the concepts, you can use our XML based workflow syntax 
as described in 
Appendix  -  Override  default  conversion  settings  - to generate a table of 
contents from SharePoint Designer, Nintex and K2 based workflows. 
A copy of this chapter can also be found on our Blog
17.1  Object Model 
The classes relevant to dealing with TOCs are as follows 
MergeSettings: When merging multiple files and generating a single table 
of contents, follow the normal procedure for merging files (sample code
and populate the MergeSettings.TOCSettings property as per the sample 
code below.  
ConversionSettings: To generate a table of contents for a single 
document  (so  not  as  part  of  a  merge  operation),  follow  the  normal 
procedure for  converting  or  processing  a single file (sample code
) and 
populate ConversionSettings.TOCSettings as per the sample code below.  
TOCSettings: All settings related to the generation of the TOC can be 
found in this class. The available properties are as follows:  
o
Bookmark: The TOC itself can have its own PDF bookmark to aid 
with navigation. Specify the text in this property.  
o
Location: TOCs can be added to the Front or Back of the document. 
Enter the relevant option here.  
Documents you may be interested
Documents you may be interested