pdf library open source c# : How to extract data from pdf file using java Library control class asp.net azure .net ajax PervasiveDataParserforUnstructedTextOnlineHelp1-part1968

Define Line Styles 
After selecting the tutorial file and setting up basic options, find the patterns in this file and build recognition patterns (Line Style Definitions) so that Data Parser can 
identify the lines with data. 
The first characteristic of this report to notice is that each data record uses two lines of text. Another important characteristic is that several characters on each line are 
repeated consistently in the same position. These consistent patterns make it easy for you to build Line Style Definitions. 
Data Parser automatically creates a Line Style using ATTDOC in columns 19 through 24 as the Recognition Pattern and ATTDOC as the Line Style Name when you 
complete this task. Each line of text that matches this Line Style now displays the Line Style Name ATTDOC and a green arrow in the Line Style Column to the left of 
the text line. 
To define Line Styles: 
1. Highlight the letters TRN in columns 15 through 17. The letters TRN are in the same position in the first line of every record in the report. We could use the slash 
( / ) in the third column or the colon ( : ) in the ninth column or any of several other consistent characters to identify the line, but the TRN is fine. Data Parser 
needs only one consistent characteristic to identify a line.  
2. Right-click in the Data Panel and select Define Line Style > Auto New Line Style > Action - Collect Fields.  
3. In the second line of text, highlight the string ATTDOC in columns 19 through 24. These six letters appear in the same position in each second line of every 
record in the report.  
4. Right-click in the Data Panel, and select Define Line Style > Auto New Line Style > Action-Accept Record since this is the last line of every record.  
5. Proceed to Define Data Fields.  
Define Data Fields 
Notice that only the first couple of Data Fields in each of the TRN lines falls within the same columns from record to record. Define these fields first: 
1. In the TRN line, highlight the logged date and time data from columns 1 through 13.  
2. Right-click in the Data Panel, and select Define Data Field > New Data Field.  
3. In the Field Definition window, overwrite the default by typing Log in the Field Name box.  
4. Click Add.  
5. Highlight the string TRN from columns 15 through 17.  
6. Right-click and select Define Data Field .. New Data Field. The Field Definition window appears.  
7. Overwrite the default field name by typing Trans_Type in the box.  
8. Click Add. The TRN text changes to green all through the report indicating that it is the second data field defined on that line.  
9. Highlight the 12-digit number from columns 19 through 30.  
10. Right-click and select Define Data Field > New Data Field. The Field Definition window appears.  
11. In the Field Definition window, type Trans_No in the Field Name box.  
12. Click Add. The numeric text changes to blue in each of the TRN lines within the report indicating that it is the third field defined on that line.  
13. Proceed to Change Vertical Positioning.  
Change Vertical Positioning 
Because the patient and doctor names are different lengths, you cannot use Fixed Position to define the remainder of the Data Fields on the TRN lines. But because all 
of the fields other than the names have field labels with colons and spaces, Field Tags, you can define those fields as Floating Tag. "Floating" means that the Field Tags 
are not in the same position on the line in every record. If there were no Field Tags, you could still define the fields using Relative Word Position. 
The fourth field starts in the same column in each of the TRN lines so you can define Start Rule as Fixed Position for this field. 
To change the Vertical Positioning Bar: 
1. Click Vertical Positioning Bar.  
2. Click at the beginning of the field to confirm that the field does indeed start in the same position in every record.  
3. Click Vertical Position Bar again to remove the red line. The End Rule is Floating Tag because TIM:, the tag for the next field, always occurs at the end of this 
field.  
4. Proceed to Set Floating Tags - First Line of Text.  
Set Floating Tags - First Line of Text 
1. Highlight the patient
s name from columns 32 through 47.  
2. Right-click and select Define Data Field > New Data Field. The Field Definition window appears.  
3. Type Patient in the Field Name box.  
4. Click the End Rule tab.  
5. Click on the Floating Tag option. Notice that the cursor is now blinking in the box to the right of the option.  
6. Type TIM: in the box. This tells Data Parser that this Data Field ends when the TIM: Field Tag is encountered.  
7. To prevent truncation, click the End Rule tab and set the Default FldLength to 30 bytes.  
8. Click Add. Notice that the patient
s name does not change to colored text in the report. Fields defined as Floating Tag or Relative Word Position do not appear 
in colored text, nor are they underlined even if you have Underline Fields enabled in the Preferences menu. This is because those field positions are not the same 
in all records.  
9. Highlight the date and time data from columns 54 through 71.  
10. Right-click and select Define Data Field > New Data Field.  
11. Type Date_Time in the Field Name box.  
12. At the Start Rule tab select the Floating Tag option.  
13. Type TIM: in the box. This tells Data Parser that this Data Field starts immediately after the string TIM:.  
How to extract data from pdf file using java - extract form data from PDF in C#.net, ASP.NET, MVC, Ajax, WPF
Help to Read and Extract Field Data from PDF with a Convenient C# Solution
how to flatten a pdf form in reader; how to fill pdf form in reader
How to extract data from pdf file using java - VB.NET PDF Form Data Read library: extract form data from PDF in vb.net, ASP.NET, MVC, Ajax, WPF
Convenient VB.NET Solution to Read and Extract Field Data from PDF
extract table data from pdf; extracting data from pdf into excel
15. Type TYP: in the box. This tells Data Parser that this Data Field ends when the TYP: Field Tag is encountered.  
16. Click Add.  
17. Repeat the task for all except the last field (RATE).  
18. Proceed to Set End of Line - First Line of Text.  
Set End of Line - First Line of Text 
The RATE field at the end of the TRN line starts with a Floating Tag, but ends at the end of the line of text. Define this Data Field accordingly. 
1. Highlight the rate data from columns 93 through 97.  
2. Right-click and select Define Data Field > New Data Field.  
3. Type Rate in the Field Name box.  
4. On the Start Rule tab, select the Floating Tag option. Type RATE: in the box.  
5. Click the End Rule tab and click the End of Line option.  
6. Click the Data Collection/Output tab and set the Default FldLength in bytes for the field.  
7. Click Add.  
8. Proceed to Set Floating Tags - Second Line of Text.  
Set Floating Tags - Second Line of Text 
Look at the ATTDOC line of text in the records. Notice that the Data Fields in this line are also Floating Tag data. Follow these steps to define all the Data Fields 
except the last field. 
1. Highlight the attending doctor number from columns 29 through 34.  
2. Right-click and select Define Data Field .. New Data Field.  
3. Type Attdoc_No in the Field Name box.  
4. On the Start Rule tab, select the Floating Tag option. Type ATTDOC NO: in the box.  
5. Click the End Rule tab.  
6. Click the Floating Tag option. Type ATTDOC: in the box.  
7. Click the Data Collection/Output tab and set the Default FldLength in bytes for the field.  
8. Click Add.  
9. Repeat the steps (using the appropriate field names and tags) for the remainder of the Data Fields on the ATTDOC line, except the last field (BY).  
10. Proceed to Set End of Line - Second Line of Text.  
Set End of Line - Second Line of Text 
The BY field at the end of the ATTDOC line starts with a Floating Tag, but ends at the end of the line of text just like the RATE field in the first line. So, use the same 
steps as before, except use End of Line as the End Rule for that field. 
1. Highlight the field.  
2. Right-click and select Define Data Field .. New Data Field.  
3. Name the field.  
4. Set the Start Rule.  
5. Click the End Rule tab and click the End of Line option.  
6. Click the Data Collection/Output tab and det the Default FldLength in bytes for the field.  
7. Click Add.  
8. Browse the data records to see how your data has changed.  
9. If desired, rearrange the data fields as needed to meet the requirements of the export data file.  
10. Save and close your script.  
Data Parser for Unstructured Text - Tutorial 5 - Columnar Data with a 
Footer 
Tutorial 5 guides you through the steps to create and save a script file in Data Parser for Unstructured Text that reads and flattens a data file containing both detail lines 
and a footer line with data to extract. 
This tutorial is useful to anyone likely to be working with columnar data with footer. Before doing this tutorial, it is recommended that you do Data Parser Tutorial 3 - 
Columnar Data first. 
By following the steps outlined below, you become familiar with both the process of creating an extract script and the terms used throughout the documentation. 
Tutorial Goals 
In this tutorial, you will learn: 
l
How to create a script that reads and flattens a data file with detail and footer lines  
l
How to save the script file  
l
New terms located throughout the documentation  
Procedure 
The steps in this tutorial should be completed in the order shown. 
Generate and draw Data Matrix for Java
correction is valid for all 2D barcodes like QR Code, Data Matrix and PDF 417 in Download the Java Data Matrix Generation Package and extract the file.
extract pdf form data to excel; how to save filled out pdf form in reader
Generate and draw PDF 417 for Java
Error correction is valid for all 2D barcodes like QR Code, Data Matrix and PDF 417 in Download the Java PDF 417 Generation Package and extract the file
extract data from pdf file to excel; collect data from pdf forms
Line Styles and Data Fields with this type of data automatically, saving you a lot of time and effort. 
Define Line Styles and Data Fields 
After selecting the tutorial file and setting up basic options, define line styles and data fields.Data Parser automatically creates a Line Style for the line and gives it a 
default Line Name of SALESMARKETING when you complete this task. Data Parser also automatically parses the line into 7 Data Fields using spaces as a column 
separator. The Data Fields are given default names of SALESMARKETING_1 through SALESMARKETING_7. 
To define line styles and data fields: 
1. Select the first detail line (it begins with SALES/MARKETING) by clicking in the Line Style column immediately to the left of the line to highlight the entire line of 
text.  
2. Right-click in the Line Style Column (the yellow stripe on the left part of the screen), and select Parse Columnar Data.  
3. Proceed to Change Data Field Names.  
Change Data Field Names 
Since the Data Field names are used in the Browse Data Record as column headings for the Data Fields, change the Data Field names for SALES/MARKETING_1 
through SALES/MARKETING_7 to more descriptive field names. 
See the new, and more descriptive, names for the Data Fields in Table 3-4 below. 
Table 3-4 Tutorial 5 - Suggested Data Field Names 
To change Data Field names: 
1. In the Preferences menu, disable Close Definition Dialogs on Add/Update by unchecking it.  
2. Double-click on one of the Data Fields in the SALESMARKETING line to open the Field Definition window.  
3. In the Field Definition window, select the default field name, highlight it, and replace it with the corresponding descriptive name given above.  
4. Click Update.  
5. To select the next Data Field, click the Field Name arrow and a list of Data Fields that have been defined for the current Line Style is displayed. Select the next 
Data Field.  
6. Name the remaining Data Fields until you have named all the fields.  
7. Click Close.  
8. Double-click on the name, SALESMARKETING, in the Line Style column on the left of the screen. The Line Style Definition window appears.  
9. Type in a new name, Detail.  
10. Click Update.  
11. Proceed to Define Recognition Patterns.  
Define Recognition Patterns 
The SALESMARKETING Line Style is recognized by a pattern where columns 2 to 16 contain the text SALES/MARKETING. This pattern matches only the first 
detail line. It needs be general enough to match all of the detail lines in the text, but specific enough to match only the detail lines, not the TEAM TOTALS line. 
Analyze the detail lines to find what makes them unique in comparison to other lines in the text. Things to look for are position of the Data Fields, contents of the Data 
Fields, anything that is consistent for each of the detail lines but not contained in non-detail lines. For example, the detail lines contain: 
l
Commas in positions 24, 34 and 75 on every line.  
l
Only letters, white space, and a / in columns 2 through 18.  
l
Only digits, white space, and commas in columns 20 through 79.  
l
A digit in position 78.  
l
An upper case letter in each of the first 5 positions.  
Of all of the above observations, creating a pattern to look for uppercase letters in the first 5 positions is the best way to go. Here are some reasons why: 
l
Defining a pattern that checks for commas in positions 24, 34, and 75 would require 3 pattern lines and probably would not match every detail line in subsequent 
reports. Suppose in this same report (created a week later) Team 2 of the Development department went to a pre-paid weeklong class and they only spent 100 
dollars on supplies for the class. This means that a comma would not be in position 34 of that detail line so it would not match the Line Style.  
l
Defining a pattern to check for letters, white space, and a / in columns 2 through 18 would require three pattern lines and also matches the column heading line.  
l
Defining a pattern to match lines that contains at least one digit in positions 20 through 79 and does not contain letters or / would require 3 pattern lines. It also 
matches the Team Totals line.  
l
Defining a pattern to match lines that contain a digit in position 79 would match the detail lines and the Team Totals line.  
So, the best pattern to use is one that looks for capital letters in columns 2 through 6. 
Default Name
Suggested Name
SALES/MARKETING_1Department
SALES/MARKETING_2Team1
SALES/MARKETING_3Team2
SALES/MARKETING_4Team3
SALES/MARKETING_5Team4
SALES/MARKETING_6Team5
SALES/MARKETING_7DepartmentTotal
C# PowerPoint: Read, Decode & Scan Barcode Image from PowerPoint
C# PowerPoint: Data Matrix Barcode Reader, C# PowerPoint C# PowerPoint: Decode PDF-417 Barcode Image, C# PowerPoint linear barcode image from PowerPoint file in
extracting data from pdf forms; filling out pdf forms with reader
Data Matrix .NET Windows Forms Bar Code Control
using Rasteredge.WinForms.Barcode; // construct a linear barcode Print Data Matrix Barcodes with .NET WinForms Barcode barcode and save into image file in gif
how to fill out pdf forms in reader; c# read pdf form fields
1. In the Line Style Definition window, click once in the Look For? cell in the first row of the grid, then click the arrow to display the Pattern Builder window.  
2. Change the value of the Type field from literal to character class by clicking in the Type cell, then clicking the arrow to display the allowable values for the Type 
field. Select character class from the list.  
3. Click in the Value cell, then click the arrow to display the allowable values for the Value field. Select upper case letters from the list.  
4. Highlight the value in the Count field and change it to 5. The value of the Begin field should be 2. Change the value of the End field to 6 and click OK.  
5. Click in the empty cell in the seecond row of the And/Or column. The string And automatically displays in that cell.  
6. Click in the first empty cell in the Search What? Column. Then click on the down arrow and select Column Range (m-n) from the list.  
7. Click in the first empty cell in the Operator column. Then click on the down arrow and select Does Not Contain from the list.  
8. Click in the first empty cell in the Look For? column. Then click on the down arrow. This opens the Pattern Builder window.  
9. If the Value column is not empty, delete the contents of that cell. Press or place the mouse pointer in the cell in the Value column and click once to position the 
blinking cursor in that cell. Type a capital P.  
10. Change the values in the Count, Begin and End cells to 1.  
11. Click OK in the Pattern Builder window.  
12. Click the Update and Close in the Line Style Definition window. Notice that Detail now appears beside each of the detail lines in the Line Style column, and not 
next to the Processing Date line.  
13. Proceed to Modify Data Fields.  
Modify Data Fields 
To modify the Data Fields in the Detail lines so the Data Parser can extract the data on the last line of the report: 
1. Double-click in the Department Data Field, the red text at the beginning of each detail line. The Field Definition window opens.  
2. Click on the Data Collection/Output tab, and click on the Array Field option to enable it.  
3. Click Update.  
4. Click the Data Field Name arrow and choose the next Data Field.  
5. Repeat this process for each field in any one line of text.  
6. Click Close.  
7. Proceed to Define Line Style.  
Define Line Style 
To define the PROCESSING DATE line: 
1. Highlight PROCESSING DATE:.  
2. Right-click in the Data Panel and select Define Line Style > Auto New Line Style > Accept Record. Data Parser defines the Line Style using the first word of 
the highlighted text in that position as the recognition pattern and named the Line Style PROCESSING.  
3. Proceed to Define Data Field.  
Define Data Field 
To define the Data Field on the PROCESSING_DATE line: 
1. Highlight the date from columns 17 through 24.  
2. Right-click in the Data Panel and select Define Data Field > New Data Field.  
3. When the Field Definition window opens, change the default Field Name to Date.  
4. Click Add in the Field Definition window.  
5. Browse the data Records to see how your data has changed.  
6. Rearrange the data fields as needed to meet the requirements of your export data file.  
7. Save and close your script.  
Data Parser for Unstructured Text - Tutorial 6 - Variable Length Multi-
Line Data Fields 
Tutorial 6 guides you through the steps to create a script that reads and flattens a data file containing data that extends across multiple lines of text and where the end of 
each record varies. 
This tutorial is useful to anyone who has a report with fields that extend across more than one line, or has no consistent end of record line. 
By following the steps outlined below, you become familiar with both the process of creating an extract script and the terms used throughout the documentation. 
Tutorial Goals 
In this tutorial, you will learn: 
l
How to create a script that reads and flattens a data file with varied record lengths  
l
How to save the script file  
l
New terms located throughout the documentation  
Procedure 
The steps in this tutorial should be completed in the order shown 
Scroll through the data to get an idea of this file
s structure. Notice that there are eight or nine left-aligned Field Tags in each record. These tags can be used to easily 
.NET Windows Forms GS1-128 Bar Code Control & SDK
a global standard for exchanging data between different using Rasteredge.WinForms. Barcode; // construct a linear barcode object and save into image file in gif
exporting pdf form to excel; exporting data from pdf to excel
Java Imaging SDK Library: Document Image Scan, Process, PDF
convert and compress a multitude of file formats, such as Gif, Png, Tiff, Jpeg2000, DICOM, JBIG2, PDF, MS Word & 2D barcodes, including QR Code, Data Matrix Code
how to make pdf editable form reader; how to save fillable pdf form in reader
Define Line Styles 
After selecting the tutorial file and setting up basic options, define your line styles. 
1. In the third line, highlight DATE: from columns 1 through column 5.  
2. Right-click with the mouse positioned anywhere in the Data Panel (the white part of the screen) and select Define Line Style > Auto New Line Style > Action-
Collect fields. Data Parser automatically defines the Line Style with a Recognition Pattern of DATE: in columns 1 through 5 and name the Line Style DATE.  
3. Repeat the same basic procedure in step 2 for each of the following Field Tags in the first record. See Table 3-5 below. 
Table 3-5 Tutorial 6-Field Tag Columns 
Note: You may also, if you wish, go to the second record and define the LEGAL DESCRIPTION: field in columns 1-18.  
4. In the 23rd line of the report use the mouse to highlight UNIT PRICE: from column 1 through column 11.  
5. Right-click in the Data Panel and select Define Line Style > Auto New Line Style > Action-Accept Record. Data Parser automatically defines the Line Style 
with a Recognition Pattern of UNIT PRICE: in columns 1 through 11 and name the Line Style UNIT_PRICE. To verify that the Line Style Definitions match the 
appropriate lines of text throughout the report, scroll down and see that each of the lines that contain a Field Tag has the corresponding Line Style Name in the 
Line Style Column to the left of the text line.  
6. Proceed to Define Data Fields.  
Define Data Fields 
1. Highlight November 12, 1993 from columns 26 through column 42.  
2. Right-click and select Define Data Field > New Data Field. The Field Definition window appears. The Field Name defaults to DATE_1.  
3. Type DATE to overwrite the default or click in the Field Name box and backspace over the _1.  
4. Click Add.  
5. Highlight Jeff County from columns 26 through 36.  
6. Right-click and select Define Data Field > New Data Field. The Field Name defaults to RECORDATION_1.  
7. Type in something else if you wish or click with the mouse and backspace twice to remove _1.  
8. Click Add.  
9. Proceed to Set Continuation Rule.  
Set Continuation Rule 
Notice that some of the data you want to extract resides within a single line of text in one record but continues across multiple lines of text in other records. For 
example, the data in the CONSIDERATION field in the first record is on a single line of text, but in the second record, the data in the CONSIDERATION field 
continues across nine lines of text. This is easily defined using the Data Parser feature called Continuation Rule. 
1. Highlight $333,000 Cash from columns 26 through 38.  
2. Right-click and select Define Data Field > New Data Field.  
3. Change the field name, if you wish.  
4. Click the End Rule tab and select the End of Line option.  
5. Click the Continuation Rule tab and select the Until Next Line Style option. There is one extra step necessary for fields that are not fixed in length, which is 
setting the Default FldLength to prevent data truncation.  
6. Set the Default FldLength to 500 bytes on either the End Rule tab or the Data Collection/Output tab.  
7. Click Add.  
8. Ensure that Data Parser is picking up all the data by clicking Browse Data Record, and widening the CONSIDERATION column.  
9. Define all of the remaining Data Fields.  
10. Browse the data records to see how your data has changed.  
11. Rearrange the data fields as needed to meet the requirements of the export data file.  
12. Save and close your script.  
Data Parser for Unstructured Text - Tutorial 7 - Multiple Accept 
Records 
Tutorial 7 guides you through the steps to create and save an extract script file in Data Parser that uses multiple Accept Records. 
You parse the data in a report file, TUTOR7 (supplied during installation), into a format suitable for exporting. By following the steps outlined below, you become 
familiar with both the process of creating an extract script and the terms used throughout the documentation. 
Tutorial Goals 
In this tutorial, you will learn:  
Field Tag
Beginning 
Column
Ending 
Column
RECORDATION
1
12
CONSIDERATION 1
14
SITE DIMENSIONS 1
16
SITE AREA
1
10
ZONING
1
7
REMARKS
1
8
Data Matrix C#.NET Integration Tutorial
to print Data Matrix using C# BarCode datamatrix.generateBarcodeToByteArray(); //Generate Data Matrix barcodes & Document Imaging SDK and Java Document Imaging
extract data from pdf to excel online; extract data from pdf table
Create Data Matrix with VB.NET, Data Matrix Bar Code Generating
Rasteredge.Barcode.DataMatrix class to generate Data Matrix barcodes by using VB.NET professional .NET Document Imaging SDK and Java Document Imaging
save data in pdf form reader; how to extract data from pdf file using java
l
l
How to use multiple Accept Records in your script  
l
How to save the script file  
l
Terms used throughout the documentation  
Procedure 
The steps in this tutorial should be completed in the order shown. 
Define a Line Style and Data Fields 
After selecting the tutorial file and setting up basic options, begin creating line styles for the first Accept Record. 
To create a Line Style and Data Fields for these lines: 
1. Select the first detail line (Parmer Lane Animal Hospital) by clicking in the Line Style column immediately to the left of the line. This highlights the entire line of 
text.  
2. Right-click anywhere in the Line Style column and select New Line Style. The Line Style Name defaults to Parmer_Lane_Animal_H.  
3. Rename it HospitalLine.  
4. Click Add.  
5. Highlight Parmer Lane Animal Hospital in the Data Panel.  
6. Right-click in the Data Panel and select Define Data Field > New Data Field. The Field Name defaults to HospitalLine_1.  
7. Change the name to Hospital.  
8. Click Add.  
9. Right-click in the Line Style column to the left of April 1, 1999, and select New Line Style.  
10. Change the Line Style Name to ReportDateLine and click Add. The data on this line is always centered beneath the HospitalLine. Depending on what month 
and day the report is run on, the data field may be longer or shorter than the current date.  
11. To make sure that your data field is wide enough, highlight the data from positions 31 through 57.  
12. Right-click in the Data Panel and select Define Data Field > New Data Field.  
13. Change the field name to ReportDate.  
14. Click the Data Collection/Output tab.  
15. Make sure that the Trim Leading and Trailing Spaces box under Other Collection Options is checked.  
16. Click Add. The first repeating Line Style that we want Extract Schema Designer to find is the Account Number.  
17. Click in the Line Style column to the left of 1101-01, then right-click anywhere in the Line Style column and select New Line Style.  
18. The Line Style Name defaults to STYLE1. Change it to AccountLine.  
19. Proceed to Define Line Recognition Rules.  
Define Line Recognition Rules 
Notice the entry under the Look For? column. Its default is in position 5. While this catches all pertinent lines in our example, it might not catch all instances in a larger 
record example. 
To update the Line Recognition Rules: 
1. Click in the first cell under Look For?, then click the arrow.  
2. In the Pattern Builder window, click in the first cell under Type and select Mask from the list.  
3. Click in the first cell under Value. Keep the hyphen and type a pound sign (#) for each numeral, for example ####-##. This tells Data Parser that there are four 
digits followed by a hyphen, and then two more digits.  
4. Change the Begin position from 5 to 1.  
5. Change the End position from 5 to 7.  
6. Click OK.  
7. Click Add.  
8. Highlight the account number (1101-01) and right-click in the Data Panel.  
9. Select Define Data Field > New Data Field. A Field Definition window appears.  
10. Change the Field Name from AccountLine_1 to AccountNo.  
11. Click Add.  
12. Before you continue, select Source Options from the tool bar and select the Flush Field Contents on Accept Default box under the Script Design Choices tab. 
This flushes the data from the remaining fields in your report, unless you manually change a specific field to propagate the data.  
13. Click OK.  
14. Proceed to Define Line Styles and Data Fields.  
Define Line Styles and Data Fields 
1. Select the first detail line under the first account number.  
2. Right-click in the Line Style column to the left of Robertson and select New Line Style. A Line Style Definition window appears.  
3. Rename the Line Style from Robertson to LastNameLine.  
4. Click the Recognized By arrow and select Relative Position. Note: The information under Line Recognition Rules changes. The default Base Line is 
AccountLine.  
5. If it is not, click in the first cell under Base Line and select Account Line from the drop-down list. The default Line Count from Account Line is 1. However, 
there is a blank line between the AccountLine and the LastNameLine.  
6. Change the count from 1 to 2.  
7. Click Add.  
8. Highlight Robertson and continue out to position 35, in case someone further in the file has a very long last name.  
9. Right-click in the Data Panel and select Define Data Field > New Data Field. A Field Definition window appears.  
10. Change LastNameLine_1 to LastName and click Add.  
11. Right-click in the Line Style column to the left of Linda and select New Line Style. A Line Style Definition window appears.  
Data Matrix Web Server Control for ASP.NET
Server Control in IIS (without using Visual Studio Port/datamatrix/datamatrix.aspx? DATA=YourDatainDataMatrix NET Document Imaging SDK and Java Document Imaging
how to save editable pdf form in reader; saving pdf forms in acrobat reader
.NET JBIG 2 SDK | Encode & Decode JBIG 2 Images
Highly-efficient data/image compression, 2-5 times than CCITT G3, CCITT G4; Simple to reduce PDF file size using JBIG2 compression within PDF;
extracting data from pdf to excel; how to extract data from pdf to excel
13. Click the Recognize By arrow and select Relative Position. The Line Recognition Rules should default to three lines from AccountLine.  
14. If they do not, change the Count and the Base Line accordingly.  
15. Click Add.  
16. Now highlight Linda and continue out to position 35, in case someone further in the file has a very long first name.  
17. Right-click in the Data Panel and select Define Data Field > New Data Field. A Field Definition window appears.  
18. Change FirstNameLine_1 to FirstName.  
19. Click Add.  
20. Right-click in the Line Style column to the left of 143 Patterson Place and select New Line Style. A Data Parser Line Style Definition window appears.  
21. Change the Line Style name to Address1Line.  
22. Click the Recognize By arrow and select Relative Position. The Line Recognition Rules should default to 4 lines from AccountLine.  
23. If not, change the Count and the Base Line accordingly and click Add.  
24. Highlight 143 Patterson Place and continue out to position 60, in case someone further in the file has a very long address.  
25. Right-click in the Data Panel and select Define Data Field > New Data Field. A Field Definition window appears.  
26. Change Address1Line_1 to Address1 and click Add.  
27. Right-click in the Line Style column to the left of Austin TX 78759 and select New Line Style.  
28. In the Line Style Definition window, change the Line Style name to CSZ (for City, State, Zip).  
29. Click the Recognize By arrow and select Relative Position. The Line Recognition Rules should default to 5 lines from AccountLine.  
30. If not, change the Count and the Base Line accordingly and click Add.  
31. Proceed to Define the Line Style - Accept Record.  
Define the Line Style - Accept Record  
Since this is the end of the first record (before other information becomes a subset of this information), make this line an Accept Record. 
1. Click on the Line Action tab and select Accept Record Including and click Add.  
2. Right-click the Line Style column again and select Parse Columnar Data.  
3. Double-click the red Austin field.  
4. Rename the Field Name from CSZ_1 to City.  
5. Click Update.  
6. Double-click on the green TX field.  
7. In the Data Parser Field Definition window, rename the Field Name from CSZ_2 to State.  
8. Since this field is always be a two-character field, click on the End Rule tab and change the Fixed Column number to ZZ.  
9. Click Update. The State field now has only the two letters underlined in green.  
10. Double-click on the blue 78759 field.  
11. In the Field Definition window, rename the Field Name from CSZ_3 to Zip.  
12. Since this field is always start at position 40, change the Start Rule Fixed Column accordingly.  
13. Since this field may go out to position 49, change the End Rule Fixed Column accordingly. If you do not extend this field, the last four digits in the zip for the 
second record is not picked up.  
14. Click Update.  
15. View the data collected and rearrange data fields as needed.  
16. Proceed to Define Line Style for Pet Information.  
Define Line Style for Pet Information 
You must define a line style that recognizes each of the pet information lines. Analyze each of these records, to look for a common pattern to define the Line Style. 
The Pet Type, Pet Name, Sex, and Color are all different in each record. The only thing that remains the same is the placement of Age, in positions 42 and 43. 
To define your Line Style to recognize this pattern: 
1. Click in the Line Style column to the left of DSH-C.  
2. Right-click anywhere in the Line Style column and select New Line Style from the pop-up list. A Line Style Definition window appears.  
3. Change the Line Style Name from DSHC to PetInfoLine.  
4. Click in the first cell under Look For?.  
5. Click on the down arrow that appears to the right of that cell. The Pattern Builder window appears.  
6. Since you do not want to look for a specific character, change the Type from literal to character class.  
7. Click in the first cell under Value and select digits from the drop-down list.  
8. Since you can not be sure whether there are one or two digits for the Age, change the Count from 5 to 1.  
9. Change the Begin position from 3 to 42, the first possible Age position.  
10. Change the End position from 7 to 43, the last possible Age position and click OK. Since the PetInfoLine may have visit information under it, it is be an Accept 
Record as well.  
11. Click on the Line Action tab and select ACCEPT Record Including.  
12. Click Add. Then scroll through the file to see if Data Parser now recognizes all of the PetInfoLines. You should see a green arrow to the left of each of lines.  
13. With the PetInfoLine still highlighted, right-click in the Line Style column again and select Parse Columnar Data.  
14. Since the data fields default to PetInfoLine_1 >through PetInfoLine-5, go up to Preferences and de-select Close Definition Dialogs on Add/Update.  
15. Rename each of the fields more appropriately by clicking the Field Name arrow, and selecting each new data field. If you make a change to a data field, click 
Update before moving on to the next data field. Use the following new names: PetBreed, PetName, PetAge, PetsSex, and PetsColon. Note that the PetAge field 
does not extend far enough to catch the second digit of the age.  
16. Open the data field definition window and change the Start Rule to 42, and the End Rule to 43.  
17. Click Update. The field is now properly aligned.  
18. Similarly, the PetsSex field is always a single character. So open the data field definition window and change the End Rule to 58.  
19. Click Update. The field is now limited to a single character field.  
20. Open the data field definition window and change the End Rule to 90.  
21. Click Close.  
22. From the Preferences menu, enable Close Definition Dialogs on Add/Update.  
24. Proceed to Change the Accept Record Behavior.  
Change the Accept Record Behavior 
To change the behavior on Accept: 
1. Double-click on Shiva to open the Field Definition window.  
2. Click the Data Collection/Output tab.  
3. Click Propagate Field Contents, then click Update.  
4. To view the data collected for this Accept Record, browse the data record.  
5. To select the Current Accept Record, click PetInfoLine in the middle of the screen.  
6. Click Assign to Current Accept Record.  
7. Click to the left of 02/18/99 on line 20 to define the VisitInfo line style.  
8. Right-click anywhere in the Line Style column and select New Line Style.  
9. Change the default NA Line Style Name to VisitInfoLine.  
10. Click on the Line Action tab and select ACCEPT Record Including.  
11. Click Add.  
12. With the VisitInfoLine still highlighted, right-click in the Line Style column again and select Parse Columnar Data.  
13. Since the data fields default to VisitInfoLine_1 through PetInfoLine-3, go to Preferences and disable Close Definition Dialogs on Add/Update.  
14. Double-click the first data field in the VisitInfoLine.  
15. Rename each of the fields appropriately, by clicking the Field Name arrow, and selecting each new data field. If you make a change to a data field, click Update 
before moving on to the next data field. Use the following new names: VisitDate, Diagnosis, and Service.  
16. Since the VisitDate field is always a fixed length, change the End Rule to 15.  
17. Change the End Rule on the Service field to 105 to be sure that it collects all the information in that field.  
18. Click Update and then Close.  
19. From Preferences, re-check Close Definition Dialogs on Add/Update.  
20. Assign the account number to each pet name, and associate the pet name and account number with each office visit by selecting Record from the menu, and 
selecting Edit Accept Record.  
21. Select PetInfoLine as the Current Accept Record. Then click Show Fields in the upper right portion of the Accept Record Definition window.  
22. Click the AccountLine check box.  
23. Click Update.  
24. Browse the data to see that the account number now shows up at the bottom of the PetInfoLine fields.  
25. Click Record in the top toolbar again, and select Edit Accept Record.  
26. Select VisitInfoLine as the Current Accept Record.  
27. Click Show Fields in the upper right portion of the Accept Record Definition window.  
28. Since you want to add the account number to this Accept Record, click the AccountLine check box.  
29. Add the pet
s name to this Accept Record by clicking the PetName check box.  
30. Click Update.  
31. Click on the VisitInfoLine in the middle of the screen to select the Current Accept Record.  
32. Click Assign to Current Accept Record.  
33. Scroll through the data to see that the visit information shows up under the pet name.  
34. Browse the data records to see how your data has changed.  
35. Rearrange the data fields as needed to meet the requirements of your export data file.  
36. Save and close your script.  
Introduction to Basic Elements 
When working with report or text files in the Data Extractor, there are three basic elements to help you accomplish your task. Those basic elements are line style, data 
field, and field content. 
line style is what you define that tells the Data Extractor how to identify a particular line of text in the report. You want to define each line style in such a way that 
the Data Extractor can identify that same line of text throughout the report. The trick to defining a good line style is to make the recognition rules specific enough to not 
include any lines you do not want recognized, yet broad enough to include all lines you do want recognized. See Defining Line Styles. 
data field is what you define that tells the Data Extractor which specific portions of the report you want to extract and assemble into data records. There are options 
in the Data Extractor that let you determine which data fields are collected and assembled as part of each output data record. For details, see Define Data Fields. 
The field content is the data that occupies each defined data field. Any defined data field may contain data or may be blank in any given record. There are options in 
the Data Extractor that let you determine whether or not the field contents of one data field are carried forward to subsequent data fields that are blank. For details on 
the Flush Field Contents, Propagate Field Contents, and Flush Field Contents on Accept Default options, see Define Data Fields and Source Options Window. 
When using Data Extractor to extract data from a text or report file, you follow some general procedures. It is important to understand that the goal is to define line 
styles and data fields in such a manner that the Data Extractor is able to assemble records of data out of the information contained in the report. 
Some Helpful Tips 
These sections offer some helpful hints and tips that may make your task easier. Since every report or text file is different, these subjects are more general in nature. 
There are more specific examples offered in other sections of the documentation. 
Finding Logical Record Breaks 
Your goal is to extract useful data out of your report or text file and then assemble that data into a field-and-record-oriented format. Therefore, one of your initial steps 
should be to examine the report and find the logical record breaks. When you locate a logical record break, you define a line of text as the ACCEPT Record to mark 
Some types of reports are formatted in such a way that logical record breaks are easy to locate and the ACCEPT Record is easy to define. Some examples follow: 
l
Reports where each page contains the information that comprises one record, and the last line of text is defined as the ACCEPT Record. See Extract Schema 
Tutorial 1 - The Basics and Extract Schema Tutorial 2 - Tagged Data and Automatic Features.  
l
Columnar reports where each line of text comprises one record, and each line is defined as the ACCEPT Record. See Extract Schema Tutorial 3 - Columnar 
Data.  
l
Variable-length ASCII files where each record is derived from a consistent number of lines of text, and the last line of each record is defined as the ACCEPT 
Record. See Extract Schema Tutorial 4 - Floating Tags.  
Other types of reports are not so easy. Some examples follow: 
l
Reports that contain detail lines and a footer with data to be extracted. See Extract Schema Tutorial 5 - Columnar Data with a Footer.  
l
Reports that contain data that extends across multiple lines of text within one data field. See Extract Schema Tutorial 6 - Variable Length Multi Line Data Fields. 
l
Reports that contain data that fits into more than on logical record type. See Extract Schema Tutorial 7 - Multiple Accept Records.  
When your report is formatted in such a way that defining the end of a record is difficult, sometimes the only way to handle this is to define the beginning of a record. 
You can use the ACCEPT Record option that tells the Data Extractor to assemble a record, but collect the data fields Before Collecting this line
s fields. This ends the 
field collection action on the last defined line of text that falls BEFORE the ACCEPT Record line, and places any data fields on the ACCEPT Record line in the next 
record. 
Basic Steps 
These are the basic steps required for creating an Extract script. 
1. Open a text file, report file, or URL file with the Data Extractor.  
2. Define line styles for each line in source file that contains information to be extracted.  
3. Within each defined line, you may define one or more data fields.  
4. After defining all the needed line styles and data fields, save the script.  
5. Export the extracted data.  
The following sections explain the details of these procedures. 
l
How to Create a Report File  
l
Defining Line Styles  
l
Defining Data Fields  
l
Saving an Extract Script  
Open a Text File or URI 
To Create a New Extract 
Follow these steps to open a text file, report file, or URI in the Data Extractor. 
1. Click the New Extract icon image\newscr.gifin the toolbar, or select New Extract from the File menu.  
2. In the Select the Text File window, choose your source file in one of three ways: 
a. Type the drive, directory path, and filename directly in the Source File text box and click OK.  
b. Click the arrow and browse to build the path and file name for the source file.  
c. Type the complete URI addressing scheme (e.g., http://www.yahoo.com/) in the Source File text box.  
When the file or URI is selected, the text displays in the Data Panel section of the Data Extractor main window. 
All file types that the Data Extractor can open appear in the Files of Type box in the Select Report/Text File window. Because the Data Extractor supports so 
many different types, not all extensions are visible within the Files of Type box. However, all available file types appear in the selection window, including those 
files with extensions not viewable in the Files of Type box. 
Note: A minimum of v1.4.0 of Sun Java Runtime must be installed for the URI support to work. Without this component, you will receive the error message: 
"Unable to load Java virtual machine." 
Note: Extract scripts (.CXL files) derived from a URI source connection are now stored in the default workspace directory called Extracts. For more 
information, see URI Support
3. Scroll through your file and locate a page or record that best represents the perfect record; i.e., one that is most representative of all the records. In the Source 
Options window, set the Sample Size to include this portion of the file. (See Source Options Window.)  
Also, study the overall formatting of the information you want to extract, looking for any tagged or columnar data in the report. Pay special attention to the tag 
separators, field separators, and column separators. Again, in the Source Options Window, make appropriate selections from the list of available options. 
You are now ready to begin defining line styles and data fields. 
If you need to quit the Data Extractor and come back to your work at another time, save the extract. This also saves your work in a database file called 
extractor800.mdb in your \Common800 directory. 
To open an existing extract with the same report: 
If you have already defined some line styles and data fields in a report and saved that work, you can open the extract and report in another session and continue your 
work or make modifications to it. 
If you have created and saved a complete extract, you can open the saved Extract and run an export. 
To open an existing extract and report, double-click it with the mouse in the Extract Manager, or select it then select File > Open Extract. 
Note: Extract scripts (.CXL files) derived from a URI source connection are stored in the default workspace directory called Extracts. 
To open an existing extract with a different report: 
You can open a previously-designed script with a different report or text file to check on script compatibility. 
1. Open the extract normally, either by double clicking on it, clicking Open Extract, or by selecting File > Open Extract.  
2. Select Source > Options.  
3. Click the File Properties tab.  
4. Click the Text File arrow and browse to choose the new report.  
Extract Tuning Tips 
Because the Data Extractor reads and evaluates each data line, anytime you have many Line Styles (usually more than five), consider these tips to speed up the 
performance of your extract scripts. 
l
Change the order in which your Line Styles are checked. Position the most frequently found Line Styles at the top of your Line Style list. This way, "hits" that 
occur early on mark these lines and save the Data Extractor tons of comparison time. To change the Line Style order, select Line > ReOrder Line Styles. 
Note: Do not alter the Line Style order when it is used to control which of multiple Line Styles could satisfy a line "hit". If you do, you might find your lines 
incorrectly marked. 
l
Keeping in mind that every line is checked against the existing Line Styles, consider defining a REJECT Line Style that will "hit" lines you do NOT want (i.e., 
blank lines). If these lines appear frequently in your file, consider moving the REJECT line up near the top of your Line Style order. Doing this saves a 
considerable amount of comparison time.  
Defining Line Styles 
Each line in your text or report file that contains information to be extracted must be defined with a line style. In addition, other lines may need to be defined as 
reference lines. Each line style consists of a recognition rule and a line action. 
A line style definition is what the Data Extractor uses to identify particular lines of information within your report. For each set of information that you want to assemble 
into a record of data there may be one or more line styles. The number of line styles needed is determined by how many lines of text in the report contain that set of 
information. For example: 
l
If the report contains header information that includes a date that you want to include as a field within each data record, define a line style for the header line that 
contains the date.  
l
If a detail line in the report contains information that you want to include as fields within each data record, define a line style for the detail line.  
l
If the date from the header line and the information from the detail line make one complete data record, define only those two line styles in the report.  
In most cases, it is best if you do not define any lines of text from which you are not extracting data. This keeps the script file smaller and more efficient. Lines for which 
there is no line style defined are ignored. The exception to this rule is that in some cases performance can be improved by defining certain large repetitive sections as 
Skip lines. 
Note: If your source file contains tabs and you want to use the Auto Line Style feature, you must first update your tab expansion setting. To do this, select Source > 
Options from the menu. Then, select the Printer Emulation tab and change the Tab Expansion setting to 0. 
Recognition Rules 
The recognition rule portion of a line style definition contains criteria by which the Data Extractor identifies a line of text. In other words, you tell the Data Extractor how 
to recognize a line or lines of the report by defining a set of criteria. After you define a line style in one section of your report, the Data Extractor compares each line of 
text in your entire report file with that recognition rule. For each line of text that matches the recognition rule, the Data Extractor assigns that line style. The line style 
name displays in the Line Style column to the left of the Data Panel for each matching line of text in the report. 
The trick to defining a good recognition rule is to make it specific enough to NOT include any lines you do NOT want recognized, and broad enough to include ALL 
the lines you DO want recognized. 
You may define line styles manually or let the Data Extractor automatically define them, depending upon whether or not your data can be handled by the Data 
Extractor's automatic features. For details about this option, see File Menu and Pop-up Menus. 
Note: You may want to utilize the more advanced features after becoming familiar with the basic procedures. Tutorial 1 will help you get acquainted with the basics of 
the Data Extractor, and Tutorials 2 and 3 will introduce you to some of the time saving advantages of the Advanced features. 
If you are defining a line style manually, the Data Extractor suggests a recognition rule based on a pattern that displays in the Line Style Definition window when it 
opens. If you have highlighted a particular portion of the line, this portion is automatically suggested to create the recognition rule. You may modify the suggested 
recognition rule before adding it to the Data Extractor database and script. Details about different ways to define line styles are found in this documentation. 
Documents you may be interested
Documents you may be interested