ComputingandInformatics,Vol.30,2011,1001–1031,V2011-Jan-14
EMAILANALYSISANDINFORMATIONEXTRACTION
FORENTERPRISEBENEFIT
MichalLaclav
´
ık,
ˇ
StefanDlugolinsk
´
y,Martin
ˇ
Seleng
MarcelKvassay,EmilGatial,Zolt´anBalogh,LadislavHluch
´
y
InstituteofInformatics
SlovakAcademy ofSciences
D´ubravsk´acesta9
84507Bratislava,Slovakia
e-mail:michal.laclavik@savba.sk
Manuscriptreceived22October2010;revised
Abstract.Inspiteofrapid advancesinmultimediaand interactivetechnologies,
enterprise users prefer to battle with h emailspam and d overload rather r than lose
thebenefitsofcommunicating,collaboratingandsolvingbusinesstasksoveremail.
Manyaspectsofemailhavesignificantlyimprovedovertime,butitsoverallintegra-
tionwith theenterpriseenvironmentremainedpracticallythesame. Inthispaper
wedescribeandevaluatealight-weight approach toenterpriseemailcommunica-
tionanalysis and informationextraction. . Weprovideseveralusecasesexploiting
theextractedinformation,such astheenrichment ofemails with relevantcontex-
tualinformation,socialnetworkextractionand itssubsequentsearch,creation of
semanticobjectsaswellastherelationshipbetweenemailanalysisandinformation
extraction ononehand,andemailprotocolsandemailservers ontheother. . The
proposedapproach was partiallytested on severalsmall and mediumenterprises
(SMEs)andseemstobepromisingforenterpriseinteroperabilityandcollaboration
inSMEsthatdependonemailstoaccomplishtheirdailybusinesstasks.
Keywords:Email,informationextraction,trees,graphs,socialnetworks,context,
recommendation
Pdf data extraction - extract form data from PDF in C#.net, ASP.NET, MVC, Ajax, WPF
Help to Read and Extract Field Data from PDF with a Convenient C# Solution
extract pdf form data to xml; export pdf form data to excel spreadsheet
Pdf data extraction - VB.NET PDF Form Data Read library: extract form data from PDF in vb.net, ASP.NET, MVC, Ajax, WPF
Convenient VB.NET Solution to Read and Extract Field Data from PDF
saving pdf forms in acrobat reader; extract data from pdf file
1002
M.Laclav´ık,
ˇ
S.Dlugolinsk´y,M.
ˇ
Seleng,M.Kvassay,E.Gatial,Z.Balogh,L.Hluch´y
1INTRODUCTION
Recentreports[1]confirm that emailisstillnumberoneonlineactivity [4]. . Ac-
cordingto Radicati surveys, corporateusers s send and receive an averageof 110
messagesperday[5],outofwhichaboutonethirdaremessagessent.Thesestatis-
ticsarequitestableanddidnotchangemuchinthelast5years[3],buttheneeded
volumeforstorageand emailaccountspenetrationis increasing, , reachingalmost
3billionemailaccountsovertheworld(with1.6accountperuser). Thisincludes
730millioncorporateaccounts,whichshouldgrowtoalmost1billionin2014[5].
In2001,corporateusersreceived just about 25emailmessagesperdayandsent
about13messages[4]. Findingsfrom2003[6]alsoshowthat80%ofusersprefer
emailforbusinesscommunication. Pew/internetreport[2]from2008saysthatin
theUSA,62%employeescouldbeconsideredNetworkedWorkers,usingtheinter-
netoremailattheirworkplaceonaregularbasis.Thereisalsoagrowingtrendin
wirelessemailaccountsincludingboththeenterpriseandconsumeraccountswith
thetotalofabout307millionin2010,expectedtogrowrapidlyoverthenextfour
yearsto1.4billionwirelessaccountsworldwide[5].Thesefindingsindicatethatthe
importanceofemailinbusinessmaynotbeadequatelyaddressedintheresearch.
Information created by business entities can represent an asset or aliability,
dependingonhowwellitismanaged. Emailisnotdifferentinthisrespect: itcan
beahighlyefficientandusefultoolforcommunication,butonlyiftheinformationit
containscanbemanagedeffectively.Emailisrarelyastandaloneinformationsource;
itoftenpointstofurtherinformationsuch asfiles(e.g.,savedattachments),links
toitemsontheweb,andreferencestootherresources. Emailiscurrentlyused d as
aconduitformanyfunctions[7,8],includingalerting,archiving,taskmanagement,
collaborationandinteroperability.
1.1ContentAnalysis,Extraction andSemanticsinEmails
Severalexistingcommercialsolutionsanalyzeand partly“understand”theemail
content. Forinstance,Gmailfocusesmainlyon n contextsensitiveadvertisements,
butcanalsodetectevents,addressesorpackagetrackingnumbers. Similarly,Zim-
braorClearContexttrytorecognizesomeobjectsinthetext.Xobnifocusesmainly
ontheextractionofcontact data a from emailsignatures s [9,10]. . One e of the first
attemptstoapplySemanticWeb technologiestoemailwasperformed by McDo-
well[11],whotried tosolvethe problems arisinginone-to-manycommunication
tasks,suchaseventplanning,byincludingSemanticWebformaldatainthemes-
sage. One e of the most significant attemptstoanalyseand understand theemail
communicationhas beenperformedwithSemanta[12]. . Itappliesspeechactthe-
orytotheemailcommunicationprocesses,eventuallygivingaformalstructureand
semanticstoad-hoc workflows, which arecharacteristicof emailcommunication.
Speechacttheorywasappliedalsoby[14]for“emailacts”classification. Forcon-
tent analysis and semantics,it is alsoimportant tohaveavailablecorpuses with
pre-annotateddata. Notmanyofthemareavailable. Toour r bestknowledge,the
VB.NET PDF Text Extract Library: extract text content from PDF
Application. Advanced Visual Studio .NET PDF text extraction control, built in .NET framework 2.0 and compatible with Windows system.
how to save filled out pdf form in reader; can reader edit pdf forms
C# PDF Text Extract Library: extract text content from PDF file in
Image text extraction control provides text extraction from PDF images and image files. Best C#.NET PDF text extraction library and component for free download.
exporting pdf data to excel; save data in pdf form reader
EmailAnalysisandInformationExtraction forEnterpriseBenefit
1003
onlypubliclyavailableemailcorpuswithenterpriseemailsistheEnroncorpus[13].
Moreinformationonemailcorpuses,semanticsandcontentanalysisisprovidedin
ourpreviouswork[9,10].
1.2SocialNetworksin Emails
Emailcommunication analysisallowstheextraction of socialnetworkswith links
topeople,organizations,locations,topicsortime. Socialnetworksincludedinthe
emailarchivesrepresentalevelofsemanticsbeyondspeech-acts,andarebecoming
increasinglyvaluableassetsinorganizations,enterprisesandcommunities,though
todatetheyhavebeen littleexplored. . However,emailsocialnetworkshavebeen
studied tosomeextent. . Forexample,communication n on theApacheWeb Server
mailinglistsanditsrelationtoCVS activitywasstudiedin [15]. . This s workalso
introducestheproblemofidentifyingemailusers’aliases.Extractingsocialnetworks
andcontactinformationfromemailsandtheWebandcombiningthisinformation
isdiscussedin[16]. Similarly,newemailclients,e.g.Postboxorplug-insXobni1,
try toconnect t email social networks with h web social networks s like LinkedIn n or
Facebook. Xobniinadditionexploitsemailsocialnetworkstohelptheusermanage
contacts and attachments. . We e have alsoperformed some experiments s with h the
extractionofsocialnetworksfromlargeemailarchivesandnetworktransformations
usingasemanticmodel[17].Arelatedresearcheffort[18]exploitssocialnetworksto
identifyrelationsandteststheproposedapproachesontheEnroncorpus.Thereis
alotofresearchfocusingonsocialnetworksinthecontextofwebsocialnetworking
applications,buttheemailsocialnetworksaredifferent. Intheemailarchivesitis
possibletodiscoverthelevelofinteractions(numberofmessagesexchanged,time,
relation to o content t and possibly discovered semantics) thatgoes beyond what is
capturedbythecurrentsocialnetworkingsites,andthepotentialofthesedifferences
forbetterinformationandknowledgemanagementstillneeds tobeexplored. . We
areusingasimilarapproachtothatofIBMGalaxy[19]intheNepomukproject,
wheretheconceptofmultidimensionalsocialnetworkwasintroduced.Inthispaper
weshowtheinitialresultsofexploitingtheemailsocialnetworkinordertosupport
abetterunderstandingoftheemailcontentaswellasenablingnovelapplications
suchascontact,product,service,partnerorsuppliersearchwithinorganizationsor
communities.
1.3ContextualRecommendation
Efforts tolinkemails with knowledgeor context-sensitive informationhave been
attemptedinseveraltools[9]suchaskMail,Zimbra,GmailorXobni. Additional
R&Dprototypeshavebeendevelopedtoaddressspecificaspectsofthegeneralemail
communicationproblem(e.g.taskmanagement, informationarchiving,collabora-
1
http://www.xobni.com/
2
http://nepomuk.semanticdesktop.org/
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document in VB.NET Project. DLLs for PDF Image Extraction in VB.NET.
edit pdf form in reader; sign pdf form reader
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
VB.NET PDF - PDF File Pages Extraction Guide. Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc. Free PDF document
java read pdf form fields; pdf form field recognition
1004
M. Laclav´ık,
ˇ
S. Dlugolinsk´y, M.
ˇ
Seleng, M. Kvassay, E. Gatial, Z. Balogh, L. Hluch´y
tion, etc.), such as Telenotes, ContactMap, TaskMaster, Snarf, Remail, Priorities
or recent Semanta. Our recommendation components build on the extracted infor-
mation in the form of semantic trees and social networks. Deeper insights into the
related work are provided in our previous analysis [9, 10].
1.4 Paper Contribution and Structure
In Section 2 we discuss our approach to information extraction and analysis of email
communication as well as its main concepts based on key-value pairs, semantic trees
and social networks. In Section 3 we discuss the use cases and prototypes for con-
textual recommendation and email social network search based on the extracted
information. We also discuss Acoma system which can integrate with email infras-
tructure and describe prototypes and techniques. In evaluation and experiments
Section 4 we provide the customization and the relevance evaluation of the ap-
proach, as well as the inference evaluation on social networks. Finally we conclude
our findings in Section 5.
2TECHNIQUES FOR INFORMATION EXTRACTION
AND ANALYSIS
Information Extraction (IE) techniques [20] usually focus on the five main tasks of
information extraction defined by the series of Message Understanding Conferences
(MUC):
Named entity recognition (NE) – finding entities. Finds and classifies the
names, places, etc.
Coreference resolution (CO) – aliases and pronouns referencing the en-
tities. Discovers the identity relations between entities.
Template element construction (TE) – properties or attributes of enti-
ties. Adds descriptive information to NE results (using CO).
Template relation construction (TR) – relations between entities. Finds
relations between NE entities.
Scenario template production (ST) – events involving entities. Fits TE
and TR results into specified event scenarios.
Several advanced state-of-the-art systems such as GATE [21], KIM [22],
C-PANKOW [23] or knowItAll [24] exist and are able to fulfill some of these tasks.
C-PANKOW or knowItAll focus on general information domain such as web, and
are not applicable to the enterprise-specific content. Usually if we want to get
the best results we need to apply Natural Language Processing (NLP) techniques
to decompose the sentences, and do Part of Speech Tagging (POS) to distinguish
the nouns, pronouns, adjectives and verbs. Then we can apply the techniques of
NE on nouns, CO on pronouns and TE on adjectives. The problem occurs if we
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
Document. Support PDF Image Extraction from a Page, a Region on a Page, and PDF Document. C# Project: DLLs for PDF Image Extraction. In
extract data from pdf c#; pdf form save in reader
VB.NET PDF Library SDK to view, edit, convert, process PDF file
PDF Text Extraction. Mature and robust APIs are provided for programmers to integrate and perform PDF text extraction feature in .NET windows and web project.
pdf data extraction tool; exporting data from pdf to excel
Email Analysis and Information Extraction for Enterprise Benefit
1005
want to apply these techniques on languages where the basic NLP support (e.g.
stemmers or POS tagging) does not exist. NLP techniques such as those used in
knowItAll, C-PANKOW or GATE are applicable mainly to English. Further prob-
lems arise if we apply the existing techniques to business documents (e.g. related
to interoperability) or email content, which is specific for each enterprise or busi-
ness sector, and very different from web documents or news articles, where NLP
techniques are usually tested. This forced us to explore other approaches to infor-
mation extraction in the context of business interoperability and email communica-
tion.
We found out that a lighter approach – pattern- and gazetteer-based detection –
was not only much simpler, but also easily adaptable to the unique information
extraction needs in different enterprises. Patterns are created manually by an expert
or skilled programmer familiar with regular expressions. In customization evaluation
(see 4.1) we have conducted experiments, which show that the required manual effort
is not too high. Pattern- and gazetteer-based extractors generate key-value pairs
(object type – object value), that are used to form semantic trees (see 2.2). It is
possible to connect the extracted pairs and trees into a so-called multidimensional
social network representing the email communication. Such semantic graphs or
networks can be exploited to return the relevant results and discover the relations
among business objects by relatively simple algorithms, such as spread of activation.
We discuss this in Section 2.3.
Although we prefer the pattern-based detection as a light-weight and flexible
approach, our general software framework can integrate any information extraction
tool (including NLP), so long as it provides key-value pairs as output. In this
respect, we have for instance succeeded in integrating our prototype with the GATE
system and also used the Ontotext standalone gazetteer3 originally developed for
GATE.
Email communication typically lacks strict structure, but in many cases it car-
ries structured or semi-structured information. This applies to business commu-
nication and especially to interoperability (or transaction) emails. Such emails
typically contain business data or documents with objects and properties such as
company names, amounts, product codes, bank account numbers, product quan-
tities or prices. As already mentioned, the state-of-the-art IE techniques are usu-
ally meant for web documents or news. Email is different in the sense that email
archives often contain references to enterprise-specific business tasks, processes,
products, services or transactions (often time-related) and threads of communi-
cation. Social networks of interacting people can be extracted from the emails as
well. They may be enriched with the related business objects, thus giving rise to
multi-dimensional social networks. Our approach is based on the idea that a sub-
stantial portion of this valuable information can be extracted using the light-weight
pattern-based approach in combination with gazetteers to fulfil the following IE
tasks:
3
http://www.ontotext.com/downloads/index.html
C#: Demos and Sample Codes for Image Content Extraction Using OCR
C# Sample Code for Png Image Text Extraction. This C# OCR demo code illustrates how to extract text from Png and save to png.pdf. // Set the training data path.
extract data from pdf file to excel; extract data from pdf form fields
C# PDF File Permission Library: add, remove, update PDF file
Form Process. Data: Read, Extract Field Data. Data: Auto Fill-in Field Data. Field: Insert Choose to offer PDF annotation and content extraction functions.
how to fill out a pdf form with reader; how to save a pdf form in reader
1006
M. Laclav´ık,
ˇ
S. Dlugolinsk´y, M.
ˇ
Seleng, M. Kvassay, E. Gatial, Z. Balogh, L. Hluch´y
NE: entity detection
CO: aliases detection (e.g. product by detecting the product code, or customer by
detecting his/her email or phone)
TE: attributes and properties by the segmentation of messages and grouping of
properties or using relations in the email messages
TR: relations between entities gathered from external systems (e.g. email-customer)
but also relations based on multidimensional social network extracted from email
communication
ST: mainly related to email itself, time of sending and the related tasks or trans-
actions.
The extracted data goes beyond the entities and their properties; it includes the
relationship graph as well. It can be further analyzed for a more precise interpreta-
tion of the intent of the messages, and the results passed on to new tools assisting
the enterprises in their business tasks. In this paper we show several possible ways
how to use the extracted information.
In addition to the pattern-based extraction, we detect entities (NE task) using
gazetteers. Gazetteers are lists of objects of concrete type represented by strings
that can be matched in the text. The well-known gazetteers from the existing IE
tools are gazetteers for geographical location names, lists of organizations or people.
In the business context the most important are the gazetteers representing products,
services, customers or suppliers. Such lists can be created from the existing legacy
systems in organizations but can also be partially extracted from the email archives
using predefined patterns. We have been developing and improving our information
extraction approach over the past few years. Our tool, Ontea, is being continuously
developed as an open source project4. User interface of the recent Ontea version,
which focuses primarily on emails, is shown in Figure 1.
The power of the Ontea approach is in its simplicity [25] (compared to more ad-
vanced but heavy solutions such as GATE), as well as in its ability to define trans-
formation chains and to connect to information system environment (databases,
documents, intranets, and internet). In addition, Ontea supports email decompo-
sition and analysis of email header, body and attachments. Supported attachment
types are emails in .eml format, MS Word, PDF and text files, which are converted
into a plain text. After an attachment or its content (archive file attachment) is
converted to plain text, it is further processed like text in email.
We have tested our approach in the context of 6 organizations. Within the
Commius project5, we have tested it on the emails from Softeco, Aitek and Techfin
SMEs (Italy), and from the Fedit technology center (Spain). Our relevance and
social network evaluation in Section 4.2 is based on Fedit emails. In a related AIIA6
4
http://ontea.sourceforge.net/
5
http://www.commius.eu/
6
http://aiia.ui.sav.sk/
VB.NET PDF File Permission Library: add, remove, update PDF file
Data: Read, Extract Field Data. Data: Auto Fill-in Field Data. Field: Insert, Delete, Update Choose to offer PDF annotation and content extraction functions.
extracting data from pdf forms to excel; extract data from pdf
C# PDF File Merge Library: Merge, append PDF files in C#.net, ASP.
Merge Microsoft Office Word, Excel and PowerPoint data to PDF form. PDF document splitting, PDF page reordering and PDF page image and text extraction.
extract data from pdf form to excel; extract data from pdf to excel online
Email Analysis and Information Extraction for Enterprise Benefit
1007
Fig. 1. Email message processed by the Ontea information extraction tool. Detected ob-
jects are highlighted. On the right, several objects such as address or person are
grouped into a hierarchical tree.
Slovak national project, we have tested our information extraction on the emails of
two organizations: the first was an SME (Anasoft), the second an academic internet
provider (SANET). These experiments showed that pattern- and gazetteer-based IE
approach can be customized for a specific application area (where the objects need
to be discovered in the email communication) in a few hours.
Thus the aim of the Ontea IE is to create and share the patterns and gazetteers
for objects and object properties. We believe the best approach for IE in the enter-
prise context is the pattern- and gazetteer-based extraction, for several reasons:
• Patterns can be adapted for enterprise business needs. For example, the formats
of product codes may differ between companies, but within one company they
tend to be well-defined and adhered to.
• Patterns can be defined, improved, evaluated and shared for a group of SMEs
or for a community around a similar business model or industry type. This role
is best suited for IT providers of these SMEs and communities.
• Patterns are easily adaptable to different languages when compared to advanced
NLP tools, since NLP requires lemmatizators, stemmers or Part of Speech (POS)
tagging tools, which are not available for many languages.
• Emails naturally contain many objects easily extractable by patterns, such as
email addresses, phone numbers, people names, company names, dates, websites,
addresses or other contact details. In addition, social networks, interactions and
message passing data can be extracted from email headers using patterns.
• Business content usually consists of many objects and properties that can be
similarly extracted via regular expression patterns, such as amounts, product
codes, bank account numbers or customers.
1008
M. Laclav´ık,
ˇ
S. Dlugolinsk´y, M.
ˇ
Seleng, M. Kvassay, E. Gatial, Z. Balogh, L. Hluch´y
• Patterns can be combined together with gazetteer results. For example, we have
used this approach on person and company names extraction, where we defined
agazetteer list for given names, company legal classification abbreviations as
well as for some common company-name specific words like Bank of, Hotel,
Association, etc.
2.1 Key-Value Pair-Based Information Extraction
Early results of our approach were already presented in [25], where we also presented
various information retrieval techniques for aliases and disambiguation as well as key-
value transformations and integration with a variety of tools. We have also provided
the state of the art of the relevant information extraction and semantic annotation
techniques.
The main concept is key-value pairs representing object type (key) and value
(matched text). For example, in Figure 1 we can see key-value pair, where the key
is contact:Person and value is Martin
ˇ
Seleng, which was extracted by the regular
expression pattern of two words starting with capital letters (in this case also by
identifying the title Dr. at the beginning). Please note that there are also other
key-value pairs like contact:Person:GivenName – Martin, which are sub-parts of
previous key-value pair. This key-value pair was extracted by the gazetteer for
given names. We extract all the key-value pair candidates using the predefined
patterns or gazetteers independently, often maybe identifying the same key-value
pair by several techniques. Positions of key-value pairs are known and can be used
for further processing, for example deleting the contact:Person pair candidate if
GivenName is not matched inside. Here is an example of such configuration in
Ontea tool:
ontea.core.gazetteer.Gazetteer { gazetteer/lists.def }
ontea.core.xmlregex.XMLRegexExtractor { patterns/person.xml }
ontea.transform.resultset.RuleTransformer {
contact:Person* =>
contact:Person:GivenName =>
contact:Person:GivenName * => contact:Person:GivenName
}
We will not explain the above example in detail, but as you can see, gazetteer,
pattern extractor and key-value set transformation is configured. Each block in
configuration starts with Java class name implementing extraction or transformation
interfaces and the brackets{} contain input for the implemented class. The Java
classes are loaded dynamically by name, which allows to add more extraction and
transformation tools into the system as plug-ins implementations of the interfaces.
Similarly the Gate application can be plugged-in.
The example below shows fragment of patterns for the detection of postal ad-
dress, which define macros for various address parts, such as city or zip, which are
then incorporated into the postal address pattern. Macros can be reused. Based on
Email Analysis and Information Extraction for Enterprise Benefit
1009
the overlap of the extracted key-value pairs, we can build the trees, which can be
seen on the right side of Figure 1 and in Figure 2. Trees are discussed in the next
section.
<?xml version="1.0" encoding="UTF-8"?>
<patterns>
<pattern name="Postcode" class="Postcode">
<regexp><![CDATA[(?:[0-9]{3} *[0-9]{2})]]></regexp>
</pattern>
<pattern name="CityName" class="CityName">
<regexp><![CDATA[(?:\p{Lu}\p{Ll}+(?: \p{L}+)*)]]></regexp>
</pattern>
....
<pattern name="PostcodeCityLine">
<regexp>
<![CDATA[(?:\p{pattern:Postcode}+\p{pattern:CityName}
(?: +\(\p{pattern:CountryName}\))?)]]>
</regexp>
</pattern>
....
</patterns>
2.2 Semantic Trees
Our approach to building semantic trees is quite novel and is not mentioned in
the state of the art information on the extraction tools elsewhere. The extracted
key-value pairs are formed into hierarchical trees depending on their positions in
the text and the key names logical dependencies according to a pre-defined XML
schema and tree transformation rules. Hierarchical trees give us extra information
about the relationships among the result instances. For instance, an Organisation
result is a sub tree that contains nested results like Name, Email, TelephoneNumber,
StreetName, BuildingNumber, PostCode, CityName, etc. From the tree we can see
that its sub-components are related to each other since they have a common parent
(Figure 2 left).
In the Commius project, we use modified Core Components specification7 to
represent the information extraction results; but constructing a result tree compliant
to CoreComponents specification does not involve just the information extraction. It
also requires subsequent transformations of the hierarchical tree of results, for which
we use several tree transformers. We define tree transformation rules, which call the
tree transformers and can create, delete, move, rename or reorder the tree nodes
(information extraction results). The tree on left side of the Figure 2 represents the
Organization object compliant to the Core Components XML schema. Such XML
7
http://www.unece.org/cefact/ebxml/CCTS_V2-01_Final.pdf
1010
M. Laclav´ık,
ˇ
S. Dlugolinsk´y, M.
ˇ
Seleng, M. Kvassay, E. Gatial, Z. Balogh, L. Hluch´y
Fig. 2. Left: An example of a hierarchical sub-tree of information extraction results with
acorresponding source text. The hierarchy is determined by the result positions and
tree transformation rules, as well as the extraction pattern nesting. The result is
based on Spanish email from Fedit application. Middle: An example of a hierarchical
tree built upon email segmenter results. Email text is divided into quotes, paragraphs
and sentences. Example is based on the same email as seen in Figure 1. Right: The
Amazon shipment email processed by the Ontea tool. We can see the generated
product tree.
objects are then used in Commius to identify document types [28] and determine
the current processes [29].
We build hierarchical trees from the ordered lists of results. Results in the lists
are ordered by their position relative to the beginning of the source text and by
their length (or end position). The length of the result is important when sorting
the list items, because we can decide whether one result contains another one and
put the parent result before its child results in the list. If we have such ordered
list, then it is simple to produce a hierarchical tree from it. The basic hierarchy
of results can be acquired from the results produced by email segmenters. We use
several simple segmenters such as email quotation segmenter, paragraph segmenter
and sentence segmenter. These segmenters divide email text into structured seg-
ments as information extraction results from which we can build a hierarchical tree
(Figure 2 in the middle). Segmenters make a hierarchy starting up with a quotation
block, followed by paragraphs, sentences and results. This hierarchy describes the
relation of results on the basis of their closeness to each other, where we assume
that results found in a sentence are semantically more closer than results in a para-
graph. Information extraction results produced by the segmenters are exploited in
recommendation prototype (Section 3.1) as well as in the social network inference
algorithm described in Section 2.3.
Moreover, the hierarchy of the results in the tree is also revealed by the key-value
pair results. This is done by exploiting the information extraction model we use.
Documents you may be interested
Documents you may be interested