c# view pdf web browser : Extract pdf pages control software system azure windows .net console asist060-part1051

JOURNALOF THE AMERICAN SOCIETYFOR INFORMATION SCIENCE AND TECHNOLOGY, 57(1):96–113, 2006
AnexperimentwasperformedattheNational Libraryof
Medicine® (NLM®) in word sensedisambiguation(WSD)
usingtheJournalDescriptorIndexing(JDI)methodology.
Themotivation istheneed tosolvetheambiguityprob-
lem confronting NLM’s MetaMap system, which maps
free text to terms corresponding to concepts in NLM’s
Unified Medical Language System® (UMLS®) Metathe-
saurus®.IfthetextmapstomorethanoneMetathesaurus
conceptatthesamehighconfidencescore,MetaMaphas
nowayofknowingwhichconceptisthecorrectmapping.
We describe the JDI methodology, which is ultimately
based on statistical associations between words in a
training set of MEDLINE® citations and a small set of
journaldescriptors(assignedbyhumanstojournalsper
se) assumed to beinherited by thecitations. JDI isthe
basisforselectingthebestmeaningthatiscorrelatedto
UMLSsemantictypes(STs)assignedtoambiguouscon-
ceptsintheMetathesaurus. Forexample, theambiguity
transport hastwo meanings: “Biological Transport” as-
signed the ST Cell Function and “Patient transport”
assigned the ST Health Care Activity. A JDI-based
methodologycananalyzetext containing transport and
determinewhichSTreceivesahigherscoreforthattext,
whichthenreturnstheassociatedmeaning,presumedto
applytotheambiguityitself.Wethenpresentanexperi-
ment in which a baseline disambiguation method was
compared to four versionsof JDI in disambiguating 45
ambiguous strings from NLM’s WSD Test Collection.
Overallaverageprecisionforthehighest-scoringJDIver-
sion was 0.7873 compared to 0.2492 for the baseline
method,andaverageprecisionforindividualambiguities
wasgreaterthan0.90for23ofthem(51%), greaterthan
0.85for24(53%),andgreaterthan0.65for35(79%). On
the basis of these results, we hope to improve perfor-
manceofJDIandtestitsuseinapplications.
Introduction and Background
Medical Text Indexer and MetaMap Application
The objective of NLM’s Indexing Initiative (National
Library  of  Medicine,  2004a)  is  to  investigate  methods
whereby automatic indexing methods partially or completely
substitute for current indexing practices (Aronson et al.,
2000). The prototype indexing system developed under this
initiative eventually became the Medical Text Indexer (MTI)
(Aronson, Mork, Gay, Humphrey, & Rogers, 2004), which
now actively participates in MEDLINE indexing using terms
from NLM’s Medical Subject Headings (MeSH®
)
thesaurus
(National Library of Medicine, 2004b). MTI indexes about
3,700 citations a day 5 nights a week. Indexers accept the
option of viewing the resulting MTI recommendations about
379 times per day, including weekends. It is estimated that
MTI recommendations are accessed by indexers during the
indexing of 20% of MEDLINE articles. MTI has also been
used as the sole indexing method for about 79,000 meeting
abstracts  on human  immunodeficiency  virus/autoimmune
deficiency syndrome (HIV/AIDS), health services research,
and space life sciences.
MTI has as a major component the MetaMap program
(Aronson, 2001), which maps biomedical text toconcepts
intheUMLSMetathesaurus(National Library of Medicine,
2004c). MetaMapisa knowledge-basedmethodthatrelies
ontheSPECIALISTLexicon(acomponentof the UMLS)
and an underspecified syntactic parser to identify noun
phrasesinbiomedicaltext.Thebestmatchbetweenanoun
phrase and a Metathesaurus concept is computed by ac-
commodating lexical variation in the input phrase and al-
lowing partialmatches between the phrase andconcept. A
confidencescoreis assignedtoeachmappingtoreflectthe
closeness of match of the input noun phrase to the target
Metathesaurus concept. For example, the phrase between
the blastocyst trophectoderm in the following sentence
Word Sense Disambiguation by Selecting the Best
Semantic Type Based on Journal Descriptor Indexing:
Preliminary Experiment 
Susanne M. Humphrey, Willie J. Rogers, Halil Kilicoglu, Dina Demner-Fushman, 
and Thomas C. Rindflesch
Lister Hill National Center for Biomedical Communications, National Library of Medicine, Bethesda, MD 20894.
E-mail: {humphrey, wrogers, halil, dina_demner, tcr}@nlm.nih.gov
Received July 26, 2004; revised October 1, 2004; accepted November 10,
2004
©2005 Wiley Periodicals, Inc. This article is a US Government work and, as
such, is in the public domain in the United States of America. 
Published
online  3  November  2005  in  Wiley  InterScience  (www.interscience.
wiley.com). DOI: 10.1002/asi.20257
Extract pdf pages - SDK software API:C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Easy to Use C# Code to Extract PDF Pages, Copy Pages from One PDF File and Paste into Others
www.rasteredge.com
Extract pdf pages - SDK software API:VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc
www.rasteredge.com
JOURNALOF THE AMERICAN SOCIETYFOR INFORMATION SCIENCE AND TECHNOLOGY—January1, 2006
97
DOI: 10.1002/asi
fromaMEDLINEabstract:
s1 In the mouse, the process of implantation is initiated by
the attachment reaction between the blastocyst trophec-
toderm and  uterine luminal epithelium  that occurs
at 2200–2300 h on day 4 (day 1=vaginal plug) of
pregnancy.
maps to only one Metathesaurus concept:
694 Blastocyst [Embryonic Structure]
The confidence score, 694 out of 1,000, and UMLS
semantic type (ST) for the concept, Embryonic Structure,
are provided as output. Semantic types are a set of 135 labels
in the UMLS Semantic Network for concept categories in
the biomedical domain, e.g., Disease or Syndrome, Thera-
peutic or Preventive Procedure, Body Substance, and Phar-
macologic Substance. Metathesaurus concepts are assigned
one or more STs, which form an isalink from the concept to
the ST, in this example, Blastocyst is a Embryonic Structure.
However,thephraseofimplantationmapstotwoMetathe-
saurusconcepts,bothwithconfidencescoresof1,000:
1000 Implantation 
<1>
(Blastocyst Implantation, natural)
[Organism Function]
1000 Implantation 
<2>
(Implantation procedure, natural)
[Therapeutic or Preventive Procedure]
Thisresultillustratestheproblemofambiguousmappings.
Although “Blastocyst Implantation, natural” is the correct
mapping, MetaMaphasnowayof choosingwhichofthese
concepts represents the meaning of this input phrase. This
phenomenoniscausedbywordsenseambiguityinEnglish,
andcurrentlyMetaMapdoesnotchoosebetweenambiguous
mappings.BecauseMetaMapisthecorecomponentofMTI,
automatic indexing of MEDLINE will be enhanced by
providingamethodforresolvingthiskindofambiguity.
Word Sense Disambiguation Collection
The extent of the ambiguity problem was shown in an
experiment  conducted  in  connection  with  developing
NLM’s Word Sense Disambiguation (WSD) test collection
(Weeber, Mork, & Aronson, 2001) whereby 409,337 MED-
LINE citations indexed in 1998 were run through MetaMap,
resulting in more than 34 million phrases. About 4 million
phrases (11.7%) had more than one mapping to Metathe-
saurus concepts; 94% of these cases were ambiguities in
which an exact string mapped to more than one concept.
These sorts of ambiguity became the focus of developing the
WSD test collection.
ThepurposeoftheWSDtestcollectionwastoestablisha
testbedofhumanlydisambiguatedinstancestoserveasagold
standardforevaluatingautomaticdisambiguationmethods.
From the list of ambiguous strings from the processed
phrases, 50 highlyfrequent ones were selected atrandom
fromtheentire1998MEDLINEdatabase.AppendixAshows
all50ambiguitiesinthetestcollectionwiththeirrespective
MetathesaurusconceptsandSTabbreviations.Forexample,
the ambiguitytransportmaps to twoconcepts, “Biological
Transport”withSTcelf(abbreviationforCellFunction)and
“Patienttransport”withSThlca(abbreviationforHealthCare
Activity).Fromnowonweuseabbreviatedformsforthefew
STsmentionedinthetextofthisarticle;theirfullformscanbe
foundinAppendixB,whichliststhe44STabbreviationsand
fullformsrepresentedinthetestcollection.AppendixCgives
ahierarchicalviewoftheseSTs.
For eachambiguity, 100instances(sentencescontaining
the ambiguity)were selected. Thus, there were 5,000
instancestobedisambiguatedbyhumanraters.AWeb-based
interfacewasdevelopedtofacilitatethehumandisambigua-
tionprocedure,showingthecitationwiththehighlightedsen-
tencecontainingtheambiguousstringtobeconsidered.The
actualmanualtaskwasreducedtotwomouseclicksforeach
instance:selectingoneandonlyonesenseorpassingforthe
time being. Figure 1 shows the result of the eight raters’
choices for disambiguating s1, unanimously in favor of
“BlastocystImplantation,natural”(havingSTorgf).
JDI-Based STIndexing Applied to WSD
NLM is investigating Journal Descriptor Indexing (JDI),
a novel approach to  fully automatic  indexing based on
NLM’s practice of maintaining a subject index to journal
titles using  journal descriptors (JD’s),  which are terms
corresponding to biomedical specialties (Humphrey, 1998,
1999). JDI methodology has been extended to STindexing
(Humphrey, Rindflesch, & Aronson, 2000), both described
in the next section. Using the preceding example, s1 can be
indexed automatically by STwhere each STis ranked with a
score from 0 to 1 (Table 1). In this indexing, orgf (Organism
Function) ranks higher than topp (Therapeutic or Preventive
Procedure), thus indicating that “Blastocyst Implantation,
natural” (having ST orgf) is a better meaning for the sen-
tence than “Implantation procedure” (having STtopp), and
therefore  the  better  meaning  for  the  ambiguous  string
implantationin this sentence, as is consistent with human
raters (Figure 1).
On the other hand, as seen in Figure 2, human raters
unanimously selected “Implantation procedure” (having ST
topp) for disambiguating the following sentence with the
same ambiguous string implantation:
s2 We conclude that artificial sphincter implantation is
safe, reliable, and very effective in treating inconti-
nence caused by sphincteric dysfunction in properly
selected patients.
STindexing of s2 ranks topp higher than orgf (Table 2),
thus indicating “Implantation procedure” (having STtopp)
is a better meaning for the sentence, and therefore the am-
biguous string implantation in that sentence, also consis-
tently with human raters (Figure 2). 
SDK software API:C# PDF Page Insert Library: insert pages into PDF file in C#.net
Page: Insert PDF Pages. |. Home ›› XDoc.PDF ›› C# PDF: Insert PDF Page. Add and Insert Multiple PDF Pages to PDF Document Using C#.
www.rasteredge.com
SDK software API:C# PDF Text Extract Library: extract text content from PDF file in
inputFilePath); PDFTextMgr textMgr = PDFTextHandler.ExportPDFTextManager(doc); // Extract text content C# example code for text extraction from all PDF pages.
www.rasteredge.com
98
JOURNALOF THE AMERICAN SOCIETYFOR INFORMATION SCIENCE AND TECHNOLOGY—January1, 2006
DOI: 10.1002/asi
TABLE 2. ST indexing of s2 “We conclude that artificial sphincter
implantation is safe, reliable and very effective in treating incontinence due
to sphincteric dysfunction in properly selected patients.”
Rank
STabbr
Semantic Type
Score
1
diap
Diagnostic Procedure
0.6238
2
topp
Therapeutic orPreventive Procedure
0.6098
3
spco
Spatial Concept
0.5627
9
orgf
Organism Function
0.4797
59
aapp
Amino Acid, Peptide, or Protein
0.2739
85
emst
Embryonic Structure
0.2181
119
vtbt
Vertebrate
0.1349
FIG. 1. Result of choices of eight raters who used the WSD interface to disambiguate s1, unanimously selecting “Blastocyst Implantation, natural” (having
STorgf).
TABLE 1. STindexing of s1 “In the mouse, the process of implantation is
initiated by the attachment reaction between the blastocyst trophectoderm
and uterine luminal epithelium that occurs at 2200–2300 h on day 4 (day 1=
vaginal plug) of pregnancy.”
Rank
STabbr
Semantic Type
Score
1
orgf
Organism Function
0.5897
14
spco
Spatial Concept
0.4841
15
diap
Diagnostic Procedure
0.4831
18
topp
Therapeutic orPreventive Procedure
0.4591
25
emst
Embryonic Structure
0.4301
41
aapp
Amino Acid, Peptide, or Protein
0.3724
104
vtbt
Vertebrate
0.2210
FIG.2. ResultofchoicesofeightraterswhousedtheWSDinterfacetodisambiguates1,unanimouslyselecting“Implantationprocedure”(havingSTtopp).
SDK software API:C# PDF Image Extract Library: Select, copy, paste PDF images in C#
Image: Extract Image from PDF. |. Home ›› XDoc.PDF ›› C# PDF: Extract PDF Image. How to C#: Extract Image from PDF Document.
www.rasteredge.com
SDK software API:VB.NET PDF Text Extract Library: extract text content from PDF
PDF ›› VB.NET PDF: Extract PDF Text. VB.NET PDF - Extract Text from PDF Using VB. How to Extract Text from PDF with VB.NET Sample Codes in .NET Application.
www.rasteredge.com
JOURNALOF THE AMERICAN SOCIETYFOR INFORMATION SCIENCE AND TECHNOLOGY—January1, 2006
99
DOI: 10.1002/asi
respectively.Note:ratherthandisplayallSTs,weselectedthe
firstandlastSTs(aapp[AminoAcid,PeptideorProtein]and
vtbt[Vertebrate])alphabeticallybySTabbreviation;theset
ofhighest-rankingSTsforeachword(toppforimplantation,
emst[EmbryonicStructure]forblastocyst,diap[Diagnostic
Procedure]forsphincter);andtheSTsofinterestfordisam-
biguatingimplantation(orgf;topp)showninboldface.High-
rankingSTsintheseexamplesreflectthesemanticcontextsin
whichthewordscommonlyoccur,whichhaveasignificant
impactonwordsensedisambiguation.Blastocyst,forexam-
ple,mostoftenoccursintextdescribingorganismfunction,as
seenbythehighrank of thecorrespondingSTinTable 4.
Sphincter, ontheother hand,ismoreoftenassociatedwith
procedures(highrankoftoppinTable5).Thetwosemantic
typesorgfandtopphaverelativelyhighrankintheSTvector
implantation(Table3),whichcommonlyoccursinbothenvi-
ronments.Asdescribedsubsequently,ourmethodologyrelies
on computing semantic contexts for sentences containing
ambiguous strings such as implantation by using precom-
putedsemanticcontextsofcooccurringwordsinthesentence
suchasblastocystorsphincter.
KnowingtheSTscoresforindividualwords,wenowcan
computeavectorthatisthecentroidoftheSTvectorsforall
words in some context, such as a phrase or sentence. The
scoreforanSTinthecentroidistheaverageoftherankings
forthisSTacrossthewordsinthecontext.AdisplayofSTs
inthecentroidinrankorderbecomestherankedSTindexing
for thecontext. Table 6shows STindexing for thephrase
blastocystimplantationwheretheSTscoresaretheaverage
of the same ST scores for implantation (Table 3)and
blastocyst (Table 4); e.g., (0.4998 [blastocyst orgf score]
+0.6013[implantationorgf score])2=0.5506[blasto-
cyst implantation orgf score]; orgf is appropriately ranked
higherthantoppforthephrase.Similarly,Table7showsST
This articledescribes experimentsinapplyingJDI-based
methodologytotheWSDproblemusingtheWSDTestCollec-
tion.Thismethodologywillbeexplainedinthenextsection.
Methodology of JDI-Based ST Indexing
STIndexing Using Word-STTables
Ultimately, JDI relies on STindexing of some context in
which the ambiguous string appears, as illustrated in the pre-
vious section, where the context is the sentences containing
implantation. If a sentence can be indexed by a ranked list of
STs,  and  the  ambiguous  string  in  the  sentence can  be
mapped to two possible concepts, which have different STs
assigned to them, then the higher-ranked STand its corre-
sponding concept “win” as representing the meaning of the
string. In other words, whichever ST ranks higher for the
context of the ambiguity is considered the better of the two
STs for the ambiguity itself; once the better STis chosen, the
corresponding concept is also chosen.
The STindexing used for the WSD application relies on
a word-STtable whereby each word in a training set is asso-
ciated with an ST vector consisting of 129 ST rankings,
ordered alphabetically by STabbreviation. The training set
consists of titles and abstracts of 910,542 MEDLINE cita-
tions to articles from 3,993 journals indexed in 1999 and
2000, which contain 232,676 unique words (meeting certain
criteria such as having at least three characters, beginning
with an alphabetic character, and occurring at least twice in
the training set). Use of the JDI methodology for generating
the word-ST tables based on the training set is described
later.  However,  informally,  an  ST vector  describes  the
semantic context in which a word occurs.
For example, ST vectors for the words implantation,
blastocyst, and sphincter are shownin Tables 3, 4, and5,
TABLE 3. Items in STvector for implantation.
Rank STabbr
Semantic Type
Score
57
aapp
Amino Acid, Peptide, or Protein
0.3373
5
diap
Diagnostic Procedure
0.6637
39
emst
Embryonic Structure
0.4168
13
orgf
Organism Function
0.6013
1
spco
Spatial Concept
0.7027
2
topp
Therapeutic orPreventive Procedure
0.6937
108
vtbt
Vertebrate
0.1748
TABLE 4. Items in STvector for blastocyst.
Rank
STabbr
Semantic Type
Score
24
aapp
Amino Acid, Peptide, or Protein
0.2160
44
diap
Diagnostic Procedure
0.1728
1
emst
Embryonic Structure
0.6096
2
orgf
Organism Function
0.4998
46
spco
Spatial Concept
0.1654
45topp
Therapeutic 
orPreventive 
Procedure
0.1695
41
vtbt
Vertebrate
0.1780
TABLE 5. Items in STvector for sphincter.
Rank
STabbr
Semantic Type
Score
66
aapp
Amino Acid, Peptide, or Protein
0.1638
1
diap
Diagnostic Procedure
0.6746
100
emst
Embryonic Structure
0.1068
21
orgf
Organism Function
0.3584
3
spco
Spatial Concept
0.5660
2
topp
Therapeutic orPreventive Procedure
0.6528
118
vtbt
Vertebrate
0.0518
TABLE 6. STindexing of blastocyst implantation.
Rank
STabbr
Semantic Type
Score
1
orgf
Organism Function
0.5506
4
emst
Embryonic Structure
0.5132
12
spco
Spatial Concept
0.4340
13
topp
Therapeutic orPreventive Procedure
0.4316
16
diap
Diagnostic Procedure
0.4182
45
aapp
Amino Acid, Peptide, or Protein
0.2766
92
vtbt
Vertebrate
0.1764
SDK software API:VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
Page: Delete Existing PDF Pages. |. Home ›› XDoc.PDF ›› VB.NET PDF: Delete PDF Page. How to VB.NET: Delete Consecutive Pages from PDF.
www.rasteredge.com
SDK software API:VB.NET PDF Image Extract Library: Select, copy, paste PDF images
Image: Extract Image from PDF. |. Home ›› XDoc.PDF ›› VB.NET PDF: Extract PDF Image. VB.NET PDF - Extract Image from PDF Document in VB.NET.
www.rasteredge.com
100
JOURNALOF THE AMERICAN SOCIETYFOR INFORMATION SCIENCE AND TECHNOLOGY—January1, 2006
DOI: 10.1002/asi
indexingforthephrasesphincterimplantationwheretheST
scoresaretheaverageofthesameSTscoresforimplantation
(Table 3)and sphincter (Table 5); topp is appropriately
rankedhigherthanorgfforthephrase.
The same methodology is applied for computing ST
scores for the sentences containing the ambiguous string
implantation in order to select the better concept mapping
according to relative scores of STs assigned to the concepts.
In ST indexing of s1 (Table 1) the higher score for orgf
(compared to topp) selects the “Blastocyst Implantation”
concept, whereas in STindexing of S2 (Table 2) the higher
score for topp selects the “Implantation procedure” concept.
JDI Methodology for Generating Word-STTables
JD indexing of words. We will now describe the JDI
methodologyandthewayitisusedforgeneratingword-ST
tablesusedforSTindexing. JDIusesstatisticalassociations
betweenthewordsinthetrainingsetand127 JDsthatindex
theapproximately4000MEDLINEjournalsperseintermsof
biomedical disciplines (National  Library  of  Medicine,
2002).Table8showsasamplejournalrecord(JournalIdenti-
fier,Title,TitleAbbreviation,JournalDescriptor)for Fertility
andSterilityinNLM’sjournal(i.e.,serialrecords)database.
Table9showsasamplecitation(PubMedIdentifier,Title,
Title Abbreviation, Journal Identifier, Source, Journal
Descriptor)from the training set, includingtheJD Repro-
duction, which we mappedfrom the journal record. Thus,
citationsinherit JDs from journalrecords corresponding to
thejournalsinwhichthedocumentsarepublished.Eachword
inthesampletitle(Table9)fromthetrainingset(including
implantation, whichweemphasize)canbesaidtocooccur
withtheJDReproductionbyvirtueofthisinheritance.
Because each citation in the training set inherits one or
more JDs, an association between words and JDs can be rep-
resented as the number of cooccurrences of each word with
each JD in the citations in the training set. The JD scores for
implantationcan be expressed by the ratio of the number of
citations in which implantation cooccurs with the JD, di-
vided by the total citation count for implantation. The 127
JD scores for implantation, ordered alphabetically by JD,
form a JD vector. For example, part of the JD vector for im-
plantationis shown in Table 10. Note: Rather than display
all JDs, we selected the first and last JDs alphabetically
(which, incidentally, never cooccur with implantation) and
the five highest-ranking JDs.
We therefore can assign JDs as indexing terms to some
text on the basis of the words in it. Analogously to STin-
dexing that uses ST vectors, we perform JD indexing by
computing a JD vector, which is the centroid of the JD vec-
tors for the words in the text to be indexed. The score for a
JD in the centroid is the average of the scores for this JD
across the words. Adisplay of JDs in the centroid in rank
order becomes the ranked JD indexing for the text. Tables 11
and 12 show the first five JDs in the indexing of s1 and s2,
respectively. The JD scores for each JD are the average of
the scores for the same JD for words in the sentences. For
example, for s1, the score for Reproduction is based on the
average of the scores for Reproduction in the JD indexing of
words taken from the sentence: implantation, attachment,
blastocyst, uterine, luminal, epithelium, vaginal, plug, preg-
nancy(allowing for conditions to ignore certain words, such
as membership in a stopwords list and nonoccurrence in the
TABLE 9. Sample MEDLINE citation in the training set showing
inheritance of JD from NLM journal record.
PMID
10856474
TI
Blastocyst score affects implantationand pregnancy outcome:
toward a single blastocyst transfer.
JID
0372772
SO
Fertil Steril 2000 Jun;73(6):1155-8.
aJD
Reproduction
aMapped from the journal record for Fertility and Sterility(Table 8).
TABLE 11. JD indexing of s1 “In the mouse, the process of implantation is
initiated by the attachment reaction between the blastocyst trophectoderm
and uterine luminal epithelium that occurs at 2200–2300 h on day 4 (day 1 =
vaginal plug) of pregnancy.”
Rank
Score
Journal Descriptor
1
0.1431
Reproduction
2
0.0747
Obstetrics
3
0.0735
Gynecology
4
0.0257
Embryology
5
0.0245
Veterinary Medicine
TABLE 10. Items in JD vector for implantation.
Rank
Journal Descriptor
Score
109
Acquired Immunodeficiency Syndrome
0.0000
4
Biomedical Engineering
0.4067
2
Cardiology
0.6416
3
Ophthalmology
0.6405
5
Otolaryngology
0.3741
1
Reproduction
0.9044
109
Zoology
0.0000
TABLE 7. STindexing of sphincter implantation.
Rank STabbr
Semantic Type
Score
1
topp
Therapeutic orPreventive Procedure
0.6732
2
diap
Diagnostic Procedure
0.6692
3
spco
Spatial Concept
0.6344
18
orgf
Organism Function
0.4798
59
emst
Embryonic Structure
0.2618
62
aapp
Amino Acid, Peptide, or Protein
0.2506
116
vtbt
Vertebrate
0.1133
TABLE 8. NLM journal record for Fertility and Sterilityshowing the JD
Reproduction.
JID
0372772
TI
Fertility and Sterility
TA
Fertil Steril
JD
Reproduction
SDK software API:C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
Page: Delete Existing PDF Pages. Provide C# Users with Mature .NET PDF Document Manipulating Library for Deleting PDF Pages in C#.
www.rasteredge.com
SDK software API:VB.NET PDF Page Insert Library: insert pages into PDF file in vb.
Page: Insert PDF Pages. |. Home ›› XDoc.PDF ›› VB.NET PDF: Insert PDF Page. Add and Insert Multiple PDF Pages to PDF Document Using VB.
www.rasteredge.com
UMLS Metathesaurus). As shown in Table 11, the outstand-
ing JD for s1 is Reproduction; in Table 12, the outstanding
JD for s2 is Urology.
Creation and JD indexing of STdocuments. However, this
JD indexing as such is not useful for WSD. What we need is
STindexing for selecting the best MetaMap concept map-
ping, as described earlier. The way we achieve this indexing
is by creating “STdocuments” as documents to undergo JD
indexing, where an STdocument is a set of Metathesaurus
words highly associated with a particular ST. An STdocu-
ment  is  created  by  automatically  extracting  one-word
Metathesaurus strings belonging to concepts assigned the
ST; this set of words consititutes the ST document. For
example, the 2002 Metathesaurus contained 187 words in
our “orgf document” (autoregulation, deglutition, healing,
locomotion, urination, etc., where these words belonged to
concepts assigned the ST Organism Function) and 1,478
words in our “topp document” (arthroplasty, bandaging,
dissection, hemodialysis, immunization, etc., where these
words belonged to concepts assigned the STTherapeutic or
Preventive Procedure). Part of the JD vector for the latter ST
document is shown in Table  13,  consisting of the five
highest-ranking JDs and the first and last JDs alphabetically.
We performed JD indexing of 129 STdocuments (remaining
STs did not have enough Metathesaurus words associated
with them), resulting in a JD vector for each of them.
Similarity between word JD vectors and ST document JD
vectors. Using  the  standard  vector  cosine  coefficient
(Salton & McGill, 1983), we then computed the similarity,
on a scale of 0–1, between the JD vector for each word in the
training set and the JD vector for each STdocument. Each
word and its scores indicating similarity to STdocuments
(interms of JD indexing), ordered alphabetically by STab-
breviation, became an entry in the word-STtable (i.e., an ST
vector) used for STindexing, as described earlier.
Looking again at Tables 3, 4, and 5, we now can interpret
the items in these STvectors in terms of similarity to ST
documents. That is, JD indexing of implantation is more
similar to JD indexing of the topp document than of the orgf
document; JD indexing of blastocystis more similar to JD
indexing of the orgf document than of the topp document;
JD indexing of sphincteris more similar to JD indexing of
the topp document than of the orgf document. Thus, ST
indexing selects topp when the ambiguous string implanta-
tionoccurs in a context (e.g., s1) containing words with JD
indexing more similar to that of the topp document; con-
versely, STindexing selects orgf when implantationoccurs
in a context (e.g., s2) containing words with JD indexing
more similar to that of the orgf document.
Related Work
Word sense disambiguation is a difficult but crucial task
in many areas of automatic language processing, such as
information retrieval (Clough & Stevenson, 2004; Vorhees,
1998),  machine  translation  (Brown,  Della  Pietra,  Della
Pietra, & Mercer, 1991), and question answering (Pasca &
Harabagiu, 2001). Since the late 1950s, numerous solutions
to the ambiguity problem have been explored. The growing
interest in disambiguation methods and their performance
led to formation of SENSEVAL, an international organiza-
tion devoted to evaluation of word sense disambiguation
systems.  (Edmonds  &  Kilgarriff,  2002;  Kilgarriff  &
Rosenzweig,  2000;  Mihalcea,  Chklovsky,  &  Kilgarriff,
2004). For a review of existing disambiguation methods,
which is beyond the scope of this article, see Ide and Véronis
(1998). In the following we present work related to JDI
because of either the similarity in the approach or the com-
mon domain and collection used in the experiments.
The JDI method described in this article combines a sta-
tistical, corpus-based method (2-year MEDLINE training
set) with utilization of preexisting medical domain knowl-
edge sources, JDs (National Library of Medicine, 2002) and
STs (National Library of Medicine, 2004c).
Statisticalmethodsarebasedontheideathatthegivencon-
textdeterminesthesenseoftheword.Thesemethodsrelyon
learning disambiguation rules from large sense-tagged cor-
pora.Furtherdistinctioninthelearningmethodsisbasedon
themannerinwhichthetextcollectionisannotatedwithword
senses.Supervisedmethodsthatshowthebestperformancein
many natural language processing tasks rely on extensive
high-qualitymanualsensetaggingof largeamountsof text.
Thisdependencerestrictsapplicationofsupervisedmethodsto
tasksanddomainsforwhichresourcesexist.Bootstrappingthe
annotationprocesswithasmalleramountofhand-taggeddata
orresortingtofullyautomaticunsupervisedmethodshasbeen
suggestedasawaytoovercomethedataacquisitionproblem
(Yarowsky, 1995).Approachesthat attempt to obtainanno-
tateddata butavoidmanualannotationhave beenexplored
JOURNALOF THE AMERICAN SOCIETYFOR INFORMATION SCIENCE AND TECHNOLOGY—January1, 2006
101
DOI: 10.1002/asi
TABLE 12. JD indexing of s2 “We conclude that artificial sphincter im-
plantation is safe, reliable and very effective in treating incontinence due to
sphincteric dysfunction in properly selected patients.” 
Rank
Score
Journal Descriptor
1
0.1857
Urology
2
0.0522
Gynecology
3
0.0504
Gastroenterology
4
0.0423
Obstetrics
5
0.0321
Reproduction
TABLE 13. Items in JD vector for topp (Therapeutic or Preventive Proce-
dure) document (arthroplasty, bandaging, dissection, hemodialysis, immu-
nization, etc.).
Rank
Journal Descriptor
Score
83
Acquired Immunodeficiency Syndrome
0.0213
4
Ophthalmology
0.3160
5
Orthopedics
0.3070
1
Otolaryngology
0.4827
3
Surgery
0.4740
2
Urology
0.4803
127
Zoology
0.0000
102
JOURNALOF THE AMERICAN SOCIETYFOR INFORMATION SCIENCE AND TECHNOLOGY—January1, 2006
DOI: 10.1002/asi
recently.Thesemethodsincludecreatingacollectionbyfor-
mulatingaqueryusingWordNetdefinitionsofwordsenses
andsearchingtheWeb(Mihalcea;&Moldovan,1999),elicit-
ing volunteer contributions using a Web-based application
(Mihalcea, Chklovsky, & Kilgarriff, 2004), and employing
textinparalleltranslations(Resnik,2004).
InthespiritofavoidingcostlymanualannotationtheJDI
methodassignsJDs andsubsequentlySTstothetextinthe
trainingset,thuspreventinganeedtodiscoverwordsenses
in untagged text as in clustering-based unsupervised
approaches (Pantel& Lin, 2002;Pedersen& Bruce, 1997;
Schütze, 1992).BecauseJDassignmentandthesubsequent
stepsareperformedautomatically,JDI is arather sophisti-
catedunsupervisedapproachthatcreatesarepresentationof
word senses (word-ST vectors)byusing cooccurrences of
wordswithJDs(word-JDvectors)fromthetrainingsetwith
thehelpofSTassignmentstoconceptsintheUMLSMetathe-
saurus.Thus,theWSDcollectionisnotusedfortraining.
Using the UMLS and JDs as the source of knowledge is
conceptually close to using domain-independent methods
that employ preexisting knowledge repositories, such as
machine-readable dictionaries or thesauri, for the same pur-
pose. Dictionary-based methods, pioneered by Lesk (1986),
compare the dictionary definitions of the word senses with
the words in the context. These methods differ in the types of
source used and the ways in which similarity between the
sense representation and the word context is measured and
in general do not have the benefit of the sense assigned to the
training set provided by JDs. Yarowsky (1992) developed a
statistical model based on categories of Roget’s Interna-
tional  Thesaurus and text of the  Grolier Encyclopedia.
Liddy and Paik (1993) and Liddy, Paik, and Woelfel (1993)
use Subject Field Codes (SFCs) from Longman’s Dictionary
of Contemporary English(LDOCE); however, the codes are
manually assigned to each word in the dictionary by lexi-
cographers rather than  being  propagated, as  in the JDI
approach.
Domain Driven Disambiguation (Magnini, Strapparava,
Pezzulo, & Gliozzo, 2002) augments WordNet (Fellbaum,
1998) with domain labels from the Dewey Decimal Classifi-
cation to represent the context and the word senses by using
domain vectors. Interestingly the kernel-based system that
incorporates this method was one of the best performing sys-
tems in the SENSEVAL-3 English lexical sample WSD task
(Strapparava, Giuliano, & Gliozzo, 2004). This task, which
requires annotation of instances of sample words in short
extracts of text, is equivalent to the goal of the JDI method in
disambiguating MetaMap output. It may be of interest to
note that the average precision of JDI, ranging from 77.10%
to 78.73% depending on context (Table 14, as discussed in
the Results and Analysis section), is comparable to the
precision of the top-performing supervised system partici-
pating in this SENSEVAL-3 task, which is 79.3% (Mihalcea,
Chklovsky, & Kilgarriff, 2004).
Maynard  and Ananiadou (2000) use  the UMLS  and
Semantic Network and the strength of association between a
multiword term and its context to identify one sense for that
term in the corpus. Here again JDI of the training set permits
finer granularity of the sense assignment: i.e., the word can
be disambiguated given a paragraph or a sentence.
The idea of disambiguating terms in the biomedical con-
text by using the UMLS semantic types of unambiguous
neighboring  concepts  was  introduced  by  Aronson,
Rindflesch, and Browne (1994). The availability of an exten-
sive knowledge source such as UMLS has potential to reduce
significantly or even eliminate the need for manual sense
annotation. One such unsupervised approach was studied by
Widdows and colleagues (2003), who augmented informa-
tion about concepts and semantic types with information
about cooccurring concepts also contained in UMLS. In this
approach,  first  all  possible  senses  are  found  for  each
ambiguous word. Then all conceptually related and coindex-
ing terms for each sense are extracted from the corresponding
sources (conceptually related terms can be found in the
UMLS MRRELand MRCXTfiles, and the UMLS MRCOC
file contains the coindexing terms). Then the local context of
the ambiguous word is examined for the presence of the
related concepts. The sense that is supported by the largest
number of related terms in the context is assigned to the
ambiguous word. This study found both precision and recall
to be better when only coindexing terms were used for dis-
ambiguation as opposed to the combination of the coindexing
and hierarchically related terms. In another unsupervised
approach Liu, Johnson,  and Friedman (2002b) used the
MRRELfile to annotate related concepts in MEDLINE cita-
tions automatically. The presence of conceptual relatives per-
mitted determination of the sense of the ambiguous word in a
large number of citations. The remaining citations were dis-
ambiguated by using a naive Bayes classifier trained on the
previously disambiguated texts.
Because both unsupervised methods described rely on the
presence of related concepts in the citation, they might be
sensitive to the exact wording of the text in the same manner
that the early methods that used machine-readable dictionar-
ies as the knowledge source were sensitive to the wording of
the sense definitions. The advantage of the JDI method is
that it does not require the presence of specific words in the
text that contain the ambiguity (i.e., all words are prelabeled
with JDs inherited by the training set documents from the
journals they appear in, and then labeled with STs according
to the methodology explained in the previous section), and
thus it is not necessary to have large numbers of examples
with these specific words.
Although our method is not supervised, two experiments
that used parts of the NLM’s WSD collection for supervised
word sense disambiguation should be mentioned. Liu, Teller,
and Friedman (2004) studied various sizes of immediate con-
texts to the right and to the left of the ambiguous word for
training of machine learning algorithms that demonstrated
high accuracy in general English word sense disambiguation,
namely, naive Bayes, decision list, and a combination of a
naive Bayes and an instance-based classifier. Because none
of the classifiers in this experiment outperformed the rest for
all ambiguities, the authors recommend selecting the best
classifier individually for each term, and using supervised
WSD only when there are at least a few dozen instances
tagged for each sense of the word. Leroy and Rindflesch
(2004) studied the possibility of reducing the size of the re-
quired training set by utilizing symbolic knowledge encoded
in the UMLS. In this experiment a naive Bayes classifier was
trained on sentences containing ambiguous words that were
represented by using a combination of syntactic features, se-
mantic types found in the sentence, and semantic network
relations, such as part-of, between these semantic types. We
JOURNALOF THE AMERICAN SOCIETYFOR INFORMATION SCIENCE AND TECHNOLOGY—January1, 2006
103
DOI: 10.1002/asi
TABLE14. Summary and individual precision scores comparing MeSH Frequency disambiguation and JDI  (Journal Descriptor Indexing) disambiguation
for four contexts studied (doc, ambig-sentence, ambig-sentences, and doc-rule, described in Table 15).
JDI ambig-
JDI ambig-
MeSH
JDI doc
sentence 
sentences 
JDI doc-rule
Frequency
context
context
context
context
Number of
Ambiguities
precision
precision
precision
precision
precision
instances
Summary
average
0.2492
0.7710
0.7860
0.7873
0.7870
54
median
0.0152
0.8507
0.8939
0.9048
0.9048
63
range
0.0000 – 1.0000
0.0448 – 1.0000 
0.0448 – 1.0000
0.0448 – 1.0000
0.0597 – 1.0000
3 – 67 
Individual
adjustment
0.1000
0.8167
0.6333
0.7500
0.7667
60
blood_pressure
0.0000
0.4030
0.4478
0.4179
0.4179
67
condition
0.0169
0.8983
0.9322
0.9322
0.9322
59
culture
0.1045
1.0000
0.9552
0.9851
1.0000
67
degree
0.0000
0.9318
0.9545
0.9545
0.9773
44
depression
1.0000
0.8070
0.9474
0.9474
0.9474
57
determination
0.0000
1.0000
1.0000
1.0000
1.0000
54
discharge
1.0000
0.8889
0.9630
0.9630
0.9259
54
energy
0.0000
0.6418
0.8358
0.7313
0.7015
67
evaluation
0.0000
0.5522
0.5672
0.5821
0.5970
67
extraction
0.0000
1.0000
0.9831
0.9831
0.9831
59
failure
0.0000
1.0000
0.9444
0.9444
0.9444
18
fat
0.9583
0.6250
0.7917
0.7500
0.7500
48
fit
0.0000
1.0000
1.0000
1.0000
1.0000
12
fluid
0.0000
0.0448
0.0448
0.0448
0.0597
67
frequency
0.0000
0.8889
0.9683
0.9048
0.9048
63
ganglion
0.9403
0.9403
0.9403
0.9403
0.9403
67
glucose
0.9254
0.4179
0.3582
0.3881
0.3881
67
growth
0.0000
0.7463
0.6567
0.7015
0.7015
67
immunosuppression
0.5224
0.6866
0.6866
0.7612
0.7463
67
implantation
0.1667
0.8939
0.8939
0.9242
0.9394
66
inhibition
0.0000
0.9851
0.9254
1.0000
0.9851
67
japanese
0.0000
0.4717
0.5849
0.5660
0.5472
53
lead
0.8889
0.2778
0.3889
0.3889
0.3889
18
mole
0.0182
1.0000
0.9818
0.9818
0.9818
55
mosaic
0.0000
0.6923
0.6769
0.6769
0.6769
65
nutrition
0.1774
0.4032
0.3871
0.3871
0.3548
62
pathology
0.1493
0.7164
0.7463
0.7463
0.7463
67
pressure
1.0000
0.1364
0.1061
0.1212
0.1212
66
radiation
0.4242
0.8030
0.7576
0.8030
0.7879
66
reduction
0.0000
1.0000
1.0000
1.0000
1.0000
10
repair
0.2727
0.9318
0.8636
0.8636
0.8636
44
resistance
0.0000
1.0000
1.0000
1.0000
1.0000
3
scale
0.0000
0.5116
0.7209
0.6279
0.6047
43
secretion
0.0149
0.9104
0.9403
0.9403
0.9403
67
sensitivity
0.0000
0.8286
0.8857
0.8286
0.8286
35
single
0.0000
0.9701
0.9851
0.9851
1.0000
67
strains
0.0000
0.9516
0.9677
0.9839
0.9839
62
support
0.0000
1.0000
1.0000
1.0000
1.0000
7
surgery
0.0149
0.8507
0.9851
0.9254
0.9254
67
transient
0.0000
1.0000
1.0000
0.9851
0.9851
67
transport
0.9844
1.0000
0.9531
0.9688
0.9844
64
ultrasound
0.8209
0.8060
0.8507
0.8060
0.8060
67
variation
0.1791
0.7164
0.6567
0.7015
0.7313
67
white
0.5333
0.5500
0.5000
0.5333
0.5500
60
104
JOURNALOF THE AMERICAN SOCIETYFOR INFORMATION SCIENCE AND TECHNOLOGY—January1, 2006
DOI: 10.1002/asi
compare the performance of JDI to these methods in the
Results and Analysis section.
Experimental Method
Word Sense Disambiguator Tool
AWord Sense Disambiguator interface has beendevel-
opedtodeterminetheperformanceofindividualdisambigua-
tion methodsontheWSDTestCollection(Figure3). This
interfacewasusedforrunningthebaselineMeSHFrequency
method(describedlater)andtheJDImethodtobecompared
toit.WehaveusedDisambiguatorinanexperimenttomea-
suretheperformanceofMeSHFrequencyandfourversions
ofJDIcorrespondingtodifferentcontextsinwhichtheambi-
guityoccurs,asdescribedlaterinthissection.
MeSH Frequency Baseline
MeSH Frequency uses frequency counts of MeSH in-
dexing terms in a subset of MEDLINE citations. (MeSH
FrequencyformsthebaselinefordevelopingJDI butisnot
used in an implemented system). Each candidate concept
for an ambiguityis matchedtoa MeSHsynonym, if there
is one. The conceptthathas the MeSH synonym withthe
highest frequency count in MEDLINE is returned as the
Disambiguatoranswer.Figure4showsthefirstfewlinesof
the results for MeSHFrequencyindisambiguatingthe in-
stancesoftheimplantationambiguitydiscussedinprevious
sectionsof thisarticle. (Only67instancesareprocessedas
atrainingsetfordisambiguationmethods;theremaining33
arereservedas atestset.)Ina line of results, the Item ID
identifies the ambiguous text. For example, in thelastline
of Figure 4, 9344537.ab.1 stands for the first sentence in
the abstract in the citation with PMID 9344537. Next on
the line is the reviewed answer from the consensus of
human raters, followed by the Disambiguator answer for
the particular methodthatwas selected, inthis caseWord
Frequency. Clicking on this Item ID displays the citation
withthe sentence containing the ambiguity highlighted (Fig-
ure 5). This display is similar to the one shown tohuman
raters in developing the WSDTestCollection. Also high-
lightedistheambiguityinother sentences, althoughraters
focusedonthehighlightedsentenceforthedisambiguation.
This display is informative in evaluation of automatic
indexingmethodologiesbyallowingviewingofthecontext
of the ambiguity. The ambiguous text in Figure 5 is our
samples1sentence.
Referring to Figure 4, for implantation, the MeSH Fre-
quency method selects “Blastocyst Implantation, natural” as
the correct concept for all 67 instances. This is the reviewed
answer for only 11 instances and is reflected in the (TP) True
Positive number in the Overall Summary line. Precision in
this line is the precision score of 0.1642, which is TP/ Count
(total count of 67). The reason for this poor performance is
that this concept has a MeSH synonym (Ovum Implanta-
tion), but the other concept, “Implantation procedure,” has
FIG.3. WordSenseDisambiguatorinterfacewheretheindexingmethod(e.g.,MeSHFrequencyMethod)andambiguities,e.g., implantation,areselected.
JOURNALOF THE AMERICAN SOCIETYFOR INFORMATION SCIENCE AND TECHNOLOGY—January1, 2006
105
DOI: 10.1002/asi
no MeSH synonym. The Overall Summary also gives counts
and scores, ignoring the instances in which “None of the
Above” is the reviewed answer. For this ambiguity, there
was only one “None of the Above”; therefore, ignoring this
instance, Count=66, and Precision=1166=0.1667.
We are  using scores  that ignore  “None of  the Above”
because neither MeSH Frequency nor the JDI method is
designed to return this answer (see discussion of this point at
the end of this section).
As shown in Table 14, the average score for MeSH Fre-
quency is 0.2491, which is the average of the precision
scores for the 45 ambiguities processed by this method in the
experiment (see discussion on elimination of five ambigui-
ties at the end of this section). Practically half the ambigui-
ties have a precision score of 0.0000 (the Disambiguator an-
swer is “No match found” for all instances) because of the
absence of MeSH synonyms for all candidate concepts. In
cases in which performance is good for this method, the con-
cept that has the MeSH synonym with the highest frequency
happens to be correct for most instances.
FIG. 4. Word Sense Disambiguator display for MeSH Frequency results for implantationambiguity, where “Blastocyst Implantation, natural” is the
Disambiguator answer for all 67 instances.
Contexts Evaluated in Experiments
Aparticular methodologic issue that arises for the JDI
method  is  what the  context  for  an  ambiguous instance
should be. Should it be just the sentence in which the am-
biguous string appears (i.e., target sentence)? Should it be
the entire citation? An alternative context for the citation is
the target sentence together with other sentences containing
the ambiguity, or morphological variant of the ambiguity.
Variants were determined by using the UMLS SPECIALIST
Lexicon; for example, variants of the ambiguous string cul-
ture are cultures, cultured, culturing, cultural. Aquestion
arose in the situation in which the desired context is all sen-
tences with the ambiguity/variants, but there is only one sen-
tence that qualifies, i.e., the one with the ambiguity. Is some
additional context always desirable beyond this sentence?
We therefore derived a rule that if this sentence has fewer
unique words than some threshold, the system goes to the
entire citation as context. Table 15 summarizes the contexts
in our preliminary experiments.
Documents you may be interested
Documents you may be interested