Dai HJ, Chang YC, Tsai RTH et al. New challenges for biological text-mining in the next decade. JOURNAL OF COM-
PUTER SCIENCE AND TECHNOLOGY 25(1): 169–inside back cover Jan. 2010
New Challenges for Biological Text-Mining in the Next Decade
Hong-Jie Dai
1,2
,Yen-Ching Chang
1
,Richard Tzong-Han Tsai
3
,and Wen-Lian Hsu
1,2
,Fellow, IEEE
1
Institute of Information Science, “Academia Sinica”, 115, Taiwan, China
2
Department of Computer Science, “National Tsing-Hua University”, 300, Taiwan, China
3
Department of Computer Science and Engineering, Yuan Ze University, 320, Taiwan, China
E-mail: {hongjie, ro3789, hsu}@iis.sinica.edu.tw; thtsai@saturn.yzu.edu.tw
Received September 1, 2009; revised November 24, 2009.
Abstract
The massive flow of scholarly publications from traditional paper journals to online outlets has benefited
biologists because of its ease to access. However, due to the sheer volume of available biological literature, researchers
are finding it increasingly difficult to locate needed information. As a result, recent biology contests, notably JNLPBA
and BioCreAtIvE, have focused on evaluating various methods in which the literature may be navigated. Among these
methods, text-mining technology has shown the most promise. With recent advances in text-mining technology and the
fact that publishers are now making the full texts of articles available in XML format, TMSs can be adapted to accelerate
literature curation, maintain the integrity of information, and ensure proper linkage of data to other resources. Even so,
several new challenges have emerged in relation to full text analysis, life-science terminology, complex relation extraction,
and information fusion. These challenges must be overcome in order for text-mining to be more effective. In this paper, we
identify the challenges, discuss how they might be overcome, and consider the resources that may be helpful in achieving
that goal.
Keywords
bioinformatics database, mining method and algorithm, text mining
1 Introduction
Life-science journal publishing has undergone a di-
gital revolution in the last decade. The massive flow
of scholarly publications from traditional paper jour-
nals to online outlets has benefited biologists in the
ease of access, but has also left these scholars adrift
in the deluge of biological literature they have made
available. Recent biology contests, such as JNLPBA
[1]
and BioCreAtIvE
[2
-
3]
,have evaluatedwaysinwhichthe
literature may be navigated. Among the methods eval-
uated, textmining hasshownthe most promise because
itmakesbiologicalliterature more accessible, and there-
fore more useful
[4
-
5]
.
Text mining involves analyzing a large collection of
documents in a manner that reveals specific informa-
tion, such as the relationships and patterns buried in
the collection, which is normally imperceptible to rea-
ders. A key text mining task involves linking extracted
information to form new facts or new hypotheses that
can be explored further by more conventional means of
experimentation
[6]
.
In the biomedical domain, several tools[7
-
9],
competitions
[10
-
12]
and projects
[13
-
14]
have started to
incorporate textmining technology. However, textmin-
ing is difficult to implement in many cases because
the vital components of scientific communication —
journals and databases — are designed to be read by
people, not computers. Computers cannot extract in-
formation efficiently from unstructured text, which is
the format adopted by most journals and databases.
Fortunately, some publishers, e.g., the Public Library
of Science (PLoS) and BioMed Central, have sought
to address this problem by making the full texts of
their publications available as downloadable XML files
that can be processed easily by computer programs.
The FEBS Letters journal is currently experimenting
with embedding text-mining systems (TMSs) in the
manuscript submission process to construct structured
digital abstracts semi-automatically
[15]
— machine-
readable XML summaries ofpertinent facts in the pub-
lished articles.
With the recent advances in text-mining technology
and the fact that some publishers are now making the
full texts of articles available in XML format, TMSs
Regular Paper
This work was supported by the “National Science Council” under Grant Nos. NSC 97-2218-E-155-001 and NSC96-2752-E-001-
001-PAE,the Research Center for Humanities and Social Sciences, and the Thematic Program of “Academia Sinica” under Grant No.
AS95ASIA02.
2010 Springer Science+Business Media, LLC & Science Press, China
Pdf form data extraction - extract form data from PDF in C#.net, ASP.NET, MVC, Ajax, WPF
Help to Read and Extract Field Data from PDF with a Convenient C# Solution
extract data from pdf file; pdf data extraction tool
Pdf form data extraction - VB.NET PDF Form Data Read library: extract form data from PDF in vb.net, ASP.NET, MVC, Ajax, WPF
Convenient VB.NET Solution to Read and Extract Field Data from PDF
how to fill pdf form in reader; extracting data from pdf forms to excel
170
J. Comput. Sci. & Technol., Jan. 2010, Vol.25, No.1
can be applied to the full texts rather than just the
abstracts, and to accelerate literature curation, main-
tain the integrity of information, and ensure proper
linkage of data to relevant resources. However, seve-
ral new challenges have emerged in relation to full text
analysis, life-science terminology, complex relation ex-
traction, and information mergence. First, terms, such
as gene names and corresponding database identifiers,
are so numerous and varied that even specialists have
difficulty understanding them and keeping track of up-
dates and revisions. While state-of-the-art normaliza-
tion systems developed for BioCreAtIvE II[16] can nor-
malize gene identifiers for humans relatively well, such
systems have yet to be developed for inter-species nor-
malization. Second, full-textanalysisrequirestheuse of
more sophisticated natural language processing (NLP)
techniques than currentbiological information retrieval
and extraction tools can handle
[17
-
18]
. For example,
in full text analysis, TMSs must extract cross-sentence
relations, while most current TMSs can only extractre-
lations within sentences. Third, current TMSs are un-
able to merge information from disparate sources with
different contextual and typographical representations.
However, associating works in the literature via path-
way information is essential. In the next section, we
discuss the above-mentioned challenges in more detail.
2 Full Text Processing
Most Biological Natural Language Processing sys-
tems have only been applied to abstracts because of
the latter’s availability and abridged nature. Abstracts
are good targetsfor information extraction (IE) as they
summarize the content of articles. However, the full
texts of papers contain more information, relevant or
not, which should be treated carefully
[19]
.
The preliminary results of applying current state-of-
the-artTMSs tofulltextsshowed apromisingF-score
1
of 28.85%
[20]
in the BioCreAtIvE (critical assessment
for information extraction in biology) protein-protein
interaction (PPI) annotation extraction task[21]. How-
ever, they also revealed several issues of concern:
1) Errors resulting from converting PDF or HTML
formatted documents to plain text.
2)Difficultiesin processingtables andfigure legends.
3)Multiple references to organisms and the resulting
inter-species ambiguity in gene/protein normalization.
4) Sentence boundary detection errors.
5)Difficultiesin extracting the associationsand han-
dling the coordination of multiple interaction pairs in
single sentences.
6)Phrasesusedto describe interactions inlegends or
titles that do not correspond to grammatically correct
sentences in the text.
7) Errors in shallow parsing and POS (part-of-
speech)-tagging tools trained on general English text
collections when applied to specific expressions and ab-
breviations found in biomedical texts.
The open text mining interface, a project directed
by the Nature Publishing Group, helps solve the data
format conversion errors and difficulties mentioned in
issues 1) and 2) because it provides open access to full
text documents published in XML format. The full-
text versions of scientific literature that are machine-
readable, but many other aspects need to be improved
further, as we explain in the following subsections.
2.1 Named Entity Identification in Full Text
2.1.1 Named Entity Recognition
The fundamental task of recognizing biological
terms, such as gene and protein names, is the first
step towards making full use of the information en-
coded in biomedical texts. The named entity recog-
nition (NER) task in the biomedical domain has diffe-
rent characteristics from that in the newswire domain,
such as the MUC-7 NER task
[22]
. The unique diffi-
culties of biomedical NER are as follows. First, the
number of new gene names is growing continually, and
it is hard to recognize all of them because there is
so much inconsistency among them
[20]
. Second, au-
thors do not use standardized names; they prefer to
use abbreviations or other forms depending on per-
sonal inclination
[23]
. Because of their limited length,
abbreviations/acronyms are often identical to the re-
spective genes’ symbols and thus increase the ambi-
guity of the nomenclature[24]. For instance, 80% of
the abbreviations listed in the UMLS have ambigu-
ous versions in MEDLINE
[25]
. Third, gene names are
similar to/occur with other terminology varying from
gene/protein names, such as the names of cells, tis-
sues or organs
[26]
. For example, C1R is a cell line, but
it is also a gene (SwissProt P00736). TMSs must be
able to distinguish between different genes with identi-
cal names as well as to determine whether certain gene
names refer to completely different biological entities
like viruses. For compound names, it is also necessary
to determine where the name begins and ends within
asentence. The task can be particularly difficult when
verbs and adjectives are embedded in names
[27]
.
A large number of machine learning algorithms
have been developed to deal with the NER prob-
lems; for example, the hidden Markov model
[28]
, the
support vector machine model[29], the maximum en-
tropy Markov model
[30]
and the conditional random
1
F-score is the weighted harmonicmean of precision and recall.
VB.NET PDF Text Extract Library: extract text content from PDF
control provides text extraction from PDF images and image files. Enable extracting PDF text to another PDF file, and other formats such as TXT and SVG form.
extract data from pdf to excel; extract data from pdf into excel
C# PDF Text Extract Library: extract text content from PDF file in
Image text extraction control provides text extraction from PDF images and image files. Best C#.NET PDF text extraction library and component for free download.
how to fill out a pdf form with reader; extract data from pdf using java
Hong-Jie Dai et al.: New Challenges for Biological Text-Mining in the Next Decade
171
field model
[31]
. To capture the diverse characteristicsof
biomedical entities, several feature sets, including lexi-
cons, orthographic/affixinformation, and even external
resources like the WWW have been incorporated into
different algorithms. It is conceivable that the recogni-
tion results derived by these algorithms will be diverse
but complementary to each other. One natural idea
for improving the performance of biomedical NER is
to combine the results of several algorithms. The re-
sults of the BioCreAtIvE II gene mention task
[20]
and
those reported by Si et al.
[32]
show that it is possible to
achieve higher recognition accuracy by combining the
results of multiple NER algorithms.
False positive gene/protein names found in the full
texts of articles pose great challenges for TMSs in such
basic tasks as identifying gene and protein names in
biomedical texts. Broadening the range of entities be-
yond genes/proteins to include entities like chemicals
and diseases
[33
-
34]
can resolve the problem. Identify-
ing these entities also allows us to consider biologically
relevant relations, such as which entities they are de-
rived from, where they are located, which have agency
in which processes, or which participate in what pro-
cesses.
In addition, it may also be possible to use algo-
rithms that can identifyacronyms/abbreviations to ex-
tract acronyms from text automatically without check-
ing whether they overlap with the gene nomenclature.
Although several algorithms have been proposed for
this purpose
[35
-
36]
,onlya few can extractacronymsand
disambiguate gene names[37]. We hope that integrating
these tools will improve the NER performance.
2.1.2 Inter-Species Normalization
Gene normalization (GN) determines the unique
identifiers of genes and proteins mentioned in the lite-
rature. The concept was inspired by a step in a typical
curation pipeline for model organism databases. After
an article has been selected for curation, curators list
the genes or proteins of interest in this article
[16]
. Al-
though the concept ofGNwas inspired by curation, the
BioCreAtIvE I/II computer-aided GN task
[16,38]
over-
simplified curation and performed GN by normalizing
genes in abstracts rather than on the full-text. Actu-
ally, human curators normally work on the full texts
and only identify particular kinds of genes of interest.
Cohen et al.
[39]
proposed a computer-aided GN system
that, given a document, provides a ranked list of genes
that are discussed in the document. The BioCreAtIvE
II.5 competition of 2009
[40]
included a similar ranking
task. Such a ranked list could be used as an aid by
human curators.
Computer-aided GN
presents several difficult
problems that need to be solved in order to reduce the
workload of human curators. First, gene and protein
names often have several spelling variations or abbrevi-
ations. Second, gene products are often described indi-
rectlyviaphrases, such as“lightchain-3ofmicrotubule-
associated proteins 1A and 1B”, instead of by specific
names or codes. A number of approaches
[41
-
42]
have
been proposed to addressthese problemsin the BioCre-
AtIvE I/II’s GN task. The evaluation results provide
some insight into how these problems affect our capa-
city to normalize the genes mentioned in biological ab-
stracts, but GN is not yet practical. The BioCreAtIvE
I/IIGNtaskinvolved normalizingvarious abstractsand
demonstrating how much TMSs’ success varied accord-
ing to the organism discussed in the abstracts. The
results showed that the performances were satisfactory
for normalizing abstractsthat mentioned the genes and
proteins of humans (F-score 0.81), mice (F-score 0.79),
yeast (F-score 0.92) and flies (F-score 0.82), respec-
tively. However, the task did not address the impor-
tant issue of inter-species GN, which exists in many
published articles.
HemK2 protein, encoded on human chromosome 21
, methy-
lates translation termination factor eRF1.
Abstract
The uniquitous tripeptide Gly-Gly-Gln in class 1 polypeptide
releasefactors triggers polypeptide release on ribosomes. The
Gln reside in both bacterial and yeast release factors is N5-
methylated, despitetheir distinctevolutionary origin. Methy-
lation of eRF1 in yeast
is performed by the heterodimeric
methyltransferase (MTase) Mtq2p/Trm112p, and requires
eRF3andGTP.Homologues of yeastMtq2p andTrm112pare
foundin man, annotated as an N6-DNA-methyltrasferaseand
of unknown function. Here weshow that the human proteins
methylate human and yeast eRF1.eRF3.GTP in vitro, and
that theMTasecatalyticsubunit can complement thegrowth
defect of yeast strains deleted for mtq2. [PMID:18539146]
Fig.1. Abstract (PMID 18539146) in PubMed.
The extract in Fig.1, taken from an abstract in
PubMed, exemplifiesthe challengesposed bymanyarti-
cles when using computer-aided GN. One name, abbre-
viation or code, may refer to genes in multiple species,
each with its own unique ID, or even to multiple genes
in the same species or across different species. For ex-
ample, the abstract (PMID: 18539146) in Fig.1 dis-
cusses the methylation of the gene “eRF1”. In the
UniProt database, the gene’s name is listed as a syno-
nym of multiple genes, such as ZFP36L1 (SwissProt
Q07352) and ETF1 (SwissProt P62495) even though
their functions are different. Moreover, both ZFP36L1
and ETF1 refer to multiple species, namely humans,
mice, and rats. We also observe that “eRF1” appears
in the title as a human gene and in the third sentence
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
image extraction from multiple page adobe PDF file in VB.NET. Extract multiple types of image from PDF file in VB.NET, like XObject Image, XObject Form, Inline
extract pdf form data to excel; pdf form save with reader
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
Support PDF Image Extraction from a Page, a Region on a Page Extract various types of image from PDF file, like XObject Image, XObject Form, Inline Image
how to extract data from pdf to excel; html form output to pdf
172
J. Comput. Sci. & Technol., Jan. 2010, Vol.25, No.1
of the abstract as a yeast gene. Finally, the com-
plex “eRF1.eRF3.GTP” in the last sentence is a pro-
tein complex and should not be associated with any
database identifiers. These few sentences illustrate how
much more GN needs to be improved before it can be
used in practice.
2.2 Relation and Fact Extraction from Full
Texts
TMSs, like human curators, should workon full text
articles. The information provided in the headings, fig-
ure legends, and tables of full text articles helps TMSs
extract relations and facts; and may help usersdiscover
implicit associations between genes and diseases in the
future
[18]
. Seki and Javed
[43]
conducted a small pre-
liminary experiment and reported that using the full
text articles, rather than just their abstracts, to ex-
tract gene-disease relationsgreatlyimproved the ability
of their text-mining system to discover facts and rela-
tions. In addition, Cooper and Kershenbaum[44] con-
ducted a detailed study of 65 abstracts and found that
some PPIs were onlyreported in the full texts ofthe re-
spective papers. The abstracts of some papers did not
contain any protein names. Hence, TMSs should ana-
lyze the full text articles, not just their abstracts. In
the following sections, we consider the challenges that
must be addressed.
2.2.1 Relevant Versus Irrelevant Information
TMSs need to distinguish between relevant and ir-
relevant information, but different criteria may have to
be applied depending on which section of an article the
text-mining system is analyzing or mining. Shah et
al.
[45]
demonstrated that there are substantial differ-
ences in the content of different sections of a publica-
tion. For example, specific terms, like the names of
certain genes, may be mentioned in the titles of arti-
cles in a paper’s bibliography, but TMSs should disre-
gardsuch terms. To identifyuseful terms, TMSs should
compare terms mentioned in papers’ abstracts, which
usually contain a high density of relevant terms (key-
words), to terms appearing throughout the full texts of
the respective papers.
Moreover, TMSs should also be able toassociate use-
ful pieces of information in the legends of figures and
tables with the text of the article, but this task is quite
challenging. One reason is that figures and images of-
ten have multiple sub-figures, so TMSs must be able to
identifythe sub-figuresandmatcheachone with the ap-
propriate sentences or references in the text. Although
this task may seem difficult, TMSs that have such a
capacity might discover more useful relations or facts
than those normally extracted. Some researchers have
been successful in combining text-mining and image
recognition techniques
[46
-
47]
; however, there is a need
for much greater collaboration between researchers in
the two fields before TMSs can perform image recogni-
tion and mine related text easily.
2.2.2 Relation Extraction
In the biomedical field, researchers are interested
in PPIs, gene-gene interactions and protein-disease
interactions. The major goal of relation extraction
is to discover the relations embedded within sen-
tences, paragraphs, or entire documents. Currently,
the most popularrelation extractionapproachesinclude
rule-based[48
-
49],kernel-based [50
-
51],andco-occurrence-
based
[52
-
53]
methods. Most works focus on identify-
ing the relations between proteins
[53
-
55]
. Craven and
Kumlien
[56]
identified the relations between proteins
and sub-cellular locations; while Rindflesch et al.[57]
extracted the relations between cancer-related genes,
drugs and cell lines. Less work has been done on ex-
tracting the relations between genes and diseases
[58
-
59]
,
but the area is now attracting more research efforts.
Among existing methods, employing parsers to ana-
lyze syntactic and semantic structures is useful. Miyao
et al.
[60]
performed a comparative evaluation of state-
of-the-art syntactic parsing methods, including depen-
dency parsing, phrase structure parsing and deep pars-
ing, and their contribution to PPI extraction. The
study provides researchers with a good reference for
choosing appropriate parsers for their work. However,
there is no guarantee thatthe resultsreported byMiyao
et al. can be generalized to other datasets and tasks.
The results of the BioCreAtIvE II PPI task[21]
demonstrate that current TMSs can detect binary re-
lations in abstracts reasonably well
[49,61]
,but they are
not alwaysaseffective in extracting significantrelations
from full-text articles. There are three reasons for this
phenomenon.
First, biomedical terms, such as gene names, may
have different meanings in full texts depending on the
context or the section in which they appear. The same
gene inone section maybelong to differentspecies (con-
sider the example shown in Fig.1). Second, the fre-
quent use of synonyms, abbreviations, and acronyms
in biomedical texts hinders semantic analysis. For in-
stance, extractingfactsfromthe Results section mayre-
quire resolving acronyms or synonyms only mentioned
in the Introduction section. Third, biomedical texts
usuallycontain severalcompound nouns aswell as noun
phrases linked by prepositions. Fourth, TMSs have
difficulty when one or more proteins involved in an
interaction are expressed by more than one sentence;
or when they are expressed using anaphora, as shown
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
VB.NET PDF - PDF File Pages Extraction Guide. Detailed VB.NET Guide for Extracting Pages from Microsoft PDF Doc. Free PDF document
exporting data from excel to pdf form; how to fill pdf form in reader
VB.NET PDF Library SDK to view, edit, convert, process PDF file
PDF Text Extraction. Mature and robust APIs are provided for programmers to integrate and perform PDF text extraction feature in .NET windows and web project.
pdf data extraction to excel; how to save fillable pdf form in reader
Hong-Jie Dai et al.: New Challenges for Biological Text-Mining in the Next Decade
173
in the following example:
Human growth hormone (hGH) binds to its
receptor (hGHr) in a three-body interaction: one
molecule of it
and two identical monomers of the re-
ceptor from a trimer.
Many papers have addressed relation extraction,
summarization, and evaluation issues, but few have fo-
cused on co-reference (anaphora) resolution
[62]
, possi-
bly because there are few publicly available datasets
for system building and evaluation. Despite the sub-
stantial amount of annotation work carried out on
co-referencing in molecular biology, few biomedical
corpora with co-reference annotations are currently
available[63]. Recently, the GENIA corpus was anno-
tated with co-references. Nguyen et al.
[64]
conducted a
pioneering study of the differences between newswire
and biomedical co-reference annotated corpora. We
look forward to the integration of more sophisticated
NLP techniques in this respect.
3 Future of Text-Mining Applications
3.1 User-Focused Applications
Text-mining researchers are typically good at ana-
lyzing textual content, but they are not as good
at building interactive systems that users can adopt
easily
[33]
.To resolve the problem, researchers must de-
sign applications with intuitive interfaces that require
little or no knowledge of text-mining and NLP techno-
logy. The objective isto providebioinformatics, biologi-
cal, biomedical, and pharmacological researcherswith a
high-level view of biological interactions and help them
form new hypotheses. The useful PubMed-EX browser
extension
[65]
,shown in Fig.2, is an example of such an
effort.
PubMed-EX annotates onsite PubMed search re-
sults with additional text-mining information but users
do not pay any extra effort such as to learn how to in-
put a specific query. Currently, its processing speed is
quite slow, but it doeshide the complicatedtext-mining
technology on which it is based.
Text-mining researchers should strike a compromise
between the accuracy of text-mining results and the
overall processing speed. Obviously, full text analysis
requires more computational capacity and time than
the analysisofabstracts. Users mayaccepta processing
time of10 minutesperarticle foroff-line processes, such
as database curation, but they may not be as patient
when it comes to on-line services that provide semantic
annotations or relation extraction. Therefore, provid-
ing on-the-fly full text processing, while maintaining
a satisfactory accuracy level, remains a challenge for
text-mining researchers.
Certain typesofusers, such as contentprovidersand
corpus annotators, require interfaces that allow them
to change annotations, dredge for information, link re-
sources, and create new information resources to cap-
ture new concepts
[33]
.The researchcommunityrequires
more collaborative annotation and up-to-date know-
ledge in biological databases, but it does not have the
tools that make these procedures easy to implement.
We discuss this issue in the next subsection.
3.2 Integration, Communication and
Collaboration
Bioinformatics researchers often need to consult
numerous databases and web servers, but many
find integrating heterogeneous datasets from disparate
databasesassociatedwithmultiple webserversadaunt-
ing task
[66]
. To integrate biological data from multiple
Fig.2. A PubMed abstract annotated with text-mining results by PubMed-EX.
C# PDF File Permission Library: add, remove, update PDF file
Data. Data: Auto Fill-in Field Data. Field: Insert Choose to offer PDF annotation and content extraction Enable or disable copying and form filling functions.
extract pdf form data to xml; extract data from pdf form fields
VB.NET PDF File Permission Library: add, remove, update PDF file
Data. Data: Auto Fill-in Field Data. Field: Insert Choose to offer PDF annotation and content extraction Enable or disable copying and form filling functions.
can reader edit pdf forms; pdf data extraction open source
174
J. Comput. Sci. & Technol., Jan. 2010, Vol.25, No.1
heterogeneous databases, researchers have adopted
two major approaches:
centralization
[67]
and
decentralization
[68]
. However, the integration efforts
have been piecemeal and have only considered a frac-
tion of bioinformatics data, so complex queries remain
challenging. Integrating data from multiple databases
and analyzing it via TMSs is difficult. Zhang et al.
[66]
proposed a Web 2.0
[69]
based model that represents a
shift in focus from working locally to working in net-
worked settings. Under this new approach, the Web
is seen as a social, collaborative, and collective space.
The model provides a vision of the future, where anno-
tation will be performed collaborativelyand innovative
web tools will support such collaboration. Further de-
velopment of tools like WikiProtein
[70]
and CBioC
[71]
,
which support collaborative annotation is essential.
3.3 Information Fusion
Withthe adventofadvancedTMSs, researchersmay
be able to integrate minedinformationand therebygain
more insight into biological literature. The most crit-
ical biological reactions are recorded in “pathways,”
which include a myriad of cellular or disease events
with multiple protein-protein relationships and tend to
influence each other directly. However, for a number of
reasons, TMSs have trouble fusing mined information
to reveal pathways.
First, mapping named entities to nodes in pathways
requires highly context dependent properties. Named
entities (NEs) may have different meanings in the same
context. For example, an NE may be located in the
nucleus, in the cytoplasm, or on the cell membrane.
It may also refer to a cellular function, in which case
it might be phosphorylated or acetylated. Thus, two
consecutive sentences may mention a named entity, but
the named entity may actually refer to two totally dif-
ferent events.
Currently, biologists use their domain knowledge to
infer information that text mining cannot predict ac-
curately. Oda et al.
[72]
categorized six inference char-
acters, namely, the state of an entity before or after
reaction, the function of an entity before or after a
reaction, the influence of state or functional changes
of an entity, related reactions, reverse reactions, and
characteristics of reactions. If annotated corpora in-
corporated these features, TMSs would be able to infer
information with little human help
[72]
.
Experimental data
even
confuse
biologists
sometimes. Open databases of pathwayreferences, such
as BioCarta
2
, STKE
3
, and KEGG
[73]
, enable biol-
ogists to predict the next steps of protein pathways.
However, subtle factors cause the results of many ex-
perimentsto deviate fromwhat is consideredconsistent
for provenpathways. Inconsistencies do not necessarily
mean that the proven pathways are wrong, but they
may indicate mechanisms or parts of pathways that
were previously unobserved. Therefore, pathway pre-
diction should be independent of experiments. In the
future, TMSs may be able solve many ofthe arguments
or discrepancies that occur in research today because
of their ability to map large amounts of data quickly.
4 Text-Mining Resources
Text-mining resources, such as domain-specific the-
sauri, lexicons, terminology standards, ontologies, and
additional evaluations by task-based challenges are
very important. We summarize them in the following
subsections. It is our hope that more resources will be
used to accelerate progress in the field.
4.1 Evaluating Text Mining via Task-Based
Challenges
Evaluation via task-based challenges is essential to
the biology community
[74]
. To date, several biological
tasks, including document retrieval, NER, and relation
extraction, have been evaluated. We listthemajorchal-
lenges below:
•The KDD Cup 2002 task1
4
[75]
askedparticipants
to identify papers to be curated forDrosophila gene ex-
pression.
• The TREC Genomics Track
5
[76], one of f the
largest and longest-running challenge evaluations in
biomedicine (from 2003 to 2007), evaluates systems for
information retrieval.
• The Genic Interaction Extraction
6
(GIE)
challenge
[77]
,a part of the Learning Language in Logic
workshop, evaluates the ability of participating TMSs
to identify protein/gene interactions frombiological ab-
stracts.
•BioCreAtIvE
7
[2]
is a community-wide effort that
promotes the development and evaluation of text-
mining andIEsystems applied in the biologicaldomain.
The most recentchallenge (BioCreAtIvEII.5)in March
2009, which also involved the publisher Elsevier/FEBS
Letters and the MINT database, evaluated real-time
2
http://cgap.nci.nih.gov/Pathways/BioCarta
Pathways
3
http://stke.sciencemag.org/
4
http://www.biostat.wisc.edu/ craven/kddcup/
5
http://ir.ohsu.edu/genomics/
6
http://genome.jouy.inra.fr/texte/LLLchallenge/
7
http://www.biocreative.org/
C# PDF File Merge Library: Merge, append PDF files in C#.net, ASP.
Merge Microsoft Office Word, Excel and PowerPoint data to PDF form. PDF page deleting, PDF document splitting, PDF page reordering and PDF page image and
java read pdf form fields; how to make pdf editable form reader
VB.NET PDF Password Library: add, remove, edit PDF file password
passwordSetting.IsAnnot = True ' Allow to fill form. passwordSetting.IsFillForm = True ' Content extraction is allowed. True ' Add password to PDF file.
extract data from pdf into excel; how to save filled out pdf form in reader
Hong-Jie Dai et al.: New Challenges for Biological Text-Mining in the Next Decade
175
text-mining capabilities on full text articles.
• The BioNLP shared task
8
is concerned with
the recognition of bio-molecular named entities
[1]
and
events
[78]
that appear in biomedical literature. The
2009 task used a dataset based on the GENIA event
corpus
[79]
. In contrast to BioCreAtIvE II.5, which
aims to support the curation of PPI databases, the
BioNLP task concerns to support the development of
more detailed and structured databases, e.g., path-
way databases
[80]
,and the Gene Ontology Annotation
databases
[81]
.
4.2 Text-Mining Corpora
4.2.1 Named Entity Identification Corpora
•The GENIA corpus
9
[82]
contains 2000 abstracts
taken from the MEDLINE database and annotated
with various levels of linguistic and semantic informa-
tion. Biological named entities were annotated accor-
ding to the taxonomy definedin GENIA ontology. Cur-
rently, there are 47 biological named entity categories.
• GENETAG
10
[83]
is a corpus of 20000 sen-
tences taken from MEDLINE abstractsannotated with
gene/protein names.
• The dataset of the JNLPBA Bio-NER task
11
is
annotated with five types of named entities: protein,
DNA, RNA, cell line and cell type.
•The trainingand testsetsofBioCreAtIvEI/II gene
mention and normalization tasks
12
provide an evalua-
tion standard for the two problems.
• The Yapex Corpus
13
is annotated with protein
names mentioned in MEDLINE abstracts related to
molecular interaction and published between 1996 and
2001.
• A disease corpus
14
provided by Jimeno et al.
[34]
could serve as a benchmark for other disease NER sys-
tems.
4.2.2 Relation Extraction Corpora
•The GENIA event corpus[79] is based on the GE-
NIA corpus and is annotated with events mentioned in
biomedical abstracts.
•Binarized BioInfer
15
[84]
is a corpus annotated with
the binary relations between proteins in abstracts.
•AIMed
16
[54]
is a corpus constructed by using the
query word “human” to obtain abstracts from MED-
LINE. In total, 1955 sentences were extracted and an-
notated with gene/protein names and PPIs.
•EDGAR
17
[57] containsannotationfortheinterac-
tion of drugs, genes, and cells.
• The FetchProt
18
corpus is comprised of 190 full
text articles of which 140 describe experimental evi-
dence for tyrosine kinase activity in at least one pro-
tein. Its annotation includes specific experiments and
results, the proteins involved in the experiments and
related information.
• The BioText project
19
provides two corpora for
relation extraction: 1)PPI data[55] annotates the inter-
action types between proteins in full texts; and2) a cor-
pus containing abstracts randomlyselected from MED-
LINE 2001 for evaluation of mining disease-treatment
relations
[85]
.
•The IEPA corpus
20
[86]
contains 303 PubMed ab-
stracts with annotations for PPIs for each sentence.
• The Craven group’s IE datasets
21
[56]
were com-
piled from MEDLINE abstracts. There are three
datasets, which are labeled, respectively, with in-
stances of the following binary relations: 1) sub-
cellular-localization gathered from the Yeast Proteome
Database (YPD); 2) disease-association gathered from
the Online Mendelian Inheritance in Man database
(OMIM); and 3) PPIs from the MIPS Comprehensive
Yeast Genome Database (CYGD).
• The BioCreAtIvE-PPI dataset and DIPPPI
corpus
22
were derived fromthe datasetofBioCreAtIvE
I task 1A and the Database of Interaction Proteins
(DIP) respectively. The BioCreAtIvE-PPI corpus con-
tains 1000 sentences annotated with PPI information.
The PPIs annotated in the DIPPPI corpus are re-
stricted to proteins from yeast. The goal is to find
evidence of relations in the text of a paper. When-
ever possible, full texts are included in the corpus as
8
http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/SharedTask/
9
http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/
10
ftp://ftp.ncbi.nlm.nih.gov/pub/tanabe/GENETAG.tar.gz
11
http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/ERtask/report.html
12
http://sourceforge.net/projects/biocreative/files/
13
http://www.sics.se/humle/projects/prothalt/#data
14
ftp://ftp.ebi.ac.uk/pub/software/textmining/corpora/diseases
15
http://mars.cs.utu.fi/BioInfer/
16
ftp://ftp.cs.utexas.edu/pub/mooney/bio-data/
17
ftp://ftp.ncbi.nlm.nih.gov/pub/tanabe/EDGAR
GS.txt
18
http://fetchprot.sics.se/#corpus
19
http://biotext.berkeley.edu/data.html
20
http://class.ee.iastate.edu/berleant/s/IEPA.htm
21
http://www.biostat.wisc.edu/∼craven/ie/
22
http://www2.informatik.hu-berlin.de/∼hakenber/corpora/
176
J. Comput. Sci. & Technol., Jan. 2010, Vol.25, No.1
well as abstracts.
• The training and test dataset for the GIE
challenge
23
[87] contain annotations for gene interac-
tions. Each dataset is decomposed into two subsets.
The first subset does not include co/cross-references or
ellipsis, but the second subset contains both features.
4.2.3 Part-of-Speech, Syntactic and Semantic
Annotations
•PASBio
24
[88]
and BioProp
25
[89]
contain predicate-
argument structures (PAS) for event extraction in
molecular biology.
• The PennBioIE
[90]
CYP corpus
26
contains 1100
PubMed abstracts on the inhibition of cytochrome
P450 enzymes. It is annotated with paragraph, sen-
tence boundary, andpart-of-speech (POS)information.
In addition, 324 of the abstracts are syntactically an-
notated. Another PennBioIE corpus, the PennBioIE
Oncology corpus
27
contains similar annotations but in
addition to its abstract is related to cancer concentrat-
ing on molecular genetics.
•The GENIAcorpuscontains annotationsfor parts-
of-speech (POS)
[91]
and a treebank
[92]
.
• The Brown-GENIA Treebank
28
[93]
contains the
syntactic structures of 21 abstracts (215 sentences)
takenfromthe GENIAcorpus. There is no overlapwith
the GENIA treebank (beta version, 500 abstracts).
• MedPost
[94]
is a corpus
29
containing 5700 sen-
tences selected randomlyfrom various thematic subsets
of MEDLINE and annotated with POS information.
• The PDG Bio-splitter corpus
30
contains a small
collection of text datasets compiled from PubMed ab-
stracts to develop sentence splitting tools.
•The BioText project provides a corpus annotated
withthe definitions of abbreviations
[36]
takenfrom1000
randomly selected abstracts by querying MEDLINE
with the term “yeast”.
4.2.4 Full Text Corpora
• BioMed Central’s open access full-text corpus
31
has released 55003 full text articles to date, including
structured XML version, covered byopen access license
agreements.
•The PPI corpus of BioCreAtIvE II and II.5
[95]
.
• The FlySlip
32
corpus[96] is the first corpus of
biomedical full-text articles to be annotated with
anaphora information.
•The molecular interaction maps corpus
33
[97]
con-
tains passagesfromfull-text articlesthatdescribe inter-
actions summarized in a molecular interaction map
[98]
.
5 Conclusions
We have considered important research issues re-
lated to the exploitation of text mining in the biome-
dical field, and drawn the following conclusions.
1) The availability of full texts is clearlyvery impor-
tant because abstracts usually lack sufficient relevant
information. Techniques for mining information from
full biomedical textsneed to be improved substantially.
2)Text mining has the potential to be usedin differ-
ent applications and to fuse knowledge in the literature
and biological databases. However, to realize text min-
ing’s full potential, new methods are needed, such as
methods for acronym and co-reference resolution, and
the integration of various data sources. If highly com-
plex texts and bio-inference sentences can be processed
efficiently and accurately, information fusion would en-
able biologists to exploit knowledge more effectively.
Although text-mining technologies are now quite
mature, there are still some important unresolved prob-
lems in the field. Fortunately, biomedical text mining
is an extremely active research area, and the outlook
for continued progress is encouraging. We can foresee
thatthe texts of articleswill be systematicallyminedby
computer programs, allowing the interrelation of jour-
nal texts and the vast repository of knowledge to be
stored semi-automatically in databases. It is expected
that text mining tools will be used by every biologist
in the future.
References
[1] Kim J D et al. Introduction to the bio-entity recognition
task at JNLPBA. In Proc. the International Workshop on
Natural LanguageProcessing in Biomedicineand ItsApplica-
tions(JNLPBA2004), Geneva,Switzerland,Aug.28-29,2004,
pp.70-75.
[2] Hirschman L et al.
Overview of BioCreAtIvE: Critical
assessment of information extraction for biology.
BMC
23
http://genome.jouy.inra.fr/texte/LLLchallenge/#task1
24
http://research.nii.ac.jp/∼collier/projects/PASBio/
25
http://bws.iis.sinica.edu.tw/BioProp/
26
http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008T20
27
http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2008T21
28
http://bllip.cs.brown.edu/resources.shtml#corpora
29
ftp://ftp.ncbi.nlm.nih.gov/pub/lsmith/MedPost/medpost.tar.gz
30
http://www.pdg.cnb.uam.es/martink/LINKS/biosplitter
corpus.htm
31
http://www.biomedcentral.com/info/about/datamining/
32
http://www.wiki.cl.cam.ac.uk/rowiki/NaturalLanguage/FlySlip
33
http://www.it.usyd.edu.au/∼tara/mim
corpus/
Hong-Jie Dai et al.: New Challenges for Biological Text-Mining in the Next Decade
177
Bioinformatics, 2005, 6(Suppl.1): S1.
[3] Krallinger M et al. Evaluation of text-mining systems for bi-
ology: Overview of the Second BioCreative community chal-
lenge. Genome Biology, 2008, 9(Suppl. 2): S1.
[4] Hearst M A. Untangling text data mining. In Proc. the 37th
Annual Meeting of the Association for Computational Lin-
guistics on Computational Linguistics, College Park, USA,
June 20-26, 1999, pp.3-10.
[5] HahnUet al. Textmining: Powering thedatabaserevolution.
Nature, 2007, 448(7150): 130.
[6] HearstM.Whatistextmining. 2003,http://people.ischool.be-
rkeley.edu/∼hearst/text-mining.html.
[7] Dai H J et al. BIOSMILE web search: A web application
for annotating biomedical entities and relations. Nucl. Acids
Res., 2008, 36(Web Sever Issue): W390-W398.
[8] Rebholz-Schuhmann D et al. Text processing through Web
services: Calling Whatizit. Bioinformatics, 2008, 24(2): 296-
298.
[9] Fern´andez J M et al. iHOP web services. Nucl. Acids Res.,
2007, 35(Web Server Issue): W21-W26.
[10] ElsevierArticle2.0 Contest. http://article20.elsevier.com/co-
ntest/home.html, Accessed July, 2009.
[11] TheElsevierGrandChallenge. http://www.elseviergrandcha-
llenge.com/, Accessed November, 2009.
[12] BioCreAtIvEII.5. http://www.biocreative.org/events/biocrea-
tive-ii5/biocreative-ii5/, Accessed December, 2009.
[13] Ananiadou S, Chruszcz J et al. The national ventre for text
mining: Aims and objectives. In Proc. UKKDD2007, Kent,
UK, April25, 2007, pp.6-12.
[14] RSC Project Prospect. http://www.projectprospect.org/.
[15] Seringhaus M, Gerstein M. Manually structured digital ab-
stracts: A scaffold for automatic text mining. FEBS Letters,
2008, 582(8): 1170.
[16] Morgan A et al. Overview of BioCreative II gene normaliza-
tion. Genome Biology, 2008, 9(Suppl. 2): S3.
[17] Gonzalez G et al. Mining gene-disease relationships from
biomedical literature: Weighting protein-protein interactions
and connectivity measures. In Proc. the Pacific Symposium
on Biocomputing, 2007, 12: 28-29.
[18] Tsai R T H, Lai P et al. HypertenGene: Extracting key hy-
pertensiongenes frombiomedical literaturewith positionand
automatically-generated template features. BMC Bioinfor-
matics, 2009, 10(Suppl. 5): S9.
[19] Cohen AM,Hersh WR.A survey of current work inbiomed-
ical text mining. Briefings in Bioinformatics, 2005, 6(1): 57-
71.
[20] SmithLet al. OverviewofBioCreativeIIgenementionrecog-
nition. Genome Biology, 2008, 9(Suppl.2): S2.
[21] Krallinger M et al. Overview of the protein-protein interac-
tion annotation extraction task of BioCreative II. Genome
Biology, 2008, 9(Suppl.2): S4.
[22] Chinchor N. MUC-7 named entity task definition (Version
3.5). In Proc. the 7th Message Understanding Conference,
1997.
[23] Leser U, Hakenberg J. What makes a gene name? Named
entity recognition in the biomedical literature. Briefings in
Bioinformatics, 2005, 6(4): 357-369.
[24] ErhardtRAAet al. Status oftext-miningtechniques applied
to biomedical text. Drug Discovery Today, 2006, 11(7/8):
315-325.
[25] Liu H et al. A study of abbreviations in MEDLINE ab-
stracts. In Proc. AMIA Annual Symposium, San Antonio,
USA, Nov. 9-13,2002, pp.464-468.
[26] Tanabe L, Wilbur W J. Tagging gene and protein names in
full text articles. In Proc. the ACL-02 Workshop on Natural
Language Processing in the Biomedical Domain— Volume3,
Philadelphia, USA, July 11, 2002, pp.9-13.
[27] Tanabe L, Wilbur W J. Tagging gene and protein names in
biomedical text. Bioinformatics, 2002, 18(8): 1124-1132.
[28] Zhao S. Named entity recognition in biomedical texts using
an HMM model. In Proc. the International Joint Workshop
on Natural Language Processing in Biomedicine and Its Ap-
plications, Geneva, Switzerland, Aug. 28-29, 2004, pp.84-87.
[29] Kazama Jiet al. Tuning supportvectormachinesforbiomed-
ical named entity recognition. In Proc. the ACL-02 Work-
shop on Natural Language Processing in the Biomedical Do-
main — Volume 3, Philadelphia, USA, July11,2002, pp.1-8.
[30] Finkel J et al. Exploiting context for biomedical entity
recognition: From syntax to the web. In Proc. the Inter-
national Joint Workshop on Natural Language Processing
in Biomedicine and Its Applications, Geneva, Switzerland,
Aug. 28-29, 2004, pp.88-91.
[31] TsaiR THet al. NERBio: Usingselectedword conjunctions,
term normalization, and global patterns to improve biomed-
ical named entity recognition. BMC Bioinformatics, 2006,
7(Suppl. 5): S11.
[32] Si L et al. Boosting performanceof bio-entity recognition by
combining results from multiple systems. In Proc. the 5th
International Workshop on Bioinformatics, Chicago, USA,
Aug. 21, 2005, pp.76-83.
[33] Altman R et al. Text mining for biology — The way for-
ward: Opinions from leading scientists. Genome Biology,
2008, 9(Suppl. 2): S7.
[34] Jimeno A et al. Assessment of disease named entity recogni-
tion on a corpus of annotated sentences. BMC Bioinformat-
ics,2008, 9(Suppl. 3): S3.
[35] Yu H et al. Mapping abbreviations to full forms in biomed-
ical articles. Journal of the American Medical Informatics
Association, 2002, 9(3): 262-272.
[36] Schwartz A S, Hearst M A. A simple algorithm for identify-
ing abbreviation definitions in biomedical text. Proc. Pac.
Symp. Biocomput., 2003, 8: 451-462.
[37] Podowski R et al. Suregene, a scalable system for automated
term disambiguation of gene and protein names. Journal of
Bioinformatics and Computational Biology, 2005, 3(3): 743-
770.
[38] Hirschman L et al. Overview of BioCreAtIvE task 1B: Nor-
malized gene lists. BMC Bioinformatics, 2005, 6(Suppl. 1):
S11.
[39] Cohen W, Minkov E. A graph-search framework for associ-
ating gene identifiers with documents. BMC Bioinformatics,
2006, 7: 440.
[40] Leitner F. Comparative community assessments for ap-
plied biomedical text mining: BioCreative II challenge and
metaservices. In Intelligent Systems for Molecular Biology
(ISMB) and European Conference on Computational Biology
(ECCB), Highlights Track, Stockholm, Sweden, June27-July
2, 2009.
[41] Fundel K, Guttler D et al. A simple approach for protein
name identification: Prospects and limits. BMC Bioinfor-
matics, 2005, 6(Suppl. 1): S15.
[42] Hakenberg J et al. Me and my friends: Gene mention nor-
malization with background knowledge. In Proc. the Sec-
ond BioCreAtIvE Challenge Evaluation Workshop, Madrid,
Spain,April 23-25, 2007, p.23-25.
[43] Seki K, Javed M. Discovering implicit associations between
genes andhereditarydiseases. In Proc. Pac. Symp. Biocom-
put., 2007, 12: 316-327.
[44] Cooper J W, Kershenbaum A. Discovery of protein-protein
interactions using a combination of linguistic, statistical and
graphical information. BMC Bioinformatics, 2005, 6: 143.
[45] Shah P K et al. Information extraction from full text scien-
tificarticles: Where arethekeywords? BMC Bioinformatics,
2003, 4: 20.
178
J. Comput. Sci. & Technol., Jan. 2010, Vol.25, No.1
[46] Shatkay H et al. Integrating image data into biomedical text
categorization. Bioinformatics, July 15, 2006, 22(14): e446-
e453.
[47] Kou Z et al. A stacked graphical modelfor associating infor-
mation from text and images in figures. In Proc. Pac. Symp.
Biocomput., 2007, 12: 257-268.
[48] SaricJ et al. Extraction of regulatorygene/protein networks
from Medline. Bioinformatics, March 15, 2006, 22(6): 645-
650.
[49] Ono Tet al. Automatedextractionof informationonprotein-
protein interactions from the biological literature. Bioinfor-
matics, Feb. 2001, 17(2): 155-161.
[50] Kim S et al. Kernel approaches for genic interaction extrac-
tion. Bioinformatics, 2008, 24(1): 118-126.
[51] Bunescu R, Mooney R. Subsequence kernels for relation ex-
traction. Advances in Neural Information Processing Sys-
tems, 2006, 18: 171-178.
[52] Barnickel T et al. Large scale application of neural network
basedsemanticrolelabeling forautomatedrelationextraction
from biomedical texts. PLoS One, 2009, 4(7): e6393.
[53] Ramani A et al. Consolidating the set of known human
protein-protein interactions in preparation for large-scale
mapping of the human interactome. Genome Biology, 2005,
6(5): R40.
[54] Bunescu Ret al. Comparativeexperiments on learning infor-
mation extractors for proteins and their interactions. Artifi-
cial Intelligence in Medicine, 2005, 33(2): 139-155.
[55] RosarioB, HearstMA.Multi-wayrelationclassification: Ap-
plication toprotein-proteininteractions. In Proc. the Confer-
ence onHuman Language Technology and Empirical Methods
in Natural Language Processing, Vancouver, Canada, Oct. 6-
8, 2005, pp.732-739.
[56] Craven M, Kumlien J. Constructing biological knowledge
bases by extracting information from text sources. In Proc.
the 7th International Conference on Intelligent Systems for
Molecular Biology, Heidelberg, Germany, Aug. 6-10, 1999,
pp.77-86.
[57] Rindflesch T C et al. EDGAR: Extraction of drugs, genes
and relations from the biomedical literature. In Proc. Pac.
Symp. Biocomput., 2000, 5: 514-525.
[58] Chun H W et al. Extraction of gene-disease relations from
Medline using domain dictionaries and machine learning. In
Proc. the Pacific Symposium on Biocomputing, 2006, 11: 4-
15.
[59] Tsai R T H et al. HypertenGene: Extracting key hyper-
tension genes from biomedical literature with position and
automatically-generated template features. To appear in
BMC Bioinformatics, 2009.
[60] Miyao Y, Sagae K et al. Evaluating contributions of natu-
ral languageparsers to protein-proteininteractionextraction.
Bioinformatics, 2008, 25(3): 394-400.
[61] Wong L. PIES, a protein interaction extraction system. In
Proc. Pacific Symposium on Biocomputing,2001,6: 520-531.
[62] Casta˜no J et al. Anaphora resolution in biomedical litera-
ture. In International Symposium on Reference Resolution
for NLP, Alicante, Spain, June 3-4, 2002.
[63] Pustejovsky J et al. Medstract: Creating large-scale infor-
mation servers for biomedical libraries. In Proc. the ACL-02
Workshop on Natural Language Processing in the Biomedical
Domain, Philadelphia, USA, July 11, 2002, pp.85-92.
[64] Nguyen N et al. Challenges in pronoun resolution system
for biomedical text. In Proc. the Sixth International Lan-
guage Resources and Evaluation (LREC2008), Marrakech,
Morocco, May28-30, 2008.
[65] Tsai R T H et al. PubMed-EX: A web browser extension to
enhance PubMedsearchwith text mining features. Bioinfor-
matics, 2009, [Epub ahead of print].
[66] Zhang Z et al. Bringing Web 2.0 to bioinformatics. Brief
Bioinform., 2009, 10(1): 1-10.
[67] Cheung K et al. Semantic Web Approach to Database In-
tegration in the Life Sciences. Semantic Web: Revolutioniz-
ingKnowledgeDiscoveryin theLifeSciences, Springer, 2007,
pp.11-30.
[68] Dowell R et al. The distributed annotation system. BMC
Bioinformatics, 2001, 2: 7.
[69] O’Reilly T. What is Web 2.0: Design patterns and business
models for the next generation of software. 2005, http://
www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/
what-is-web-20.html.
[70] Mons Bet al. Calling on a million minds for community an-
notation in WikiProteins. Genome Biology, 2008, 9(5): R89.
[71] Baral C et al. CBioC: Beyond a prototype for collabora-
tive annotation of molecular interactions from theliterature.
In Proc. Computational Systems Bioinformatics Conference,
2007, 6: 381-384.
[72] Oda K et al. New challenges for text mining: Mapping be-
tween text and manually curated pathways. BMC Bioinfor-
matics, 2008, 9(Suppl. 3): S5.
[73] Kanehisa M et al. KEGG for linking genomes to life and
theenvironment. Nucleic Acids Research, 2008, 36(Database
Issue): D480-D484.
[74] HirschmanL, BlaschkeC. Evaluationof Text Mining in Biol-
ogy. Text MiningforBiologyandBiomedicine,Artech House,
2005, pp.213-245.
[75] Yeh A et al. Background and overview for KDD Cup 2002
task1: Information extractionfrombiomedicalarticles. ACM
SIGKDD Explorations Newsletter, 2002, 4(2): 87-89.
[76] Hersh W,VoorheesE.TRECgenomics special issueoverview.
Information Retrieval, 2009, 12(1): 1-15.
[77] Hakenberg J, Plake C et al. LLL’05 challenge: Genic inter-
actionextraction-identification of languagepatterns basedon
alignment and finite state automata. In Proc. the ICML05
Workshop: Learning Language in Logic (LLL05), 2005, 14:
38-45.
[78] Kim J D et al. Overview of BioNLP’09 shared task on event
extraction. In Proc. the BioNLP 2009 Workshop Compan-
ion Volume for Shared Task, Boulder, USA, June 4-5, 2009,
pp.1-9.
[79] Kim J D et al. Corpus annotation for mining biomedical
events from literature. BMC Bioinformatics, 2008, 9: 10.
[80] Bader G et al. Pathguide: A pathway resource list. Nucleic
Acids Research, 2006, 34(Database Issue): D504-D506.
[81] Camon E et al.
The gene ontology annotation (GOA)
database: Sharing knowledgeinUniprotwithGeneOntology.
Nucleic Acids Research, 2004, 32(Database Issue): D262-
D266.
[82] Kim J D et al. GENIA corpus—A semantically annotated
corpus for bio-textmining. Bioinformatics, 2003, 19(Suppl.
1): 180-182.
[83] TanabeLet al. GENETAG:Ataggedcorpus forgene/protein
named entity recognition.
BMC Bioinformatics, 2005,
6(Suppl. 1): S3.
[84] Heimonen J et al. Complex-to-pairwise mapping of biologi-
cal relationships using a semantic network representation. In
Proc. the Third International Symposium on Semantic Min-
ing in Biomedicine (SMBM2008), Turku, Finland, Sept. 1-3,
2008, pp.45-52.
[85] Rosario B,Hearst M A. Classifying semanticrelations in bio-
science texts. In Proc. the 42nd Annual Meeting on Associ-
ation for Computational Linguistics, Barcelona, Spain, July
21-26, 2004, Article No. 43.
[86] Berleant D et al. Corpus properties of protein interac-
tion descriptions in MEDLINE. 2003, http://class.ee.iasta-
te.edu/berleant/home/me/cv/papers/corpuspropertiesstart.
Documents you may be interested
Documents you may be interested