windows form application in c# with database pdf : Adding hyperlinks to pdf documents application SDK tool html winforms asp.net online 61.full1-part1941

than the ones obtained with other existing methods.
The first selection from the pool of obtained rela-
tionships is performed on the basis of the availability
of relevant raw experimental data. Resorting to
microarray data, of course, serves both as a verifica-
tion of the derived relationships and as a discovery of
novel lists of genes related to a specific disease. This
latter, in particular, is achieved by exploring down
regulated and upregulated genes through a gene
relevance network (A GRN is a group of genes
whose expression levels in a microarray dataset are
highly predictive of others genes in the group.)
(GRN) related to the gene of the discovered rela-
tionship. In order to understand the biological mean-
ing behind the obtained genes, molecular, biological
processes, cellular components and molecular func-
tions are pointed out by querying the GO database.
The approach is implemented in ‘GeneWizard’, a
tool that will be discussed in detail in the next
section.
Another tool for biological discovery that validates
hypothesis by integrating multiple types of data is
ENDEAVOUR [111], which filters a set of candi-
date genes indirectly connected to a given disease
according to chromosomal-mapping data about the
disease. In detail, the method takes as input a list of
genes (possibly extracted by literature text mining)
potentially involved in the given disease and pro-
vides as output the prioritized genes list. This list
includes all the genes involved in the disease
ranked according to a score for a specific data
source. For example, with ontology-based data
sources, the genes are ranked according to the sig-
nificance of the related terms (the ones over repre-
sented in the input gene lists), whereas with a
microarray data source the genes are ranked accord-
ing to the probability of being involved in a disease.
Currently, the data sources supported by
ENDEAVOUR are ontologies, interactions, gene
expressions, regulatory information, sequence-based
data and literature data.
The above approaches (GeneWizard and
ENDEAVOUR) can be differentiated on the basis
of how they combine experimental and literature
data. In fact, ENDEAVOUR performs gene priori-
tization by integrating heterogeneous and multiple
data sources, whereas GeneWizard integrates litera-
ture facts in the microarray mining loop, i.e. the se-
lection and the analysis of the microarray data
clustering is ‘literature-driven’. In detail, the selection
of the cluster to be explored is based on the presence
of the gene of the mined association. This is a
Figure 3: Hypothesis generation by literature text mining. These approaches generate biological hypothesis by
mining literature, then they check if there is any evidence of the discoveredrelationships in the experimental data.
If the found relationship is validated, then they investigate the other biological entities (mainly genes) involved in
this relationship. They also use the methods described in previous section to provide a biological insight of the
achieved findings.
Combiningliterature text mining with microarraydata
71
 by guest on May 19, 2016
http://bib.oxfordjournals.org/
Downloaded from 
Adding hyperlinks to pdf documents - insert, remove PDF links in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Free C# example code is offered for users to edit PDF document hyperlink (url), like inserting and deleting
pdf hyperlink; add link to pdf
Adding hyperlinks to pdf documents - VB.NET PDF url edit library: insert, remove PDF links in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Help to Insert a Hyperlink to Specified PDF Document Page
pdf links; convert excel to pdf with hyperlinks
novelty in bioinformatics tools and it is one the
major strengths of GeneWizard, because it uses ex-
perimental data-evidence for knowledge discovery,
whereas ENDEAVOUR uses what already exists in
form of annotations. An approach that performs lit-
erature-driven gene clustering for biological under-
standing of regulated genes is GenClip (already
mentioned in the previous section), where genes
are clustered according to their literature profiles.
This way of proceeding is different from the
GeneWizard’s one; in fact, GenClip creates func-
tional clusters of genes according to their
co-occurrences in literature abstracts thus leading to
discoveries in the form: ‘the genes G
1
, G
2
, G
3
are
involved in diseases D
1
, D
2
and are related to the
Biological Processes P
1
and P
2
’, but it is not possible
to elicit all the concepts related to only one disease
and, moreover, there is no evidence that the genes
are really involved in the extracted diseases (not ex-
perimental data driven). Differently, GeneWizard
creates cluster of genes involved in the disease D of
the inferred relationship DG
1
(obtained through
text mining) starting from the data-driven evidence
that the gene G
1
is possibly involved in the given
disease D (i.e. in the microarray data the gene G
1
is
differentially expressed). Moreover, the derived list
of genes (due to the clustering) is then associated
with GO terms in order to explore the terms
involved in the disease D. Therefore GeneWizard
leads to discoveries in the form: ‘the genes G
1
,G
2
,
G
3
are surely involved in disease D and possibly are
responsible of the biological processes P
1
and P
2
in
the disease D’.
Table 2 lists the web available tools analyzed in
this review that combine literature data with
experimental data for biological hypothesis gener-
ation. The comparison among these tools is only
functional (what they achieve and which resources
they use), and it is not based on performance, since
the performance’s evaluation of knowledge discov-
ery tools is still challenging, especially because the
definition of ‘discovery’ is controversial [112, 113].
In the next section a description of the tool pro-
posed by the authors, GeneWizard, is given.
GENEWIZARD
GeneWizard is a user-centered application that
allows the users to produce easily new biological
hypotheses through an intuitive and guided interface
without requiring knowledge of text-mining and
data-mining methods. It retrieves automatically
gene–disease relationships by mining Pubmed ab-
stracts and validates them with microarray experi-
ments, gathered from the public GEO database
(http://www.ncbi.nlm.nih.gov/geo/). Moreover, it
is able to build a GRN by microarray data analysis
and, finally, to provide biological insights by map-
ping the obtained gene relevance network onto GO.
GeneWizard is a five-step wizard system that leads
the user during the experiments and its workflow
(shown in Figure 4) is as follows:
(1) retrieval of the information needed to search and
discovery biological relationships starting from
any disease as query term. A set of genes
(Entrez Gene), a set of diseases (MeSH), and a
set of biomedical scientific abstracts (PubMed)
are identified for a specific disease by querying,
Table 2: Listof the web-available toolsfor knowledge discoverybasedon integration between literature data and
experimental data
Description
UsedResources
Available at
GeneSeeker
Gene Prioritizationlocatedon a
specifiedhumangeneticlocation
andexpressed in a specified tissue
Expression Data:MEDLINE,OMIM,
SwissProt Cytogenetic data:
MIMMAP,GDBCytogeneticdata:
MIMMAP,GDB
http://www.cmbi.ru.nl/GeneSeeker/
G2D
Gene Prioritizationrelated toan
inheriteddisease
NCBIRefSeq for annotatedDNA
sequencesandMESH,OMIM
http://www.ogic.ca/projects/g2d_2/
GeneWizard
Discoveryofgene^disease
associationsand biological
understanding
NCBIE-UtilitiesforTextMining
GEO for expressiondata profiles
GO forgenesannotation
http://i3s-lab.ing.unict
.it/GeneWizard
ENDEAVOUR
Prioritization ofgeneslistunderlying
biologicaldiseaseusing several
sources ofdata
GO,SwissProt,BlastCisRegModule
and SonEtAlforexpression data
http://www.esat.kuleuven
.be/endeavour
72
Faro et al.
 by guest on May 19, 2016
http://bib.oxfordjournals.org/
Downloaded from 
respectively, Entrez Gene, MeSH and PubMed.
For each dataset a suitable dictionary is built;
(2) text mining of the retrieved scientific abstracts to
build the relationships based on co-occurrences,
according to the methodology proposed by Faro
etal. [10];
(3) scrutiny and validation of each relationship
through the analysis of specific microarray data-
sets available in public repositories of gene profile
expressions (GEO database);
(4) analysis of selected gene expression data to gen-
erate GRNs for each gene–disease relationship;
and
(5) finally, the genes involved in the relevance
networks are mapped onto specific biological
processes, molecular functions and cellular com-
ponents using GO.
The above five steps are mapped into three main
sections of the tool, namely, Text Mining, Expression
Data Integration and Results Generation that will be
described in the next subsections. Table 3 lists the
resources used by each module shown in Figure 4.
Text mining
The text-mining approach implemented in
GeneWizard builds gene–diseases relationships
following the co-occurrences method proposed by
Faro et al. [10]. It consists of four steps: (i) Pubmed
abstracts querying and retrieval; (ii) parsing and
indexing using term identification; (iii) abstract clus-
tering based on document similarity; and (iv) rela-
tionships discovery between meaningful entities. In
particular, the retrieved abstracts are first converted
into a sequence of words (parsing), then each abstract
is represented by vectors (Vector Space Model) con-
taining how many times each gene and each disease
appear in it (indexing). Gene and disease identifica-
tion is carried out using a dictionary-based approach,
i.e. dictionaries for genes and disease are built by
accessing available external web data sources. In
detail, the Entrez web services (http://eutils.ncbi
.nlm.nih.gov/entrez/eutils/efetch.fcgi) are used to
query the biological, chemical and medical databases
available through MeSH and Entrez Gene. MeSH is
used as the dictionary for diseases, whereas Entrez
Gene to build the gene dictionary. The abstracts
are retrieved by querying MEDLINE (see Figure 5).
After dictionary building, three subsets are created:
(i) vectors indexed on gene terms with null compo-
nents on the disease space, (ii) vectors indexed on
diseases terms with null components on the gene
space, and (iii) vectors with non null components
on both the gene and disease spaces. Finally, vector
similarity matrices are built for the first and second
Figure 4: GeneWizard’s workflow.
Combiningliterature text mining with microarraydata
73
 by guest on May 19, 2016
http://bib.oxfordjournals.org/
Downloaded from 
subset, whereas for the third set two similarity matri-
ces are computed, i.e. respectively, the genes com-
ponents and the diseases components. Each of the
four similarity matrices can be clustered by either
the k-means or the hierarchical clustering. For each
cluster the set of its positive features, i.e. the terms
occurring in a cluster with a frequency above a pre-
fixed threshold, is evaluated; then the relationships
between genes and diseases are inferred by
intersecting the clusters of the two similarity matrices
derived from the third set of similarity matrices.
Figure 6 shows an example of such clusters, obtained
by querying the system using the term ‘Breast
Cancer’.
The
mining
approach
implemented
in
GeneWizard is based on terms co-occurrences, but
it differs substantially from the ones described in
‘KD’ section. In fact, generally, these approaches
Table 3: Listof the resourcesusedby GeneWizard
Section
Functionality
UsedResource
Availableat
Textmining
Disease dictionarybuilding
MESH
http://www.ncbi.nlm.nih.gov/mesh
Genedictionarybuilding
GeneEntrez
http://www.ncbi.nlm.nih.gov/gene
Abstractsretrieval
Pubmed
http://www.ncbi.nlm.nih.gov/pubmed
Expression dataintegration
Microarraydata retrieval
GEOdatasets
http://www.ncbi.nlm.nih.gov/gds
Data clustering
MeVJava classes
http://www.tm4.org
Resultsgeneration
GRN
MeVJava classes
http://www.tm4.org
Geneontologymapping
GeneDAVID
http://david.abcc.ncifcrf.gov
Figure 5: Dictionary building sections.The textmining approachdevelopedin GeneWizardisbasedon theVector
Space Model (VSM) representing the retrieved MEDLINE abstracts as vectors whose elements are the frequency
of the gene/disease, retrievedfrom the gene and the diseasedictionaries, inthe document.To do that, gene anddis-
ease dictionariesmustbebuilt.Thisis achievedby means of Entrez web services: namely,MeSH for disease diction-
ary, Entrez Gene for gene dictionary and Pubmed for retrieving the abstracts to be mined.
74
Faro et al.
 by guest on May 19, 2016
http://bib.oxfordjournals.org/
Downloaded from 
rely on the fact that a relationship T
1
$T
2
between
two biomedical terms T
1
and T
2
can be derived by
using these inferences: T
1
$T
x
,T
x
$T
2
, and the
relationships T
1
$T
x
, and T
x
$T
2
are explicitly
derived from a text. An example is the relationship
‘migraine – magnesium’ discovered by Swanson [65]
by identifying the intermediate medical term (the
one we called T
x
) ‘calcium channel blockers’ that
occurs frequently in the magnesium literature and
the migraine literature. Differently, GeneWizard’s
approach infers a relationship T
1
$T
2
by finding
two relationships T
1
$T
x
and T
y
$T
2
with T
x
and T
y
belonging to the same cluster. For example,
the association ‘migraine – magnesium’ is derived if
GeneWizard finds a term related to migraine (T
x
)
and a term related to magnesium (T
y
)and ifT
x
and
T
y
are clustered together. This, of course, produces
numerous relationships (high recall), and the screen-
ing of the most promising ones is achieved by
exploring experimental data.
Expression data integration
The relationship selected by the user from the set of
relevant relationships proposed by the tool is then
evaluated/validated by resorting to the microarray
data available from the GEO database using the dis-
ease of the given relationship as query term.
Once a microarray dataset has been selected, the
tool starts the analysis to obtain a GRN (see the left
side of Figure 7) (a list of relevant genes for the given
disease) that contains the gene of the selected rela-
tionship. The microarray analysis modules are based
on the Java classes from the MEV (MultiExperiment
Viewer) software [114]. The first step is to cluster, by
Figure 6: Inferredgene^diseaserelationships.This section allowsusers tovisualize all the discoveredrelationships
(in the figure related to ‘Breast Cancer’). In particular, by clicking on the disease on the left window the tool
shows all the related genes (extractedby the text-mining algorithm) on the right window (if Mesh representation
is selected, otherwise the opposite).Class inspector section allows users to explore each of the computed cluster
in termsboth of diseases and of genes. In figure the relationship between the disease‘Breast cancer’ and the gene
BRCA1is discovered and willbe further investigatedby integrating microarray data.
Combiningliterature text mining with microarraydata
75
 by guest on May 19, 2016
http://bib.oxfordjournals.org/
Downloaded from 
K-means or Hierarchical Clustering (KMC Section),
the microarray data to obtain homogeneous gene
sets. If the number of genes of the selected dataset
is still large, a filtering may be applied using the vari-
ance of the gene expression levels. Then the cluster
that contains the gene under examination (i.e. the
one of the chosen relationship) is automatically se-
lected with the assistance of another call to the GEO
Profiles to match the gene identifier (AFF-ID) in the
microarray experiment with the real gene name.
Therefore, the outcome of this step is a cluster con-
taining the gene of the selected relationship. Starting
from it, in the nextstep the list of genes(see the right
side of Figure 7) (and its biological meaning) related
to the given disease will be explored.
Results generation
Starting from the selected gene set (the cluster)
GeneWizard provides Cluster Affinity Search
Technique (CAST) [115] to compute gene relevance
networks (Figure 8). Affinity is a similarity measure
between a gene and all the genes in a cluster, based
on the expression profile. Therefore, starting from a
relationship between a gene and a disease,
GeneWizard is able to extract a list of genes involved
in the given disease. As stated in the previoussection,
GeneWizard differs from other approachesthat com-
bine experimental and literature data since it follows
a‘literature-driven’ microarray data analysis. Usually,
microarray data analysis applies the CAST algorithm
[115] in a blind manner to the entire gene set (each
microarray may contain more than 100000 of rows
and columns) obtaining a large set of gene relevance
networks (GRN) difficult to be understood. Instead,
in GeneWizard’s approach, after a simple KMC clus-
tering, the selection of the cluster is performed by
taking into account the discovered gene–disease re-
lationship. After the application of the CAST
Figure 7: Microarray data analysis: microarray data retrieval anddata clustering.GeneWizard allows the users to
retrieve microarray datasets for the disease of the discovered relationship (in our example Breast Neoplasms ^
BRCA1). For example, in this figure the microarray data is related to the disease Breast Neoplasms (left part of
the image), whereas the screenshot on the right side shows the clustering results after the application of KMC.
The cluster highlighted is the one that includes gene BRCA1 (whose AFFY-ID is 204531_s_at) and is analyzed by the
next step in order to find a gene relevance network thatmay be involvedin the given disease.
76
Faro et al.
 by guest on May 19, 2016
http://bib.oxfordjournals.org/
Downloaded from 
algorithm to the selected cluster, only one GRN is
obtained. This GRN represents a particular aspect to
be investigated, i.e. it indicates from which angle the
disease should be analyzed.
The final step is to resort to the GO database
to investigate the biological meanings associated
to the genes belonging to the identified GRN.
Accordingly, GeneWizard allows to define ‘rules’
to link functionally the transcriptional profile of the
discovered list of genes with respect to molecular
functions, biological processes and cellular compo-
nents. These rules assume the form of ‘All the
genes that share the expression profile with the
gene G (of the discovered relationship GD) for
the given disease D are related to the molecular func-
tion MF, the chemical component CC and the bio-
logical process BP’.
Implementation notes
The application has been developed using Sun
Wizard API, since the overall model of the analysis
is a predefined workflow. Some Java classes have
been reused from MEV: i.e. TMEV, Multiple
ArrayViewer, IslideData, Experiment, IViewer,
AbstractAlgorithm, AlgorithmFactory, Algorithm
Data and GEOSeriesMatrixLoader. Other important
resources were the Entrez Programming Utilities and
their SOAP interface. GeneWizard runs on any
operating system (Windows, Linux and Mac OS)
provided with a Java Virtual Machine version
above of 1.6.0 and it is freely available at the link
http://i3s-lab.ing.unict.it/GeneWizard.
CONCLUSIONS
Text mining of the scientific literature has been
widely researched and the current availability of
tools is satisfying, although there is no evident
reason to prefer methods based on co-occurrences
(higher recall) or methods based on natural language
processing (better precision) when the researcher’s
goal is knowledge discovery to formulate novel
Figure 8: Result generation. Starting from the selected gene set (BRCA1 whose AFFY-ID is 204531_s_at),
GeneWizard provides CAST to compute a GRNs involved in the analyzed disease (in this example, Breast
Neoplasm). Finally, the list of the genesbelonging to the computed GRNis automaticallymapped onto GO for bio-
logical insights.
Combiningliterature text mining with microarraydata
77
 by guest on May 19, 2016
http://bib.oxfordjournals.org/
Downloaded from 
hypotheses about the relationships of biological enti-
ties. However, the full potential of text-mining
approaches can be realized only through integration
with other data sources, such as ontologies, regula-
tory information and high-throughput methods out-
puts. This review mainly focused on the integration
between literature text-mining tools/methods and
microarray data. In this direction, a major challenge
in bioinformatics to support discoveries in biology is
to include in the tools functionalities to carry out a
contextualized analysis of all the available experi-
mental data (i.e. several microarrays relating to the
same relationship) in order to derive biological net-
works that are compatible with all the available ex-
perimental evidence. Another line of development
would be the inclusion of functionalities that support
explicitly the definition of strategies for exploring the
identified relationships according to their probability
of being biologically valid. A promising approach to
achieve this goal is to modify onset the algorithms
that perform the clustering to work not only on the
basis of mathematical criteria but also on the basis of
what is known on the biological entities that are
gradually aggregated, to improve on the overall bio-
logical plausibility of the final clusters [116].
We expect to assist in the near future to the de-
velopment of such approaches, and a desirable con-
tribution from the bioinformatics community would
be the development of easy-to-use and freely access-
ible tools such as GeneWizard. To date, the viability
of general-purposeapproachesand tools,ascompared
to domain-specific tools such as CoPub for liver
pathologies, that integrate all the information related
to the different biological aspects (genes, drugs, path-
ways, tissues, etc.) of a specific disease, is still unclear.
Still, it seems important that if generalization
across domains is sought, it is not achieved at the
expenses of tool usability and of a clear representa-
tion of the workflow underlying the mining run. In
fact, one of the major barriers to the use of such tools
is the required technical knowledge about the choice
of algorithms, the setting of parameters and the stra-
tegies for composing the steps of the mining run, and
how all of the above do impact on the obtained
results. Clearly, this problem is further complicated
when adding the complexity of dealing with several,
heterogeneous sources. Thus a well-designed,
user-center tool should address the challenges of
making clear and explicit the methodological ap-
proach supported by the tool, leaving to the users
flexibility in exploring the results, and yet providing
assistance in managing the complexity of the analysis.
This implies that bioinformatics tools should be pro-
vided with interactive interfaces for handling anno-
tations, linking across resources or highlighting
relevant portions of text, to make the process of
data analysis and knowledge discovery more targeted
to the users’ goals. If these criteria are satisfied, these
tools could also provide interesting opportunities to
be used as teaching tools and sources to generate
compelling teaching case, and be conveniently inte-
grated even in an undergraduate curriculum. This
would be in line with current pedagogical models
[117] that favor problem-based learning in authentic
contexts. The development of such tools will depend
on how much close the collaboration between
biologists and bioinformaticians will be.
DESCRIPTION OF THE
ORGANISATION
The University of Catania, Italy (http://www.unict
.it) was founded in 1434. Today more than 55000
students attend lessons given by over 1500 professors
in the 12 faculties, which in turn are staffed by over
1500 administrative employees. The authors are
with the Dipartimento di Ingegneria Elettrica,
Elettronica ed Informatica (DIEEI) of the
Engineering Faculty. The Department aggregates
two main ICT areas: computer engineering and tele-
communications. Nowadays the Department’s ICT
research activities are widely differentiated and
address subjects such as medical informatics, bio-
informatics, multimedia systems, distributed comput-
ing, industrial informatics, embedded systems,
human-computer interaction, pattern recognition
and knowledge management.
KeyPoints
 Thecurrentstateofartoftext-mining approachesissatisfying
and thecurrenttrend isto integrate textwith multi-typedata
(biological,chemical,etc.).
 Anumberoftoolssupportingtheintegrationofmicroarraydata
and literatureinformation havebeen proposedboth to under-
stand thelistsofdown and upregulatedgenesand to generate
novelbiologicalhypotheses.
 Bioinformaticstoolsshouldbeintuitivetouseandshouldnotre-
quire technical knowledge of underlying technology; rather
they should assist the user in the process of data integration
andresultsinterpretation.
 GeneWizard is an easily usable and freely accessible tool that
supportsresearchersindiscovering gene^diseaserelationships
by fusing data resulting from textmining and microarraydata
analysis.
78
Faro et al.
 by guest on May 19, 2016
http://bib.oxfordjournals.org/
Downloaded from 
References
1. Hunter L, Cohen KB. Biomedical language processing:
what’s beyond PubMed? MolCell 2006;21:589–94.
2. Kell DB. Metabolomics and systems biology: making sense
of the soup. CurrOpinMicrobiol 2004;7:296–307.
3. Kell DB.Metabolomics,modellingandmachinelearning in
systems biology - towardsanunderstandingof thelanguages
of cells. FEBSJ 2006;273:873–94.
4. Wheeler DL, Barrett T, Benson DA, et al. Database re-
sources of the National Center for Biotechnology
Information. NucleicAcidsRes 2005;33:39–45.
5. Altman RB, Bergman CM, Blake J. Text mining for biol-
ogy–the way forward: opinions from leading scientists.
GenomeBiol 2008;9(Suppl 2):S7.
6. Jensen LJ, Saric J, Bork P. Literature mining for the biolo-
gist: from information retrieval to biological discovery. Nat
RevGenet 2006;7:119–129.
7. Zweigenbaum P, Demner-Fushman D, Yu H, et al.
Frontiers of biomedical text mining: current progress. Brief
Bioinformatics 2007;8:358–75.
8. Roberts PM. Mining literature for systems biology. Brief
Bioinformatics 2006;7:399–406.
9. Ananiadou S, Kell D, Tsuj J. Text mining and its potential
applications in systems biology. Trends Biotechnol 2006;24:
571–79.
10. Faro A, Giordano D, Spampinato C, et al. Discovering
genes-diseases associations from specialized literature using
the grid. IEEETransInfTechnolBiomed 2009;13:554–60.
11. Faro A, Giordano D, Spampinato C. Discovery and assess-
ment of gene-disease associations by integrated analysis of
scientific literature and microarray data. In: Proceedingsofthe
10th Internation Conference on Information Technology and
Applications in Biomedicine, ITAB 2010, Corfu, Greece,
November 2-5, 2010.
12. Hearst MA. Untangling text data mining. In: ACL ’99:
Proceedings of the 37th Annual Meeting of the Association for
Computational Linguistics on Computational Linguistics, 1999.
pp. 3–10. Association for Computational Linguistics,
Morristown, NJ, USA.
13. Yang Y, Adelstein SJ, Kassis AI. Target discovery
from data mining approaches. Drug DiscovToday 2009;14:
147–54.
14. KobayashiM,AonoM.Vector spacemodels for searchand
cluster mining.In: Berry MW, Castellanos M, (eds).Survey
ofTextMiningII. London: Springer, 2008;109–27.
15. Klekota J, Roth FP, Schreiber SL. Query chem: a
Google-powered web search combining text and chemical
structures. Bioinformatics 2006;22:1670–3.
16. Rebholz-Schuhmann D, Kirsch H, Arregui M, et al.
EBIMed-text crunching to gather facts for proteins from
Medline. Bioinformatics 2007;23:e237–44.
17. Doms A, Schroeder M. GoPubMed: exploring PubMed
with the Gene Ontology. Nucleic Acids Res 2005;33:
W783–6.
18. Dietze H, Schroeder M. GoWeb: a semantic search engine
for the life science web. BMCBioinformatics 2009;10(Suppl.
10):S7.
19. Muller HM, Kenny EE, Sternberg PW. Textpresso: an
ontology-based information retrieval and extraction
system for biological literature. PLoSBiol 2004;2:e309.
20. Perez-Iratxeta C, Bork P, Andrade MA. XplorMed: a tool
for exploring MEDLINE abstracts. TrendsBiochemSci 2001;
26:573–5.
21. Hoffmann R, Valencia A. iHOP, a new gene and protein
analysis tool. CancerBiolTher 2007;6:7–8.
22. Ananiadou S, Freidman C, Tsujii J. Introduction: named
entity recognition in biomedicine. J Biomed Inform 2004;
37(6):393–5.
23. FukudaK,TamuraA,Tsunoda T,etal.Towardinformation
extraction: identifying protein names from biological
papers. PacSympBiocomput 1998;707–18.
24. Narayanaswamy M, Ravikumar KE, Vijay-Shanker K. A
biological named entity recognizer. Pac Symp Biocomput
2003(1);427–38.
25. Tsuruoka Y, Tsujii J. Improving the performance of
dictionary-based approaches in protein name recognition.
JBiomedInform 2004;37:461–70.
26. Yeganova L, Smith L, Wilbur WJ. Identification of related
gene/proteinnames based on an HMM of name variations.
ComputBiolChem 2004;28:97–107.
27. Crim J, McDonald R, Pereira F. Automatically annotating
documents with normalized gene lists. BMC Bioinformatics
2005;6(Suppl. 1):S13.
28. Hirschman L,MorganAA,YehAS.Rutabaga by any other
name: extracting biological names. JBiomedInform 2002;35:
247–59.
29. Fundel K, Guttler D, Zimmer R, etal. A simple approach
for protein name identification: prospects and limits. BMC
Bioinformatics 2005;6(Suppl. 1):S15.
30. Tsujii J-I, Ananiadou S. Thesaurus or logical ontology,
which one do we need for text mining? Lang Resou Eval
2005;39(1):77–90.
31. Bodenreider O. The unified medical language system
(UMLS): integrating biomedical terminology. Nucleic Acids
Res 2004;32:D267–70.
32. Bamidis P, Kaldoudi E, Pattichis C. From taxonomies
to folksonomies: a roadmap from formal to informal
modeling of medical concepts and objects. In:Proceedingsof
the 9th Internation Conference on Information Technology and
Applications
in Biomedicine 2009. Larnaca, Greece,
November 5–7, 2009.
33. TanabeL,ThomLH,MattenW,etal.SemCat:semantically
categorized entities for genomics. AMIA Annu Symp Proc
2006;2006:754–8.
34. Bodenreider O. The unified medical language system
(UMLS): integrating biomedical terminology. Nucleic Acids
Res 2004;32:D267–70.
35. Ashburner M,Ball CA,Blake JA, etal.Geneontology:tool
for the unification of biology. The Gene Ontology
Consortium. NatGenet 2000;25:25–9.
36. Maglott D, Ostell J, Pruitt KD, et al. Entrez gene:
gene-centered information at NCBI. Nucleic Acids Res
2007;35:26–31.
37. Egorov S, Yuryev A, Daraselia N. A simple and prac-
tical dictionary-basedapproachfor identification of proteins
in Medline abstracts. JAmMedInformAssoc 2004;11:174–8.
38. Wexler P. The U.S. National Library of Medicine’s
Toxicology and Environmental Health Information
Program. Toxicology 2004;198:161–8.
39. Burchfield R. Frequency analysis of English usage: Lexicon
and Grammar by W. Nelson Francis and Henry Kucera
Combiningliterature text mining with microarraydata
79
 by guest on May 19, 2016
http://bib.oxfordjournals.org/
Downloaded from 
with the assistance of Andrew W. Mackie. Boston:
Houghton Mifflin. 1982. xþ561. J Engl Linguist
1985;18:64–70.
40. TanabeL,Wilbur WJ. Aprioritymodel fornamedentities.
In: Proceedings of theWorkshop on Linking Natural Language
Processing and Biology: Towards Deeper Biological Literature
Analysis, BioNLP 2006. pp. 33-40. Association for
Computational Linguistics, Morristown, NJ, USA.
41. Rajapakse M, Kanagasabai R, Ang WT, et al.
Ontology-centric integration and navigation of the
dengue literature. JBiomed Inform 2007;41:806–15.
42. Rebholz-Schuhmann D, Arregui M, Gaudan S, etal. Text
processing through web services: calling Whatizit.
Bioinformatics 2008;24:296–8.
43. Stevenson Guo Y. Disambiguation in the biomedical
domain: the role of ambiguity type. JBiomed Inform 2010;
46(6):972–81.
44. Stevenson M, Guo Y. Disambiguation of ambiguous bio-
medical terms using examples generated from the UMLS
metathesaurus. JBiomedInform 2010;43(5):762–73.
45. Tsuruoka Y, Tsujii J, Ananiadou S. Facta: a text search
engine for finding associated biomedical concepts.
Bioinformatics 2008;24:2559–60.
46. Mubaid HA, Singh RK. A text mining technique for ex-
tracting genedisease associations from the biomedical litera-
ture. IntJBioinformResAppl 2010;6(3):270–86.
47. Mukhopadhyay S, Palakal M,Maddu K. Multi-way associ-
ationextractionandvisualization frombiological text docu-
ments using hyper-graphs: applications to genetic
association studies for diseases. Artif Intell Med 2010;49:
145–54.
48. Kabiljo R,CleggAB,ShepherdAJ.A realisticassessment of
methods for extracting gene/protein interactions from free
text. BMCBioinformatics 2009;10:233.
49. Katukuri JR, Xie Y, Raghavan VV. Biomedical relation-
ship extraction from literature basedon bio-semantic token
subsequences. In: Proceedings of the 2009 IEEE International
Conference on Bioinformatics and Biomedicine, BIBM 2009.
pp. 366–70. IEEE Computer Society, Washington, DC,
USA.
50. Masseroli M, Kilicoglu H, Lang FM, etal. Argument-pre-
dicatedistance as a filter for enhancing precision in extract-
ing predications on the genetic etiology of disease. BMC
Bioinformatics 2006;7:291.
51. Barnickel T, Weston J, Collobert R,etal. Largescale appli-
cation of neural network based semantic role labeling for
automated relation extraction from biomedical texts. PLoS
ONE 2009;4:e6393.
52. Miyao Y, Sagae K,Saetre R,etal. Evaluating contributions
of natural language parsers to protein-protein interaction
extraction. Bioinformatics 2009;25:394–400.
53. Fundel K, Kuffner R, Zimmer R. RelEx-relation extrac-
tion using dependency parse trees. Bioinformatics 2007;23:
365–71.
54. Hanisch D, Fundel K, Mevissen HT, et al. ProMiner:
rule-based protein and gene entity recognition. BMC
Bioinformatics 2005;6(Suppl. 1):S14.
55. Miyao Y, Sagae K,Saetre R,etal. Evaluating contributions
of natural language parsers to protein-protein interaction
extraction. Bioinformatics 2009;25:394–400.
56. Rinaldi F, Schneider G, Kaljurand K, etal. Mining of rela-
tions between proteins over biomedical scientific literature
using a deep-linguistic approach. Artif Intell Med 2007;39:
127–36.
57. Ohta T, Matsuzaki T, Okazaki N, et al. Medie and
Info-Pubmed: 2010 update. BMC Bioinformatics 2010;
11(Suppl. 5):P7.
58. Garten Y, Altman RB. Pharmspresso: a text mining tool
for extraction of pharmacogenomic concepts and rela-
tionships from
full text. BMC Bioinformatics 2009;
10(Suppl. 2):S6.
59. KimJJ,Zhang Z,ParkJC,etal.BioContrasts:extracting and
exploiting protein-protein contrastive relations from bio-
medical literature. Bioinformatics 2006;22:597–605.
60. Dai HJ,Chang Y-C, Tsai RT-H,etal. New challenges for
biological text-mining in the next decade. J Comput Sci
Technol 2010;25(1):169–79.
61. Coelho P, Ahmed A, Arnold A, etal. Structured literature
image finder: extracting information from text and images
in biomedical literature. Lect Notes Comput Sci 2010;6004:
23–32.
62. Swanson DR. Medical literature as a potential source of
new knowledge. BullMedLibrAssoc 1990;78:29–37.
63. Smalheiser NR, Torvik VI, Zhou W. Arrowsmith
two-node search interface:a tutorial on finding meaningful
links between two disparate sets of articles in MEDLINE.
ComputMethodsProgramsBiomed 2009;94:190–7.
64. Swanson DR. Fish oil, Raynaud’s syndrome, and
undiscovered public knowledge. PerspectBiolMed 1986;30:
7–18.
65. Swanson DR. Migraine and magnesium: eleven neglected
connections. PerspectBiolMed 1988;31:526–57.
66. Swanson DR. Intervening in the life cycles of scientific
knowledge Patrick Wilson, the value of currency. Library
Trends 1993;41(4):606–31.
67. SwansonDR,Smalheiser N.Assessing a gapinthebiomed-
ical literature:magnesiumdeficiency andneurologicdisease.
Neuro-SciResCommun 1994;15(4):1–9.
68. Saric J, Jensen LJ, Ouzounova R, etal. Extraction of regu-
latory gene/protein networks from Medline. Bioinformatics
2006;22:645–50.
69. Yang Z, Lin H, Li Y. BioPPISVMExtractor: a protein-
protein interaction extractor for biomedical literature using
SVM andrich feature sets. JBiomedInform2010;43:88–96.
70. Narayanaswamy M, Ravikumar KE, Vijay-Shanker K.
Beyond the clause: extraction of phosphorylation informa-
tionfrom medlineabstracts.Bioinformatics2005;21(Suppl.1):
i319–27.
71. Ozgur A, Xiang Z, Radev DR, et al. Literature-
based discovery of IFN-gamma and vaccine-mediated
gene interaction networks. J Biomed Biotechnol 2010;2010:
426479.
72. Bandy J, Milward D, McQuay S. Mining protein-protein
interactions from published literature using Linguamatics
I2E. MethodMolBiol 2009;563:3–13.
73. Jelier R,Jenster G,DorssersLC, etal.Text-derivedconcept
profiles support assessment of DNA microarray data for
acute myeloid leukemia and for androgen receptor stimu-
lation. BMCBioinformatics 2007;8:14.
74. Rzhetsky A, Iossifov I, Koike T, et al. GeneWays: a
system
for extracting, analyzing, visualizing, and
integrating molecular pathway data. J Biomed Inform 2004;
37:43–53.
80
Faro et al.
 by guest on May 19, 2016
http://bib.oxfordjournals.org/
Downloaded from 
Documents you may be interested
Documents you may be interested