pdf to jpg c# : Create pdf security SDK control service wpf azure asp.net dnn jib-1840-part418

Automatic extraction of microorganisms and their habitats from
free text using text mining workflows
BalaKrishnaKolluru
1,2*
,SirintraNakjang
3,4
,Robert P.Hirt
3
,Anil Wipat
3,4
,Sophia
Ananiadou
1,2
1
NationalCentrefor TextMining,Universityof Manchester,131PrincessStreet,Manchester
M17DN,UK
2
SchoolofComputer Science, UniversityofManchester, KilburnBuilding,OxfordRoad,
Manchester,M139PL,UK
3
Institutefor CellandMolecular Biosciences,UniversityofNewcastle,Newcastle uponTyne,
NE24HH,UK
4
SchoolofComputingScience,UniversityofNewcastle,NewcastleuponTyne,NE17RU,UK
Summary
In this paper we illustrate the usage of text mining workflows to automatically extract
instances of microorganisms and their habitats from free text; these entries can then be
curatedandaddedtodifferentdatabases. Tothisend, we useaConditionalRandomField
(CRF) basedclassifier,aspartof theworkflows,toextractthementionofmicroorganisms,
habitatsandtheinter-relationbetweenorganismsandtheirhabitats.
Results indicatea goodperformance forextractionof microorganisms andtherelationex-
tractionaspectsofthetask(withaprecisionofover80%),whilehabitatrecognitionisonly
moderate (a precision of about 65%). We also conjecture thatpdf-to-text conversioncan
bequitenoisyandthisimplicitlyaffectsanysentence-basedrelationextractionalgorithms.
1 Introduction
Microorganisms play a significant role in symbiotic relationships with animal hosts ranging
from mutualism, commensalism to parasitism. To gain more insight into the mechanisms in-
volved in the host-microbeinteractions, it isessentialto beableto contrast genotypicfeatures
of microorganisms from various sources where microbes live, including both host-associated
(fromarangeofhosts-microbescontexts) and variousenvironmental niches[7]. To date, there
is no detailed datasourcefor this information regarding habitat or isolation source ofmicroor-
ganismswhosegenomesequencedataare available. GOLD[12] and NCBI[13] databasesare
someof the most popular publicresources whereinformation describing taxa can be obtained
in aformof flatfiles.
Due to thelarge numbers of taxafor which genomesequencedata are available, and their in-
creaseondailybasis, thereisanurgentneedto beabletodescribethehabitatorisolationsource
*
Towhomcorrespondenceshouldbeaddressed. Email: kollurub@cs.man.ac.uk
Journal of Integrative Bioinformatics, 8(2):184, 2011
http://journal.imbio.de
doi:10.2390/biecoll-jib-2011-184
1
Copyright 2011 The Author(s). Published by Journal of Integrative Bioinformatics. 
This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License (http://creativecommons.org/licenses/by-nc-nd/3.0/).
Create pdf security - C# PDF Digital Signature Library: add, remove, update PDF digital signatures in C#.net, ASP.NET, MVC, WPF
Help to Improve the Security of Your PDF File by Adding Digital Signatures
pdf security password; convert locked pdf to word
Create pdf security - VB.NET PDF Digital Signature Library: add, remove, update PDF digital signatures in vb.net, ASP.NET, MVC, WPF
Guide VB.NET Programmers to Improve the Security of Your PDF File by Adding Digital Signatures
change pdf document security; add security to pdf
for each taxon in an automated and consistent fashion. This issue was recently specifically
recognised bythe“Minimalinformation aboutaGenomeSequence”(MIGS)specifications[8]
and a fewpapershavediscussed this further orapplied someinitial approaches to address this
issue [9, 10]. In order to gather this scattered information, text-mining approaches are em-
ployed to extract metadata from the published literatures. Here, we present a biological use
case investigating the aspects ofmapping habitat to microorganismsviathe useoftext-mining
techniques.
Extracting microorganisms and their habitats are just a part of the information-processing
paradigmthatcouldinvolveseveral otherstages.
Weaddress two related issuesin thispaper:
1. Howeffectivearethestatisticalapproachesforextracting microorganismsandtheirhabi-
tats?
2. Develop workflows to combine text processing, named entity recognition and relation-
mining
2 Related work
Anumberofinvestigatorshaveworked on automaticentity extraction fortheBiology domain.
Hanisch et al. [1] have developed a system called ProMiner for identifying entities from sci-
entific literature. They have subsequently expanded this work for identifying proteins, genes
and diseases. Sasaki et al. developed a CRF based Named Entity Recogniser (NER), Nemine
that identifiesgenesandproteinsusing domain-specificdictionaries[4]. Usingfeaturessuchas
orthographic features, Part-of-Speech (POS) tags, dictionaries and contextual information an
F-scoreof 78.72% hasbeen achieved. Thesamemethod hasbeen adapted for the recognition
of metabolites (using the dictionary ChemSpider) achieving an F-score of 78.49% (precision
of83.02%)[15]. SimilarNER techniqueshavebeen deployed within theadvanced search ser-
vice, KLEIO [22], at the National Centre for Text Mining, UK. KLEIO uses NER boosted
by including term variation (acronym detection) and normalisation (spelling variants). Collier
et al. have developed a system called Biocaster [5], which employs ontologies and rules to
support text mining to track public health rumours. Biocaster reported an F-scoreof 76.97%.
Ananiadou et al. have employed named entity recognisers for type IV secretion systems and
shown theapplicabilityofstatisticalapproachesforthisdomain [21]. Theyreported an F-score
ofabout 90%fornamed entity recognition foridentificationof bacteria.
3 Data
Since this task represents novel challenges for application of text mining, there were no prior
standard annotated corporato serveastraining dataformachinelearning algorithmsorto pro-
vide a gold standard for evaluation. Furthermore, the types of relations and patterns of term
occurrence, in which we areinterested, arenot typically attested in theabstracts ofthepapers,
butonly appearaspartofthefulltextofthearticles. Therefore, wedevelopednewtraining and
evaluation corpusmaterialfortheseconceptsof interest, based on annotation of full papers. In
Journal of Integrative Bioinformatics, 8(2):184, 2011
http://journal.imbio.de
doi:10.2390/biecoll-jib-2011-184
2
Copyright 2011 The Author(s). Published by Journal of Integrative Bioinformatics. 
This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License (http://creativecommons.org/licenses/by-nc-nd/3.0/).
VB.NET PDF Password Library: add, remove, edit PDF file password
Set PDF security level. As String = Program.RootPath + "\\" 3.pdf" Dim outputFilePath As String = Program.RootPath + "\\" 3_pw_a.pdf" ' Create a password
decrypt pdf online; decrypt password protected pdf
C# PDF Password Library: add, remove, edit PDF file password in C#
Able to create a password protected PDF contains file permission limitation. your PDF document in C# project, XDoc.PDF provides some PDF security settings.
decrypt pdf password; decrypt a pdf file online
thesubsequentsections, wedescribethecriteriaused whilecreating thecorpus. Inbothclasses
of entity, i.e., microorganisms and habitats, we followed a similar paradigm, employing inde-
pendent manual annotation ofsomeamount of text and augmenting thatmaterial as necessary
through theuseof an “accelerated annotation”(Acela)interface[18].
Acela iteratively and interactively trains a machine learning classifier to recognise a specific
concept or entity class, based on the current set of labelled examples, labels new example
sentences. Theseexamplesarethen giventothehuman annotatorforverification orcorrection.
In previous work [18], thisapproach has been shown to achievefull annotation coveragewith
roughly50%oftheannotatoreffort, byfocusing on only thosesentences, whicharemostlikely
to includeitemsthat need to beannotated.
3.1 Organism-habitatcorpus
Forthiscorpus, two classesof entities wereannotated: microorganismsand habitats.
• Microorganisms: Scienticnamesofmicroorganisms, including bacteria, archaeaandmi-
crobialeukaryotes, areannotated
1. If they are specified at least to the genus level of precision. Species, strain, and
serovar entries are also tagged, if they are present. Typical examples of microor-
ganismsareCampylobacterspp., EscherichiacoliK12 andTrichomonasvaginalis.
2. Iftheyareinsentenceswhichcontain habitatorisolation sourceinformation forthe
organism.
• Habitats: Habitats or isolation sources of organisms, such as thosestored in the GOLD
database[12], aretagged
1. If they are context-related or can be referred to as a habitat or isolation source of
an organism. For example, if they refer to a host organism (human, cow), a body
partororgan of ahostorganism(lung, gut,lung abscess), refer to an environmental
habitat (minetailing, wastewater), or employ theadjectivalforms ofhabitatslisted
above(bovine, pulmonary, rumen).
2. Ifthey arenotassociated directly with diseasee.g. diarrhea, respiratory tractinfec-
tion.
3. Ifthey arein sentences, which contain theorganismassociated with thehabitat.
Afully annotated sentencewith organism and habitatinformation isshown here
Bacteroidessalyersaesp. nov. isolatedfromclinicalspecimensofhumanintestinal
origin.
An exampleof theexclusion criterion for organism annotation appearsin the sentence below,
where Campylobacter is not tagged because the sentence lacks correct context; there is no
habitatinformation.
The Campylobacter species were all isolated anaerobically and identified by se-
quencing analysisofthe 16S rRNA gene.
Journal of Integrative Bioinformatics, 8(2):184, 2011
http://journal.imbio.de
doi:10.2390/biecoll-jib-2011-184
3
Copyright 2011 The Author(s). Published by Journal of Integrative Bioinformatics. 
This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License (http://creativecommons.org/licenses/by-nc-nd/3.0/).
Online Split PDF file. Best free online split PDF tool.
into Multiple ones. You can receive the PDF files by simply clicking download and you are good to go!. Web Security. We have a privacy
secure pdf file; pdf security remover
Online Remove password from protected PDF file
If we need a password from you, it will not be read or stored. To hlep protect your PDF document in C# project, XDoc.PDF provides some PDF security settings.
can print pdf security; decrypt pdf password online
Table1: CorpusstatisticsforNewcastleOrganism-Habitatdata
Microorganisms
Habitats
Annotated sentences
1418
1609
Tokens(words)
57020
57020
Tagged Tokens
40349
47393
TokensEntities
921
875
Tagged tokens(within theentities)
1951
1201
Estimated coverage
99.8%
99.4%
3.2 Corpus statistics
Here, the corpuswasseeded with aset ofannotated excerptsfrom22 fullpapersthat specified
organismsandhabitats, drawn fromabibliography provided byadomainexpert. An additional
set of10 fulltext documentsfrom thesameexpertwasemployed in theaccelerated annotation
process. Annotator instances for the two classes, microorganism and habitat, were created.
An expert annotator then interactively applied the annotation interfaceto label instances until
an estimated coverage over 99% was achieved. Estimated coverage is a ratio of number of
manually annotated entities to the total number of entities as expected by the CRF classifier.
See[18] fordetails. Detailed statistics fortheresulting corpusarepresented in Table1.
4 Our approach
In thispaper,weaddresstheissueofautomaticallyextractingdifferentorganisms,theirhabitats
and the inter-relation from free literature. We employ workflows using text-mining tools for
identification oforganismsand habitats. Wehaveused U-Compare[3]to design aworkflowto
build a named entity recogniser to accept plain text or a pdf. This workflow can be run both
in the U-Compare environment as a stand-alone or as part of Taverna workflow management
system[2]. Figure1 showstheschematicsview ofourworkflow.
Figure1:Overviewofourapproach.
Thepdf-to-textconvertercomponentoftheworkflowwasbuiltontheapplication programming
Journal of Integrative Bioinformatics, 8(2):184, 2011
http://journal.imbio.de
doi:10.2390/biecoll-jib-2011-184
4
Copyright 2011 The Author(s). Published by Journal of Integrative Bioinformatics. 
This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License (http://creativecommons.org/licenses/by-nc-nd/3.0/).
C# HTML5 Viewer: Deployment on AzureCloudService
All. Create a New AzureCloudService Project in RasterEdge.XDoc.PDF.HTML5Editor.dll. validateIntegratedModeConfiguration="false"/> <security> <requestFiltering
convert secure pdf to word; pdf security
C# HTML5 Viewer: Deployment on ASP.NET MVC
Create a New ASP.NET MVC3 RasterEdge.XDoc.PDF.HTML5Editor.dll. validateIntegratedM odeConfiguration="false"/> <security> <requestFiltering allowDoubleEscaping
change security on pdf; add security to pdf file
interface(API) provided by the Apachegroup [19]. The component reads individual file and
convertsinto to raw text.
The workflow implementing the named entity recogniser employs conditional random fields,
CRFs [6] using a combination of dictionary (NCBI/habitat list) features, lexical features, or-
thographic features and contextual features. CRFsarea type of discriminative and undirected
probabilitiesgraphicalmodelsoftenused fortagging sequentialdataand innamedentityrecog-
nition in naturallanguageprocessingand biologydomains[16, 17]. In ourimplementation, we
usetheMallet [23]implementation of CRFswith lexicaland orthographicfeaturesto train the
CRF model. We have also employed two dictionaries that were tailored to the task from a
combination of established and curated domain ontologies and term lists provided by domain
experts.
4.1 Resources
• Microorganism Resources Two large-scale resources for scientic names for microor-
ganismswereused:
1. Microorganisms’ scientific names from NCBI taxonomy including bacteria, ar-
chaea, microbial eukaryote (http://ncbi.nlm.nih.gov/taxonomy)
2. ListofProkaryoticnamesandmicrobialeukaryoteswithStandinginNomenclature
(LPSN)(http://www.bacterio.net)
Thebacterialnamesfromtheseresourceswereconvertedto asetofstandardised formsto
covertypicalvariability fortheseterms including thecommon abbreviation of thegenus
term, removalofspecies, strain, orserovarcomponents,removaloftagssuch as‘subsp.’,
‘str.’, ‘strain’, etc., and generation of plural forms for genus terms. The resulting term
listcomprises52715 entriesfor12256 distinct organisms.
• HabitatResourcesA key source ofhabitat termsisthe GOLD [12] database, which in-
cludes135habitat types. After somesimplenormalisation to enhancematchingbetween
the terms and running text, the specific dictionary was further enhanced with names of
animals(169306entries, 166244 head terms)and body partsandorgans(120668 entries,
56578 head terms) extracted from theUMLS Metathesaurus[14].
4.2 Features forthe CRF model
These experiments incorporate three main sets of base features, inspired by previousresearch
in biomedicalNER [4].
• Lexical features are current word, the root form of the current word, and the part-of-
speech tag ofthecurrent word, computed by the Genia tagger[24].
• Orthographicfeaturesaremadeupofsubstringandwordformfeatures. In theword form
features, all uppercase letters are converted to ‘A’, lowercase to ‘a’, and all numbers to
‘0’. The first two & four characters and the last two & four characters of the original
word and theword form arechosen as features.
Journal of Integrative Bioinformatics, 8(2):184, 2011
http://journal.imbio.de
doi:10.2390/biecoll-jib-2011-184
5
Copyright 2011 The Author(s). Published by Journal of Integrative Bioinformatics. 
This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License (http://creativecommons.org/licenses/by-nc-nd/3.0/).
VB.NET PDF Library SDK to view, edit, convert, process PDF file
allows users to perform PDF document security settings in added to a specific location on PDF file page. In addition, you can easily create, modify, and delete
cannot print pdf security; secure pdf
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
Security PDF component download. You can easily get pages from a PDF file, and then use these pages to create and output a new PDF file.
decrypt pdf; convert locked pdf to word doc
• Dictionary featuresarebinary features to indicatethepresenceof theword in thedictio-
nary and theposition ofthewordwithin any dictionary entries.
For each of the base features, corresponding features for words within a context window are
added to the representation. The window ranges from 1-3 words preceding and following the
currentword.
4.3 Hybrid Dictionary-Machine Learning Based Approach
For entity recognition, we used the CRF based approach. The current approach employs a
sequenceclassifier, trainedon ahand-annotatedcorpus,which wasconvertedtoastandardBIO
(Begin of a sequence, Inside a sequence, Outside a sequence) format. This corpus consisted
of32 full papers from various journalsand wasspecifically annotated for microorganisms and
habitats. TheCRFs were employed with alinearchain model.
4.4 Machine Learning Approach for Relation mining workflows
The main focus of this experiment was to elicit the sentences containing a microorganism-
habitatrelation fromfree-text, typically in apdf-format.
Theworkflowhad threeprincipal components, asshown in Figure1:
1. PDF-to-text convertor: this component was based on Apache’s pdfbox API. It converts
each pdfinto astream oftext intoa JavaString object.
2. Named entity recogniser, as described in the earlier section: input from this component
was used to populatethefeature-space forCRF component.
3. CRF-componentforbuilding abespokerelation mining apparatus
Relation miningworkflow wasbased onaCRF modeltrained onco-occurrenceofmicroorgan-
isms and their habitats, thus modelling the relation between a microorganism and its habitat.
Just as forthenamed entity recognition experiments described in earlier sections, Mallet [23]
implementation was used for these experiments with a feature-space designed for sentences
extraction.
4.5 Features forRelation mining CRF component
Theseexperimentsincorporatetwo main setsofbasefeatures
• Entity occurrencein asentencei.e. ifasentencehad any organismorhabitat
• Contextual information (theword preceding theentity and theword following it)around
theoccurred entities
Journal of Integrative Bioinformatics, 8(2):184, 2011
http://journal.imbio.de
doi:10.2390/biecoll-jib-2011-184
6
Copyright 2011 The Author(s). Published by Journal of Integrative Bioinformatics. 
This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License (http://creativecommons.org/licenses/by-nc-nd/3.0/).
Table2:PerformanceofCRFanddictionary-basedapproaches
Microorganisms
Habitats
P(
precision
)
R(
recall
)
F(
F-score
)
P
R
F
Dictionary
54
75
63
58
55
56
CRF
84
79
81
68
50
57
5 Results & Discussion
5.1 Dictionary-based & CRF approaches
First, we consider the contrast between recognition accuracy for the systems employing the
CRF with allfeatures trained on theannotated corpora with therecognition accuracy obtained
using a simple, longest match strategy using dictionary resources. The results are shown in
Table2.
We can observe that the results range from F-score of 56% to 63% for dictionary-based ap-
proaches and from 57%to 81%for machinelearning based methods, using all features. These
figures show some interesting contrasts. For microorganism tagging, the CRF approach out-
performs the dictionary. While recall remains good for the dictionary-based approach, the
precision ison 54%. Inotherwords, the dictionary-based approach had ahigh numberof false
positives. Theprecision improved to 84% in theCRF setup; even though therecallisnotvery
differentfromthedictionary-based approach.
Furthermore,thehabitatannotationtaskisshownto beparticularly challenging. Severalfactors
such as a very broad class definition spanning animals, anatomy, environment and adjectival
forms thereof, in conjunction with the restriction to organismal contexts and alack of explicit
word-morphologies restrict theCRF-based approach.
5.2 Hybrid CRF
As can be seen from Table 3, the hybrid classifier has achieved an F-score of about 80% and
60%for OrganismsandHabitats respectively on a9-fold cross validation.
Asa general observation, microorganisms had a distinct attributes: word shape features, such
asuppercaseletters, asubtlepattern innamessuch as“ccus”or “cci”etc. Thecurrentfeatures
that wehave used, could model themicroorganismswell and an F-Score of81 isan indicative
ofthissuccess. Typicalfalsenegativesincludehyphenatedwordssuch as“B. taylorii-like”and
partial names such as “M. succiniciproducens” of the complete name “M. succiniciproducens
MBEL55E(KCTC0769BP)”.
Habitats, on the other hand, seemed to lack any such explicit attributes making them more
difficult to model. There were quite a few falsenegatives such as water, skin, abcessetc. We
conjecture that perhapsmoretraining data(weused only 850 training instances ofhabitatsfor
theexperimentsdiscussed here)could certainly helpalleviatesuch falsenegatives. Wearealso
currentlyexploring wideningour feature-spaceby including deeper semanticinformation such
asparse-treeinformation to enhancetheperformanceofhabitat recognition.
Journal of Integrative Bioinformatics, 8(2):184, 2011
http://journal.imbio.de
doi:10.2390/biecoll-jib-2011-184
7
Copyright 2011 The Author(s). Published by Journal of Integrative Bioinformatics. 
This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License (http://creativecommons.org/licenses/by-nc-nd/3.0/).
Table3:Performanceofourapproach
Classofentities
Precision (%)
Recall(%)
F-score(%)
Microorganism
84
79
81
Habitats
68
50
57
Table 4: Performanceofrelationextractionapproach
Precision (%)
Recall (%)
F-score(%)
Relations
85
49
57
6 Relation mining
Therelation mining classifierachieved aprecision ofabout 85% and arecall ofless than 50%
(Table 4). We conjecture that slightly below parperformanceof habitats waspartly accounted
for by the contextual features as a result of which the precision was not proportional to the
individual precisions of microorganisms and habitats. One of the important factors for the
number of false negatives is the noise generated from pdf-text conversion. Typical examples
of“corrupted”sentencesincludethosewheresentenceboundariescould notbeidentified auto-
matically and thereforehad morenoisy features. This could havehad an impact on the perfor-
mance. A typicalexampleofcorrupted sentenceisajournaltitleconcatenatingwith thetitleof
thepaperisshown here(taken from [25])
“Biometrika 40:237–264 Hallberg KB, Johnson DB (2003) Novel acidophiles iso-
lated frommoderatelyacidicminedrainagewaters.”
And another example where the caption of a figure and some text from the figure itself are
combined with thetextfrom[26]isshown here:
“These mechanisms may have evolved in bacterial pathogens to increase the fre-
quency of phenotypic variation in genes involved in 1 100,000 200,000 300,000
1,600,00 Figure2 Circular representation oftheH. pylori26695 chromosome.”
Clearly, any paradigm that extracts sentences will be affected by such erroneous conversion.
Thereareseveralsoftwareswhichconvertapdf-documenttotextsuchasApache’spdfbox[19],
Utopia[20]and Unixcommand “pdftotext”. Butallofthemhavethesameproblemsin dealing
with tablesandfiguresinpdfs,whichresultin suchnoise. Wearecurrentlyworkingeliminating
someoftheerroneous sentencesusing statistical methodssuch as languagemodelling. Weare
also working on using parsers to eliminate some of HTML-related noisesuch as captions and
headers etc.
Anotherfactorthatwecould identifyforthelower recall wasthebelow parperformanceofthe
habitatrecognition by theautomaticnamed entity recognisers.
6.1 A toy example
Consider asmallexcerpt aboutAcinetobacter species [27]
Journal of Integrative Bioinformatics, 8(2):184, 2011
http://journal.imbio.de
doi:10.2390/biecoll-jib-2011-184
8
Copyright 2011 The Author(s). Published by Journal of Integrative Bioinformatics. 
This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License (http://creativecommons.org/licenses/by-nc-nd/3.0/).
“Acinetobacterspparewidelydistributed in natureand soil. Mostinfectionsoccur
in immunocompromised individuals, and thestrain Acinebacter baumannii is the
second most commonly isolated nonfermenting bacteria in human specimens. It
can surviveon the human skin ordry surfacesforweeks.”
Figure2:TheresultofourworkflowonextractionofmicroorganismsandhabitatsinU-Compare
Figure2 showstheresultofour text-mining workflowon this excerpt. All themicroorganisms
areunderlined in red, thehabitats areunderlined in green and therelation-indicating sentences
areunderlined in yellow. Theworkflowunderlinessentencesin yellow ifand only ifitcontains
both microorganisms and their habitats, thus highlighting host-associated habitats from non-
host-associated ones.
7 Conclusion
Ascanbeinferred fromtheresults, theworkflowsthatwehavedeveloped achieveareasonable
accuracy thatmakesthemlikely candidatestobeported forotherdatabasesand similarapplica-
tions. Weareplanning to implementthisworkflowto curateamicroorganism-habitatdatabase.
As the workflows are inter-operable as sub-workflows in Taverna [2], we hope the scientific
community at large, and biologists in particular, can make use of them for their respective
research projects.
Acknowledgements
Thisresearch hasbeen supportedby theBiotechnology &BiologicalSciencesResearch Coun-
cil (ONDEX project, BB/F006039/1). The National Centre for Text Mining is funded by the
JointInformation SystemsCommittee. SirintraNakjang wassupportedby theFaculty ofMed-
ical Sciences and theSchool of Computing Science at Newcastle University and an Overseas
Research StudentsScheme.
Journal of Integrative Bioinformatics, 8(2):184, 2011
http://journal.imbio.de
doi:10.2390/biecoll-jib-2011-184
9
Copyright 2011 The Author(s). Published by Journal of Integrative Bioinformatics. 
This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License (http://creativecommons.org/licenses/by-nc-nd/3.0/).
References
[1] D. Hanisch, K. Fundel, H.-T. Mevissen, R. Zimmer and J. Fluck. ProMiner: Organism
specific protein name detection using approximate string matching. EMBO Workshop,
Granada, Spain, March 28–31, 2004.
[2] Taverna, http://www.taverna.org.uk, last accessed on 08 July 2011.
[3] Y. Kano, W. A. Baumgartner, L. McCrohon, S. Ananiadou, K. B. Cohen, L. Hunder and
J. Tsujii. U-Compare: share and comparetext mining toolswith UIMA. Bioinformatics,
25(15):1997–1998, 2009.
[4] Y. Sasaki, Y. Tsurouka, J. McNaught and S. Ananiadou. How to make the most of NE
dictionariesin statisticalNER. BMCBioinformatics, 9(Suppl 11):S5, 2008.
[5] N. Collier, S. Doan, A. Kawazoe, R. M. Goodwin, M. Conway, Y. Tateno, Q-H. Ngo, D.
Dien, A. Kawtrakul, K. Takeuchi, etal. BioCaster: detecting publichealth rumorswitha
Web-based textmining system.Bioinformatics, 24(24):2940–2941, 2008.
[6] J. Lafferty, A. McCallumand F.Pereira.Conditional randomfields: Probabilisticmodels
for segmenting and labeling sequencedata. In Proceedingsof 18th InternationalConfer-
enceon MachineLearning, 2001.
[7] O.O’Sullivan, J. O’Callaghan, A.Sangrador-Vegas, O. Auliffe, L. Slattery, P. Kaleta, M.
Callanan, G. F. Fitzgerald, R.P. Ross, and T. Beresford. Comparativegenomics of lactic
acid bacteriarevealsa niche-specificgeneset. BMCMicrobiology, 9(1):50, 2009.
[8] D.Field,G.Garrity,T.Gray, N.Morrison,J. Selengut,P.Sterk, T. Tatusova,N.Thomson,
M. J. Allen, S. V. Angiuoli, et al. The minimum information about a genome sequence
(MIGS)specification. NatureBiotechnology, 26(5):541–547, 2008.
[9] L. Hirschman, C. Clark, K. B. Cohen, S. Mardis, J. Luciano, R. Kottman, J. Cole, V.
Markowitz, N. Kyrpides, N. Morrison, et al. Habitat-Lite: a GSC case study based on
freetexttermsforenvironmental metadata. OMICS, 12(2):129–136, 2008.
[10] C. von Mering, P. Hugenholtz, J. Raes., S. G. Tringe, T. Doerks, L. J. Jensen, N. Ward,
and P. Bork. Quantitative phylogenetic assessment of microbial communities in diverse
environments. Science, 315(5815):1126–1130, 2007.
[11] J. H. Lee, V. N. Karamychev, S. A. Kozyavkin, D. Mills, A. R. Pavlov, N. V. Pavlova,
N. N. Polouchine, P. M. Richardson, V. V. Shakhova, A. I. Slesarev, et al. Comparative
genomicanalysisof thegut bacterium longumrevealslocisusceptibleto deletion during
pureculturegrowth. BMC Genomics, 9(1):247, 2008.
[12] K.Liolois, I. A. Chen,K.Mavromatis, N. Tavernarakis, P.Hugenholtz,V.M.Markowitz,
and N. C. Kyrpides. The Genomes On Line Database (GOLD) in 2009: status of ge-
nomicand metagenomicprojectsand their associated metadata. Nucleic AcidsResearch,
38(Databaseissue):D346–D354, 2010.
Journal of Integrative Bioinformatics, 8(2):184, 2011
http://journal.imbio.de
doi:10.2390/biecoll-jib-2011-184
10
Copyright 2011 The Author(s). Published by Journal of Integrative Bioinformatics. 
This article is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License (http://creativecommons.org/licenses/by-nc-nd/3.0/).
Documents you may be interested
Documents you may be interested