how to open pdf file on button click in mvc : Cannot select text in pdf file software SDK cloud windows wpf winforms class Social%20Networking%20for%20Scientists%20Using%20Tagging%20and%20Shared%20Bookmarks0-part1322

Social Networking for Scientists Using Tagging and Shared Bookmarks: a Web 2.0
Application
Marlon E. Pierce, Geoffrey C. Fox, Joshua Rosen, Siddharth Maini, and Jong Y. Choi
Community Grids Laboratory, Indiana University, Bloomington, IN 47404, USA
{marpierc, gcf, jjrosen, smaini, jychoi}@indiana.edu
ABSTRACT
Web-based social networks, online personal profiles,
keyword tagging, and online bookmarking are staples of
Web 2.0-style applications. In this paper we report our
investigation and implementation of these capabilities as
ameans for creating communities of like-minded faculty
and researchers, particularly at minority serving
institutions. Our motivating problem is to provide
outreach tools that broaden the participation of these
groups in funded research activities, particularly in
cyberinfrastructure and e-Science. In this paper, we
discuss the system design, implementation, social
network seeding, andportalcapabilities. Underlyingour
system, and folksonomy systems generally, is a graph-
baseddata modelthat links external URLs, system users,
and descriptive tags. We conclude with a survey of the
applicability of clustering and other data mining
techniques tothesefolksonomygraphs.
KEYWORDS:
Web
2.0,
Social
Networks,
Folksonomies, Collaboration
1. INTRODUCTION
The proliferation of online communities and social
networks such as Facebook, LinkedIn and many others,
with memberships numbering in the millions, has
reinvigoratedtheWeb by making it a participatory entity
with blurred lines between users and developers. These
socialnetworkingsystemsare partof a larger activitythat
is collectivelylabeled“Web2.0” [1]. AlthoughWeb 2.0
is an uncoordinated activity when compared to Web
Services or Grid computing, its disparate activities
collectively
define
a
comprehensive
distributed
computing approach [2][3]. As such, it is challenging
many
of
the
architectural
foundations
of
cyberinfrastructureande-Science.
This paper describes our work to build a social
networking portal that is geared toward enabling faculty
and researchers to find both useful online resources and
also potential collaborators on future research projects.
We are particularly interested in helping researchers at
Minority Serving Institutions (MSIs) connect with each
other and with the education, outreach, and training
services that are designed to serve them, expanding their
participation in cyberinfrastructure research efforts. This
portal is a development activity of the Minority Serving
Institution-Cyberinfrastructure Empowerment Coalition
(MSI-CIEC). The portal’s home page view is shown in
Figure1.
The MSI-CIEC social networking Web portal combines
social bookmarking and tagging with online curricula
vitae profiles. The displayshowsthelogged-inuser’s tag
cloud (“My Tags” on left), taggable RSS feeds (center),
and tag clouds of all users (“Favorite Tags” and“Recent
Tags” on the right). Users may search tags (including
researcher names, NSF directorates, and TeraGrid
allocations) usingthe centertextfield.
Figure1. TheMSI-CIEC SocialNetworkingWeb
Portal.
Online bookmarking was pioneered by such sites as
del.icio.us, Connotea, Digg, Slashdot, and CiteULike,
978-1-4244-2249-4/08/$25.00 ©2008 IEEE
257
Authorized licensed use limited to: Tsinghua University Library. Downloaded on August 05,2010 at 03:36:04 UTC from IEEE Xplore.  Restrictions apply. 
Cannot select text in pdf file - search text inside PDF file in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn how to search text in PDF document and obtain text content and location information
search pdf files for text; text select tool pdf
Cannot select text in pdf file - VB.NET PDF Text Search Library: search text inside PDF file in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Learn How to Search Text in PDF Document and Obtain Text Content and Location Information in VB.NET application
cannot select text in pdf; search a pdf file for text
among others (for a summary, see [4]). These sites vary
in purpose. General-purpose bookmarking sites such as
del.icio.us can bookmark any link and have a time-
independent view of the URLs. Digg and Slashdot, on
the other hand, are geared toward tagging and rating
news links and more ephemeral subjects. Connotea and
CiteULike both cater to academic citation links and
provide additionaltools (suchas automatic metadata fill-
in with a provided Digital Object Identifier). In related
work, our lab’s IDIOM project [5] seeks to couple
tagging of academic material with scholarly search
engines such as Google Scholar and Microsoft Live
Academic.
Apart from their utility, social bookmarking and tagging
are interesting for Computer Science research because
they create usage-driven descriptions of URLs (and
potentially any URIs). Such descriptions are known as
folksomomies and superficially resemble more structured
ontology approaches pursued by the Semantic Web
activity. As we discuss below, folksonomies are in fact
graphs (as are RDF and OWL-represented ontologies).
Unlike ontologies, folksonomies lack the expression of
logical associations in the arcs of the graph. This does
not allow, for example, logical inferences to be made in
therelationships in the graphs (as is the goal of Semantic
Webontologies), butitdoes indicate thatawealthof data
mining algorithms may be applied to discover interesting
emergent relationships in the data inplace of designed-in
andderivedrelationships. Weconcludewithadiscussion
ourinitialsurveyof theseproblems.
2.MSI-CIEC NETWORKING PORTAL 
FEATURES
Our portal is designed to support academic user
communities through a combination of online user
profiles and shared online bookmarks that are described
with keyword tags. The system capabilities include the
following:
Users can create public profiles of themselves
todescribetheir researchinterests, provide their
publication lists, academic and professional
training,andothercurriculavitae.
Profiles are also decorated with the user’s tag
cloud(seeFigure1).
By importing RSS feeds, users can further
enhance their profiles with other information,
such as Connotea publication feeds, SciVee
videos,etc.
Users can bookmark any URL during normal
browsing and have it stored in the MSI-CIEC
portal database.
Users describe bookmarks
withone or more keywordtags.
Users can search their own bookmarks by
navigating tags, and they can also search
publiclytaggedURLs fromother users.
Researchers can also “click tag” featured RSS
feeds, such as NSF Recently Announced
Funding Opportunities [6].
Click-tagging
allows a user to label entries in the feed with
“interesting” or “uninteresting” tags. Users can
later view their own and public “interested”
tags.
Users can search award funding and project
data. We currently import data and auto-
generate tags from the NSF’s awards database
and the NSF TeraGrid’s allocations database.
These tags can be searched and navigated just
asnormal, user-generatedtags.
Social networking sites depend upon a minimal number
of users and richness of data to be self-sustaining, so our
initial capabilities have been chosen to support
uncorrelated usage.
Bookmarking, NSF
award
navigation, andclick-tagging are all applications that are
independent of the number of users. The social
networking properties (such as joining groups, finding
most interesting tags, and viewing other users’ profiles)
are emergent capabilities of the system that become
richer as more people use the system. We now review
these capabilities in more detail through example usage
scenariosinthefollowingsection.
3.USAGE SCENARIOS
3.1.Creating anOnline Profile
As describedabove, one of the portal’s primary functions
is to provide online, customizable and extensible
curriculavitae for users. In addition, users with previous
NSF awards have automatically generated profile stubs
that they can enhance. Figures 2-4 display the sections
of this form. Figure 2 shows a display of basic portal
information (the user’s nameandprofiletags). Forms for
updating the user’s professional preparationareshown in
Figure3.
Figure 4 shows the user’s networkof friends, list of NSF
collaborators, and list of NSF awards. Award and
collaborator information sections are automatically
created from publicly available data, harvested as
described below. Although we have concentrated on
NSF data sources in our implementation, we believe the
approachcanbeadaptedtoother,similar datasources.
As we discuss below, these profiles are discoverable
throughtagnavigation. Toillustratethis from theprofile
point of view, we can see in Figure 2 that the user has a
tag cloudresulting from his interactions with the system.
258
Authorized licensed use limited to: Tsinghua University Library. Downloaded on August 05,2010 at 03:36:04 UTC from IEEE Xplore.  Restrictions apply. 
C# HTML5 Viewer: Deployment on AzureCloudService
RasterEdge.XDoc.PDF.dll. RasterEdge.XDoc.PDF.HTML5Editor.dll. Or you can select x86 if you use x86 dlls. (The application cannot to work without this node.).
select text in pdf; convert pdf to searchable text online
C# HTML5 Viewer: Deployment on ASP.NET MVC
RasterEdge.XDoc.PDF.HTML5Editor.dll. When you select x64 and directly run the application, you may get following error. (The application cannot to work without
pdf text searchable; how to search text in pdf document
The tags such as “Grids” can be used by others while
searching and walking the tag graphs underlying the
display in Figure 1. These will eventually take users to
profilepages suchas Figures2-4.
Figure2. ProfileViewforaUser.
Logged-in users can edit basic user information about
themselves (Figure 2). Autogenerated information may
also be provided. “Profile Tags” section shows the
resultsof auser’sinteractionwiththesystem.
Figure 3. AdditionalProfileInformation.
Additional forms allow users to describe professional
preparationandresearch(Figure3).
Figure4.SocialNetworkingand Research Tags.
Social networking information, including lists of friends
(links to other profiles), collaborators, and funded
projects is displayedin Figure 4. Users candecorate their
profiles with arbitrary RSS feeds such as Connotea
publicationlists.
3.2.Tagging a URL
As shown in Figure 1, users’ profiles include their tag
clouds. These are keyword links to external URLs thata
user has foundusefulor interesting. Bookmarkingalink
is done in an unobtrusive manner using a small
JavaScript bookmarklet that a user drags into the
bookmark toolbar (see Figure 5). A logged-in user can
dragthebookmarkletintothebookmarktoolbar.
Figure5. EnablingBookmarkingDuringNormal
Browsing.
During usual browsing, a user can click this bookmarklet
to post the URL to the portal, along withdescriptive tags
and keywords. This information is supplied through a
popupwindow.SeeFigure6.
259
Authorized licensed use limited to: Tsinghua University Library. Downloaded on August 05,2010 at 03:36:04 UTC from IEEE Xplore.  Restrictions apply. 
C# PDF: PDF Document Viewer & Reader SDK for Windows Forms
Choose Items", and browse to locate and select "RasterEdge.Imaging open a file dialog and load your PDF document in will be a pop-up window "cannot open your
pdf find text; convert a scanned pdf to searchable text
C# Image: How to Deploy .NET Imaging SDK in Visual C# Applications
RasterEdge.Imaging.MSWordDocx.dll; RasterEdge.Imaging.PDF.dll; in C# Application. Q: Error: Cannot find RasterEdge Right click on projects, and select properties.
how to select text in a pdf; convert pdf to searchable text
Figure6. TaggingaNew URL.
By clicking the portal bookmarklet, a user can tag a
particular URL while browsing. The user specifies tag
keywords through a popup window (lower right). These
areusedtogenerate thetagclouds inFigure1.
3.3.ClickTagging a Featured RSSFeed
Althoughthe portaliscanbeusedtobookmarkanyURL,
it is intended to foster research collaborations. To
encourage this, we provide relevant RSS feed displays
throughtheportal, suchas recent funding announcements
fromtheNSF (Figure7).
We reformatRSS feeds to allow a user toquickly tagthe
individualfeed entries as "interesting" or "uninteresting".
These tags will appear intheuser's tagcloud. The listof
all such feeds tagged as "interesting" are also available
fromthesystemtagcloud,suchasshowninFigure8.
This approach can be used to convert any RSS feed.
Unfortunately, not all informationonfundingis currently
available in RSS or Atom syndicationformats:grants.gov
provides a prominent example. We can convert these
sites into RSS feeds using tools such as OpenKapow’s
RoboMaker (seehttp://openkapow.com/).
Figure7. Click TaggingRSSFeeds.
Portal displays of RSS feeds may be “click tagged” as
“interesting” or “uninteresting”. Tagged material will be
displayedintagcloudsusingthesekeywords.
Figure8Recent FundingAnnouncementsTagged as
“Interesting”.
Users cansee allrecentfundingannouncements thathave
beentaggedasinterestingbyclickingthe“Interested”tag
in either the “Favorite Tags” or “RecentTags” clouds on
theleft.
3.4.Searching NSF Awards
As described below, we populated the system by
harvesting publicly available data from sources include
the NSF awards database and the TeraGrid allocations
database.
This information results in several
automatically generated tags that are summarized in
Table2.
Figure 9. Cloud of AllNSFNamespaceTags.
There are several pathways through this data in the
portal. One option is for the user to click the “NSF Tag
Cloud” link(leftside of Figure1). This will display the
cloud of NSF-namespaced tags in the central display
(Figure9).
Figure 10. ATagCloud of Users Funded Through
260
Authorized licensed use limited to: Tsinghua University Library. Downloaded on August 05,2010 at 03:36:04 UTC from IEEE Xplore.  Restrictions apply. 
GIF to PNG Converter | Convert GIF to PNG, Convert PNG to GIF
converted list in memory if you cannot convert at GIF image from local folders in "File" in toolbar Select "Convert to PNG"; Select "Start" to start conversion
find and replace text in pdf; searching pdf files for text
C# PowerPoint: Document Viewer Creating in Windows Forms Project
You can select a PowerPoint file to be loaded into the If your PowerPoint file format is not supported by control, there will prompt a window "cannot open your
pdf find highlighted text; pdf searchable text converter
NSF ENG.
“Small”, “medium”, and “large” tags refer to the size of
the grant. Years (“2007”, “2008”, etc) refer to project
end dates. Other tags (“cse”, “eng”, etc) refer to NSF
divisions or directorates. Clicking one of these (“eng”)
produces a cloud of researchers funded through this
division(Figure10).
Figure 11. TagCloud and Funded Projects forthe
User"WeiLi".
By selecting a name from the above cloud (“Wei Li”), a
user can seethis researcher’s tag cloudandlistof funded
projects. The funded project links are URLs to the
appropriateNSF awardabstractpage.
4.IMPLEMENTATION DETAILS
4.1.User Interface Design
The blueprint of our design was distilled from use case
scenarios acquired through interviews and discussions
with MSI-CIEC team members. In the design phase,
content analysis was used to do content mapping where
content chunks are formed and then mapped onto the
differentpositions onthewebpages.
As shown inFigure 1, the portal is dividedintodifferent
content components. This has helped in the design and
development of the wire-frame. The components are
dividedinto4contentareas:
• Header: This contains the logo, title info of the
portal, and the login area. The login area uses an
Ajaxupdater librarythatgivesaslide-downeffect.
• Footer: this contains redundant navigational links
andfundingagencyacknowledgments.
• Content: The center is the main content area where
most of the content is dynamically generated using
Ajax libraries imported from Scriptaculous (http://
script.aculo.us). Some example content chunks are
NSF Tag Clouds, User Tag Clouds, Profile
Information,SearchResults, RSS Feeds, etc.
• Navigation: The navigational structure is composed
of Global, Sub-Global, and contextual navigation.
This type of navigation is often described as an
embedded navigation system. Such navigation helps
users in understanding where they are and where
they can go on a website. The global navigation in
this case consists of global links, namely Home,
News, Contact, Help, and About. The sub-global
navigationontheleftconsists of a dropdown menu
for My Tags and MyAccount. The rightnavigational
structure consists of modules that are Tag Clouds.
Therearefourdifferenttagcloudstructures:
o User TagCloud:containingtagstagged
byrealusers
o NSFTagCloud:containingself-generated
tags importedfromNSF awards.
o FavoriteTags:containingthe listof
favorite tagsof allusers.
o RecentTags:containingtagsrecently
generatedbyallusers.
We implemented the portal with numerous third party
tools. ThesearesummarizedinTable 1.
Table1. Thirdpartytools and technologiesused in
theportal.
Tools /Technologies
Uses
PHP /PEAR
Backenddatabase
programming, functioncalls,
creatingrssfeedsetc.
Scriptaculous
JavascriptLibraries
Animatedvisualeffects suchas
drop-downs, draggableand
droppablemenus, etc.
AdobePhotoshop,
Illustrator
Graphicdesignfor theportal,
wire frames
AdobeDreamweaver HTML/PHP/CSS Editor
MySQL
/phpmyadminutility
Databasecreation,updatingetc.
Google Analytics
Analyzetrafficpatterns, finding
sources wheretheuserscome
from etc.
4.2.GrantInformationHarvesting
The NSF maintains a publiclysearchable onlinedatabase
of awards (seehttp://nsf.gov/awardsearch/). The online
forms use HTTP GET URLs and support several output
261
Authorized licensed use limited to: Tsinghua University Library. Downloaded on August 05,2010 at 03:36:04 UTC from IEEE Xplore.  Restrictions apply. 
C# Image: How to Use C# Code to Capture Document from Scanning
installed on the client as browsers cannot interface directly a multi-page document (including PDF, TIFF, Word Select Fill from the Dock property located in
find text in pdf files; search pdf files for text programmatically
C# Image: Create C#.NET Windows Document Image Viewer | Online
DeleteAnnotation: Delete all selected text or graphical annotations. You can select a file to be loaded into the there will prompt a window "cannot open your
search text in pdf image; search pdf documents for text
formats (including XML, text with comma-separated
values, and Microsoft Excel spreadsheets) in addition to
HTML.
This provides us with a REST-like (if
undocumented) programming interface that we can use
for development. Information retrieved in this fashion
includes the followingfields:
Projectname,
Awardsize,
Organization,
Directorate, and
Co-investigators.
In order to download and incorporate this data into our
portal and our tag data model, we decided to use a
crawling approach seeded with researcher names. The
co-investigators returned in the HTTP response message
wereusedinthe nextroundof searches. Co-investigators
were then harvested from those projects and were added
to a queue where the same information was downloaded
for them. We have currently harvested over 8,600
researchersinthis fashion.
We next must convert this information into tags. The
NSF query responses are obviously tabular data (see list
above for column headings), so these can be converted
into tag families, or namespace groups. We convert the
individualtable entries (such as award size anddate for a
particular entry) into tags. For entries with ranges of
values (award sizes, for example), we have defined tags
(i.e., small, medium, andlarge) with range values. These
aresummarizedinTable 2.
Tagsgleanedinthis wayare prependedwithanamespace
value (nsf.*). This prevents tag name collisions with
user-supplied tags (i.e. “small” may be a user-supplied
tag irrelevant to award sizes). It also provides us with a
simple organizational label that can be used for
separatingouttheNSF tags intoseparateclouds.
Table 2. Harvested NSFaward and allocation data
are converted intotags. Weusenamespaces to
distinguishthese tags fromuser-supplied keywords.
Namespaces arenot displayed bythe portal(i.e.
“nsf.date.2008”isdisplayed as“2008”in atagcloud.)
TagFormat
TagDescription
ExampleTag
nsf.investigator. Thenameofan
investigator ofthis
project
t
nsf.investigator.first
name.geoffery
nsf.investigator.lastn
ame.fox
nsf.date.
Endyear of this
project
t
nsf.date.2008
nsf.number.
Awardnumber
nsf.number.0407040
nsf.award
Awardsize
nsf.award.medium
nsf.organization
.
AssociatedNSF
organization
nsf.organization.ast
nsf.directorate. AssociatedNSF
directorate
nsf.directorate.mps
nsf.tghours.
Allocatedteragrid
hours (inalog10
format)
nsf.tghours.log6
5.TAGGING AND FOLKSONOMIES
Development of the MSI-CIEC Networking Portal is
motivated by a real application, but it also provides us
with a test bed for investigating interesting computer
science research issues, particularly the application of
dataminingandclusteringtechniques tofolksonomies.
5.1.ExploringCommunitiesin Collaborative
Tagging Systems
Collaborative tagging systems have been drawing wide
attention as an open medium to freely share information
on the Internet. The key aspect of such systems is that
objects such as URLs and URIs canbe simplytagged by
a list of keywords provided by any user. Due to its
semantic-free format, collaborative tagging systems have
intrinsically a low
barrier to promote a user’s
participation.
Community activities are also an important aspect in
most collaborative tagging systems. A user may want to
see other peoplewho havetaggedonthesameobjectthat
he or she tagged. A user may want to find a group of
peoplewho mighthave thesameinterestandlookattheir
bookmarks or resources. To help such users to discover
unexposed communities and explore them efficiently in
the system, we need to develop and apply data mining
algorithms. In the following, we describe the model of
tagging system and discuss possible solutions for
supportingcommunityexploring.
5.2.Modelsof Collaborative Tagging System
The main elements of collaborative tagging systems
consistof tags, resources, andusers. In most scenarios of
using collaborative tagging systems, a user uses tags –
which can be keywords, terms, or neologisms – to tag a
resource that is normally an URL but generally can
includeanURI. Wecanrepresent thosetaggingactivities
as a tuple consisting of a user, a set of tags, and a
resource.
Alternatively, we can use graphical
connections in a tripartite graph where links are drawn
between three domains of users, tags, and resources (see
262
Authorized licensed use limited to: Tsinghua University Library. Downloaded on August 05,2010 at 03:36:04 UTC from IEEE Xplore.  Restrictions apply. 
C# Word: How to Create C# Word Windows Viewer with .NET DLLs
and browse to find and select RasterEdge.XDoc control, there will prompt a window "cannot open your powerful & profession imaging controls, PDF document, tiff
how to select text in pdf reader; how to make a pdf file text searchable
C# Excel: View Excel File in Window Document Viewer Control
Items", and browse to find & select WinViewer DLL; there will prompt a window "cannot open your powerful & profession imaging controls, PDF document, image
pdf text search; pdf find and replace text
Figure 12) [7]. Ingeneral, the purpose of suchsystems is
to find specific resources tagged collaboratively by
multipleusers andretrieveinformationabout resourcesor
users, entangled in the mesh of tags and resources by
usingquerytags.
Figure12.Tripartite Graph of aTaggingSystem.
To build a system for this purpose, we can use two
different models: a vector space model and a graph
model. Although the two models can be convertible to
each other in general, they are distinct in their ways of
representations andusages. Whilethe vector spacemodel
uses vectors in an orthogonal basis tag space, the graph
modelexploits graph structures of three elements —tags,
users, and resources. The vector space model considers
the frequencies of tag occurrences for searching, but the
graph model focuses on graphical characteristics such as
paths and the degree of connectivity between nodes. The
vector space model has been widely developed and
applied in many different ways in the field of
conventional information retrieval for its simplicity, and
the graph model has become popular intheareas suchas
theInternetsearchengines andsocialnetworkanalysis.
More precisely, in the vector space model, a resource (or
auser)
1
is represented as a vector of tagoccurrences ina
tag space. For example, a resource tagged by 2
occurrences of tag
1
and 1 occurrence of tag
2
can be
expressed as a vector <2, 1>. A dimension is often used
to describe the size of a tag space, which equals the
number of total tags usedinthesystem. Thus, <2, 1> isa
2dimensionalvector.
In reality, the dimension of these tag vector spaces is
huge. Connotea and del.icio.us have tens of thousands of
dimensions, andthedimensionof our MIS-CIECportalis
about 180. In the vector space model, queries are also
given as tagvectorsin thesamespace and thensearching
is a process to find the exact or, more likely, the most
similar vectors.
In practice, since searching a space of tens of thousands
dimension is a daunting task, we can use dimension
reduction schemes for decreasing dimensions to search
by removing noisy and unrelated tags. Latent Semantic
Analysis (LSA) and Principal Component Analysis
(PCA) are the well-known algorithms for this purpose.
We can use the vector space model for finding specific
frequency patterns. For example, finding a group of
peoplewhosharespecificsetof tags of interest, findinga
personwhosetagsare similar withmine,andsoon.
(a)
(b)
Figure13.(a) A TagGraph Exampleand (b) aPart of
theTagGraph of MIS-CIEC Portal.
263
Authorized licensed use limited to: Tsinghua University Library. Downloaded on August 05,2010 at 03:36:04 UTC from IEEE Xplore.  Restrictions apply. 
As showninFigure13, tags, resources (URLs), andusers
are represented as a square, a circle, and a box
respectively. Figure 13 (b) shows only resource-tag
graphs and each independent network (connected graph)
isassignedtoa uniquecolor.
In contrast, the graph model takes advantage of graph
structural relationships between tags, resources, and
users. Those relationships can be depicted in a graph,
whichisknownasa taggraph,whereeachtag, aresource
and a user are represented as a node and a relationship
between them as an edge (see Figure 13(a)). Tag graphs
of real systems are more complicated, consisting of
thousands of thousands nodes. A part of the tag graph of
ourMSI-CIECportalis showninFigure 13(b).
Table3.A summaryof potentialquestionsfor
discoveringcommunities inacollaborative tagging
systemand theappropriatealgorithm.
In this model, graph properties such as connectivity, hop
distance, and strength are the important figures to
measure, and thus searching is a task to find specific
properties in the graph. For example, to find strong
relationships between two nodes is to identifya paththat
consists of a high degree of connectivity but with short
hopdistance. Inthis way, we canuse the graph model to
investigatemoresophisticatedrelationships between tags,
resources, and users. Examples of complicated questions
we can have include finding aperson who is related with
myfriend, discoveringa group of peoplewhois working
onthesametopic,andsoon.
5.3.Discovering Communities
Tagging a resource that has already tagged by other
users, watching other user’s tagging activities, and
expressing one’s interests though tags can be the most
common examples of social activities ina network. Now
the most of collaborative tagging systems explicitly
support community activities by enabling users to create
a new community or to join other communities of
interest. By doing so, users can actively collect more
valuable information by contacting other people in the
netwhoshare thesameinterestof theusers.
In this situation, finding a group of people who are
working on the same topics or interests, which we call
discoveringacommunity,willbeaninevitabletaskinthe
systems. For example, users may ask to the system;
“Whois sharing asimilar interestwithme?”,“Whois the
most influential in a community?”, or “What kind of
recommendations can I obtain?” A list of feasible
questions users might ask and the appropriate technique
is summarized in Table 3. Considering the size of such
networks, solutions for those problems arenottrivialand
willrequireefficient,parallelalgorithms.
Depending on the models discussed in the previous
section, we can classify potentialsolutions into two main
categories: frequency analysis that rely on the vector
space modeland structural analysis that are based on the
graphmodel.
5.4.Frequency Analysisand Clustering
Based on the vector space model, the frequency analysis
canbe performedover the frequencies of tag occurrences
in a system. In this analysis, the more frequently used
tags, the more referenced resources, and more actively
involved users are considered to be more significant and
thus havestrongerimpacts inasystem.
Preparing data is relatively simple: one makes a
frequency matrix by counting the number of tag
occurrences with respect to each resource or each user.
Instead of simple counting, more sophisticated methods,
such as entropy or scores, can be used. Finding specific
patterns means matching a targetvector in the frequency
matrix. Latent Semantic Analysis is one of the most
popular algorithms among many conventionalalgorithms
used in the field of information retrieval [9] for these
types of problems.
Latent Semantic Analysis (LSA) has been developed
since 1990 for the use of information retrieval [8]. The
key ability of LSA is to eliminate statistically unrelated
tags from a frequency matrix, which is also known as
dimension reduction, and enable users to compare them
with only the most significant components. As a result,
LSA helpsuserstorecover “latent”core tagsobscuredby
“noisy” (or the less significant) tags and thus can give
Questions
Technologyor
Algorithm
Whois sharingasimilar
interestwithme?
LSA, TagRank, Graph-
basedalgorithm,
Clustering
Whichgroupofpeopleis
workingonaspecifictopic?
LSA, Graph-based
algorithm
Whatarethecharacteristics
of acommunitygroup?
Clusteringalgorithm,
Graph-basedalgorithm
Whois the mostinfluentialin
acommunity?
LSA, TagRank
Whatkindof
recommendations canI
obtain?
TagRank,Graph-based
algorithms
How similar istwodifferent
communities?
Graph-basedalgorithm
Whatis the mostoutstanding
trend?
TagRank
264
Authorized licensed use limited to: Tsinghua University Library. Downloaded on August 05,2010 at 03:36:04 UTC from IEEE Xplore.  Restrictions apply. 
more insightful perspectives regardless of presence of
noises.
Clustering is another prominent method used for
frequency analysis. Discovering communities of similar
interestscanbeperformedbyidentifyingclustersof users
based on their tag patterns. Well-known clustering
algorithms can be applied for this purpose. Hierarchical
clustering
[11], k-means
clustering
[12], and
deterministic annealing algorithms [13] are good
candidates. Other clustering algorithms can be found in
[14].
When selecting algorithms, performance is also a critical
issue in the frequency analysis since the dimension of
frequency matrix will exceed tens of thousands or even
more. Indeed, a few clustering algorithms have been
designed to deal with high-dimensional problems by
exploiting parallelism. For example, parallel hierarchical
clustering [15] and parallel k-means method [16] can be
found in literature. However, although the most recent
advent of multi-core technologies now supports intra-
chipparallelisms, verylittle researchhas beendonesofar
[17][18] on parallelizingandoptimizingthesealgorithms
onthese new chip architectures. More performance gains
can be obtained in the frequency analysis by adapting
those algorithms–LSA andvariousclusteringalgorithms
–tothemulti-coreenvironments.
5.5.Structural Analysis
In contrast to frequency analysis, which uses tag
frequencies in a vector space, the structural analysis
considers the tagging activities as a graph, described in
the graph model, and utilizes graph-structural properties
in the tag graph for discovering communities in a
collaborative tagging system. Compared with the data
used in the frequency analysis (i.e., frequency matrix),
the representation of data in a graph structure is more
intuitive and human-understandable. For this reason,
structural analysis may help users to find other
information that is not obtainable when performing the
frequency analysis. Example properties we may want to
find out are connectivity, connection distances between
users, size of communities, and the degree of strength of
aconnection.
In the literature, many graph-based algorithms can be
foundfor the structural analysis. Among them, FolkRank
[10] and graph-based clustering algorithms, as shown in
[19][20][21],areapplicableinour purpose.
The concept of FolkRankalgorithm, whichis a variantof
well-known PageRank algorithm of Google, is to assign
each node – which is a tag, a user, or a resource – a
system-wide numeric score, also known as a rank, by
measuring contributions or a degree of importance in
system. To obtain such rank scores, the algorithm starts
with random seeds of nodes and recursivelyfollows sub-
graphs by utilizing the graph structures of tagging. This
process is iteratively repeateduntilthescores convergeto
acertainthreshold.
Like other clustering algorithms used in the frequency
analysis, graph-based clustering algorithms, as shown in
[19][20][21], can be usedfor identifyor searchingsimilar
groupof peopleina system. Similarly, thereis very little
study in literature on parallel graph-based clustering
algorithms working on multi-core environments, so these
remainopenandimportantproblems.
6.SUMMARY AND FUTURE WORK
This paper describes the design and implementation of
the MSI-CIEC Networking Portal, a Web 2.0-style
taggingand socialnetwork style application. This work
is motivated by the need to support social networks of
researchers, particularlyatminorityservinginstitutions.
In addition to this practical motivation, we hope also to
use the portal as a laboratory for core computer science
workonsocialnetworkanalysis. As describedinSection
V, we are researching the application of various
techniques for clustering and mining the data we are
harvesting. Althoughsomeform of this is quite familiar
from many social Web sites, we hope to put the
techniques on a firm, open academic footing, avoiding
proprietaryandadhocalgorithms.
Thekeyproblem withmostsocialnetworkapplicationsis
the lack of interoperability, but this fortunately is
beginning to change.
The major social network
activities, Facebook and the Google-led Open Social
consortium, are both providing programming APIs that
allow developers to embedapplications in existingsocial
networks and, conversely, allow embedding social
network tools into other Web sites. It will be crucial for
our project, inthenext phase, toestablishinteroperability
withthesesocialnetworkingtools.
ACKNOWLEDGMENT
The MSI-CIEC portal is supported by the National
Science Foundation’s CITEAM project, Award Number
SCI-0537498.
265
Authorized licensed use limited to: Tsinghua University Library. Downloaded on August 05,2010 at 03:36:04 UTC from IEEE Xplore.  Restrictions apply. 
REFERENCES
[1] O’Reilly, Tim, “What Is Web 2.0: Design Patterns and
Business Models for the Next Generation of Software.”
2005.
Available
from
http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/
30/what-is-web-20.html.
[2] Pierce, Marlon E., Geoffrey Fox, Huapeng Yuan, and Yu
Deng, “Cyberinfrastructure and Web 2.0” Proceedings of
HPC2006 July42006CetraroItaly.
[3] Fox, Geoffrey C., Rajarshi Guha, Donald F. McMullen,
Ahmet Fatih Mustacoglu, Marlon E. Pierce, Ahmet E.
Topcu, and David J. Wild, “Web 2.0 for Grids and e-
Science.” INGRID 2007: Instrumenting the Grid. 2nd
International Workshop on Distributed Cooperative
Laboratories, S.Margherita Ligure Portofino, ITALY,
April 182007.
[4] Fox,Geoffrey,“Some CommentsonCiteULike,Connotea,
and Related Tools.” Community Grids Laboratory
Technical Report, January 1 2006. Available from
http://grids.ucs.indiana.edu/ptliupages/publications/ToolsE
valuation.doc.
[5] Fox,Geoffrey,Ahmet FatihMustacoglu,Ahmet E. Topcu,
Aurel Cami, “SRG: A Digital Document-Enhanced
ServiceOrientedResearchGrid”IRI2007:61-66.
[6] NSF Upcoming Funding Announcements RSS Feed:
http://www.nsf.gov/rss/rss_www_funding_upcoming.xml
[7] Halpin, H., Robu, V., and Shepherd, H. 2007. “The
complex
dynamics of collaborative tagging.” In
Proceedings of the 16th international Conference on
World Wide Web (Banff, Alberta, Canada, May 08 - 12,
2007).WWW'07.ACM,NewYork,NY,211-220.
[8] Deerwester,S.,Dumais,S.T., Furnas,G.W., Landauer,T.
K., & Harshman, R. (1990). “Indexing by latent semantic
analysis.” Journalof theAmericanSociety forInformation
Science,41(6),391-407.
[9] Grossman, David A. and Ophir Frieder. INFORMATION
RETREIVAL – ALGORITHMS AND HEURISTICS.
Springer.2004
[10] Hotho, A., R. Jaschke, C. Schmitz and G. Stumme,
"Information retrieval in folksonomies: Search and
ranking," The Semantic Web: Research and Applications,
vol.4011,pp.411-426,2006.
[11] Zhao, Y., G. Karypis and U. Fayyad, "Hierarchical
Clustering Algorithms for Document Datasets," Data
Mining and Knowledge Discovery, vol. 10, pp. 141-168,
2005.
[12] Ding, C. and X. He, "K-means clustering via principal
component analysis," ACM International Conference
ProceedingSeries,2004.
[13] Rose, K., “Deterministic Annealing for Clustering,
Compression, Classification, Regression and Related
Optimization Problems,” Proc. IEEE, vol. 86, pp. 2,210-
2,239,1998.
[14] Xu, R.andD. Wunsch, "Surveyof clustering algorithms,"
IEEETrans.NeuralNetworks,vol.16,pp.645-678,2005.
[15] Dahlhaus, E., "Parallel Algorithms for Hierarchical
Clustering and Applications to Split Decomposition and
ParityGraph Recognition," Journal of Algorithms, vol.36,
pp.205-240,2000.
[16] Stoffel, K. and A. Belkoniene, "Parallel K-Means
Clustering for Large Data Sets," Proceedings Euro-Par,
vol.99,pp.1451-1454,1999.
[17] Chu, C.T.,S.K. Kim,Y.A.Lin,Y.Y. Yu,G.Bradski,A.Y.
Ng, K. Olukotun and R. Inc, "Map-Reduce for Machine
Learning on Multicore," Advances in Neural Information
Processing Systems 19: Proceedings of the 2006
Conference,2007.
[18] Qiu, X., G.C. Fox, H. Yuan, S.H. Bae, G.
Chrysanthakopoulos, H.F. Nielsen and W. Redmond,
"High Performance Multi-Paradigm Messaging Runtime
Integrating Gridsand Multicore Systems," in Proceedings
of eScience2007Conference,Bangalore,India,2007.
[19] Karypis, G., E.H. Han and V. Kumar, "Chameleon:
hierarchical clustering
using
dynamic modeling,"
Computer,vol.32,pp.68-75,1999.
[20] Hartuv, E. and R. Shamir, "A clustering algorithm based
on graph connectivity," Information Processing Letters,
vol.76,pp.175-181,2000.
[21] Karypis, G., E.H. Han and V. Kumar, "Chameleon:
hierarchical clustering
using
dynamic modeling,"
Computer,vol.32,pp.68-75,1999.
266
Authorized licensed use limited to: Tsinghua University Library. Downloaded on August 05,2010 at 03:36:04 UTC from IEEE Xplore.  Restrictions apply. 
Documents you may be interested
Documents you may be interested