Sensors 2012, 12
9923
4.4. Gender
Another factor that could influence proxemics is the gender of the user. According to [44], it seems
that women prefer to be in front of the robot and men at the side. However, in our studies, we could
not corroborate this statement, since no significant differences between the boys’ and girls’ behaviors
were obtained.
4.5. Number of Users
Although the dialog system is designed to interact with one user, that is, it isnot possible to load more
than one profile at the same time, any user can actually talk to the robot and perform some interactions
in a cooperative mode. For this reason it is interesting to study the interactions in groups.
We have observed that, during interactions with more than one child, the children tend to be very
close to Maggie trying to catch the robot’s attention separately. In fact, it has been observed that the
same child who started to interact alone with the robot (situated far from it) approaches Maggie when
more classmates are included in the interaction (see Figure4).
Figure 4. Groupal interaction.
Besides, coordination tasks have also been observed, for example, with the musical and dance robot
skills. In thosesituations the children, with no external advice, tend to align themselves with Maggie and
imitate its dance steps (see Figure5) and therefore, their allocations with respect to the robot change.
Figure 5. Children mimic robot dance.
Pdf link - insert, remove PDF links in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Free C# example code is offered for users to edit PDF document hyperlink (url), like inserting and deleting
convert a word document to pdf with hyperlinks; add links in pdf
Pdf link - VB.NET PDF url edit library: insert, remove PDF links in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Help to Insert a Hyperlink to Specified PDF Document Page
add email link to pdf; add page number to pdf hyperlink
Sensors 2012, 12
9924
4.6. Proxemic Rules for User-Maggie Interaction
In this section, the extracted set of rules in relation to the interaction distance between the users and
the robot is presented. Those proxemic rules must be applied into our dialog system. Nevertheless, not
all the analyzed factors can be applied to the current implementation. The user’s personality could not
be taken into account due to lack of tools to observe it. Moreover, the gender has not been considered
since we did not find significant variations in the interaction distance with men and women. Finally, the
number of users during the interaction has not been taken into account, since we are only able to load a
user profile at a time.
In Figure6, the proxemic rules applied during the HRI are shown. As can be observed, when the
user greets the robot, two situations can emerge: that the user is identified (the robot has a user profile),
or not (the robot does not have a user profile). In the first case, the robot loads the user profile and the
user experience increases in one point. On the other hand, if the user is unknown, the robot asks them
to enroll in the system. In the case that the user does not want to create a profile, the robot maintains its
position at 3.6 m or more (personal space 4) from the user. On the contrary, if the user wants to register
in the system, a user profile is created. In this case, or if the user already has a profile, the robot, as an
initial position, situates between 120 to 364 cm (personal space 3). From this point and depending on
the age of the user and the experience, this distance varies (always within the personal space 3). If the
user is aged between 8 and 10, the distance is about 250 cm; otherwise, depending on their experience
(measured by the number of interactions), the distances vary from 120 to 225 cm.
Figure 6. Proxemic rules.
RasterEdge .NET Document Imaging Trial Package Download Link.
View & Process. XImage.Raster. Adobe PDF. XDoc.PDF. Scanning. XImage.OCR. Microsoft Office. View & Process. XImage.Raster. Adobe PDF. XDoc.PDF. Scanning. XImage.
add links to pdf acrobat; adding a link to a pdf
C# PDF Library SDK to view, edit, convert, process PDF file for C#
RasterEdge PDF SDK for .NET package offers robust APIs for editing PDF document hyperlink (url) and quick navigation link in PDF bookmark.
chrome pdf from link; add links to pdf in preview
Sensors 2012, 12
9925
5. User Localization System
In order to implement the user localization ability in the multimodal dialog system of our robot, it is
necessary to make a hardware and software description of the problem.
5.1. Hardware System: Used Sensors
An artificial sound source localization system, with just two microphones, is certainly imprecise. It is
difficult to differentiate if the sound comes from the front or from the back, and also, to get a high level
precision. However, a robot is not limited to use two microphones. In this sense, we have decided to use
eight microphones placed around Maggie’s base top in order to get a better approach to the localization
ability of the human auditory system. Moreover, this allocation improves the robustness to noises.
The eight directional microphones are connected to the computer through USB ports using two hubs.
These microphones are placed on the base of the robot, at 21 cm high, forming a perfect circumference
of 40 cm radius, see Figures7 and8.
Figure 7. Microphone layout in the robot Maggie.
Figure 8. Microphones in the robot Maggie.
In order to extract the sound features needed for the speech recognition, emotion detection, and user
identification, we use an additional microphone, a directional auricular wireless microphone, much less
exposed to the environmental noise [11].
How to C#: Basic SDK Concept of XDoc.PDF for .NET
XDoc.PDF for .NET allows C# developers to edit hyperlink of PDF document, including editing PDF url links and quick navigation link in bookmark/outline.
add hyperlinks to pdf online; adding links to pdf in preview
VB.NET PDF: Basic SDK Concept of XDoc.PDF
XDoc.PDF for .NET allows VB.NET developers to edit hyperlink of PDF document, including editing PDF url links and quick navigation link in bookmark/outline.
pdf link to specific page; pdf link to email
Sensors 2012, 12
9926
Theplacement of the microphones in the lowerpart of the robot has been decided due to two reasons:
first, because they are far from the speakers of the robot located in the neck; and second, because the
circularshapeof the baseof therobot favors the calculationsof the sound source localization algorithms.
It is important to notice that placing the microphones in the own structure of the robot favors the
sound source localization task, since the body acts as a barrier for the audible waves which do not come
directly to the closest microphone.
The farthest microphones from the sound sourcereceive alower intensity signal than those located in
front of the source.
Moreover, the audio devices associated to the microphones must always be charged in thesame order
to avoid their logic disorder in the Operative System (OS) that manages their signals.
As already said, the user localization system not only uses the sound as the unique information input
but also relies on visual information and distances to lower the error made by the auditory system. In
order to do this, we use an infrared telemeter laser, which gives us information about distances, and the
Kinect vision system, as shown in Section3.
5.2. Software System
The AD architecture runs over a Linux OS, more precisely Ubuntu 11.10, and a sound
architecture ALSA.
First, a calibration phase has been necessary. Each of the microphones has a different capture level
(intrinsic gain), although all of them belongs to the same model. Therefore, it is necessary to fix (by
trial and error) a uniform capture volume for all of them in the OS. Moreover, we must decide thesound
intensity level that corresponds to a sound coming from a source situated close to the robot, and the
average threshold of the human voice in order to differentiate it from the background noise.
The audio volume is sequentially checked over each microphone, at each iteration. For this reason,
it is necessary to read a low amount of frames (256 is a good value), in order to maintain the blocking
reading for each microphone as low as possible. In every iteration, 256 frames are read from each
microphone. This iteration is so fast that thereading is quite similar to asimultaneous reading (less than
30 ms).
Over these frames, using ALSA functions (The Advanced Linux Sound Architecture (ALSA)
provides audio and MIDI functionality to the Linux operating system), we calculate the sound intensity
level reached by each microphone. This process is repeated during the reading of a certain number of
iterations, five in our case, and we calculate an average value of the sound intensity read by each of the
microphones. If we use a higher number of iterations, instead of five, the system would be less reactive
to audible changes in the environment, since theaverage calculation will take more time than for a lower
number of iterations.
Once we have calculated an average intensity value for every microphone during a set of fixed
iterations, we check which microphone is the one that registers the highest intensity level. If this
intensity level exceeds a certain threshold, previously fixed to filter voice or any other relevant sounds
from the background, and the robot is not talking (since its own voice could be the sound source), then
we determine that the orientation of the sound source is the same as the selected microphone.
C# Raster - Raster Conversion & Rendering in C#.NET
clickable links in pdf; pdf email link
VB.NET Word: How to Process MS Word in VB.NET Library in .NET
Besides, here is the quick link for how to process Word document within We are dedicated to provide powerful & profession imaging controls, PDF document, image
adding hyperlinks to pdf files; clickable pdf links
Sensors 2012, 12
9927
The process described is specified in Algorithm1.
Algorithm 1 Sound source localization algorithm
Require: numMicrophones =8, numSamples =256, numIterations =5, voiceThreshold =1100
1:
int frames[numMicrophones][numSamples]
2:
int accumulatedVolume[numMicrophones]
fThe volume is computed or each microphone in several iterationsg
3:
for numIter   0 to numIterations do
4:
readAudioSamplesAllMicrophones(frames)
5:
for numMicro   0 to numMicrophones do
6:
for numSample   0 to numSamples do
7:
accumulatedVolume[numMicro] += frame[numMicro][numMuestra]
8:
end for
9:
end for
fLook for the microphone with more accumulated volumeg
10:
int microphoneWin = getMaximo(accumulatedVolume)
fIf robot is not speaking and accumulated volume of microphoneWin is upper the voiceThresh-
oldg
11:
if (accumulatedV olume[microphoneWin]  voiceThreshold) AND robotIsQuiet() then
12:
int angleSoundSource = (360/numMicrophones)*microphoneWin
13:
emit(angleSoundSource)
14:
end if
15:
end for
After the sound source localization system determines the orientation of the user, the localization
system based on laser measurements starts to work. This system allows the robot to move
forward/backward and is capable of measuring the interaction distances in relation to the user(s),
providing much more precision. This allows the robot to move closer to or away from the user with
high accuracy.
The laser, which is on-board Maggie, provides a cloud of points that corresponds with the distance
between the objects around and the laser sensor. Using this information, the robot chases the cloud
of points that matches the user’s legs. The exact distance and orientation to be maintained between
robot and user are provided by the dialog manager (the brain of the dialog system), based on the
proxemics studies about Maggie (shown in Section4), the information given by the user localization
module (described in Section6), and the user profiles.
Looking at thehuman behaviorduring anaturalvoiceinteraction, theprocessfollowed isquitesimilar.
First, we use the auditory system to approximately localize the orientation of the sound source (the
interlocutor), and to turn towards that orientation. Once the interlocutor is within our field of vision, the
vision system is used to determine the distance and theprecise orientation of the speaker. In our opinion,
it is not necessary to have a very heavy and expensive user localization system based only on audible
information, since our system is included inside a multimodal dialog system.
VB.NET PDF: Create PDF Document Viewer in C#.NET for Document
reading PDF document in ASP.NET web, .NET Windows Forms and mobile developing applications respectively. For more information on them, just click the link and
convert doc to pdf with hyperlinks; add link to pdf
VB.NET Word: VB Code to Create Word Mobile Viewer with .NET Doc
For the respective tutorials of these Document or Image Mobile Viewer in VB.NET prorgam, please link to see: PDF Document Mobile Viewer within VB.NET
add hyperlink pdf document; add url to pdf
Sensors 2012, 12
9928
5.3. Implementation of the User Localization Skill in the Multimodal Dialog System
As previously said, the user localization system is included in a very complete and complex
multimodal dialog system which controls the dialog flow, and so the HRI. This multimodal dialog
system controls ahuge number of features that must be considered during the dialog, such as the speech
recognition, speech synthesis, gestures generation, emotion recognition, etc. Another characteristic
also controlled by the multimodal dialog system is the one related to proxemics between the user and
the robot.
The sound source localization system described in the previous section is implemented in the AD
architecture using the “User localization module”. In Figure9 the complete multimodal dialog system
is presented as well as this module. As can be observed, this module not only receives the auditory
input, but also the visual and distance information. Then, it is able to do a multimodal fusion of all
this information and get a greater precision in user localization than the one obtained using only the
auditory information. Actually, for some authors, this cannot be considered as multimodal data fusion
since, according to them, this is the synergistic combination of multi-thread flow of data from multiple
heterogeneous sensorsto provide more reliable and accurate information (see[45]). Instead, our module
makes a sequential use of sensors.
Figure 9. Multimodal dialog system in AD.
Sensors 2012, 12
9929
The information processed and fused from the user localization module is given to the Multimodal
Fusion Module. This module organizes all the information received by the rest of modules in a
“macro-package” of processed information, which is formally sent to the dialog manager (IDiM) in
an xml text file. Conceptually, this process corresponds to what is called “communicative acts” [4648].
The dialog manager is the one that, using the processed sensorial information and adding the user
profile (age, language, experience, name, and dialog history), can make intelligent decisions related to
the spatial location of the robot in relation to the user.
Each of those modules is a skill in the AD architecture. Each of these skills can communicate with
the rest of skills in two ways: by passing messages (events) or by using a shared memory (known as
blackboard paradigm).
6. User Localization Experiments
6.1. The Sound Source Localization Module
In this section, we first present some experiments made only with the sound source localization
module (using just the auditory input) to determine its reliability degree. If the precision of the sound
localization is not good enough, it is quite difficult for themultimodal dialog system to determine aright
spatial position during the interaction.
The room where the experiments were carried out is 11.40  6.20  3.20 m, with a medium
reverberation due to the lack of furniture. In order to evaluate the sound source localization, a special
group ofpeopleisnot needed; therefore, the systemhas been tested by onemember of ourresearch team.
In this case, the user was situated at different distances from the robot, between 0.5 and 3 m. We did not
find significant variations of the accuracy of the results when the position of the user varies within the
range of 0.5 to 3 m. This is because the capture volume of the microphones situated on-board Maggie
is adjusted in such a way that they are able to correctly perceive a normal human voice tone at those
distances. The obtained results are the following:
 Error average value in sound source localization : 23:72
 Standard deviation in sound source localization: 25:82
These values may seem to be high, but we must consider that the final User Localization module uses
multimodal fusion, not just the auditory input. The major source of accuracy loss in a real environment
istheappearanceof undesired sounds, for example: the own sound generated by therobot when itmoves
or speaks, or even by its innerfans. In order to decrease the incidence of these problems we are currently
working on echo cancellation techniques and noise active reduction.
6.2. The User Localization Module
In order to prove the usefulness of the User Localization module in the multimodal dialog system,
some experiments were carried out to check if the robot moved correctly toward or away from the user.
For that purpose, the space around the robot was divided into four zones, see Figure10. In each zone a
different user is located at an initial distance between 0.5 and 3 m to the robot. The users were four team
Sensors 2012, 12
9930
members already registered in the system with different profiles: ages between 25 and 30, threemen and
one woman, and experience values between 2 and 150.
Figure 10. Localization Areas.
Figure 11. User Localization steps. (a) The user starts to talk to Maggie; (b) The User
Localization System, using the received sound signals from the microphones, decides the
angle of the user; (c) Maggie rotates toward the user position; (d) The Dialog Manager
based on the observations from the proxemics studies (see Figure6), the user localization
information (with the laser sensor), and the user profile (load later to identify the user) gives
commands to the motors of the base to maintain the proper distance to the user.
(a)
User talking
(b)
Sound Source Localization
(c)
Robot turns
(d)
Keep the distance
Sensors 2012, 12
9931
The dialog during the HRI starts by the user greeting the robot. Then, after detecting the approximate
orientation of the sound source (the user), the robot must turn the right angle and move toward the user,
maintaining a certain distance decided by the Dialog Manager. The precise interaction distance depends
on the proxemic studies and the user profile, as has been detailed in Section4.6. During the HRI, the
dialog system checks periodically the user location and, if the interaction distance varies considerably
(about 0.5 m with respect to the ideal computed distance), therobotmoves to the proper allocation again.
Note that the user was able to change position during the interaction, but the robot changes its position
only if the interaction distance changes considerably. This process is repeated for each of the four users
located in the four zones. An intuitive graphical description of the process can be seen in Figure11.
The results obtained with the user localization system (the sound source localization and
approximation using the telemeter laser) achieved a success of 87%. This means that, if there is one
user in each zone, and one of them begins to speak, the 87% of the times Maggie turns and moves to the
correct interaction zone(standard deviation of 12%)and maintains theproperinteraction distance. Those
results could be generalized to the other group of users, the children, according to the rules described in
Section4.6; however, it would be very interesting to verify them, evaluating the system with them in a
near future.
It is important to note that the errors are mainly caused by two factors: failure in the sound source
localization system (auditive systems) and/or errors in chasing the user’s leg, since sometimes the cloud
of points is lost or confused with another nearby object of similar shape. If the sound source error
is not very high, it can be corrected by the laser system, since it is able to chase the user although
he/she is not placed centered to the robot. Therefore, the main source of error is in the distinction
between objects, which are close to the user and the robot, and humans. Currently, we are working to fix
these problems, trying to distinguish between stationary objects (typically barriers) and moving objects
(typically human).
7. Conclusions and Future Works
The user localization system in addition with the proxemics research we carried out with real users
interacting with Maggie, have provided a proxemic ability to the multimodal dialog system presented
here. This ability is the one responsible for positioning Maggie at the right place during the HRI phase,
making this process much more natural. In this sense, the dialog system is able to adapt and to position
the robot at the most appropriate distance for each communicative situation. Both tasks outlined in this
paper are required to achieve this task: the user localization module, and the promexics study.
In order to localize the user, the robot first computes the position of the user using the sound source
localization system, which makes use of eight microphones.
The goal interaction distance is determined according to the extracted rules obtained from the
proxemic study, depending on the type of user, that is, their age, experience, etc. Once the robot has
turned itself to face the user, it positions itself at the goal distance from the user. The laser is used to
determine the approximate distance of the user and to maintain it close to the goal one.
Sensors 2012, 12
9932
In a near future, it is expected to get a greater sensorial fusion between the information provided by
the stereo vision and the multimodal dialog system. Therefore, Maggie will add to its dialog system,
based on voice and sounds, the benefits of the stereo vision.
In this paper, we have analyzed several factors related to the user which influence proxemics.
However, other factors related to the robot remain to be studied and tested, such as the shape of the
robot, colors, appearance, voice volume, weigh, etc. In this work we could not analyze them, since we
only used one robot for the experiments. We are currently building new robots using the same dialog
system, but with very different shapes. This will allow us to study how those external factors influence
proxemics in a near future.
Moreover, it would be very interesting to include a more flexible customization of the interaction
distance(personal space). Forexample, ifauser feelsuncomfortableat theinteraction distancecomputed
by thesystem, thisdistancewould bemarked asnotsuitablefor thisgiven user. It would bevery desirable
that the user could change her distance dynamically and naturally, using our dialog system.
Acknowledgments
The authors gratefully acknowledge the funds provided by the Spanish Government through the
project “A new approach to social robotics” (AROS), of MICINN (Ministry of Science and Innovation).
References
1. Yager, D.; Hoy, R. The cyclopean ear: A new sense for the praying mantis. Science 1986, 231,
727–729.
2. Hudspeth, A.J. The hair cells of the inner ear. Sci. Am. 1983, 248, 54–64.
3. Brown, A.C. The sense of rotation and the anatomy and physiology of the semicircular canals of
the internal ear. J. Anat. Physiol. 1874, 8, 327–331.
4. Dooling, R.; Popper, A. Hearing in birds and reptiles: An overview. In Comparative Hearing:
Reptiles and Birds; Springer-Verlag: New York, NY, USA, 2000; pp. 1–12.
5. Ross, R.J.; Smith, J.J.B. Detection of substrate vibrations by salamanders: Inner ear sense organ
activity. Can. J. Zool. 1978, 56, 1156–1162.
6. Nakadai, K.; Matsuura, D.; Okuno, H.; Kitano, H. Applying Scattering Theory to Robot Audition
System: Robust Sound Source Localization and Extraction. In Proceedings of the IEEE/RSJ
International Conference on Intelligent Robots and Systems, (IROS 2003), Las Vegas, NV, USA,
27–31 October 2003; Volume 2, pp. 1147–1152.
7. Nakadai, K.; Okuno, H.; Kitano, H. Real-Time Sound Source Localization and Separation for
Robot Audition. In Proceedings of the Seventh International Conference on Spoken Language
Processing, Denver, CO, USA, 16–20 September 2002.
8. Valin, J.; Michaud, F.; Rouat, J.; L´etourneau, D. Robust Sound Source Localization Using a
Microphone Array on A Mobile Robot. In Proceedings of the IEEE/RSJ International Conference
on Intelligent Robots and Systems, (IROS 2003), Las Vegas, NV, USA, 27–31 October 2003;
Volume 2, pp. 1228–1233.
Documents you may be interested
Documents you may be interested