mvc show pdf in div : Adding text to pdf online Library application class asp.net windows .net ajax 48c39a09-6f1b-4380-b5ad-7de0746e17e70-part1269

Gender Classification of Mobile Application Reviews 
Muhammad Mansur   Britton Wolfe 
mansms01@ipfw.edu   wolfeb@ipfw.edu 
Computer Science Dept. 
Indiana University-Purdue University Fort Wayne (IPFW) 
Introduction 
Demographic  information  plays  an  important  role  in  personalized  mobile  applications. 
Important attributes of the user such as age and gender that are directly useful for providing 
personalized services are not typically directly available. The advertising industry in particular 
requires new and better ways to target specific users with certain attributes. This project is 
exploring the possibility of predicting the gender of mobile application review authors from 
their text alone. 
Given the text of the review, the goal is to determine the gender of the review's author. The 
gender identification process can be divided into four steps (details in Figure 1). 
1)
Collecting a suitable corpus of text messages to be the dataset. 
2)
Identifying features that are significant indicators of gender. 
3)
Extracting feature values from each message automatically. 
4)
uilding a classification model to identify the author’s gender for a candidate text 
message. 
Adding text to pdf online - insert text into PDF content in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
XDoc.PDF for .NET, providing C# demo code for inserting text to PDF file
adding text to pdf online; add text in pdf file online
Adding text to pdf online - VB.NET PDF insert text library: insert text into PDF content in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Providing Demo Code for Adding and Inserting Text to PDF File Page in VB.NET Program
how to add text fields to a pdf document; how to enter text into a pdf
Gender Identification Process
Dataset Collection
Feature Extraction
Model Generation
Gender Identification
Cleaned Dataset
Feature Extractor
Data Pre-Processed
Name-Gender Converter
Labeled Dataset
Validation Set
Training Set
Classification Model
Testing Set
Best Gender Classifier
Internet
Web/Mobile App 
reviews
New Review
Feature Extractor
Feature Values of New Message
Result: Male/Female
Figure 1 
VB.NET PDF Page Insert Library: insert pages into PDF file in vb.
create a blank PDF page with related by using following online VB.NET Create new page to PDF document in both ASP.NET web server Support adding PDF page number.
add text to a pdf document; add text to pdf document in preview
VB.NET PDF Text Box Edit Library: add, delete, update PDF text box
NET Document Viewer, C# Online Dicom Viewer, C# Online Jpeg images VB.NET PDF - Add Text Box to PDF Page in VB VB.NET Users with Solution of Adding Text Box to
add text pdf file; add text boxes to pdf
Related work 
Work on authorship identification dates back to the 18th century when researchers suggested 
that authorship could be deduced by determining if one piece of text contained significantly 
longer words than another [8].  
Over the years, as computers became cheaper and more powerful, stylometry became a more 
acceptable and dominating tool for identifying authors. Although much research has been done 
on  authorship  identification  for  literary  and  forensic  applications  (e.g.,  [9],  [10], [11]),  very 
limited studies have specifically tackled online messages like web/mobile reviews.  
Related  work  [7]  uses  term-based  and  style-based  features  to  predict  the  gender  of  chat 
message text authors. The chat dataset used in this paper was collected from a chat server; 
messages were in Turkish and had an average length of 6.2 words per message. In their results, 
the Naive Bayesian classifier achieved the best accuracy of 84.2%.  
Some attributes  previously  analyzed  in  literature,  in  combination  with  gender,  include  age, 
educational  level,  language  origin  and  cultural background.  The  work  by  [1]  about  author-
property discovery in microblogs used a support vector machine-based classification algorithm 
over a set of socio-linguistic and lexical n-gram features. The model was applied to classifying 
user attributes, including gender, age, regional origin and political orientation. The researchers 
built their own annotated data of 500 users per class. Unlike the problem we address, this work 
was particularly confined to Twitter-style informal written text. 
A related but separate area of authorship attribution is author cohort attribution. This involves 
classifying an ensemble of text as belonging to a particular author cohort. The researchers in [5] 
worked on the investigation of authorship gender and language background cohort attribution 
mining, from e-mail text documents. The corpus of email documents were sourced from an 
academic organization and the final dataset contained 8820 email documents. In their study, 
they used a combination of stylometric and structural-specific features, together with a Support 
Vector Machine classier, as the learning algorithm for cohort analysis.  
Somewhat  similar  work  on  gender  identification  includes  [4],  where  the  paper talks  about 
classifying short internet text but the focus is more on finding reliable linguistic features that 
indicate gender. They use the Enron Dataset but their extracted dataset only contains a total of 
8970 emails. Their work shows that SVM performed the best using a set of psycho linguistic 
features. 
In our work, we use word-based stylometric features to classify gender with emphasis on small 
text authors from mobile/web application reviews. The final dataset is also much larger in this 
study than the researchers who used the Enron dataset for similar classifications. 
VB.NET PDF Library SDK to view, edit, convert, process PDF file
Support adding protection features to PDF file by adding password, digital signatures and redaction feature. Various of PDF text and images processing features
add text field to pdf; adding text to pdf file
VB.NET PDF Text Add Library: add, delete, edit PDF text in vb.net
Viewer, C# Online Dicom Viewer, C# Online Jpeg images VB.NET PDF - Annotate Text on PDF Page in Professional VB.NET Solution for Adding Text Annotation to PDF
add text pdf file acrobat; adding text fields to pdf
Methods 
We used the Enron email dataset to train the classifiers. This dataset contains 517, 431 e-mails 
collected over 3.5 years from about 150 users. 
Cleaning the Data 
A copy of the Enron email corpus [3] formatted for MongoDB was used as a starting point. The 
1.5GB of MongoDB data was cleaned up to extract only the “body” and “X-&rom” headers for 
each sent email (Figure 2).  
Next, we removed unwanted text in the emails like forwarded and reply texts, subscription/un-
subscription emails, images etc. Further cleaning included limiting the data to messages with 
between 50 and 1000 words. 
The dataset did not include gender information, just the names of the authors. Thus, we had to 
infer  gender  from  the  names.  A  name-gender  converter  module  was  developed  which 
automatically compared each name with a Social Security names database [6] to compute its 
nearest classification. The final data set consisted of 93, 265 messages, with 48, 460 of those 
from females and 44, 805 from males.
Figure 2 
C# PDF Text Box Edit Library: add, delete, update PDF text box in
for adding text box to PDF document in .NET WinForms application. A web based PDF annotation application able to add text box comments to adobe PDF file online
how to add text to a pdf file in reader; add text boxes to pdf document
C# PDF Annotate Library: Draw, edit PDF annotation, markups in C#.
C# source code for adding or removing annotation from PDF Support to take notes on adobe PDF file without Support to add text, text box, text field and crop
how to add text box to pdf document; adding text box to pdf
Features Used 
Based on human psychology research and past text mining research [4] a total of 399 suitable 
features based on function words were extracted from each email. Function words specify the 
attitude or mood of the speaker and are known to be reliable linguistic features that indicate 
gender. The  breakdown of function  words by category is shown in the table below  while a 
complete list can be found in Appendix A. 
Centering and Other Preprocessing 
To  ensure  all  features  are  treated  equally  in  the  classification  process,  normalization  was 
performed with each feature, centering it to have mean zero and scaling it to have a standard 
deviation of 1. The dataset was initially separated into an 80%/20% training/testing split and 
later to a 70%/15%/15% training/validation/testing split. 
Algorithm Details 
SVMs (Support Vector Machines) were used to as the classifiers. The software named LibSVM 
was used to accomplish this task. For model selection, we performed a grid-search on the C and 
gamma parameters, using a radial basis function (RBF) kernel throughout.  
Experimental Results 
We first trained the SVM model on the email dataset, using a validation set to pick the model 
parameters. We then evaluated the accuracy of the model on a held-out test set of emails from 
the Enron data set, as well as the text of 100 different reviews of Google Play applications. 
Tuning the Model 
To tune the model parameters, we randomly shuffled the email dataset and separated them 
into three groups. The training set was 70% of the emails, with the validation and testing sets 
each consisting of 15% of the  emails. For each value of  C in    
 and 
gamma in   
, we trained an SVM model (i.e., 110 models total). Figure 
C# PDF Page Insert Library: insert pages into PDF file in C#.net
Support adding and inserting one or multiple pages to Offer PDF page break inserting function. Free components and online source codes for .NET framework 2.0+.
how to add text field to pdf form; how to insert a text box in pdf
C# PDF insert image Library: insert images into PDF in C#.net, ASP
Access to freeware download and online C#.NET class source code. you solve this technical problem, we provide this C#.NET PDF image adding control, XDoc
how to enter text in pdf; add text pdf acrobat
 shows  the  accuracy  of  those  models  on  the  validation  set.  The  highest  accuracy  model 
classified 93.44% (13082/14000) of the validation examples correctly, with model parameters 
gamma=0.03125 and C=128. 
Evaluating the Model 
The best performing model on the validation set was then evaluated on the test data from the 
email data set, as well as on a set of application reviews. On the test data from the email data 
set,  the  accuracy  was  93.67%  (13081/13965),  very  close  to  the  93.44%  accuracy  on  the 
validation set. 
To evaluate the quality of the model on application reviews, we built a data set consisting of 
100  reviews  of  several  Google  Play applications.  The  following  table  shows  the  number  of 
reviews for each application: 
Application Name 
Number of reviews 
Candy crush 
Instagram 
Angry birds 
Minecraft 
Pandora 
Plants vs. Zombies 
ebay 
Fantasy football 
Figure 3: Validation accuracy of different model parameters 
Twitter 
Facebook 
Fruit Ninja 
Snapchat 
Simpson 
Words with friends 
10 
Scramble with friends free  11 
Tune in radio 
10 
NYTimes for Android 
Total 
100 
All of the reviews were selected to be at least 50 words. They were manually labeled with the 
correct gender based on the authors' pictures and login names. 57 of the 100 reviews were 
from males, with the  other  43 from  females.  Even though  the  model was trained  upon  an 
entirely different corpus (i.e., the Enron emails), it was able to predict 60% of the reviewers' 
genders correctly. 
Discussion of Results 
It is not surprising that the model performs worse on the reviews (60% accuracy) than on the 
emails (93% accuracy). There are several plausible reasons for this. For one, there is a different 
style of writing in a review than in an email. While training on a large set of reviews (instead of 
emails)  would  be  ideal, the  time-consuming process  of  extracting  and labeling the  reviews 
makes that infeasible for this project.  
Secondly, the set of authors is different for the application reviews and the Enron emails. While 
every person has a different style of writing, the model is expected to perform better when the 
training data contain a representative set of writing styles. This is related to the issue of cross-
corpus prediction, but not entirely the same. 
To investigate this issue, we conducted a different experiment where we trained SVM models 
using different combinations of C and gamma on 80% of the emails, but did not shuffle the data 
set. The remaining 20% of the emails are likely to differ substantially from the training set (e.g., 
in  authorship  or  topic),  even  though  they  come  from  the  same  corpus,  simply  because  of 
ordering effects in the corpus. The best accuracy we could achieve on the test set was 66.46%, 
 far  cry  from  the  93%  obtained  when  shuffling  the  data.  This  suggests  that  the  poor 
performance on the application reviews is not solely due to different purposes in the writing, 
but  also  due  to  the  fact  that  the  review  authors  are  not  represented  in  the  training  set. 
Furthermore, while the 93% test set accuracy on the emails is technically correct, that model 
might be fitting to particular authors, instead of focusing on general trends across authors. This 
is an important insight into careful experiment design, and an issue that is likely hidden in other 
research as well (e.g.,
[4]). 
Conclusions and Future Work 
A reasonable gender prediction model based on text alone can be built from email data. The 
results confirm that one  can get as high as 93% accuracy in predicting gender when the training 
data  set contains authors  who are also present in the test data  set. When the testing data 
contains new authors, the accuracy drops to 66%. When using the model trained on email to 
predict authors' genders for mobile application reviews, the accuracy is 60%. 
Training the model on a different type of text (email vs. application reviews) is not ideal, so one 
direction  for  future  work would be  to obtain a  set  of application reviews  with the authors' 
genders. However, because the majority of mobile application reviews are less than 50 words 
long, there simply might not be enough  information in the text of the review to determine 
gender with any reasonable accuracy.  However, online product reviews typically have more 
words than application reviews, so this method might be applicable to that domain. Even then, 
it could be helpful to include  in the training data some information  beyond the text of the 
review, like the user name and the user's picture or avatar.  
References 
[1] D. Rao, D. Yarowsky, A. Shreevats, and M. Gupta, “ lassifying Latent User Attributes in 
Twitter, ” in Proceedings of the 2nd International Workshop on Search and Mining User-
generated Contents, New York, NY, USA, 2010, pp. 37–44  
[2] Enron. (n.d.). Retrieved 2013, from cs.cmu.edu: https://www.cs.cmu.edu/~enron/ 
[3] mongodb-enron-email. (n.d.). Retrieved from http://mongodb-enron-email.s3-website-us-
east-1.amazonaws.com/ 
[4] N. Cheng, R. Chandramouli, and K. P. Subbalakshmi, “Author gender identification from text, 
” Digital Investigation, vol. 8, no. 1, pp. 78–88, Jul. 2011. 
[5] O. de Vel, M. Corney, A. Anderson, and G. Mohay, “Language and 'ender Author  ohort 
Analysis of E-mail for Computer Forensics, ” in In Proc. Digital Forensic Research Workshop, 
2002. 
[6] OCOMM.OCPT, “The United States Social Security Administration.” [Online]. Available: 
http://www.ssa.gov/. [Accessed: 12-Dec-2013]. 
[7] T. Kucukyilmaz, B. B. Cambazoglu, C. Aykanat, and F. Can, “ hat Mining for 'ender 
Prediction, ” in Proceedings of the 4th International Conference on Advances in Information 
Systems, Berlin, Heidelberg, 2006, pp. 274–283. 
[8] R. Zheng, J. Li, H. Chen, and Z. Huang, “A framework for authorship identification of online 
messages: Writing-style features and classification techniques, ” Journal of the American 
Society for Information Science and Technology, vol. 57, no. 3, pp. 378–393, 2006. 
[9] F. Mosteller and D. L. Wallace, Inference and Disputed Authorship: The Federalist. Addison-
Wesley Publishing Company, Inc., Reading, MA, 1964 
[10] D. Holmes, “A stylometric analysis of mormon scripture and related texts, ” Royal Statistical 
Society, vol. 155, pp. 91–120, 1992. 
[11] H. Baayen, H. van Halteren, A. Neijt, and F. Tweedie, “An experiment in authorship 
attribution, ” in Proceedings of the 6th International Conference on the Statistical Analysis of 
Textual Data, 2002. 
Appendix A 
This appendix lists the specific function words used as features: 
'all', 'howdy', 'consider', 'whoever', 'shoo', 'indeed', 'whoops', 'toward', 'cheerio', 'ouch', 'mid', 'yikes', 
'distracting', 'isnt', 'ugh', 'through', 'aw', 'during', 'yoicks', 'yes', 'heigh ho', 'next', 'its', 'phooey', 'alleluia', 
'aint', 'whose', 'now', 'yummy', 'opposite', 're', 'with', 'll', 'had', 'except', 'aloha', 'should', 'ciao', 'tush', 
'voila',  'fie', 'throughout', 'ours', 'of', 'has', 'might', 'worth', 'round', 'outside', 'hip', 'do',  'them', 'his', 
'somebody',  'to',  'yo',  'absent',  'very',  'than',  'aslant',  'myself',  'underneath',  'possibly',  'whichever', 
'cannot',  'they',  'werent',  'pip-pip',  'yourselves',  'yourself',  'him',  'nor',  'ahem',  'wont',  'regarding', 
'several', 'OK',  'd',  'humph',  'did',  'adorable', 'goodness', 'these',  'someone', 'she', 'hallelujah',  'each', 
'havent', 'hoy', 'gee', 'whomever', 'bah', 'viva', 'everyone', 'rats', 'eh', 'uh-huh',  'bravo', 'some', 'hail', 
'hush', 'touch', 'behold', 'minus', 'are', 'near',  'dear', 'unless', 'yippee', 'beyond', 'ourselves',  'special', 
'wonder', 'what', 'wahoo', 'divine', 'barring', 'for', 'past', 'wow', 'though', 'whoosh', 'below', 'per', 'yet', 
'everything',  'cripes',  'does',  'above',  'between',  'without',  'neither',  'gesundheit',  'mightnt',  'across', 
'either',  'be',  'we',  'after',  'amen',  'tut-tut',  'bleep',  'were',  'tut',  'quite',  'within',  'phew',  'whoa', 
'although', 'others', 'hers', 'from', 'along', 'beneath', 'both', 'jeez', 'crikey', 'bejesus', 'would', 'anything', 
'oh', 'via', 'many', 'could', 'adios', 'but', 'whoopee', 'bingo', 's', 'plus', 'arent', 'bothersome', 'boo', 'pshaw', 
'onto', 'or', 'around', 'considering', 'among', 'aha', 'dont', 'amid', 'sweet', 'into', 'ahoy', 'whatever', 'one', 
'down',  'charming',  'doesnt',  'amidst',  'another',  'couldnt',  'gosh',  'your', 'zap',  'everybody',  'behind', 
'little',  'towards',  'yay',  'her',  'whom',  'hurray',  'been',  'by',  'anyone',  'few',  'much',  'under',  'save', 
'besides',  'hem',  'themselves',  'lovely',  'was',  'until',  'more',  'himself',  'that',  'uh-oh',  'hum',  'atop', 
'nobody', 'huh', 'great', 'shoot', 'mine', 'athwart', 'hmm', 'inside', 'alas', 'because', 'ho', 'hadnt', 'shant', 
'despite',  'mustnt',  'herself',  'over',  'those',  'he',  'me',  'yoo-hoo',  'none',  'bye',  'wouldnt',  'unlike', 
'attaboy', 'this', 'ha-ha', 'up', 'us', 'duh', 'will', 'while', 'suppose', 'can', 'theirs', 'following', 'about', 'righto', 
'didnt', 'uh-uh', 'encore', 'at', 'and', 'versus', 've', 'wasnt', 'ah', 'is', 'alongside', 'it', 'against', 'an', 'woah', 
'cant', 'itself', 'out', 'something', 'have', 'in', 'ay', 'notwithstanding', 'eureka', 'any', 'as', 'if', 'hasnt', 'since', 
'no', 'whereas',  'when',  'yuk',  'scat',  'beside',  'till', 'other',  'astride',  'which', 'aboard',  'before',  'you', 
'really', 'concerning', 'nice', 'shouldnt', 'okay', 'hey', 'shall', 'may', 'begorra', 'who', 'upon', 'ooh', 'cheers', 
'most', 'amongst', 'nothing',  'pooh', 'on', 'man', 'a', 'doh',  'off',  'i', 'maybe', 'failing', 'well', 'anybody', 
'hello', 'like', 'hi', 'so', 'oops', 'hah', 'the', 'alack', 'yours', 'kind of', 'sort of', 'no one', 'each other', 'one 
another', 'now that', 'in order that', 'in case', 'even though', 'now that', 'even if', 'only if', 'whether or 
not', 'all hail', 'hey presto', 'jeepers creepers', 'gee whiz', 'lo and behold', 'my word', 'so long', 'hot dog', 
'on to', 'in front of', 'according to', 'in lieu of', 'ahead to', 'out from', 'in place of', ' as to ', 'out of', 'in spite 
of', 'aside from', 'outside of', 'on account of', 'because of', 'owing to', 'on behalf of', 'close to', 'prior to', 
'on top of', 'due to', 'pursuant to', 'except for', 'regardless of', 'far from', 'subsequent to', 'in to', 'as far 
as', 'as well as', 'apart from', 'inside of', 'by means of', 'instead of', 'in accordance with', 'near to', 'in 
addition to', 'next to', 'in case of', 'good heavens' 
Documents you may be interested
Documents you may be interested