pdf to image conversion using c# : Convert password protected pdf to normal pdf control software system azure winforms web page console COLI_a_001532-part199

Barr´on-Cede ˜no et al.
Plagiarism Meets Paraphrasing
We first composed a vector of 22 features to represent each source–plagiarism
pair in the P4P. Each feature corresponds to one paraphrase tag in our annotation,
and its weight is the relative frequency of the type in the pair. Because same-polarity
substitutions occur so often in many different plagiarism cases (this type represents
more than 45% of the paraphrase operations in the P4P corpus and 96% of the
plagiarism cases include them), however, they do not represent a good discriminat-
ing factor. This was confirmed by a preliminary experiment carried out considering
different values for k. Therefore, k-means was applied by considering 21 features
only.
We carried out 100 clustering procedures with different random initializations and
considering k= [2, 3,...20]. Our aim was twofold: (i) to obtain the best possible clusters
for every value of k and (ii) to determine the number of clusters to better organize the
cases. In order to determine a convenient value for k, we applied the elbow method
(cf. Ketchen and Shook 1996), which calculates the clusters’ distortion evolution (also
known as cost function) for different values for k. The inflection point, that is, “the
elbow,” was in k= 6.
On the basis of our findings, we analyze the characteristics of the resulting clusters.
Asummary is included in Figure 4. Although same-polarity substitutions are not taken
into account in the clustering, they obviously remain in the source–plagiarism pairs
and their numbers are displayed. They are similarly distributed among all the obtained
clusters and are the most frequent in all of them. Next, we describe the obtained results
in the clusters that show the most interesting insights from the perspective of the
paraphrase cases of plagiarism.
In terms of linguistic complexity, identical and semantics-based changes can be
considered as the extremes of the paraphrase continuum: absolute identicality and a
deep change in the form, respectively. In c
5
and c
2
, identical and semantic types are
the most frequent (after same-polarity substitutions), respectively, and more frequent
than in the other clusters.
24
Moreover, the most common type in c
3
is spelling and
format. We observed that 39.36% of the cases in spelling and format involve only case
changes that can be easily mapped to the identical types by a case-folding process.
In the other clusters, no relevant features are observed. In terms of quantitative com-
plexity, we consider the amount of paraphrase phenomena occurring in the source–
plagiarism pairs. It follows that c
5
contains the cases with the least phenomena on
average. The remaining clusters have a similar number of phenomena. For illustra-
tion purposes, Table 4 includes instances of source–plagiarism pairs from clusters c
2
and c
5
.
5.2 Results and Discussion
Our in-depth analysis uses F-measure, precision, and recall as evaluation measures (cf.
Section 4). Due to our interest in investigating the number of paraphrase plagiarism
cases that state-of-the-art systems for plagiarism detection succeed in detecting, we
pay special attention to recall.
As a starting point, Figure 5 (a) shows the evaluations computed by considering the
entire PAN-PC-10 corpus (Stein et al. 2011). The best recall values are around 0.70, with
very good values of precision, some of them above 0.90. The results, when considering
24 Identical and semantic fragments are also longer in the respectiveclusters than in the others.
937
Convert password protected pdf to normal pdf - C# PDF Password Library: add, remove, edit PDF file password in C#.net, ASP.NET, MVC, WinForms, WPF
Help to Improve the Security of Your PDF Document by Setting Password
protected pdf; convert password protected pdf to normal pdf online
Convert password protected pdf to normal pdf - VB.NET PDF Password Library: add, remove, edit PDF file password in vb.net, ASP.NET, MVC, WinForms, WPF
Help to Improve the Security of Your PDF Document by Setting Password
add password to pdf reader; create pdf password
Computational Linguistics
Volume 39, Number 4
inflectional
modal verb
derivational
spelling
same−polarity
synthetic/analytic
opposite−polarity
converse
diathesis
negation
ellipsis
coordination
subord. and nesting
punctuation
direct/indirect
sentence modality
syntax/discourse str
semantic
order
addition/deletion
identical
non−paraphrase
0.2
0.4
0.6
0.03
0.01
0.02
0.02
0.45
0.06
0.00
0.00
0.01
0.00
0.01
0.02
0.05
0.05
0.00
0.00
0.03
0.01
0.15
0.06
0.00
0.00
cluster c
0
µ = 14.28
cluster c
1
0.2
0.4
0.6
0.03
0.01
0.03
0.02
0.46
0.15
0.01
0.00
0.01
0.00
0.01
0.02
0.07
0.03
0.00
0.00
0.03
0.01
0.03
0.08
0.00
0.00
µ = 14.12
cluster c
2
0.2
0.4
0.6
0.02
0.01
0.02
0.02
0.47
0.03
0.01
0.00
0.01
0.01
0.01
0.02
0.05
0.07
0.01
0.00
0.04
0.10
0.03
0.07
0.00
0.00
µ = 13.53
inflectional
modal verb
derivational
spelling
same−polarity
synthetic/analytic
opposite−polarity
converse
diathesis
negation
ellipsis
coordination
subord. and nesting
punctuation
direct/indirect
sentence modality
syntax/discourse str
semantic
order
addition/deletion
identical
non−paraphrase
0.2
0.4
0.6
0.02
0.01
0.02
0.22
0.40
0.04
0.01
0.00
0.01
0.00
0.01
0.01
0.04
0.07
0.00
0.01
0.00
0.01
0.03
0.08
0.01
0.00
cluster c
3
µ = 13.76
cluster c
4
0.2
0.4
0.6
0.02
0.01
0.02
0.02
0.39
0.04
0.00
0.00
0.01
0.00
0.01
0.02
0.05
0.05
0.00
0.00
0.03
0.03
0.04
0.24
0.00
0.00
µ = 14.09
cluster c
5
0.2
0.4
0.6
0.01
0.00
0.01
0.02
0.75
0.01
0.00
0.00
0.01
0.00
0.01
0.00
0.01
0.01
0.00
0.00
0.01
0.01
0.01
0.02
0.12
0.01
µ =  7.68
Figure 4
Average relative frequency of the differentparaphrase phenomena in the source–plagiarism
pairs of each cluster. The feature that stands out inthe cluster and also with respectto the rest
of the clusters is represented by a darker bar (setting aside same-polarity substitutions). The
value ofµ refers to the average absolute number of phenomena per pair in each cluster.
only the simulated cases, thatis, those generated by manualparaphrasing, are presented
in Fig. 5 (b). In most of the cases, the quality of the detections decreases dramati-
cally compared with the results on the entire corpus, which also contains translated,
verbatim, and automatically modified plagiarism. Manually created cases seem to be
938
C# Image: How to Integrate Web Document and Image Viewer
RasterEdgeImagingDeveloperGuide8.0.pdf: from this user TextSize: 12, TextStyle :"normal"}); FreehandAnnoStyle = new public string fid; protected void Page_Load
password pdf; add copy protection pdf
C# TIFF: C#.NET Code to Create Online TIFF Document Viewer
create more web viewers on PDF and Word Arial", TextSize: 12, TextStyle :"normal"}); FreehandAnnoStyle = new mode; public string fid; protected void Page_Load
create copy protected pdf; pdf open password
Barr´on-Cede ˜no et al.
Plagiarism Meets Paraphrasing
Table4
Instances of source–plagiarism (src–plg) pairs in clusters c
2
and c
5
ofthe P4P corpus.Semantic
(identical) cases are highlighted incluster c
2
(c
5
). Subscripts link the corresponding source and
plagiarized fragments.
c
2
;case id: 9623
src
[“What a darling!”]
α
she said; “I must give her [something very nice]
β
.” She hovered a
moment over the child’s head, “She shall marry the man of her choice,” she said, “and
live happily ever after.”[There was a little stir among the fairies.]
γ
plg
[“Oh isn’t she sweet!”]
α
she said, thinking that she should present with [some kind of
special gift]
β
.Floating just above the little one’s head she declared that the child will
marry whoever she chooses and live happily ever after. [All of the other fairies found this
quite astonishing.]
γ
c
5
;case id: 9727
src
[On the contrary, by plunging the red-hot shells in the saline solution the greatest uniformity
is attained.]
α
[Instead of using clam shells as the base of my improved composition, I may use
other forms of sea shells– such as oyster shells, etc.]
β
[I claim as new:]
γ
1.
plg
[On the contrary, by plunging the red-hot shells in the saline solution the greatest uniformity
is attained.]
α
[Instead of using clam shells as the base of my improved composition, I may use
other forms of sea shells– such as oyster shells, etc.]
β
[I claim as new:]
γ
much harder to detect than the other, artificially generated, cases.
25
The difficulty of
detecting simulated cases of plagiarism in the PAN-PC-10 corpus was stressed by Stein
et al. (2011). This does not necessarily imply that automatically generated cases were
easy to detect. When the simulated cases in the PAN-PC-10 corpus were generated,
volunteers had specific instructions to create rewritings with a high obfuscation degree.
Figure 5 (c) shows the evaluation results when considering only the cases included in
the P4P corpus. Note that the shorter a plagiarized case is, the harder it seems to be to
detect (cf. Potthast et al. 2010, Table 6), and the P4P corpus is composed precisely of the
shortest cases of simulated plagiarism in the PAN-PC-10; that is, cases no longer than
50 words.
Figures 6 and 7 show the evaluations computed by considering the 6 clusters of the
P4P corpus. We focus on the comparison between the results obtained in the extreme
cases: c
5
versus c
2
. Cluster c
5
, which constitutes the lowest linguistic (relevance of
identical cases) and quantitative (less paraphrase phenomena) complexity, is the one
containing plagiarism cases that are easiest to detect. Cluster c
2
, which constitutes
the highest linguistic complexity (relevance of the semantics-based changes), is the
one containing the most difficult plagiarism cases to detect. The results obtained over
cluster c
3
are the nearest to those of c
5
,as the high presence of spelling and format
changes (most of which are similar to identical cases) causes a plagiarism detector
to have relatively more success in detecting them. These results are clearly observed
through the values of recall obtained by the different detectors. Moreover, a relation
25 This canbe appreciated when lookingat thedifference of capabilities of the system applied at the 2009
and 2010 competitions byGrozea, Gehl, and Popescu (2009) and Grozea and Popescu (2010a), practically
the same implementation. At the first competition, which corpus included artificial cases only, its recall
was of 0.66, whereas in the second one, with simulated (i.e., paraphrastic) cases, it decreased to0.48.
939
C# Word: How to Create Word Online Viewer in C# Application
creating, you can go to PDF Web Viewer Arial", TextSize: 12, TextStyle :"normal"}); FreehandAnnoStyle = new mode; public string fid; protected void Page_Load
pdf user password; break pdf password
C# DICOM - How to Create Web Viewer
Allow C#.NET users to save or print (convert) web DICOM file to TIFF or PDF file. public string mode; public string fid; protected void Page_Load(object
create password protected pdf online; add password to pdf
Computational Linguistics
Volume 39, Number 4
(a)
Kasprzak
Zou
Muhr
Grozea
Oberreuter
Rodriguez
Corezola
Palkovskii
Sobha
Gottron
Micol
Costa−jussa
Nawab
Gupta
Vania
Suarez
Alzahrani
0
0.5
1
0.80
0.74
0.77
0.63
0.61
0.59
0.53
0.52
0.45
0.39
0.38
0.23
0.24
0.22
0.40
0.09
0.09
F−measure
0
Precision
0
0.5
1
0.94
0.91
0.84
0.91
0.85
0.85
0.73
0.78
0.96
0.51
0.93
0.18
0.40
0.50
0.91
0.13
0.35
Recall
0
0.5
1
0.69
0.63
0.71
0.48
0.48
0.45
0.41
0.39
0.29
0.32
0.24
0.30
0.17
0.14
0.26
0.07
0.05
overall(PAN-PC-10)
(b)
Kasprzak
Zou
Muhr
Grozea
Oberreuter
Rodriguez
Corezola
Palkovskii
Sobha
Gottron
Micol
Costa−jussa
Nawab
Gupta
Vania
Suarez
Alzahrani
0
0.5
1
0.23
0.20
0.22
0.28
0.21
0.18
0.10
0.08
0.07
0.05
0.19
0.05
0.27
0.08
0.07
0.02
0.01
F−measure
Precision
0
0.5
1
0.33
0.19
0.19
0.33
0.17
0.18
0.08
0.06
0.14
0.23
0.28
0.03
0.28
0.13
0.07
0.01
0.01
Recall
0
0.5
1
0.18
0.22
0.26
0.25
0.27
0.18
0.13
0.10
0.05
0.03
0.14
0.23
0.26
0.06
0.08
0.07
0.01
simulated
(c)
Kasprzak
Zou
Muhr
Grozea
Oberreuter
Rodriguez
Corezola
Palkovskii
Sobha
Gottron
Micol
Costa−jussa
Nawab
Gupta
Vania
Suarez
Alzahrani
0.25
0.5
0.02
0.03
0.06
0.02
0.02
0.00
0.00
0.00
0.00
0.01
0.04
0.02
0.05
0.01
0.00
0.00
0.01
F−measure
Precision
0.25
0.5
0.01
0.02
0.04
0.02
0.02
0.00
0.00
0.00
0.00
0.01
0.04
0.01
0.04
0.01
0.00
0.00
0.01
Recall
0.25
0.5
0.02
0.04
0.09
0.03
0.06
0.01
0.05
0.00
0.01
0.01
0.04
0.13
0.12
0.01
0.00
0.07
0.00
sample(P4P)
Figure 5
Evaluation of the Pan-10 competition participants’ plagiarism detectors. Figures show
evaluations over: (a) entire PAN-PC-10 corpus (including artificial, translated, and simulated
cases); (b) simulated cases only; and (c) sample of simulated cases annotated on the basis of the
paraphrases typology: the P4P corpus. Note the change of scale in (c).
940
C# Excel: Tutorial for Web Excel Document Viewer Creation
viewer to load, view, annotate, convert and save Support saving modified Excel document PDF and TIFF string mode; public string fid; protected void Page_Load
break pdf password online; pdf print protection
C# PowerPoint: Create Web Document Viewer for PowerPoint Viewing
are entitled to view, annotate, and convert PowerPoint document saving web PowerPoint document to PDF and TIFF. mode; public string fid; protected void Page_Load
adding a password to a pdf; pdf protected mode
Barr´on-Cede ˜no et al.
Plagiarism Meets Paraphrasing
(a)
Kasprzak
Zou
Muhr
Grozea
Oberreuter
Rodriguez
Corezola
Palkovskii
Sobha
Gottron
Micol
Costa−jussa
Nawab
Gupta
Vania
Suarez
Alzahrani
0.25
0.5
0.00
0.01
0.02
0.01
0.01
0.00
0.00
0.00
0.00
0.00
0.02
0.01
0.03
0.00
0.00
0.00
0.00
F−measure
Precision
0.25
0.5
0.00
0.01
0.01
0.01
0.00
0.00
0.00
0.00
0.00
0.00
0.02
0.01
0.01
0.00
0.00
0.00
0.00
Recall
0.25
0.5
0.00
0.01
0.04
0.01
0.05
0.00
0.10
0.01
0.00
0.00
0.03
0.17
0.13
0.00
0.00
0.10
0.00
clusterc0
(b)
Kasprzak
Zou
Muhr
Grozea
Oberreuter
Rodriguez
Corezola
Palkovskii
Sobha
Gottron
Micol
Costa−jussa
Nawab
Gupta
Vania
Suarez
Alzahrani
0.25
0.5
0.00
0.01
0.03
0.01
0.01
0.00
0.00
0.00
0.00
0.00
0.02
0.01
0.03
0.01
0.00
0.00
0.00
F−measure
Precision
0.25
0.5
0.00
0.01
0.02
0.01
0.01
0.00
0.00
0.00
0.00
0.00
0.01
0.00
0.02
0.01
0.00
0.00
0.00
Recall
0.25
0.5
0.02
0.04
0.07
0.03
0.06
0.01
0.09
0.00
0.02
0.00
0.04
0.10
0.09
0.01
0.00
0.07
0.01
clusterc1
(c)
Kasprzak
Zou
Muhr
Grozea
Oberreuter
Rodriguez
Corezola
Palkovskii
Sobha
Gottron
Micol
Costa−jussa
Nawab
Gupta
Vania
Suarez
Alzahrani
0.25
0.5
0.00
0.01
0.02
0.00
0.01
0.00
0.00
0.00
0.00
0.00
0.01
0.01
0.01
0.00
0.00
0.00
0.00
F−measure
Precision
0.25
0.5
0.00
0.00
0.01
0.00
0.01
0.00
0.00
0.00
0.00
0.00
0.01
0.01
0.01
0.00
0.00
0.00
0.00
Recall
0.25
0.5
0.00
0.02
0.04
0.00
0.04
0.01
0.02
0.00
0.00
0.00
0.02
0.08
0.03
0.00
0.00
0.07
0.00
clusterc2
Figure 6
Evaluation of the Pan-10 competition participants’ plagiarism detectors for (a) c
0
;(b) c
1
;
and (c) c
2
.
between recall and precision exists: In general terms, high values of recall come with
higher values of precision. To sum up, there exists a correlation between linguistic and
quantitative complexity and performance of the plagiarism detection systems: More
complexity implies worse performance of the systems.
941
Computational Linguistics
Volume 39, Number 4
Interestingly, the best performing plagiarism detection systems on the P4P corpus
are not the ones that performed the best at the Pan-10 competition. By still considering
recall only, the best approaches on the P4P corpus, those of Costa-juss`a et al. (2010)
and Nawab, Stevenson, and Clough (2010) (Figure 5 (c)), are far from the top detectors
(a)
Kasprzak
Zou
Muhr
Grozea
Oberreuter
Rodriguez
Corezola
Palkovskii
Sobha
Gottron
Micol
Costa−jussa
Nawab
Gupta
Vania
Suarez
Alzahrani
0.25
0.5
0.01
0.04
0.10
0.02
0.01
0.00
0.00
0.00
0.00
0.01
0.10
0.02
0.06
0.02
0.00
0.00
0.02
F−measure
Precision
0.25
0.5
0.01
0.03
0.07
0.02
0.01
0.00
0.00
0.00
0.00
0.01
0.09
0.01
0.03
0.02
0.00
0.00
0.02
Recall
0.25
0.5
0.01
0.08
0.17
0.04
0.07
0.00
0.00
0.00
0.01
0.01
0.10
0.19
0.20
0.02
0.00
0.08
0.02
clusterc3
(b)
Kasprzak
Zou
Muhr
Grozea
Oberreuter
Rodriguez
Corezola
Palkovskii
Sobha
Gottron
Micol
Costa−jussa
Nawab
Gupta
Vania
Suarez
Alzahrani
0.25
0.5
0.00
0.01
0.03
0.01
0.01
0.00
0.00
0.00
0.00
0.00
0.02
0.01
0.03
0.00
0.00
0.00
0.00
F−measure
Precision
0.25
0.5
0.00
0.00
0.03
0.01
0.01
0.00
0.00
0.00
0.00
0.00
0.02
0.01
0.02
0.00
0.00
0.00
0.01
Recall
0.25
0.5
0.00
0.02
0.06
0.01
0.03
0.00
0.04
0.01
0.00
0.00
0.02
0.12
0.09
0.00
0.00
0.07
0.00
clusterc4
(c)
Kasprzak
Zou
Muhr
Grozea
Oberreuter
Rodriguez
Corezola
Palkovskii
Sobha
Gottron
Micol
Costa−jussa
Nawab
Gupta
Vania
Suarez
Alzahrani
0.25
0.5
0.12
0.13
0.15
0.09
0.10
0.01
0.00
0.00
0.02
0.07
0.11
0.02
0.15
0.02
0.01
0.00
0.01
F−measure
Precision
0.25
0.5
0.08
0.09
0.10
0.06
0.06
0.00
0.00
0.00
0.02
0.07
0.10
0.01
0.09
0.01
0.00
0.00
0.01
Recall
0.25
0.5
0.19
0.23
0.35
0.17
0.24
0.03
0.08
0.00
0.02
0.06
0.13
0.21
0.40
0.03
0.03
0.07
0.01
clusterc5
Figure 7
Evaluation of the Pan-10 competition participants’ plagiarism detectors for (a) c
3
;(b) c
4
;
and (c) c
5
.
942
Barr´on-Cede ˜no et al.
Plagiarism Meets Paraphrasing
in the competition (Figure 5 (a). On the one hand, Nawab, Stevenson, and Clough (2010)
apply greedy string tiling, which aims at detecting as long as possible identical frag-
ments. As a result, this approach clearly outperforms the rest of detectors when dealing
with cases with a high density of identicalfragments (c
5
in Figure 7). On the other hand,
the approach of Costa-juss`a et al. (2010) outperform the others when dealing with the
cases in the remaining clusters. The reasons are twofold: (i) their pre-processing strategy
(which includes case-folding, stopword removal, and stemming) looks at minimizing
the differences in the form caused by some paraphrase operations; (ii) their technique
based on dot–plot (which considers isolated words) is flexible enough to identify frag-
ments that share some identical words only. Cluster c
3
is again somewhere in between c
5
and c
2
.The results by Nawab, Stevenson, andClough (2010) and Costa-juss`a et al. (2010)
are very similar in this case. The former shows a slightly better performance because the
system is goodat detecting identical cases and they have a high presence in spelling and
format changes.
The best overall performance system (Grozea and Popescu 2010a) and the best
system when dealing with paraphraseplagiarism (Costa-juss`a et al. 2010) are both based
on the dot–plot technique. Whereas Grozea and Popescu (2010a) use character 16-grams
without any pre-processing, Costa-juss`a et al. (2010) apply case-folding, stopword re-
moval, and stemming pre-processing, and use word 1-grams. This latter approach is
much more flexible than the former one in terms of paraphrase plagiarism detection.
6. Conclusions and Future Insights
The starting point of this article is that paraphrasing is the linguistic mechanism many
plagiarism cases rely on. Our aim was to investigate why paraphrase plagiarism is so
difficult to detect by state-of-the-art plagiarism detectors, and, especially, to understand
which types of paraphrases underlie plagiarism acts, which are the most challenging,
and how to proceed to improve plagiarism detection systems.
In order to analyze the break-down of the detection systems when aiming at
detecting paraphrase plagiarism, we annotated a subset of the manually simulated
plagiarism cases in the PAN-PC-10 corpus with a paraphrase typology, spawning the
P4P corpus. P4P is the only available collection of plagiarism cases manually annotated
with paraphrase types, constituting a new resource for the computational linguistics
communities interested in paraphrasing and plagiarism.
On the basis of this annotation, we grouped together plagiarism cases with a similar
distribution of paraphrase mechanisms. In the light of these groupings, the performance
of the systems in the Second International Competition on Plagiarism Detection was
analyzed. The resulting insights are the following: (a) there exists a correlation between
the linguistic (i.e., kind of paraphrases) and the quantitative (i.e., amount of para-
phrases) complexity and performance of the plagiarism detection systems: More com-
plexity results in a worse performance of the systems; (b) same-polarity substitutions
and addition/deletion are the mechanisms used the most when plagiarizing; and (c)
plagiarized fragments tend to be shorter than their source. Interestingly, the latter two
insights hold when analyzing real cases of paraphrase plagiarism and text re-use.
These results can be used to guide future efforts in automatic plagiarism detection.
On the basis of the idea that solving the most frequent paraphrase mechanisms means
solving most paraphrase plagiarism cases, and given that same-polarity substitutions
and addition/deletion are the most used paraphrase mechanisms by far, we have
identified the following promising lines for future research: (i) an appropriate use of
943
Computational Linguistics
Volume 39, Number 4
already existing lexical knowledge resources, such as WordNet
26
and Yago
27
;(ii) the
development and exploitation of new empirically built resources, such as a lexicon of
paraphrase expressions that could be easily obtained from the P4P and other corpora
annotated at the paraphrase level; and (iii) the application of measures for estimating
the expected length of a plagiarized fragment given its source.
Acknowledgments
We would like to thank the people who
participated in the annotation of the P4P
corpus, Horacio Rodr´ıguez for his helpful
advice as experienced researcher, and the
reviewers of this contribution for their
valuable comments to improve this article.
This research work was partially carried out
during the tenure of an ERCIM “Alain
Bensoussan” Fellowship Programme. The
research leading to these results received
funding from the EU FP7 Programme
2007–2013 (grant no.246016), the MICINN
projects TEXT-ENTERPRISE 2.0 and
TEXT-KNOWLEDGE 2.0(TIN2009-13391),
the EC WIQ-EI IRSES project (grant no.
269180), and the FP7 Marie Curie People
Programme.The research work of
A. Barr´on-Cede˜no and M. Vila was financed
by the CONACyT-Mexico 192021 grant
and the MECD-Spain FPU AP2008-02185
grant, respectively. The research work of
A. Barr´on-Cede˜no was partially done in the
framework of his Ph.D. at the Universitat
Polit`ecnica de Val`encia.
References
Alzahrani, Salha and Naomie Salim. 2010.
Fuzzy semantic-based string similarity for
extrinsic plagiarism detection. In Notebook
Papers of CLEF 2010 LABs and Workshops,
Padua. Available at: www.informatik.
uni-trier.de/ley/db/conf/clef/
clef2010w.html.
Association of Teachers and Lecturers. 2008.
School work plagued by plagiarism—ATL
survey. Technical report, Association of
Teachers and Lecturers, London, UK.
Available at: www.atl.org.uk/Images/
FrontlineSpring08.pdf.
Barr´on-Cede˜no, Alberto, Paolo Rosso,
Eneko Agirre, and Gorka Labaka. 2010.
Plagiarism detection across distant
language pairs. In Proceedings of the 23rd
International Conference on Computational
Linguistics (COLING 2010), Beijing,
pages 37–45.
Barzilay, Regina. 2003. Information Fusion for
Multidocument Summarization: Paraphrasing
and Generation. Ph.D. thesis, Columbia
University, New York.
Barzilay, Regina and Lillian Lee. 2003.
Learning to paraphrase: An unsupervised
approach using multiple-sequence
alignment. In Proceedings of the Human
Language Technology and North American
Association for Computational Linguistics
Conference (HLT/NAACL 2003),
pages 16–23, Edmonton.
Barzilay, Regina and Kathleen R. McKeown.
2001. Extracting paraphrases from a
parallel corpus. In Proceedings of the 39th
Annual Meeting of the Association for
Computational Linguistics (ACL 2001),
pages 50–57, Toulouse.
Barzilay, Regina, Kathleen R. McKeown,
and Michael Elhadad. 1999. Information
fusion in the context of multi-document
summarization. In Proceedings of the 37th
Annual Meeting of the Association for
Computational Linguistics (ACL 1999),
pages 550–557, College Park, MD.
Bhagat, Rahul. 2009. Learning Paraphrases
from Text. Ph.D. thesis, University of
Southern California, Los Angeles.
Burrows, Steven, Martin Potthast, and
Benno Stein. 2012. Paraphrase acquisition
via crowdsourcing and machine learning.
ACM Transactions on Intelligent Systems
and Technology.
Cheung, Mei Ling Lisa. 2009. Merging
Corpus Linguistics and Collaborative
Knowledge Construction. Ph.D.thesis,
University of Birmingham,
Birmingham.
Chomsky, Noam. 1957. Syntactic Structures.
Mouton & Co., The Hague/Paris.
Clough, Paul. 2000. Plagiarism in
natural and programming languages:
An overview of current tools and
technologies. Technical Report CS-00-05,
Department of Computer Science,
University of Sheffield, Sheffield, UK.
Clough, Paul. 2003. Old and new challenges
in automatic plagiarism detection.
26 http://wordnet.princeton.edu.
27 http://www.mpi-inf.mpg.de/yago-naga/yago/.
944
Barr´on-Cede ˜no et al.
Plagiarism Meets Paraphrasing
Technical report, National UK Plagiarism
Advisory Service, UK.
Clough, Paul, Robert Gaizauskas,
and Scott Piao. 2002. Building and
annotating a corpus for the study of
journalistic text reuse. In Proceedings
of the 3rd International Conference on
Language Resources and Evaluation
(LREC 2002), volume V, pages 1,678–1,691,
Las Palmas.
Cohn, Trevor, Chris Callison-Burch,and
Mirella Lapata. 2008. Constructing corpora
for the development and evaluation of
paraphrase systems. Computational
Linguistics, 34(4):597–614.
Comas, Rub´en, Jaume Sureda, Candy Nava,
and Laura Serrano. 2010. Academic
cyberplagiarism: A descriptive and
comparative analysis of the prevalence
amongst the undergraduate students at
Tecmilenio University (Mexico) and
Balearic Islands University (Spain).
In Proceedings of the International Conference
on Education and New Learning Technologies
(EDULEARN’10), pages 3,450–3,455,
Barcelona.
Corezola Pereira, Rafael, Viviane P.
Moreira, and Renata Galante. 2010.
UFRGS@PAN2010: Detecting external
plagiarism lab report for PAN at CLEF
2010. In Notebook Papers of CLEF 2010
LABs and Workshops, Padua. Available at:
www.informatik.uni-trier.de/ley/
db/conf/clef/clef2010w.html.
Costa-juss`a, Marta R., Rafael E. Banchs,
Jens Grivolla, and JoanCodina. 2010.
Plagiarism detection using information
retrieval and similarity measures based
on image processing techniques.
In Notebook Papers of CLEF 2010 LABs
andWorkshops, Padua. Available at:
www.informatik.uni-trier.de/ley/
db/conf/clef/clef2010w.html.
Dolan, William B. and Chris Brockett. 2005.
Automatically constructing a corpus of
sentential paraphrases. In Proceedings
of the Third International Workshop on
Paraphrasing (IWP 2005), pages 9–16,
Jeju Island.
Dorr, Bonnie J., Rebecca Green, Lori Levin,
Owen Rambow, David Farwell, Nizar
Habash, StephenHelmreich, Eduard Hovy,
Keith J. Miller, Teruko Mitamura, Florence
Reeder, and Advaith Siddharthan. 2004.
Semantic annotation and lexico-syntactic
paraphrase. In Proceedings of the LREC
Workshop on Building Lexical Resources
from Semantically Annotated Corpora,
pages 47–52, Lisbon.
Dras, Mark. 1999. Tree Adjoining Grammar
andthe Reluctant Paraphrasing of Text.
Ph.D. thesis, Macquarie University,
Sydney.
Dutrey,Camille, Delphine Bernhard,
HoudaBouamor, and Aur´elien Max. 2011.
Local modifications and paraphrases in
Wikipedia’s revision history. Procesamiento
del Lenguaje Natural, 46:51–58.
Espa˜na-Bonet, Cristina,Marta Vila,
Horacio Rodr´ıguez, and M. Ant`onia Mart´ı.
2009. CoCo, a Web interface for corpora
compilation. Procesamiento del Lenguaje
Natural, 43:367–368.
Faigley, Lester and Stephen Witte. 1981.
Analyzing revision. College Composition
andCommunication, 32(4):400–414.
Fujita, Atsushi. 2005. Automatic Generation of
Syntactically Well-formed and Semantically
Appropriate Paraphrases. Ph.D. thesis,
Nara Institute of Science and
Technology, Nara.
Gottron, Thomas. 2010. External plagiarism
detection based on standard IR.
Technology and fast recognition of
common subsequences. In Notebook Papers
of CLEF 2010 LABs and Workshops, Padua.
Available at: www.informatik.uni-
trier.de/ley/db/conf/clef/
clef2010w.html.
Grozea, Cristian, ChristianGehl, and
Marius Popescu. 2009. ENCOPLOT:
Pairwise sequence matching in linear
time applied to plagiarism detection.
In Proceedings of the SEPLN 2009
Workshop on Uncovering Plagiarism,
Authorship, and Social Software Misuse
(PAN 2009), San Sebastian, pages 10–18.
Grozea, Cristianand Marius Popescu.
2010a. ENCOPLOT—Performance in the
Second International Plagiarism Detection
Challenge lab report for PAN at CLEF
2010. In Notebook Papers of CLEF 2010 LABs
andWorkshops, Padua. Available at:
www.informatik.uni-trier.de/ley/
db/conf/clef/clef2010w.html.
Grozea, Cristianand Marius Popescu. 2010b.
Who’s the thief? Automatic detection of
the direction of plagiarism. Computational
Linguistics andIntelligent Text Processing,
10th International Conference, LNCS
(6008):700–710.
G¨ulich, Elisabeth. 2003.Conversational
techniques used in transferring knowledge
between medical experts and non-experts.
Discourse Studies, 5(2):235–263.
Gupta, Parth, Rao Sameer, and Prasenjit
Majumdar. 2010. External plagiarism
detection: N-gram approach using named
945
Computational Linguistics
Volume 39, Number 4
entity recognizer. Lab report for PAN at
CLEF 2010. In Notebook Papers of CLEF 2010
LABs and Workshops, Padua. Available
at: www.informatik.uni-trier.de/ley/
db/conf/clef/clef2010w.html.
Harris, Zellig. 1957. Co-occurence and
transformation in linguistic structure.
Language, 3(33):283–340.
IEEE. 2008. A Plagiarism FAQ.
[http://www.ieee.org/publications
standards/publications/rights/
plagiarism
FAQ.html]. Last accessed
25 November 2012.
Kasprzak, Jan and Michal Brandejs. 2010.
Improving the reliability of the plagiarism
detection system. Lab report for PAN at
CLEF 2010. In Notebook Papers of CLEF 2010
LABs and Workshops, Padua. Available at:
www.informatik.uni-trier.de/ley/
db/conf/clef/clef2010w.html.
Ketchen, David J. and Christopher L. Shook.
1996. The application of cluster analysis in
strategic management research: An
analysis and critique. Strategic Management
Journal, 17(6):441–458.
Levin, Beth. 1993. English Verb Classes and
Alternations: A Preliminary Investigation.
University of Chicago Press, Chicago, IL.
MacQueen, J. B. 1967. Some methods for
classification and analysis of multivariate
observations. Proceedings of the Fifth
Berkeley Symposium on Mathematical
Statistics and Probability, volume 1,
pages 281–297, Berkeley.
Martin, Brian. 2004. Plagiarism: Policy
against cheating or policy for learning?
Nexus (Newsletter of the Australian
Sociological Association), 16(2):15–16.
Maurer, Hermann, Frank Kappe, and Bilal
Zaka. 2006. Plagiarism—A survey. Journal
of Universal Computer Science,
12(8):1,050–1,084.
Max, Aur´elien and Guillaume Wisniewski.
2010. Mining naturally occurring
corrections and paraphrases from
Wikipedia’s revision history. In Proceedings
of the Seventh International Conference on
Language Resources and Evaluation (LREC
2010), pages 3,143–3,148, Valletta.
McCarthy, Diana and Roberto Navigli. 2009.
The English lexical substitution task.
Language Resources and Evaluation,
43:139–159.
Mel’ˇcuk, Igor A. 1992. Paraphrase et lexique:
la th´eorie Sens-Texte et le Dictionnaire
Explicatif et Combinatoire. In Igor A.
Mel’ˇcuk, Nadia Arbatchewsky-Jumarie,
Lidija Iordanskaja, and Suzanne Mantha,
editors, Dictionnaire Explicatif et
Combinatoire du Fran¸cais Contemporain.
Recherches Lexico-s´emantiques III.
Les Presses de l’Universit´e de Montr´eal,
Montr´eal, pages 9–58.
Mili´cevi´c, Jasmina. 2007. La Paraphrase.
Mod´elisation de la Paraphrase Langagi`ere.
Peter Lang, Bern.
Muhr, Markus, Roman Kern, Mario Zechner,
and Michael Granitzer. 2010. External and
intrinsic plagiarism detection using a
cross-lingual retrieval and segmentation
system. In Notebook Papers of CLEF 2010
LABs and Workshops, Padua. Available at:
www.informatik.uni-trier.de/ley/
db/conf/clef/clef2010w.html.
Nawab,Rao Muhammad Adeel, Mark
Stevenson, and Paul Clough. 2010.
University of Sheffield lab report for PAN
at CLEF 2010. InNotebook Papers of CLEF
2010 LABs and Workshops, Padua. Available
at: www.informatik.uni-trier.de/ley/
db/conf/clef/clef2010w.html.
Potthast, Martin, Alberto Barr´on-Cede˜no,
Andreas Eiselt, Benno Stein, and Paolo
Rosso. 2010. Overview of the 2nd
International Competition on Plagiarism
Detection. In Notebook Papers of CLEF 2010
LABs and Workshops, Padua. Available at:
www.informatik.uni-trier.de/ley/
db/conf/clef/clef2010w.html.
Potthast, Martin, Alberto Barr´on-Cede˜no,
Benno Stein, and Paolo Rosso. 2011.
Cross-language plagiarism detection.
Language Resources and Evaluation (LRE),
Special Issue on Plagiarism and Authorship
Analysis,45(1):1–18.
Potthast, Martin, Benno Stein, Alberto
Barr´on-Cede˜no, and Paolo Rosso. 2010b.
An evaluation framework for plagiarism
detection. In Proceedings of the 23rd
International Conference on Computational
Linguistics (COLING 2010), Beijing,
pages 997–1,005.
Potthast, Martin, Benno Stein, Andreas
Eiselt, Alberto Barr´on-Cede˜no, and Paolo
Rosso. 2009. Overview of the 1st
international competition on plagiarism
detection. In Proceedings of the SEPLN 2009
Workshop on UncoveringPlagiarism,
Authorship, and Social Software Misuse
(PAN 2009), San Sebastian, pages 1–9.
Recasens, Marta and Marta Vila. 2010. On
paraphrase and coreference. Computational
Linguistics, 36(4):639–647.
Rodr´ıguez Torrej´on, Diego Antonio and Jos´e
Manuel Mart´ın Ramos. 2010. CoReMo
system (Contextual Reference Monotony).
In Notebook Papers of CLEF 2010 LABs
and Workshops, Padua. Available at:
946
Documents you may be interested
Documents you may be interested