mvc view pdf : How to enter text in pdf file SDK Library service wpf .net asp.net dnn 6492-6491-1-PB0-part1463

Classificationsystemforserialcriminalpatterns
KAMALDAHBURandTHOMASMUSCARELLO
DePaul University, USA
E-mail: dahbur@cs.depaul.edu; muscarello@cs.depaul.edu
Abstract. The data mining field in computer science specializes in extracting implicit information
that is distributed across the stored data records and/or exists as associations among groups of
records. Criminal databases contain information on the crimes themselves, the offenders, the
victims as well as the vehicles that were involved in the crime. Among these records lie groups of
crimes that can be attributed to serial criminals who are responsible for multiple criminal offenses
and usually exhibit patterns in their operations, by specializing in a particular crime category (i.e.,
rape, murder, robbery, etc.), and applying a specific method for implementing their crimes. Dis-
covering serial criminalpatterns in crime databases is, in general, a clustering activity in the area of
data mining that is concerned with detecting trends in the data by classifying and grouping similar
records. In this paper, we report on the different statistical and neural network approaches to the
clustering problem in data mining in general, and as it applies to our crime domain in particular.
We discuss our approach of using a cascaded network of Kohonen neural networks followed by
heuristic processing of thenetworks outputs that best simulated theexperts in the field.We address
the issues in this project and the reasoning behind this approach, including: the choice of neural
networks, in general,over statistical algorithms as the main tool,and theuse of Kohonen networks
in particular,the choicefor thecascaded approach instead of the direct approach, and the choice of
aheuristics subsystem as a back-end subsystem to the neural networks. We also report on the
advantages of this approach over both the traditional approach of using a single neural network to
accommodate all the attributes, and that of applying a single clustering algorithm on all the data
attributes.
Key words: data mining, neural networks, pattern classification
1. Introduction
Alarge police department usually has huge databases comprised of hundreds
of thousands of records, each containing data about a criminal offense
(crime). The information on each crime may contain patterns in the features
related to the general crime’s data, the offender(s) data, the victim(s) data
and/or the vehicle’s data (Dunn 1976; O’Shea et al. 1995). The patterns
include and are not limited to: the characteristics of the victims, the type of
weapon(s) used in the crimes, the physical characteristics of the offender(s),
the geographical area of the crime incident, the particularities of the location
of the crime, the characteristics of the get-away vehicle used during the crime,
Artificial Intelligence and Law 11: 251–269, 2003.
251
2004 Kluwer Academic Publishers. Printed in the Netherlands.
How to enter text in pdf file - insert text into PDF content in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
XDoc.PDF for .NET, providing C# demo code for inserting text to PDF file
add text to pdf in preview; adding text pdf
How to enter text in pdf file - VB.NET PDF insert text library: insert text into PDF content in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Providing Demo Code for Adding and Inserting Text to PDF File Page in VB.NET Program
adding text to a pdf in reader; how to add text to pdf file
the items taken by the offender(s), any particular clothing items worn by the
offender during the crime, etc.
We propose an automated methodology that can systematically identify
groups of records as potential patterns for serial criminals, with a good
degree of accuracy. Neural networks will be the main tool for the
classification of patterns because of their powerful capabilities at such tasks,
as will be discussed in detail later. The research will also investigate a
methodology to process the data into the form needed for the neural
networks to operate on. Heuristics are used to refine the outputs of the neural
network. Each one of these issues will be discussed in this paper.
This is an application research project in the area of information systems
and artificial intelligence that can be considered to be of empirical value
rather than a purely theoretical innovation. We are applying neural
networks to an application area that is untried and which has its social and
commercial significance. This will be the first time that a hybrid system
using neural networks and a rule based heuristics system will be
implemented in this application domain. It is also the first time, to our
knowledge, that a Kohonen network will be used to build a clustering
system for recognizing and grouping potential serial crimes. Our approach
to the data analysis and pre-processing of data have proven to be fruitful
and will help, from an information systems point of view, to make
recommendations to criminal agencies on what information needs to be
kept on criminals and what type of format is best for keeping such
information. Our categorization and re-categorization will serve as guide-
lines for criminal experts on what constitutes important information in
pattern discovery of serial criminals.
Our approach has also some theoretical contribution, as it divides the
complete set of attributes into four groups, which makes the use of the hybrid
network of neural networks in this application domain unique in its design.
This design enhances the overall classification task, because it simulates, to
an extent, the thinking of expert investigators in the field. In addition, this
design differentiates between the values of each set of attributes and enforces
these values and their corresponding weighted classifications into the overall
classifications of the system. The modular approach of this design enables the
user of this system to have better control of the system, and allows for
multiple checkpoints and validation processes. This helps to overcome the
usual problem which neural networks present with respect to explanations-
that is, an inability to explain or make clear what was done by the ‘‘black
box’’ process. This design caters for individual personal judgment and
qualitative analysis of the intermediate and final results, to help achieve the
results that are best suited for individual expertise. The design offers a new
approach to data mining instead of feeding all the attributes into one single
Kohonen network (Kohonen 1988; Xia 1996).
252
KAMAL DAHBUR AND THOMAS MUSCARELLO
C# HTML5 Viewer: Deployment on DotNetNuke Site
Select “DNN Platform” in App Frameworks, and enter a Site Name. RasterEdge.XDoc.PDF. HTML5Editor.dll. Copy following file and folders to DNN Site project:
add text to pdf file online; how to insert text box in pdf
C#: XDoc.HTML5 Viewer for .NET Online Help Manual
Enter the URL to view the online document. Office 2003 and 2007, PDF, DICOM, Gif, Png, Jpeg, Bmp Click to OCR edited file (one for each) to plain text which can
add text boxes to pdf document; how to add text to a pdf file in reader
The use of a heuristics system at the final step has its empirical as well as
commercial contribution, as we search for a set of heuristics (rules) that will
simulate the thinking of an expert in the field and enhance the final
classifications. The heuristics system will help overcome any shortcomings in
the pre-processing phase as well as the neural network phase. In addition, the
heuristics system will allow individual experts in the field to incorporate their
own general or special heuristics into the final classifications.
2. Related research
There is a remarkable diffusion of community policing activity in the law
enforcement world. There is no consistent definition of the term community
policing. The practice has taken on many variations based on the agency,
jurisdiction, geographic areas covered, and policing culture. This approach
is commonly used, while some of its underlying principles are not so well
understood. O’Shea et al. (1995) undertook their original project, con-
ducted under a grant from the National Institute of Justice, seeking to
focus on one such principle: the exploration and development of methods
to structure innovative technology-based responses to facilitate criminal
investigations. That project focused on a deficiency in current police
practices, i.e., problem identification, the initial stage of the community
policing model. The success of the ability of the police to identify and
apprehend criminals is grounded in the capacity of the police agency to
accurately analyze data and transform it into useful tactical information.
Mid to large-sized police departments encounter problems in the analysis
of case report data, especially when seeking to identify patterns of serial
crime. In police parlance, a pattern refers to an individual or group of
individuals who are characterized by the fact that they commit a series of
criminal offenses, of the same type, using the same method of operation, over
an extended period of time. This type of individual is commonly referred to
as the serial offender or career criminal.
The accurate and comprehensive identification of problems is fundamen-
tal to the problem-oriented policing model. Identification of the career
criminal is an important problem area. The Rand study, a widely cited
research effort in the career criminal literature, found that a rather small
subset of the universe of offenders is responsible for a rather large subset of
the universe of criminal offenses. O’Shea and colleagues posited that several
relevant policy implications ensue from the Rand study findings:
1. Targeting the subset of career criminals would represent a significant
improvement in the efficient tactical allocation of police resources.
CLASSIFICATION SYSTEM FOR SERIAL CRIMINAL PATTERNS
253
VB.NET Image: Image Rotator SDK; .NET Document Image Rotation
which allows VB.NET developers to enter the rotating Q 2: As the source image file (which I provide powerful & profession imaging controls, PDF document, tiff
how to add text to a pdf in acrobat; add text to pdf file reader
VB.NET TWAIN: TWAIN Image Scanning in Console Application
WriteLine("---Ending Scan---" & vbLf & " Press Enter To Quit & automatic scanning and stamp string text on captured to scan multiple pages to one PDF or TIFF
add text pdf reader; adding text box to pdf
2. Identification and apprehension of the career criminal would significantly
reduce the frequency of offenses, more so than the non-career criminal.
3. Community awareness of the details of a career criminal pattern would
improve the likelihood of identification and apprehension through a
proactive collaboration between the community and police.
4. Community awareness of the details of a career criminal pattern would
improve the likelihood that community members could better protect
themselves from being victimized.
Every department provides officers an opportunity to view data collected
in case reports. Mechanisms for reviewing these reports fall into the following
categories:
1. Paper files, Clipboards or Notebooks. The officers look for patterns by
reading over the reports. This inefficient and ineffective method, given the
limits of human information processing, has been in use as long as
reports have been filed.
2. PC and mainframe database programs. These automated systems allow
investigators to query large data sets to match arrested offenders with
incidents possessing similar characteristics. This in some cases will
uncover a pattern, albeit reactively.
3. Computer-generated crime map. Relationships can be examined through
the mapped display of data. Patterns may not be visible in the map. The
pattern may disperse over a large area. The pattern may be masked in an
already dense area.
As part of their NIJ project, O’Shea and his colleagues (O’Shea et al.
1995) were interested in formalizing the heuristics used by expert detectives
in examining category 1 reports and devising an automated mechanism for
applying these heuristics using an automated data system as in category 2.
That research team tackled this application area using neural networks for
the first time. Instead of the manual system of distributing the records at
random to many police experts to visually examine patterns, which has
proven to be cumbersome, time consuming and inefficient, they searched
for an automated system for distributing cases based on similarities. Their
approach included using a back-propagation neural network, and, when
that failed, using a k-nearest neighbor algorithm to cluster the data. When
using a back propagation network, they trained the network on a data set
that included solved criminal cases and tested the network on the crime
database. They had no success in this neural network approach because of
the use of a supervised network (the back propagation network), which
assumes prior knowledge, during training, about all the different possible
classes that the crimes will belong to, before the network can generalize
254
KAMAL DAHBUR AND THOMAS MUSCARELLO
C# TWAIN - Scan Multi-pages into One PDF Document
true; device.Acquire(); Console.Out.WriteLine("---Ending Scan---\n Press Enter To Quit also illustrates how to scan many pages into a PDF or TIFF file in C#
adding text to pdf online; how to add a text box to a pdf
VB.NET TIFF: .NET TIFF Splitting Control to Split & Disassemble
Developers can enter the page range value in this VB Data Imports System.Drawing Imports System.Text Imports System use TIFDecoder open a pdf file Dim baseDocs
add text to a pdf document; add text pdf file acrobat
about test data. In addition, supervised networks do not work well when
the classifications in the data set are continuously changing, which is
exactly the case for the crime data. As new crimes are added to the
database, the groupings continue to change and consequently the classifi-
cations for the records. O’Shea and his colleagues however, had limited
success in the second approach. This is mainly due to the way they
approached the data. Their approach included limited pre-processing of the
data, and application of the k-nearest-neighbor algorithm to all the
attributes in a straightforward manner. A major limitation of the k-nearest-
neighbor approach was that the researchers still had to choose an optimum
maximum size for the output clusters. In addition, the performance
complexity of the algorithm created some computational problems. One of
the recommendations stemming from the earlier research was that different
types of neural networks be tested.
One of the researchers on that project (Muscarello) decided to pursue the
use of a different type of neural network, one that was self-organizing, and
did not need a predefined training set. The Kohonen network, along with a
heuristic based data pre-preparation and a simple expert system were then
developed to examine data for potential patterns of serial crime. The results
of that research are reported in this document.
3. System design
The type of crimes that the research project will investigate will be limited
to armed robberies. However, the methodologies that are discussed in this
project for identifying patterns in armed robbery records, are in general
applicable to all other types of crimes, with minor (or no) modifications.
The choice of armed robbery as a type of crime was made due to the fact
that these kinds of crimes usually involve all issues that may be involved
in other types of crimes. An armed robbery usually involves an offender,
a victim or victims, and a weapon, and sometimes a car, in addition to
the general characteristics of a crime. The same issues (objects), however,
may not be pertinent to other crimes such as aggravated sexual abuse, as
an example, where we may lack the use of a weapon or a get away
vehicle.
The research project is divided into three major phases, each of which will
be discussed under a separate heading in this paper. Figure 1 illustrates the
three different phases in the project design:
(a) Pre-processing phase
(b) Neural network phase
(c) Heuristics system phase
CLASSIFICATION SYSTEM FOR SERIAL CRIMINAL PATTERNS
255
VB.NET Image: VB.NET Planet Barcode Generator for Image, Picture &
REFile.SaveDocumentFile(doc, "c:/planet.pdf", New PDFEncoder()). type barcode.Data = "01234567890" 'enter a 11 Color.Black 'Human-readable text-related settings
adding text to pdf in reader; how to add text field to pdf
3.1.
PRE-PROCESSING PHASE
The concern during the data selection and pre-processing phase of a pattern
discovery project is to restructure the data to put it in a format that is useful
for the next phase of the project which normally involves the use of a
statistical algorithm, a genetic algorithm, a neural network, or any other
machine learning methodology that is used for classification tasks (Adiraans
and Znatige 1996; Bigus 1996). The issues at hand are the inherent problems
in the data, and the format that increases the success of the classification
methodology.
The data in the domain can be thought of as four different groups of data:
agroup that contains the general characteristics of the crime, a group that
contains the offender(s) characteristics, a group that contains the victim(s)
characteristics, and a group that contains the vehicle (get-away car)
characteristics.
3.1.1. Missing values
All of the domain attributes can be categorized as being discrete or
continuous numbers. A continuous attribute is one that can take on any real
(as opposed to integer) value, such as age and height, for example. Discrete
variables can take on any integer value within a specific range, such as race
and weapon code, for examples. When a discrete attribute, in a particular
record (pattern), is missing (i.e., has no value), the solution in such case is
obvious and simple. We add a category value to the attribute (if, it does not
exit already) to indicate ‘‘unknown’’. For example, if the offender’s race is
missing (or does not belong to the specified range from 1 to 6), we add a new
Input
Records
Pre-Processing
Phase
Clean
Data
Neural
Network
Phase
Preliminary
Classifications
Heuristics
System
Phase
Final
Classifications
Figure 1. Three phases in system design.
256
KAMAL DAHBUR AND THOMAS MUSCARELLO
category to the race categories, say category 7, to indicate ‘‘unknown’’. We
will assume from here on that the additional ‘‘unknown’’ category is part of
every discrete attribute (variable). However, the solution is not so straight
forward when dealing with missing values for a continuous attribute. Two
alternatives are possible, as we mentioned earlier, either to discard the entire
record or substitute an average value for the missing value. We adopt the first
approach of discarding the record. The reasoning behind this is two fold.
From one angle: substituting the average value for a missing value will falsify
the true conception about the fact presented by such attribute. For example,
if the weight of an offender is missing then the offender can be thin, medium,
or heavy; while substituting the average weight will most likely label him/her
as being of medium weight. Secondly, substituting the average weight will
ensure that this offender, and similar offenders with missing weights, will be
grouped together along with offenders who actually have a numerical value
that is equivalent to the average weight.
3.1.2. Standardization
In addition, continuous or discrete values in the fields cannot be used as they
are, without modifications. All values, discrete or continuous, should be
normalized (standardized) prior to their use. Subtracting the mean from each
data value and dividing the result by the standard deviation for the data can
accomplish standardization of a continuous variable. Standardizing of a
discrete variable can be accomplished in a similar fashion. The standardi-
zation of all attributes serves the very important purpose of closing down the
gaps among their respective domains. It is also important to note that it is
recommended, but not necessary, to use randomized values when using the
Kohonen algorithm (Bharath and Drosan 1994), as it is the case in our
research.
3.1.3. Categorizations & re-categorization
The standardization of a discrete variable, such as ‘‘car color’’ for example,
spreads out the values into equal intervals from the mean, and onto a scale
from )4 to 4 (approximately, as the domain for the standard normal curve
function, also known as the Gaussian Function). The important issue is that
the distance among these categories (normalized values) will be later used to
classify their respective records. Therefore, it is safer to put similar categories
close to one another to start with, while keeping categories that are
completely opposite as far from each other as possible. For our example-
attribute: ‘‘car color’’, it would have been more suitable to put the
‘‘unknown’’ category in the middle between the ‘‘light’’ and ‘‘dark’’
categories. This will make the distance between the two opposite categories,
CLASSIFICATION SYSTEM FOR SERIAL CRIMINAL PATTERNS
257
‘‘light’’ and ‘‘dark’’, the farthest, while the ‘‘unknown’’ category is logically in
the middle to indicate that the car is as close to being ‘‘light’’ as it is to being
‘‘dark’’. This also will not change the final standardized values, but only
changes their respective meanings. The value )1.22 will now correspond to
‘‘light’’, 0 will correspond to ‘‘unknown’’, and 1.22 will correspond to
‘‘dark’’. This technique may not be possible to apply to all discrete variables,
as not all of them contain categories that are close to or oppose other
categories. Later in this section we will show what re-categorizations will be
applied to each of the variables (features/attributes), but first, the
re-categorization issue deserves further discussions.
After a careful look at the data attributes, it becomes apparent that
some categorizations need to be re-structured. Take for example the
offender’s eye color. It is virtually impossible for any victim or witness to
distinguish a brown from a black (or green from blue) for the eye color of
the offender. That holds true for any crime, given that a crime is often
committed very quickly, under bad lighting conditions, and/or considering
the fear that the victim or witness is subjected to, just to mention a few
circumstances that crimes are usually associated with. Therefore, it makes
much more sense to re-categorize the attribute ‘‘eye color’’ into three
categories: ‘‘light’’, ‘‘unknown’’, and ‘‘dark’’, instead of the many possibil-
ities for values (found in the data) that are used to represent eye color, such
as: brown, hazel, green, blue, black, or any combination of light or dark
colors.
Other categories, such as the ‘‘location’’ and ‘‘taken-codes’’, are just too
many, and it will enhance our classification task tremendously to group these
categories into what investigators really look for in such cases. Categoriza-
tion will be necessary for the year of the vehicle. Ordinary people usually
cannot distinguish a 1988 from a 1989 vehicle, and therefore these values
become meaningless in this sense. It is more appropriate to categorize such
attribute, the vehicle year, into three main categories: ‘‘new’’, ‘‘medium’’, and
‘‘old’’. The ‘‘new’’ category will be used for vehicles that are 1991 or later, the
‘‘medium’’ category will represent vehicles that are between 1985 and 1990,
while any vehicle’s year below 1985 will fall into the ‘‘old’’ category. A similar
categorizations and re-categorizations approach will be applied to other
fields in the crimes data, including but not limited to: time and location of
crime, type of weapon, items taken, etc.
3.1.4. Grouping
Every offender’s information is vital to our classification task. Therefore,
each of the offenders involved in a single crime, if the crime is committed by a
group of offenders, will be treated as if he/she is totally responsible for the
crime, from the point of view of classification of patterns. That is important,
258
KAMAL DAHBUR AND THOMAS MUSCARELLO
as the same offender can be involved in other crimes that he/she committed
individually or with different other offenders. Every victim’s information, on
the other hand, is not that important to our classification task, since the
information that is kept on a victim is limited to sex, race, age, and whether
the victim was injured or not. This limits the process of discovering patterns
to identifying if the offender is targeting a particular group of victims from
the sex, age, race point of view, and whether he/she is causing any harm to
those victims.
Our approach to this issue will merge multiple records of victims that were
involved in a single crime, into a single record. This requires the following
minor adjustments in the categorizations of the fields that depict the victim’s
information:
Sex – In addition to the ‘‘Male’’ and ‘‘Female’’ categories, we add a new
category to represent general sex and that indicates that multiple sexes
were victimized by this crime.
Race – Similar to the sex field, we add another category to indicate
multiple races were victimized by this crime.
Age – The average age of the victims will be used. This will not affect the
detection of any patterns that are in this field, as the average age will still
reflect if an offender has targeted a particular age group
Injury – No adjustment in the categorizations of this field is needed. If
any of the victims involved in the crime is injured, then the value of this
field will reflect a ‘‘YES’’; otherwise, the value of the field will reflect a
‘‘NO’’. The hypothesis here is that if the offender has injured any victim,
then that makes injury a pattern for his/her crimes.
The above adjustments will be able to depict any patterns that are inherent
in the victims information, when several victims are subjected to a particular
crime; otherwise, the offender is operating at random and reacting to
whatever situation he/she is in, which may very well be the case.
We should remind the reader that the pre-processing phase of any data
mining system is the most important phase. Clean, consistent and complete
data can improve the results tremendously. The Good In Good Out (GIGO)
principle applies here, just as it applies in every computer science application.
Another issue of importance is the categorization issue. The proper
categorizations need to be carefully thought of for each attribute. Categories
for each attribute should also be kept at an absolute minimum. The number
and type of the categories for each attribute should not be set for all types of
crimes. The categories will vary by the nature of the crime, and should reflect
that. Much of the preprocessing activity is based on an understanding of the
criminal investigative procedure, the knowledge of domain experts, and
knowledge of the limitations of the data obtained in victim interviews.
CLASSIFICATION SYSTEM FOR SERIAL CRIMINAL PATTERNS
259
3.2.
NEURAL NETWORK PHASE
Many machine learning algorithms, such as genetic algorithms, decision
trees, association rules, statistical algorithms and inductive logic program-
ming, have been used in data mining tasks (Adriaans and Znatige 1996),
which our task is considered a type of. However, Moustakis et al. (1996)
have reported that statistical algorithms and neural networks are rated at
the top, and way ahead of, other machine learning algorithms when it
comes to clustering and prediction tasks. We investigated, in detail, both of
these tools, and decided to use neural networks, and namely Kohonen
networks because they offered several advantages over other neural
networks and statistical algorithms. The advantages can be summarized
as follows:
The classification results produced by most statistical algorithms rely
heavily on the order the data patterns are presented to the algorithm.
Such dependency can cause results to vary and the choice of the proper
order can be an extremely difficult task, if not impossible, considering the
huge volumes of data that are expected in our application domain.
Most statistical algorithms require the classes that are inherent in the
data patterns (target classes), to be linearly separable (i.e., can be
separated by a straight line). The complexity of our domain data and the
continuously changing quantity and quality of the target classes
constitutes a direct violation to the use of such statistical algorithms.
There are statistical algorithms that do not exhibit the feature of
dependency on the patterns’ order and do not require linear separability
of the classes. These algorithms suffer from the disadvantage of being
computationally complex and rely heavily on the choice of multiple
parameters that are required by such algorithms.
Kohonen networks are unsupervised neural networks that use a
computationally simple algorithm (Kohonen 1990). The unsupervised
environment is a requirement for our domain, as the number and type of
classifications are not pre-known. The failure of O’Shea and his
colleagues, when they employed a BPNN (a supervised network) is a
substantial proof of the necessity to use an unsupervised algorithm.
Other unsupervised neural networks suffer, again, from being compu-
tationally complex and relying heavily on the proper choice of the
network parameters. Kohonen networks were proven to be as efficient,
and in some cases more efficient, than other statistical and machine
learning algorithms in the experiments published by Kohonen et al.
(1998). This in addition to their capabilities of handling vagueness and
fuzziness that are inherent in data such as the one we are faced with, and
their capabilities to handle large numbers of attributes as a result of their
260
KAMAL DAHBUR AND THOMAS MUSCARELLO
Documents you may be interested
Documents you may be interested