50 
The same issues of sorting, cleaning and filtering apply to a co-occurrence matrix as they do to a list. 
Figure 4 shows an example of a simple matrix comparing citing assignee by publication year. 
Figure 4 - Building a Co-occurrence Matrix Using Microsoft Excel 
6.4 – Clustering and Classification 
These methods are often used interchangeably but are actually quite different from one another. 
Clustering is normally associated with unsupervised methods of organizing document collections 
based on a similarity comparison between documents. With a fixed number of clusters identified at the 
outset, document collections that meet a threshold similarity component are grouped together. Ideally, 
the documents within a cluster should be similar to one another but dissimilar to documents in the 
other clusters. Classification, on the other hand, is usually accomplished using a supervised machine 
learning method that uses learning sets to identify key attributes of documents in a class. New 
documents are compared to the learning collections and assigned to a class based on their similarity 
to the documents that have already been assigned to the class. 
The following stackoverflow.com webpages provide explanations of clustering vs. classification and 
supervised vs. unsupervised machine learning methods: 
http://stackoverflow.com/questions/5064928/difference-between-classification-and-clustering-in-data-
mining 
http://stackoverflow.com/questions/1832076/what-is-the-difference-between-supervised-learning-and-
unsupervised-learning 
When it comes to clustering, the two most often used algorithms are k-means and force-directed 
placement: 
Pdf metadata extract - add, remove, update PDF metadata in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata
change pdf metadata creation date; embed metadata in pdf
Pdf metadata extract - VB.NET PDF metadata library: add, remove, update PDF metadata in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Enable VB.NET Users to Read, Write, Edit, Delete and Update PDF Document Metadata
view pdf metadata in explorer; google search pdf metadata
51 
•  K-means – a method of cluster analysis, which aims to partition n observations into k clusters 
in which each observation belongs to the cluster with the nearest mean.
57
•  Force Directed Placement – At the most basic level the algorithm tries to place similar 
objects close together and dissimilar objects far apart. The process is achieved by moving the 
objects randomly around the solution space via a technique similar to ‘simulated annealing’. 
The criterion for moving a node is the minimization of energy
58
Looking at classification, two frequently applied algorithms are Artificial Neural Networks and Support 
Vector Machines: 
•  Artificial Neural Networks – In computer science and related fields, artificial neural networks 
are models inspired by animal central nervous systems (in particular the brain) that are 
capable of machine learning and pattern recognition. They are usually presented as systems 
of interconnected “neurons” that can compute values from inputs by feeding information 
through the network
59
•  Support Vector Machines – supervised learning models with associated learning algorithms 
that analyze data and recognize patterns, used for classification and regression analysis. The 
basic SVM takes a set of input data and predicts, for each given input, which of two possible 
classes forms the output, making it a non-probabilistic binary linear classifier. Given a set of 
training examples, each marked as belonging to one of two categories; an SVM training 
algorithm builds a model that assigns new examples into one category or the other
60
As applied to PLRs, and patent analytics, the most frequently used sources of text for both clustering 
and classification exercises come from patent classification codes, or from raw, or standardized text 
coming from the source document: 
•  Classification Codes – Intellectually assigned classification systems produce standardized 
codes that can be used as a means of categorizing documents that share similar subject 
matter. 
•  Raw Text – processed to identify concepts and phrases contained within specific sections of 
the source document, such as the abstract or claims.  As with the clustering of structured data, 
concepts, instead of codes, are used to group documents that share a high degree of overlap. 
•  Indexing Terms – producers of “abstract and indexing” databases normally produce 
hierarchical lists of indexing terms that are used to classify documents based on standardized 
terms and phrases. Since these lists are standardized and intellectually assigned they can be 
used for clustering exercises. 
For additional discussion on the use of machine learning methods in patent analytics please see the 
following blog posts on the subject: 
57
http://en.wikipedia.org/wiki/K-means_clustering 
58
http://citeseerx.ist.psu.edu/viewdoc/download/doi:10.1.1.14.1822 
59
http://en.wikipedia.org/wiki/Artificial_neural_network 
60
https://en.wikipedia.org/wiki/Support_vector_machine 
VB.NET PDF Image Extract Library: Select, copy, paste PDF images
Get image information, such as its location, zonal information, metadata, and so on. Extract image from PDF free in .NET framework application with trial SDK
adding metadata to pdf; pdf metadata editor online
C# PDF Image Extract Library: Select, copy, paste PDF images in C#
information, such as its location, zonal information, metadata, and so on. Able to edit, add, delete, move, and output PDF document image. Extract image from PDF
rename pdf files from metadata; add metadata to pdf file
52 
http://www.patinformatics.com/blog/machine-learning-in-patent-analytics-part-1-clustering-
classification-and-spatial-concept-maps-oh-my/ 
http://www.patinformatics.com/blog/machine-learning-in-patent-analytics-part-2-binary-classification-
for-prioritizing-search-results/ 
The following tools provide clustering or classification functionality. This is not an exhaustive list but 
provides some suggestions for starting with this task. Contact information for these tools can be found 
in section 9.1 of these guidelines.  
•  Thomson Innovation – provides text clustering based on enhanced titles and abstracts, using 
K-means, see Figure 5 for an example 
•  Relecura – clusters concepts, extracted and standardized from text, in Topic Map functionality 
•  Intellixir – provides clustering functions, using K-Means 
•  Treperal – KMX product includes classification function based on Support Vector Machine 
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
|. Home ›› XDoc.PDF ›› C# PDF: Extract, Copy and Paste PDF Pages. C#.NET Sample Code: Extract PDF Pages and Save into a New PDF File in C#.NET.
remove metadata from pdf; remove metadata from pdf acrobat
VB.NET PDF Library SDK to view, edit, convert, process PDF file
Feel free to define text or images on PDF document and extract accordingly. Multiple metadata types of PDF file can be easily added and processed.
online pdf metadata viewer; remove pdf metadata
53 
Figure 5 - Text Clustering Example from Thomson Innovation 
6.5 – Spatial Concept Mapping 
C# PDF Text Extract Library: extract text content from PDF file in
XDoc.PDF ›› C# PDF: Extract PDF Text. C# PDF - Extract Text from PDF in C#.NET. Feel Free to Extract Text from PDF Page, Page Region or the Whole PDF File.
c# read pdf metadata; adding metadata to pdf files
VB.NET PDF Text Extract Library: extract text content from PDF
PDF ›› VB.NET PDF: Extract PDF Text. VB.NET PDF - Extract Text from PDF Using VB. How to Extract Text from PDF with VB.NET Sample Codes in .NET Application.
pdf metadata viewer online; remove metadata from pdf online
54 
Mapping is related to clustering or classification exercises, where the systems involved take the 
document clusters or classes and arrange them in 2-dimensional space by considering the similarity 
of the documents relative to one another over the entire collection. Documents that share elements in 
common are placed closer together spatially, while ones with less similarity are placed further away. 
The FAQ section on the IN-SPIRE tool
61
, a related cousin of the ThemeScape tool, both originally 
developed at Pacific Northwest National Laboratories, provides the following explanation of the 
process used for creating spatial maps: 
In brief, IN-SPIRE™ creates mathematical representations of the documents, which are then 
organized into clusters and visualized into "maps" that can be interrogated for analysis. 
More specifically, IN-SPIRE™ performs the following steps: 
•  The text engine scans through the document collection and automatically determines the 
distinguishing words or "topics" within the collection, based upon statistical measurements of 
word distribution, frequency, and co-occurrence with other words. Distinguishing words are 
those that help describe how each document in the dataset is different from any other 
document. For example, the word "and" would not be considered a distinguishing word, 
because it is expected to occur frequently in every document. In a dataset where every 
document mentions nanotech, "nanotech" wouldn't be a distinguishing word either. 
•  The text engine uses these distinguishing words to create a mathematical signature for each 
document in the collection. Then it does a rough similarity comparison of all the signatures to 
create cluster groupings. 
•  IN-SPIRE™ compares the clusters against each other for similarity, and arranges them in 
high-dimensional space (about 200 axes) so that similar clusters are located close together. 
The clusters can be thought of as a mass of bubbles, but in 200-dimensional space instead of 
just 3. 
•  That high-dimensional arrangement of clusters is then flattened down to a comprehensible 2-
dimensions, trying to preserve a picture where similar clusters are located close to each other, 
and dissimilar clusters are located far apart. Finally, the documents are added to the picture by 
arranging each within the invisible “bubble” of their respective cluster. 
Spatial concept maps can also be made using classification methods. Arguably, the most famous of 
these is the Kohonen Self Organizing Map (SOM): 
Kohonen Self Organizing Maps – a type of artificial neural network (ANN) that is trained using 
unsupervised learning to produce a low dimensional (typically two-dimensional), discretized 
representation of the input space of the training samples, called a map. Self-organizing maps are 
different from other artificial neural networks in the sense that they use a neighborhood function to 
preserve the topological properties of the input space
62
For additional discussion on the use of spatial concept maps in patent analytics please see the 
following blog post on the subject: 
http://www.patinformatics.com/blog/machine-learning-in-patent-analytics-part-3-spatial-concept-maps-
for-exploring-large-domains/ 
61
http://in-spire.pnnl.gov/faq_7.stm 
62
http://en.wikipedia.org/wiki/Self-organizing_map 
VB.NET PDF Form Data Read library: extract form data from PDF in
Data: Read, Extract Field Data. |. Home ›› XDoc.PDF ›› VB.NET PDF: Read, Extract Field Data. VB.NET PDF - Read and Extract Field Data in VB.NET.
pdf remove metadata; add metadata to pdf file
C# PDF Library SDK to view, edit, convert, process PDF file for C#
Feel free to define text or images on PDF document and extract accordingly. Multiple metadata types of PDF file can be easily added and processed in C#.NET
rename pdf files from metadata; preview edit pdf metadata
55 
Additional discussion on spatial concept maps can also be found in section 8.6.2 of these guidelines. 
The following tools provide spatial mapping functionality. This is not an exhaustive list but provides 
some suggestions for starting with this task. Contact information for these tools can be found in 
section 9.1 of these guidelines.  
•  Thomson Innovation – ThemeScape, shown in Figure 6 is a K-means clustering, with a 
mapping of n-dimensions onto two dimensions 
•  STN AnaVist – uses Force Directed Placement to generate Concept Maps 
•  Orbit.com – provides concept map using similar principles as ThemeScape 
•  Treperal – KMX product generates maps using K-means clustering 
Figure 6 - ThemeScape Concept Mapping for Wearable Fitness Bands 
6.6 – Layering or Stacking Information 
Analyses looking at a single variable, or field, can be inefficient and lack context as discussed in 
section 6.3. Positioning two types of visualizations next to one another, or adding overlays to an 
analysis, allows the analyst to reference several attributes of a data set simultaneously without asking 
the client to refer back to previous illustrations. Providing additional context within a single 
visualization also allows for easier, richer comparisons to be made between different entries. Three 
examples of this technique are provided to demonstrate the value of this approach. 
56 
A stacked chart can be used to enhance a standard bar, or column chart when there is a need to 
explore a second variable with a small number of entries. If the second variable had a large number of 
values then a co-occurrence matrix would be used to explore these items. Figure 7 shows a stacked 
chart, where patent document type has been stacked within the patent document count by patent 
assignee. This information could have been provided with separate charts, but it is much more 
interesting to combine the variables, in a single chart, for means of comparison. In this case, the 
analyst can demonstrate whether an organization’s patent documents are primarily of the utility or 
design type. 
Figure 7 - Using a Stacked Chart to Visualize Two Variables 
In section 6.5, the mapping task was introduced, taking document clustering, and adding a similarity 
metric between documents to produce a graphic representation of how documents relate to one 
another based on shared concepts. As stated, these maps offer a nice way to identify technology 
segments that are related to one another. When additional information is layered on top of the maps 
they can be used to add an extra dimension to an analysis involving technological concepts. Most 
mapping systems provide a means to highlight, with the use of different colors, two or more patent 
assignee or periods of time within the collection used to generate the map. These groupings are then 
laid over the existing map and can be used to provide context on when technology subsections were 
investigated, or which organizations were investing in different areas compared to others. Figure 8 
shows an example of a Thomson Innovation ThemeScape map where a few of the patent assignees 
of interest have been called out with different colored dots. 
57 
Figure 8 - ThemeScape Map with Patent Assignee Call Outs 
Charts, as discussed in section 6.2 are used to visualize total interest, or number of entries in a single, 
or at most two patent information fields. Tables, covered in section 6.3 allow the examination of two 
fields, both with a significant number of entries. The two can be combined into a single visualization 
that expands the number of variables being studied simultaneously, and allows more complicated 
questions to be answered without needing to resort to multiple visualizations. In the example provided 
in Figure 9 the chart showing top assignees by their patenting type is turned 90-degrees, and placed 
next to a table showing the top assignees, and when they filed applications for the patents in question. 
In one visual the analyst can now make comparisons between which organizations are the most 
active patentees, when they invested in the technology, and what type of protection they sought. 
Again, this could be provided in three or four individual illustrations but it is easier to make detailed 
comparisons when the data is stacked or layered in a single illustration. 
58 
Figure 9 - Visualization Encompassing Chart and Table to Study Multiple Variables 
6.7 – Geographic Representation 
On most patent documents the physical addresses of both the applicants, and the inventors 
associated with them are given. Geographic representations of this data provide the information 
overlaid on a city, country or world map along with relevant geographic placeholders, such as 
educational infrastructure, like major universities, or per capita income for the region. This process is 
also referred to as Georeferencing and is defined in Wikipedia as: 
To georeference something means to define its existence in physical space. That is, establishing its 
location in terms of map projections or coordinate systems.
63
The process is carried out by geocoding individual patent documents so they can be placed within an 
established geographic framework, typically by using zip, or postal codes, but also by using street 
addresses. Various software packages are available that can take address data from individual 
patents, and supply a set of longitude and latitude coordinates for the document. A collection of 
geocoding packages can be found at: http://en.wikipedia.org/wiki/Geocoding
Once the coordinates for a patent document are identified, various Geographic Information Systems
64
can be used to create the actual map with the patent documents placed on it. Google Maps
65
makes it 
application programing interface (API)
66
available for free thus making it a useful tool for distributing 
patents over a geographic area. 
63
http://en.wikipedia.org/wiki/Georeference 
64
http://en.wikipedia.org/wiki/Geographic_information_systems 
65
https://en.wikipedia.org/wiki/Google_Maps 
66
http://en.wikipedia.org/wiki/Application_programming_interface 
59 
Recently, two services, UK Patents on a Map
67
and World Patents, Mapped
68
, were launched 
providing examples of geographic representations of patent data. The home page of UK Patents on a 
Map provides the following rational for providing the service: 
Launched on 3 July 2013, this site maps many of the UK's innovators, specifically UK based holders 
of UK patents. The data includes links to the relevant page of the IPSUM database operated by the 
UK Intellectual Property Office (IPO) where the latest and most accurate data concerning any patent 
can be found. 
This is a service that I very much hope will be of help to inventors, patent applicants and owners as 
well as their advisors. My aim in placing this data into a map format (with the help of the lovely people 
at eSpatial) is that it brings alive the potential for collaboration when you see how close you are as a 
patent holder to others, whether in your sphere of innovation or otherwise. 
The World Patents, Mapped service was described during an introductory post from the Patent 
Information Users Groups (PIUG) wiki: 
World Patents, Mapped, is an experimental service that plots the locations of applicants on WIPO 
patent publications.  
Universities have long been recognized as key players in innovation. For this reason, I am adding an 
overlay of university locations to World Patents, Mapped.  
The overlayed map is at http://w.pat.tc/maptop.htm. This map shows locations of applicants on PCT 
patent applications published during 2012 and 2013. It also shows the locations of about 600 
universities. 
Figure 10 provides an example of WO applications filed for by inventors residing in Dublin, OH, USA. 
Figure 10 - WO Applications from Inventors in Dublin, Ohio, USA Using World Patents, Mapped 
6.8 – Network Analysis 
67
http://www.patentsonamap.co.uk 
68
http://w.pat.tc/maptop.htm 
Documents you may be interested
Documents you may be interested