c# pdf library mit : Remove metadata from pdf file software Library project winforms asp.net windows UWP wipo_pub_9469-part701

90 
information. The analyst will add a new column onto the end of the spreadsheet, and as documents 
are reviewed an entry will be made in the new column for technology category, and potentially, sub-
category. When the analyst comes across a new approach they can create a name for it, and 
continue to re-use the category as they come across additional documents of this type. The analyst 
will typically have spent time researching a topic, or speaking with a subject matter expert so the 
categories they create will closely reflect these learnings. This approach is precise, but time 
consuming, especially for large data collections, and the analyst also needs to attempt to be 
consistent with their assignments, especially as they learn new things while conducting the review. 
Sometimes it is necessary to make a first pass through a set, and then revisit the collection a second 
time, to fine-tune and reclassify some of the documents. 
Finally, semi, or fully automated methods, based on machine learning or semantic approaches can be 
applied to populate technology categories. Supervised machine learning approaches to classification 
were covered in section 6.4, and semantic analysis was covered in section 6.9. As discussed earlier 
in this section, the choice of text used to perform the grouping into categories is critical to the success 
of the process. This choice is also impacted by which family reduction method has been used on the 
set. Using an extended family will reduce the number of documents to one per family and the analyst 
will be at the mercy of which document is selected, usually the most recent, and the classification will 
be based on what is covered in that particular document. If several aspects of a broader idea are 
covered in different filings, but claim the same priority than all of this detail is lost. Alternatively, many 
family members have identical specifications and it is only the claims that change from document to 
document. If a one document per invention approach is used then the claims should be analyzed to 
identify the differences between the family members for the purposes of populating categories. 
8.3.6 – Reconciling Forward Citations 
The concept of citations was introduced in section 4.2.1.5, and it is important to recognize the impact 
of redundant applications, and patent families on citation counts. Citations are based on the 
referencing of discrete documents, so a recent granted patent may not have any forward citations 
associated with it, but the corresponding, redundant, pre-grant application may well have several. An 
analyst can also look out over the entire extended patent family, especially if this method was used to 
reduce the collection, and find that there are forward citations. These citations needed to be 
aggregated in some fashion so that the document being discussed in a PLR is reconciled against all 
of the family members it represents. 
At the very least, forward citations associated with a redundant pre-grant application should be 
aggregated with its subsequent granted patent. While these are discrete documents and yes, there 
are often times differences between them, they should be equivalent. They are, after all, the same 
application. If possible, it is even better to count all the non-redundant citations between all of the 
documents in the same basic (as opposed to extended) family. If there is a WO and a series of EP 
documents along with two US documents for instance which all share the same priority application 
number, and essentially all have the same set of claims (country specific modifications not 
withstanding) then all of these citations should be aggregated together. 
A series of blog posts on counting forward citations was produced looking more closely at this issue 
and its impact depending on the patent’s originating country. The URL for these posts are below: 
http://www.patinformatics.com/blog/issues-with-counting-citations-how-many-forward-citations-does-
us8341981-have/ 
Remove metadata from pdf file - add, remove, update PDF metadata in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Allow C# Developers to Read, Add, Edit, Update and Delete PDF Metadata
view pdf metadata in explorer; remove metadata from pdf file
Remove metadata from pdf file - VB.NET PDF metadata library: add, remove, update PDF metadata in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Enable VB.NET Users to Read, Write, Edit, Delete and Update PDF Document Metadata
extract pdf metadata; google search pdf metadata
91 
http://www.patinformatics.com/blog/us-pre-grant-applications-have-significant-impact-on-citations-associated-
with-granted-equivalents-issues-with-counting-citations-part-2/ 
http://www.patinformatics.com/blog/citation-trends-with-european-patent-documents-are-dramatically-
different-than-in-the-us-issues-with-counting-citations-part-3/ 
While looking at forward citations, it is also important to distinguish citations coming from the assignee 
themselves versus those coming from other organizations. There are varying schools of thought on 
what is represented by self-citations compared to citations from others, but an analyst should 
segregate the two, and be prepared to address this metric if asked. 
8.4 – Statistical Analyses to Include 
Having gotten to this stage, it is now time to perform the analyses, which will provide the insight that 
will be shared in the PLR. Everything to this point has been done to ensure that the analytics are done 
correctly, and is as unbiased as possible. The majority of the analytics found in PLRs revolve around 
counting items in certain patent information fields. These are referred to here as statistical measures. 
The primary methods for generating these statistics, and visualizing the results, include the use of 
lists, for looking at one primary field at a time, and tables, or co-occurrence matrices, for working with 
two primary fields. Thoughts on generating lists were covered in section 6.2, co-occurrence matrices 
were covered in section 6.3, and layering or stacking information in relation to these items was 
covered in section 6.6. 
While the ultimate decision on which analyses to include in a PLR will depend primarily on the 
business objectives, and needs associated with the requisition of it, there are a number of “standard” 
items that can be found in almost every PLR produced. This section looks at the statistical analyses 
that are generally “required” in a PLR. Once the statistical analysis is conducted, often in a simple 
spreadsheet program, the output is visualized and added to the report. 
Visualizations are appealing and provide insight on their own but the analyst should not be shy about 
annotating and discussing the implications of what is seen in them. Analyst John Paul Nettles 
suggests the following when thinking about how charts, and tables are interspersed within a research 
report
85
I recommend using no more than one graph, chart, or bulleted list for every 1.5 pages of words. Visual 
appeal should not be the only thing keeping the reader awake. At the end of the day, the paper should 
leave the audience’s need for information on the topic pretty damn well satisfied. 
A good example of this approach is seen in the WIPO PLR on Membrane Filtration and UV Water 
Treatment
86
. In this case, the analyst is providing a potential explanation for why a trend might be 
occurring, in addition to showing the trend as well: 
We performed a range of additional analyses around the patent datasets to examine the trends 
underpinning the patent datasets (see Table 6). For instance, we analyzed the average patent family 
size24 with more than 1 member - thus stripping out the ‘noise’ from patent families with a single 
publication. We found that for the membrane and UV datasets the average patent family has 9 or 10 
85
http://repcapitalmedia.com/three-reasons-to-ditch-the-charts-in-white-papers/  
86
http://www.wipo.int/patentscope/en/programs/patent_landscapes/reports/water_treatment.h
tml  
C# PDF Password Library: add, remove, edit PDF file password in C#
C# Sample Code: Remove Password from PDF File in C#.NET. These C# demos will help you to delete password for an encrypted PDF file. // Define input file path.
batch pdf metadata; pdf metadata
VB.NET PDF File Compress Library: Compress reduce PDF size in vb.
Remove bookmarks, annotations, watermark, page labels and article threads from PDF Document and metadata. NET Demo Code to Optimize An Exist PDF File in Visual
pdf remove metadata; batch edit pdf metadata
92 
members in both the membrane and UV water treatment datasets. However for the membrane-UV 
'combination dataset the average family size was much smaller at 4 and 2 patents for the overall and 
desalination-focused datasets. We also saw some very large extended patent family sizes (in the 
'largest patent family' category). 
Possible interpretations of these findings could be that: 
•  More dynamic technology areas have a higher number of SMEs, who due to resource 
constraints may only file one patent or abandon experimental technology,  
•  A ‘younger’ technology or product would have had less time to develop ‘mature’ patent families  
•  Presence of several core product technology of very high importance for a corporate player 
justifying significant investment in a large extended patent families  
One of the motivations, covered in section 5.2, for producing PLRs, involved their use to enhance 
organizational decision-making. PLRs need to generate insight and this is done by interpreting the 
analyses provided and putting them in context with the issues being investigated. Providing statistical 
analyses is better than providing raw data but the value of the analyst is really seen in the 
performance of sound analytics, well-documented visualizations and reasoned, topical interpretations 
of what is being observed, and why it’s important. 
In section 8.1.4 the preparation of a Terms of Reference (TOR) was covered, and one of the key 
items included in that document is an agreement on which analyses will be contained within the PLR. 
In the remainder of this section the mandatory fields that should be included in a PLR are defined, and 
a brief description of the insights they provide listed. 
All of the listed analyses, with the exception of Highly Cited Patents, looks at a single variable and 
counts the number of times each entry appears. In addition to lists based on this data, tables can also 
be created with them. In all of these cases, an appropriate year type can be added as a series of 
columns, generating a table that buts the total number of items in context by identifying if their 
occurrence took place recently or sometime in the past. Some of these fields can also be combined 
with one another to provide additional context, for instance, technology categories can be combined 
with top assignees, or inventors, to demonstrate what aspects of a topic are of interest to different 
organizations, or researchers, working in a field. 
8.4.1 – Number of Families or Inventions 
After a data set is reduced by families, or inventions, as covered earlier in this section, the total 
investment, in patenting, for the topic can be found. This would be a single number without much 
context; so many analysts add granularity to this value by representing it using a year type. So while 
the analysis is referred to as the number of families, or inventions, it should be called the number of 
families by year. The consequences of using the various year types was discussed in section 8.3.4 
but regardless of which one is used this analysis demonstrates whether interest in a topic, based on 
the number of patents that have been applied for, is either growing, declining, or static. Technologies 
can also exhibit an ebb and flow where initial interest wanes but then accelerates at a later date when 
a new application is found, or greater efficiencies are gained through improvements. 
8.4.2 – Number of National Phase Entries 
The general idea behind this analysis can also be represented by the number of countries covered, or 
the average number of family members per invention. In all cases, the analyst is looking at how 
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
Ability to remove consecutive pages from PDF file in VB.NET. Enable specified pages deleting from PDF in Visual Basic .NET class.
embed metadata in pdf; view pdf metadata
VB.NET PDF remove image library: remove, delete images from PDF in
Image: Insert Image to PDF. Image: Remove Image from PDF Page. Image Link: Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete Metadata. Form Process.
modify pdf metadata; get pdf metadata
93 
pervasive the technology is, for instance, has interest only occurred in developing countries, or has 
protection been sought worldwide. Filing a single PCT application and designating many countries is 
relatively inexpensive and straightforward, but moving from a PCT application to a National Phase 
filing in other countries is a signal of increased investment, and interest. When talking about this 
concept in terms of country coverage the analyst must also distinguish whether they are talking about 
only granted patents, pending applications that are actively being examined, or potential coverage 
that could be acquired if a National Stage filing is conducted before the deadline expires. 
This information can be presented by using a bar chart with countries of interest listed on the x-axis 
while the number of entries, or filings for that country is plotted on the y-axis. Alternatively, if additional 
context, involving a year type, is required than a line chart can be used where the years are on the x-
axis and individual lines on the chart represent the countries of interest. 
These analyses can also signal the maturity, and uptake of a technology since emerging technologies 
will not be extensively covered by larger families or around the world. 
8.4.3 – Number of Granted Patents 
As seen with the number of families analysis, the number of granted patents would be a single 
number unless some additional context, once again, usually by year, is added to this. This analysis is 
particularly powerful when a stacked bar chart is used to compare the number of granted patents to 
the number of pending applications that are in the course of being examined. If total number of 
documents, regardless of kind is looked at, as in the case of number of families then it is difficult to 
determine whether a topic area has patent protection in place, as opposed to the potential of having 
rights granted. Only in-force, granted patents provide the right to exclude so understanding the status 
of the documents being analyzed provides perspective on whether the topic at hand is extensively 
protected currently, or if it has the potential to become a minefield in the future. Adding a year type to 
this analysis also informs the analyst if patent protection took place ten or fifteen years ago, in which 
case, the patents may be expiring soon, opening a possibility of utilizing them in the near future. 
8.4.4 – Top Technology Categories and/or IPC Classifications 
Generating technology categories, and their value was covered earlier in this chapter. A chart of these 
can be used to compare relative interest between different technological approaches to dealing with 
issues in a topic area. A simple chart of this item involves the listing of the categories along the x-axis, 
and the document count tallied on the y-axis. 
As stated, analyses using this field can be even more valuable when a table is created looking at top 
assignees, or inventors by technology categories. Analysts can also examine interest in the 
categories by year by using a line chart, with each category represented by a different line and the 
years provided on the x-axis. The document count by year is reflected in the numbers on the y-axis. 
Classification codes have been covered in sections 4.2.1.4 and 8.3.5. They can be used in addition to, 
or in place of the Technology Categories and generally represent the same principles of 
understanding relative interest between different approaches within a topic area. 
8.4.5 – Office of First and Second Filing 
This analysis is conducted by looking at the priority filing country associated with an invention. The 
priority filing country is referred to as the office of first filing. The office of first filing approximates 
where the invention was likely created, and provides an indicator of which countries are leading in the 
C# PDF Page Delete Library: remove PDF pages in C#.net, ASP.NET
Ability to remove a range of pages from PDF file. Free trial package for quick integration in .NET as well as compatible with 32 bit and 64 bit windows system.
pdf metadata editor online; pdf xmp metadata editor
C# PDF File Compress Library: Compress reduce PDF size in C#.net
Remove bookmarks, annotations, watermark, page labels and article threads from PDF while compressing. Document and metadata. C#.NET DLLs: Compress PDF Document.
add metadata to pdf file; analyze pdf metadata
94 
development of a technology topic. Since it is country based, it can be analyzed, and visualized, in a 
similar fashion to how country coverage, or National Stage entries, is represented. This analysis is 
sometimes tempered by normalizing the output based on the Gross Domestic Product of the countries 
involved. This way, output from more economically developed countries is kept in perspective 
compared to countries with fewer resources to call upon. 
The office of second filing analysis is conducted by determining the country, other than the priority 
filing country, with the earliest application date, in a patent family. While office of first filing indicates 
where a technology was developed, the office of second filing can provide insight into which country is 
likely to represent a good market, or location for manufacturing, of the products generated from the 
technology. This field is visualized using the same methods used for the office of first filing analysis. 
8.4.6 – Top Applicants/Assignees 
Applicants, or assignees, as they relate to patent documents were introduced in section 4.2.1.1. They 
represent the owner of a patent, and with whom negotiations for the rights associated with the 
invention will have to be conducted. They also represent the organizations who have made a 
significant investment, or who have a potentially high stake in a topic area of interest. Studying the top 
applicants ranks the organizations, associated with a technology, by the ones that have devoted the 
most resources in researching and applying for patents. There are additional measures for looking at 
investment in a technology, but the number of patents applied for is a commonly accepted means for 
measuring this. The applicant, and inventor fields almost always need to be cleaned, or grouped, 
before statistical analysis can be carried out and this was covered in section 8.3.1. 
Output from this field is normally visualized using charts, especially bar, and stacked bar charts where 
the organization name is placed on the x or y-axis and the number of documents associated with the 
organization is presented on the opposite axis. This field is also used in conjunction with other fields, 
such as a year type, or Technology Categories, or Classification codes to provide context about the 
different interests one organization, versus another, or when each organization was doing the 
investing, to produce tables or co-occurrence matrices. The applicant field is a popular one, and is 
used frequently when stacking, or layering information, as was discussed in section 6.6. 
8.4.7 – Top Inventors 
These individuals represent the key thought leaders, and innovators within a topic area. When these 
people patent, in conjunction with a University, they can be considered to be a potential source of 
collaborators, for organizations looking to enter an industry. When they are unaffiliated, and appear to 
be a sole inventor, or part of a small, non-competitive group, they can potentially be a source for 
acquiring rights or expertise in a technology. Inventors who are associated with a competitor can also 
be a source of intelligence on a topic, if they are no longer employed by the company they filed their 
patents with. 
An inventor analysis is visualized using the same types of charts and tables that are used to represent 
data on applicants/assignees. 
8.4.8 – Highly Cited Patents 
As discussed in section 4.2.1.5, citations represent a relationship between two inventions. Studying 
them provides a means for identifying seminal documents that could have had a high impact on the 
development of a technology. When discussing highly cited patents the analyst is referring to patents 
VB.NET PDF File Permission Library: add, remove, update PDF file
Image: Insert Image to PDF. Image: Remove Image from PDF Page. Image Link: Edit URL. Bookmark: Edit Bookmark. Metadata: Edit, Delete Metadata. Form Process.
add metadata to pdf; remove pdf metadata
C# PDF bookmark Library: add, remove, update PDF bookmarks in C#.
Help to add or insert bookmark and outline into PDF file in .NET framework. Ability to remove and delete bookmark and outline from PDF document.
add metadata to pdf programmatically; preview edit pdf metadata
95 
within a topic area that have the highest number of forward citations. This refers to documents that 
have been cited by applications filed later that refer to the original document. 
The importance of aggregating, where citations associated with a redundant patent application are 
reconciled with the corresponding granted patent was discussed in section 8.3.6. This aggregation 
needs to take place before any list of highly cited patents can be generated. 
Since highly cited patents refers to individual inventions they are normally summarized in a text-based 
table, not a co-occurrence matrix, as opposed to a chart. Information on the assignee, inventors, 
publication year, expiration date, number of forward citations, and the companies that have cited the 
patent, should be included in the table. 
8.5 – Additional Statistical Analyses to Consider Including 
Having covered the “essential” statistical analyses that should be included in almost any PLR, it is 
also important to mention additional analyses that are frequently used, and can provide valuable 
insight, but are not on the “must have” list. This section covers these frequently used analyses, and 
describes the organizational value of including them. 
8.5.1 – Type of Applicants/Assignee 
Throughout these guidelines, the word organization has been used when discussing companies and 
governmental entities. This has been done since these entities have different ways of approaching 
and utilizing patents, in terms of their approach to research and development, for instance. Since the 
organizational types are different, it can be valuable to create groups based on them, and examine 
patenting activities based on these groupings. The most popular categories used to group entities are: 
•  Industry – both for profit, and non-profit companies and businesses 
•  Governments – research conducted by labs associated with a particular country 
•  Universities – while normally tax payer funded universities behave differently than 
governments 
•  Individual Inventors – people who develop technologies without being associated with a large 
firm 
Additional sub-categories can also be created, if they are meaningful for the business objectives 
associated with the PLR, but these are the four major ones. The objectives and motivations for most 
of these entity types were discussed in chapter 5, and it can be valuable to segregate and compare 
the output from these different sectors as applied to a particular technology, or sub-category area. 
Some technologies might feature university, or governmental organizations predominantly, for 
instance, which could indicate that an area is still in the basic research stage and may not be ready 
for commercialization or application. 
Type of applicant is normally generated by manual grouping, but can also be accomplished by using 
automated methods that look for keywords, such as Univ, that can be used to group organizations into 
one of the categories used. Once the groupings have been made the output is visualized using the 
same methods used for the Applicant/Assignee field. 
96 
8.5.2 – Percentage of Foreign Born Inventors 
Working with assignees can sometimes be misleading since an organization may be headquartered in 
one location while the research conducted is performed in a different location not normally associated 
with them. Looking at foreign-born inventors can provide data on the country where the research was 
actually generated as opposed to where it was filed for. This statistic can also be used to speculate on 
the amount of partnering, and collaboration that takes place within an organization, and their research 
centers in different parts of the world. 
Taken in total, this data can be used, in conjunction with the Office of First Filing data to provide a 
more accurate picture of what countries are the real drivers for the development of different 
technologies or approaches to a topic. 
8.5.3 – Patent Quality Indicators 
There are many methods, and arguments to assess whether a patent is of high quality. These 
methods form part of the so-called patent valuation. It is beyond the scope of these guidelines to 
evaluate the patent valuation methods. Neverthess, there is a brief discussion on the practice in 
section 10.1. The issue of patent quality and the ways to assess it has been discussed for a long 
period of time and it is the issue on whether it can be assessed in an accurate way is disputed. It 
remains a fact that various methods are being used in practice to assess the quality and related value 
of a patent, as the latter remains an asset with economic value that needs to be assessed on various 
occasions and for various reasons. Regardless of the method used, it can be insightful to compare the 
number of high quality patents coming from different countries, organizations, technological sub-
categories, or time periods. 
It is important to provide some details on the method used to generate the quality scores in the 
methodology section of the report, and ensure that the method is applied consistently over all of the 
documents being studied. 
8.5.4 – Number of Patent by R&D Spending 
As suggested in section 8.4.6, there is more than one way to measure investment as it pertains to 
research and development (R&D). Analysts will often look at actual R&D currency spent as another 
measure of interest. These two metrics can be combined to evaluate the effectiveness of a research 
program, or country by looking at the number of patent filings generated based on the amount of 
money spent on R&D. The theory goes that a higher number of filings relative to spending makes for 
an effective use of currency, while a lower number of filings suggest inefficiencies, or difficulties in 
translating money spent into defined inventions. 
This measure, of course, is nuanced and should be used selectively, and in context. Often a 
comparable with another organization in the same technological category, or a comparison between 
closely associated sub-categories will be useful for providing insight. 
8.5.5 – Percentage of Triadic Families 
Triadic families have traditionally included a granted patent in the United States, Europe and Japan. It 
can be argued that there are other countries that should be added to the list in general, or countries 
selected should be based on relative strengths associated with a particular technology. In any case, 
looking at the percentage of families that have multiple, relevant countries included indicates maturity 
and likely commercialization potential within a technology area. 
97 
When looking at organizations, it is also speculated that the ones with a high percentage of “triadic” 
families are likely to have long-term interests in a technological area. 
8.6 – Additional Analysis Types to Consider Including 
While most analyses, include in PLRs are statistical in nature, they are not the only methods used to 
provide insight. Other analysis tasks were covered in Chapter 6 and many of these methods find their 
way into PLRs. These methods are considered to be a little more advanced and typically require the 
use of additional tools outside of a spreadsheet application. Tools for conducting these types of 
analyses are shown in section 9.1 of these guidelines. 
8.6.1 – Citation and Co-Inventor Networks 
Network analysis was discussed in section 6.8; the most relevant analyses pertaining to the creation 
of PLRs involves citations between assignees and, co-invention networks. 
Citation networks involve the visualization of forward and backward citations between a large 
collection of documents within a topic. Traditional citation analysis would start with a single patent, as 
a root, and show forward and backward citations only from the root document. Subsequent 
generations could be added, but they were treated as new roots as opposed to showing shared 
connections from one generation to another with a document that was common to both. 
With a network diagram, each patent document is a node and all of the connections, both forward, 
and back, are represented as edges, regardless of when they occurred and whether there was a 
linear, or direct connection between the nodes. In this fashion, connections are shown even if the 
citing skips a generation or two. With this type of visualization, seminal or lynch pin documents, one 
that get cited frequently over time, can be identified regardless of whether there is a direct connection 
or not. 
With a big collection, there can be a large number of nodes, and direct citation network visualizations 
can become very busy and difficult to interpret. To address this issue many tool providers will 
correlate the individual patents into groups based on their assignment and then use the organization 
name to label the node. This approach reduces the number of nodes and provides insight into which 
organizations are most well connected and regarded within a technology area. 
Co-inventor networks share the same qualities, nodes, and edges, and connections that don’t rely on 
direct linkages, but individual inventors are used as nodes, as opposed to patent numbers, or 
assignees. The patent documents are still the source of the inventor data but the analyst, in this case, 
is looking for relationships, such as a student, and a professor, between individuals. This type of 
analysis can also be combined with nodes for assignees to visualize the movement of key people 
from one organization to another. Consulting agreements, and partnerships can also be identified this 
way by looking for connections between individuals who are associated with multiple assignees. 
One of the biggest concerns, for analysts, working with network analysis tools, is dealing with 
networks that contain a large number of nodes. The key to making diagrams that can be understood 
by clients is to cut down on the number of nodes that are visible to the user. This is typically done by 
filtering based on the number of documents associated with the node representative. An analyst may 
decide, for instance, to restrict nodes to only those data points that have at least three occurrences 
associated with them. This will eliminate nodes for minor contributors in an area. Filtering can also be 
done on the number of occurrences that define the edges as well. 
98 
Network analysis can be a very powerful visualization technique but it has not fully caught on with the 
majority of vendors who make tools in the patent analysis space. Hopefully, more examples of this 
type of functionality will be available in the future. 
8.6.2 – Spatial Concept Maps 
Spatial concept mapping, is related to clustering, or classification, since it generally begins with one of 
these methods, but adds an extra component, identification of relative similarity between the 
categories created, to the task. The tools involved take the document clusters, or classes, and 
arrange them in 2-dimensional space by considering the similarity of the documents, or clusters, 
relative to one another, over the entire collection. Documents that share elements in common are 
placed closer together spatially, while ones with less similarity, are placed further away This analysis 
task was introduced in section 6.5. Using layers in conjunction with spatial concept maps was covered 
in section 6.6. Most spatial concept maps begin with a clustering, or unsupervised machine learning 
step, which was covered in section 6.4. 
Since there seems to be an X and Y-axis on most maps, many users think these visualizations 
behave like a scatterplot, where extrapolating between the X and Y can identify empty spaces on the 
map. In reality, there are no X and Y-axis associated with the maps and the distance between 
documents, usually represented by dots, are based on similarity of the documents to one another and 
compared to all of the other documents in the collection. Distance therefore, is relative, based on the 
document collection and guesses cannot generally be made about what sort of document might 
occupy an empty space on the map. 
While the maps, and document organization, is provided in two-dimensions a third-dimension is often 
implied by incorporating document density. The tightness of the clustering, in a group, or the number 
of documents, found in the group, will be used to demonstrate which groups have the highest number 
of documents in them. On a topographical version of spatial maps this is represented by an implied 
increase in peak heights on the map, visualized using a change in color. Many of the spatial maps, 
especially the ones based on clustering methods, also provide contour lines on the diagrams. 
Generally, these lines are drawn based on the distance between the document dots. The distance 
between a dot and its nearest neighbor determines the boundaries of the lines. Once the threshold is 
exceeded the line is drawn between the two dots. It has been speculated that contour lines 
encompassing multiple groups on a map implies a relationship between these groups, but generally, 
this is not the case and the lines are simply based on the spread of the documents. 
There are a few keys to creating good spatial concept maps that will be more easily interpreted by 
clients. The first involves the choice of words used to generate the vector that will be compared 
between documents. When working with full-text patent documents an analysis of this type should be 
restricted to certain sections of the document, such as the claims, or the titles and abstracts. Working 
with the entire body of text can confuse the system since there are sections, such as the background 
of the invention that are talking about other inventions, as opposed to the one covered by the patent. 
In addition, when working with full-text, the words chosen by the algorithm creating the vector will 
likely be sub-optimized since there are so many words to choose from. 
Users can selectively add stopwords to their map settings. Stopwords are also referred to as non-
content bearing words, and they can adversely impact clustering results if they are included in the 
vector since they do not impart knowledge of the topic area. Almost all mapping tools come with a list 
of standard stopwords, such as “the”, “and”, “a”, and other non-content bearing terms, but users can 
also look at initial results and identify other words that do not add meaning to the technology being 
99 
examined. New words can be added to stopword lists within tools on a map-to-map basis, or 
permanently. Modifying stopwords provides an analyst with a means for influencing the placement of 
documents on a spatial concept map. 
Finally, once the analyst feels comfortable that the system has done a reasonable job clustering 
documents, they can change the labels on the map so they reflect the terminology used by the 
stakeholders of the PLR. Most systems generate labels on these maps by looking at frequently used 
words, or terms, especially if they are unique to a particular cluster. Sometimes this works well, but 
often the label terms are too generic and don’t really reflect the contents of the cluster. The clustering, 
in fact, may have been quite good, but a poor label may be the first, and only, thing that a client sees. 
If the labels are poor, and don’t reflect meaningful categories, the client can lose interest or believe 
that the map is not meaningful. Labels can be changed within most mapping tools and should be done 
on a cluster-by-cluster basis by examining the titles of the individual documents with them. 
8.6.3 – Problem/Solution Semantic Examination 
Using semantic analysis based on subject action object triplets to build a knowledge base based on a 
collection of patents was discussed in section 6.9. Using semantic analysis to assist with the building 
and population of Technology Categories was also covered in section 8.3.5. The aggregation of a 
collection of problems gathered from a set of disparate documents can be represented as a 
knowledge base, and can provide a variety of potential solutions even if they are not found within a 
single document. Once a semantic analysis has generated categories, within a topic area of interest, it 
is possible to count the number of documents associated with each of them. In this sense it is the 
same as Technology Category visualization. 
Alternately, the knowledge base can also be represented as problems, and their corresponding 
solutions, for representation within a PLR. A nice means for visualizing a problem/solution can be 
seen with the use of a mind map. Wikipedia contains the following definition for mind maps
87
A mind map is a diagram used to visually outline information. A mind map is often created around a 
single word or text, placed in the center, to which associated ideas, words and concepts are added. 
Major categories radiate from a central node, and lesser categories are sub-branches of larger 
branches. Categories can represent words, ideas, tasks, or other items related to a central key word 
or idea. 
With this method, the topic can be used as the central node, problems listed as major categories 
radiating, or branching from the central node, and the solutions used as sub-branches of the larger, 
major category branches. 
8.6.4 – Top Patents for Immediate Consideration 
While most analytics are conducted on a macro-level, as described in section 7.2, frequently analysts 
will come across patents that appear to be particularly relevant to the organizational needs associated 
with the tendering of a PLR. When this occurs, they will often call these patents out so the clients will 
immediately have some information on these documents without having to refer back to the raw data 
associated with the project. 
Documents of this type are determined to be important for a variety of reasons, especially if they are 
coming from a major competitor, or represent potentially valuable patents from an organization of 
87
http://en.wikipedia.org/wiki/Mind_map  
Documents you may be interested
Documents you may be interested