12/28/2009 
Kansas Information Technology Architecture 
Page 4-63 
Version 11.2 
Other Important information for Data Cleansing  
 Han, J., Kamber, M. Data Mining: Concepts and Techniques, Morgan Kaufmann, 2001. 
 Kimball, R., Caserta, J. The Data Warehouse ETL Toolkit, Wiley and Sons, 2004. 
14.1.6 Extraction and Transformation 
Support the manipulation and change of data 
Architecture 
Component 
Twilight 
Standard 
Current Standard
Emerging Standard
Target
Extraction and 
Transformation 
Hand-written 
scripts 
Hand-written 
scripts and tools 
bundled with the 
underlying 
database that 
have limited out-
of-the box 
functionality. 
XML Data 
Interchange (XMI) 
Integrate with 
XML. 
Standards based 
metadata 
Leverage existing 
code as well as 
bring new 
functionality. 
Allow for the 
incorporation of 
existing working 
scripts and offer a 
complete tool set of 
ready to use 
transformations and 
functions as well as 
a comprehensive 
list of documented 
APIs and methods. 
Improve metadata 
management and 
administration as 
well as ensure data 
quality. 
Able to do upfront 
analysis and 
modeling and 
streamline the 
workflow process. 
Integrate with 
Message Brokers. 
Integrate with XML. 
XML Data Interchange 
(XMI) 
Integrate with Message 
Brokers. 
Standards based 
metadata 
Leverage existing code 
as well as bring new 
functionality. 
Allow for the 
incorporation of 
existing working scripts 
and offer a complete 
tool set of ready to use 
transformations and 
functions as well as a 
comprehensive list of 
documented APIs and 
methods. 
Improve metadata 
management and 
administration as well 
as ensure data quality. 
Able to do upfront 
analysis and modeling 
and streamline the 
workflow process. 
Preferences and Requirements for Extraction and Transformation: 
 Integrate data from multiple sources. Should easily connect to varied data sources and targets. 
 Cleanse and migrate data 
 Convert data types 
 Reconcile data inconsistencies 
 Eliminate duplicate records 
 Manage complex transformations 
 Provide real time, near real time, and scheduled updates 
 Offload production systems 
 Support ad-hoc reporting 
Pdf merge documents - Merge, append PDF files in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Provide C# Demo Codes for Merging and Appending PDF Document
pdf merge; best pdf merger
Pdf merge documents - VB.NET PDF File Merge Library: Merge, append PDF files in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET Guide and Sample Codes to Merge PDF Documents in .NET Project
reader merge pdf; combine pdf
12/28/2009 
Kansas Information Technology Architecture 
Page 4-64 
Version 11.2 
 Facilitate analytical processing 
 Build and maintain data marts, and data warehouses – an effective solution should be able to 
quickly capture information from multiple sources to create an “instant data mart” that answers a 
specific business question. 
 Ease of use – (easy to install and configure) 
 Cost effective 
 Handle large volumes of data (Parallel processing) 
Other Important information for Extraction and Transformation 
 Market Overview Update:  ETL – Giga Information Group Inc.  (2002) 
 ETL – Based Integration for All of Us – Embarcadero Technologies (2003) 
 Liberate Data for use by all Business Managers – Embarcadero Technologies (no date) 
14.1.7 Loading and Archiving 
Support the population of a data source with external data 
Architecture 
Component 
Twilight 
Standard 
Current Standard
Emerging Standard 
Target
Methodology 
 Copy to 
floppy disk 
Customized 
applications and 
scripts 
Database import and 
export tools 
SQL 
ODBC, JDBC, OLE 
XML 
Vendor supplied 
applications 
Copy to CDs and 
DVDs 
Print to Paper 
Reformat to Microfilm 
Automated capture 
and apply 
middleware 
Stored procedures 
Virtual warehouses 
Converting archive 
data into XML format  
RMA 
Information Lifecycle 
Management issues 
(see discussion 
under Digital Asset 
Services domain
Customized 
applications and 
scripts 
Database import and 
export tools 
SQL 
ODBC, JDBC, OLE 
XML 
Automated capture 
and apply 
middleware 
Stored procedures 
Data Loading  Import of 
data from 
static batch 
extractions 
Conceptual data 
model 
Logical data model 
Physical data model 
Similarity of source 
and target structures  
Simplified data inter-
dependency  
Metadata repositories 
Load utilities that 
access the metadata 
of the source and 
target to automate 
the transform and 
load processes  
Portable 
Support for  
o Oracle 
o Microsoft SQL 
Server 
o Sybase  
o IBM DB2 
o flat files  
o any JDBC-
accessible data 
source.  
Application  
Logging for: 
 Quality assurance
 Audit trail 
Logging for: 
 Quality 
assurance 
C# XDoc.HTML5 Viewer- Supported File Formats
FREE TRIAL: HOW TO: XDoc.HTML5 Viewer for C#▶: C# ASP.NET: View documents; C# ASP.NET PDF to HTML; C#: Convert PDF to Jpeg; C# File: Compress PDF; C# File: Merge
adding pdf pages together; best pdf combiner
C# Word - Merge Word Documents in C#.NET
C# Word - Merge Word Documents in C#.NET. Provide C# Demo Codes for Merging and Appending Word Document. Overview. RasterEdge C#.NET
pdf merge documents; reader merge pdf
12/28/2009 
Kansas Information Technology Architecture 
Page 4-65 
Version 11.2 
 Error tracing and 
recovery 
 Audit trail 
 Error tracing 
and recovery 
Technology  
Platform 
independence –
Minimally must 
support ODBC and 
OLE-DB connections.  
Database using single 
occurrence of DASD 
Data Capture and 
Apply – allows 
automated loading of 
changed data from 
the source data store 
to the target data 
store.  
Disk mirroring for 
speed and 
convenience during 
the load process 
Loading solutions 
built on an open 
architecture 
Re-usable custom 
extensions 
Open-standard 
Java-based server 
engine 
Platform 
independence –
Minimally must 
support ODBC and 
OLE-DB 
connections.  
Database using 
single occurrence of 
DASD 
Preservation  
Data migration 
Disk upgrades 
Preservation strategy 
built into lifecycle 
management 
processes 
See section on 
Digital Asset 
Management for 
additional 
information 
Guiding Principles for Loading and Archiving: 
 Models allow for the correct level of summarization required to support the business.  
 Loading of unnecessary data elements increases loading time, environmental requirements and 
data retrieval times. 
 The more diverse target data structures are from the source, the more complex the algorithms 
and processing required to accurately load the data. When the source and the target differ, the 
load processes typically must, for example, parse the records, normalize repeating groups, 
transform values, validate values, substitute code values and generate keys. Greater complexity 
often requires custom written solutions to translate requirements from the source data structures 
to the target data structure 
 Data inter-dependency determines the order that data must be loaded, and if parallel loading 
operations are possible. Complex dependencies complicate load strategies and encourage 
bottlenecks. 
 Metadata repositories provide a single, secure, and standardized method for providing 
metadata 
 Metadata must be visible and accessible to both programs and people 
 An effective load solution should be portable so that it can interoperate with all enterprise key 
databases, file types, operating systems, and hardware platforms. 
 Minimize network traffic by moving  data from sources directly to targets; basing an ETL solution 
on Java-based components ensures that it will run on a wide variety of operating systems and 
hardware platforms. 
 The load process should log crucial information collected during the load process. This 
information is critical for quality assurance and serves as an audit trail. Minimally, this log should 
include date processed, number of records read and written, errors encountered and the 
C# PowerPoint - Merge PowerPoint Documents in C#.NET
C# PowerPoint - Merge PowerPoint Documents in C#.NET. Provide C# Demo Codes for Merging and Appending PowerPoint Document. Overview.
combine pdf files; pdf combine pages
C# PDF Print Library: Print PDF documents in C#.net, ASP.NET
FREE TRIAL: HOW TO: XDoc.HTML5 Viewer for C#▶: C# ASP.NET: View documents; C# ASP.NET PDF to HTML; C#: Convert PDF to Jpeg; C# File: Compress PDF; C# File: Merge
batch merge pdf; pdf merger online
12/28/2009 
Kansas Information Technology Architecture 
Page 4-66 
Version 11.2 
business rules applied.  This log should be available while the processes are running to allow 
early determination of problems and in establishing estimated time of completion.  The load 
process must provide information about its current state in case of failure. Recovering from a 
system failure can be complicated, error prone, and time consuming. All necessary information to 
correct the problem must be available. Ideally, the load process includes logic to allow restarting 
the load from the point of the last known successfully loaded records.  
 Methods for moving the data from one source to another must have compatible architectures. 
Source data that cannot be easily accessed by the target will be difficult to maintain. Minimally 
must support ODBC and OLE-DB connections.  Choose methods where in-house or vendor 
expertise is readily available. Avoid relying on mechanisms where prompt support is difficult to 
obtain. 
 The next generation of loading solutions should be built on an open architecture, providing these 
key benefits: 
o Portable 
o Rich in functions 
o Extensible 
o Scalable 
o Easy to use 
o Cost-effective 
Because no ETL solution can anticipate the needs of every customer, an open architecture will 
support the creation of custom routines. JavaScript provides this capability. The custom 
extensions should also be re-usable so that work can be shared among team members and 
across projects. An open standard, Java-based server engine can scale to keep pace with 
growing data volumes, processing many gigabytes per day within the time available for batch 
processing. 
 Policies must be in place to assure the security of the archived data.  Access to archived 
files requires the same scrutiny as live data.   Every attempt must be made to ensure 
document integrity or fixity.  Every attempt must be made to secure archived content 
from modification in order to guarantee integrity. Policies in place to regularly upgrade 
the archive’s cryptographic algorithms should be in place to avoid exposure. 
 Archived data should be evaluated to ascertain if, and when, any or all of the archived data meets 
sunset criteria.  A strategy should be in place to appropriately and securely remove data that is no 
longer needed. 
 Long-term data preservation strategies and processes must be in place for archived data.   
 Long-term implies the data must be available for a period long enough to generate concern about 
the impact of changing technologies, including support for new media and data formats, or with a 
changing user community. This problem may be further complicated by the proprietary nature of 
some of the software.  Encrypted or compressed data would be rendered useless without 
retaining suitable decryption software, original decryption keys, and compression algorithms. 
Definitions for Loading and Archiving include: 
 Disk mirroring - Creating on two or more physical disk drives exact duplicates of a disk volume 
to make files accessible in case of failure of one drive of the mirror set. In the case of “load”, this 
provides flexibility during the load by allowing temporary discontinuance of the mirroring process, 
then, while one copy is loaded the other copy remains available. 
 ETL - Extract/Transform/Load. This is a 3 stage process delivers data from source systems into a 
data warehouse. First, the extract function reads data from a specified source database and 
extracts a desired subset of data. Next, the transform function works with the acquired data - 
using rules or lookup tables, or creating combinations with other data - to convert it to the desired 
state. Finally, the load function is used to write the resulting data (either all of the subset or just 
the changes) to a target database. 
VB.NET PDF Print Library: Print PDF documents in vb.net, ASP.NET
FREE TRIAL: HOW TO: XDoc.HTML5 Viewer for C#▶: C# ASP.NET: View documents; C# ASP.NET PDF to HTML; C#: Convert PDF to Jpeg; C# File: Compress PDF; C# File: Merge
append pdf; acrobat combine pdf
XDoc.HTML5 Viewer for .NET, Zero Footprint AJAX Document Image
controls, PDF document, image to pdf files and components for capturing, viewing, processing, converting, compressing and stroing images, documents and more.
scan multiple pages into one pdf; batch pdf merger online
12/28/2009 
Kansas Information Technology Architecture 
Page 4-67 
Version 11.2 
The core components of an ETL product.
Courtesy of Intelligent Business Strategies. 
The diagram above depicts the major components involved in ETL processing. The bullets below 
describe each component in more detail: 
 Design manager: Provides a graphical mapping environment that lets developers define 
source-to-target mappings, transformations, process flows, and jobs. The designs are stored 
in a meta data repository.  
 Meta data management: Provides a repository to define, document, and manage 
information (i.e., meta data) about the ETL design and runtime processes. The repository 
makes meta data available to the ETL engine at run time and other applications via an 
import/export mechanism.  
 Extract: Extracts source data using adapters, such as ODBC, native SQL formats, or flat file 
extractors. These adapters consult meta data to determine which data to extract and how.  
 Transform: ETL tools provide a library of transformation objects that let developers transform 
source data into target data structures and create summary tables to improve performance.  
 Load: The ETL load element’s primary responsibility involves inserting transformed data into 
a data warehouse database through the use of target data adapters, such as SQL or native 
bulk loaders, to insert or modify data in data warehouse databases or files. Generally, data 
warehouses are updated periodically rather than continuously, and large numbers of records 
are often loaded to multiple tables in a single data load. The data warehouse may be taken 
offline during update operations so that data can be loaded faster. The design of the loading 
element should focus on efficiency and performance to minimize the data warehouse offline 
time. Although ETL processes primarily support data warehouses, nearly twenty percent of 
ETL applications are in non-data warehouse applications.  Examples of this include moving 
data between applications, customer data integration, and database consolidation.    ETL 
tools  
 Transport services: ETL tools use network and file protocols (e.g., FTP) to move data 
between source and target systems and in-memory protocols (e.g., data caches) to move 
data between ETL run-time components.  
 Administration and operation: ETL utilities let administrators schedule, run, and monitor 
ETL jobs as well as log all events, manage errors, recover from failures, and reconcile 
outputs with source systems. 
These components are used in most vendor-supplied ETL tools, but data warehouse developers 
can also build them. A majority of companies have a mix of packaged and homegrown ETL 
applications. In some cases, they use different tools in different projects, or they use custom code 
to augment the functionality of an ETL product. 
 Open Architecture - A term used to describe any computer or peripheral design that has 
published specifications. A published specification lets third parties develop add-on hardware 
for an open-architecture computer or device.  
C# PDF: C#.NET PDF Document Merging & Splitting Control SDK
file. C#.NET APIs to Combine Two or More PDF Documents. void String destn); C#.NET Sample Codes to Merge Multiple PDF Files. public void
pdf split and merge; add pdf files together reader
VB.NET PDF: Use VB.NET Code to Merge and Split PDF Documents
VB.NET PDF - How to Merge and Split PDF. How to Merge and Split PDF Documents by Using VB.NET Code. Visual C#. VB.NET. Home > .NET Imaging
c# combine pdf; attach pdf to mail merge in word
12/28/2009 
Kansas Information Technology Architecture 
Page 4-68 
Version 11.2 
 Virtual Data Warehouse - a simple data warehousing tool that provides end users with direct 
access to operational data on legacy databases. In the ‘virtual’ scenario, data is not moved 
from source databases to a target data warehouse as in a traditional data warehouse 
scenario. In fact, a target database and data warehouse does not exist within a virtual 
environment. Instead, users employ intuitive end-user tools to access data directly from 
operational files, using common business terms.  
 Archive - Once a data warehouse or other data store is constructed and functioning, at some 
future point, warehouse management will most likely face challenges in managing query 
performance, ETL performance, and storage. To ensure that a balance is maintained 
between providing customers with the warehouse information they need, and ensuring that 
less critical historical information is accessible in some way, warehouse managers must 
establish an archive strategy.  Archiving entails the aging out of data that is no longer 
required for immediate access by the data warehouse user population.  The purpose of 
archiving is to help ensure that relevant data is accessible with as little wait time as possible. 
An archive strategy takes into account the entire storage requirements for the data in the data 
warehouse and balances this with the needs of the end users. Warehouse managers must 
take into account the totality of the types of trending and analytics required by their customers 
and what those needs translate into as storage requirements. Based on the analysis of these 
needs, the warehouse team can begin devising an archive strategy.  
 RMA – Records Management Application, a software program that files, stores, retrieves, 
and manages the retention of electronic records. These products work with a variety of 
common desktop applications such as e-mail software, digital imaging tools, electronic 
spreadsheet and presentation products. RMAs have a variety of useful features, such as: 
Centralized filing and storage of electronic records, version control, robust search and 
retrieval, and automated disposition that is compliant with legal requirements. 
References
  Ekerson, W. (2003). The evolution of ETL.  http://www.tdwi.org/
 ISO Archive Standards – Reference Model Papers. 
http://nssdc.gsfc.nasa.gov/nost/isoas/ref_model.html
14.1.8 Data Recovery 
Support the restoration and stabilization of data sets to a consistent, desired state 
Architecture 
Component 
Twilight Standard
Current Standard
Emerging 
Standard 
Target
Device-based 
IDE 
SCSI 
PATA. 
Fiber-Channel 
based. 
Image-based or 
snapshot 
technology. 
RAID 0 – 5 
EIDE
Image-based or 
snapshot 
technology 
RAID 6 
SATA 
FireWire (IEEE-
1394) 
LTO-3 
AIT-6 
Sarbanes-Oxley
End-to-end 
redundancy 
High fault 
tolerance 
SATA 
FireWire (IEEE-
1394) 
Software-based 
Automated 
recovery. 
Automated 
recovery 
12/28/2009 
Kansas Information Technology Architecture 
Page 4-69 
Version 11.2 
Point-in-time 
recovery. System-
managed storage 
Point-in-time 
recovery 
System-managed 
storage 
Network-based 
Adherence to 
NDMP 
NDMP Version 5 
SANs based upon 
IP 
NDMP Version 5 
Recommendation for Data Recovery: 
 Establishment, testing, and maintenance of a disaster recovery or business contingency plan. 
 Ability to take backups while data is online to users. 
 Ability to perform up-to-the-minute (point-in-time) recovery. 
 Ability to take complete or incremental (changes only) backups. 
 Ability to backup data logically (specific files/datasets) as well as physically (device-based). 
 Use of storage technology (hardware) with built-in redundancy for inherent, transparent 
recoverability (i.e. data striping techniques used with RAID (Redundant Array of Independent 
Disks), data mirroring, etc.) 
 Establishment and maintenance of backup metadata. 
 Use of compression algorithms to maximize backup storage media. 
 Flexibility of recovery technology to recover from backups taken by older software versions. 
 Use of system-managed storage systems with built-in recovery mechanisms such as automated 
migration and recall facilities. 
 Ability to operate within the network capacity of the enterprise. 
Definitions for Data Recovery include: 
 ATA – Advanced Technology Attachment. A mass storage device interface, also called IDE 
(Integrated Drive Electronics). 
 Data Mirroring – The act of copying data from one location to a storage device in real time. 
Because the data is copied in real time, the information stored from the original location is always 
an exact copy of the data from the production device. Data mirroring is useful in the speedy 
recovery of critical data after a disaster. Data mirroring can be implemented locally or offsite at a 
completely different location. 
 Data Recovery – The process of salvaging data from damaged, failed, wrecked or inaccessible 
primary storage media when it cannot be accessed normally. Often the data is being salvaged 
from storage media formats such as hard disk drive, storage tapes, CDs, DVDs, RAID, and other 
electronics.  This can be due to physical damage to the storage device or logical damage to the 
file system that prevents it from being mounted by the host operating system.  Although there is 
some confusion as to the term, data recovery can also be the process of recovering delete 
information from a storage media in for example forensic purposes. 
http://en.wikipedia.org/wiki/Data_recovery. 
 Data Striping – The writing of data across multiple drives and adding of redundancy to permit 
recovery of the data if one of the drives fails. It is a RAID technique. 
 IEEE 1394 – an international high-performance serial-bus standard which TI has released in a 
chipset that offers the real-time data transfer of video, audio and peripheral applications through a 
universal I/O interface. With this technology, digital cameras, CD-ROMs, printers, hard-disk drives 
and audio/stereo equipment can move data at high speeds to desktops and portable computers 
through a single cable. Also known as FireWire. 
 Multipathing – Multipathing software lets you define and control redundant physical paths to I/O 
devices, such as storage devices and network interfaces. If the active path to a device becomes 
unavailable, the software can automatically switch to an alternate path to maintain availability. 
This capability is known as automatic failover. 
12/28/2009 
Kansas Information Technology Architecture 
Page 4-70 
Version 11.2 
 NDMP – Network Data Management Protocol. The NDMP initiative was launched to create an 
open standard protocol for network-based backup for network-attached storage. 
 PATA – Parallel Advanced Technology Attachment. A device interface based upon parallel 
signaling technology. 
 RAID – Redundant Array of Independent Disks. A RAID array is a series of drives which together 
act as a single storage system. In most configurations this storage system can tolerate the failure 
of a drive without losing data and depending on how it is configured, can rebuild itself once the 
failed component is replaced.  See this link for various levels and definitions of RAID: 
http://www.integratedsolutions.org/raid_ov.htm
 Sarbanes-Oxley – Pub. L. No. 107-204, 116 Stat. 745, also known as the Public Company 
Accounting Reform and Investor Protection Act of 2002 and commonly called SOX or SarbOx 
 SAN – Storage Area Network.  A storage area network (SAN) is a high-speed special-purpose 
network (or subnetwork) that interconnects different kinds of data storage devices with associated 
data servers on behalf of a larger network of users. Typically, a storage area network is part of 
the overall network of computing resources for an enterprise. 
 SATA – Serial Advanced Technology Attachment. A device interface based upon serial signaling 
technology. 
Other Important information for Data Recovery 
 Tanenbaum, A. & Woodhull, A.S. (1997). Operating Systems: Design And Implementation, 2
nd
ed. New York: Prentice Hall. 
 Network-based backup standard (NDMP): www.ndmp.org
 Backup products: http://www.ndmp.org/products/index.shtml
 “Enterprise Design for Backup and Recovery Services”. 
http://www.microsoft.com/technet/itsolutions/wssra/raguide/BackupandRecoveryServices/igbrbp_
2.mspx?mfr=true
 Tape media summary: 
http://www.pcmag.com/encyclopedia_term/0,2542,t=magnetic+tape&i=46499,00.asp
 Compliance laws/acts affecting storage and other requirements for recoverability: 
http://www.archivas.com:8080/product_info/z3_pdfs_gh23/Compliance.pdf
14.1.9 Data Classification 
Allow the classification of data 
Architecture 
Component 
Twilight 
Standard 
Current Standard
Emerging 
Standard 
Target
General 
Criteria: 
o Confidentiality 
Integrity 
o Trustworthiness 
o Availability 
Business 
requirements-
based 
Multi-faceted 
taxonomy serving:  
ILM 
enterprise content 
management 
compliance  
data mining and 
decision support  
security 
Criteria: 
o Confidentiality 
o Integrity 
o Trustworthiness 
o Availability 
12/28/2009 
Kansas Information Technology Architecture 
Page 4-71 
Version 11.2 
Basis for enterprise 
information asset 
management 
Information 
Lifecycle 
Management 
By-product of 
hierarchical storage 
management (HSM) 
implementations 
where the pervasive 
classification criterion 
was the age of the 
data.   
Criteria based on 
access or availability 
and recovery 
requirements, and 
cost. 
Data classification 
assigns a level of 
business 
importance, 
availability, 
sensitivity, 
security, and 
regulation 
requirements to 
data. This process 
matches 
classifications of 
data with their 
proper tier of the 
storage 
infrastructure, as 
well as the 
appropriate 
security, 
compliance, data 
protection, 
migration and 
disaster recovery 
levels.  
Establishing a 
solid classification 
methodology is 
fundamental to 
organizational  
adoption and the 
ILM strategy.   
Example 
categories: 
o Mission-critical 
online data 
o Business-
critical online 
data 
o Accessible 
online data 
o Nearline data 
o Offline data 
Criteria based on 
access or availability 
and recovery 
requirements, and 
cost. 
Data classification 
assigns a level of 
business importance, 
availability, sensitivity, 
security, and 
regulation 
requirements to data. 
This process matches 
classifications of data 
with their proper tier 
of the storage 
infrastructure, as well 
as the appropriate 
security, compliance, 
data protection, 
migration and disaster 
recovery levels.  
Establishing a solid 
classification 
methodology is 
fundamental to 
organizational  
adoption and the ILM 
strategy.   
Example categories: 
o Mission-critical 
online data 
o Business-critical 
online data 
o Accessible online 
data 
o Nearline data 
o Offline data 
Security 
Classification of data 
determines the extent 
to which the data 
needs to be controlled 
/ secured  
Classification of data 
Classification of data 
determines the extent 
to which the data 
needs to be 
controlled / secured  
 Classification of 
12/28/2009 
Kansas Information Technology Architecture 
Page 4-72 
Version 11.2 
is indicative of value in 
terms of Business 
Assets  
Essential to 
distinguish what is of 
little value and what is 
highly sensitive and 
confidential 
Example classification 
scheme: 
Confidential 
Data – Do Not 
Share 
Restricted Data 
– Business 
Need To Know 
Sensitive Data – 
Share with Care 
Public Data 
data is indicative of 
value in terms of 
Business Assets  
Essential to 
distinguish what is of 
little value and what is 
highly sensitive and 
confidential 
Example 
classification scheme: 
Confidential 
Data – Do Not 
Share 
Restricted Data 
– Business 
Need To Know 
Sensitive Data 
– Share with 
Care 
Public Data 
Subject / 
Topic 
Uncontrolled 
Controlled Taxonomy 
within organizational 
units; 
Controlled Vocabulary 
Controlled 
Taxonomy and 
Vocabulary for the 
enterprise; 
Concept Mapping 
Controlled Taxonomy 
within organizational 
units; 
Controlled 
Vocabulary 
Concept Mapping 
Definitions for Data Classification include: 
 Confidentiality – the privacy of an asset 
 Integrity – If data is damaged or incorrectly altered, how important is it to restore it to a 
trustworthy state with minimum loss 
 Availability  requirement that an asset be available to an authorized person, entity, service or 
device; general rule: the more critical the data is, the higher its availability ranking will be 
 Data classification  the conscious decision to assign a level of sensitivity to data as it is being 
created, amended, enhanced, stored, or transmitted.  The classification of the data should then 
determine the extent to which the data needs to be controlled / secured and is also indicative of 
its value in terms of Business Assets.  The classification of data and documents is essential to 
distinguish what is of little value and what is highly sensitive and confidential. 
Other Important information for Data Classification 
Data can be classified from a variety of perspectives.  Three primary perspectives are: 
 Information Lifecycle Management 
 Security 
 Subject / Topic (Refer to the Support Services Domain, Interoperability section for further 
information.) 
“The future state of data classification will involve a much broader perspective, motivated by business 
requirements.  The taxonomy will serve several needs (including ILM, enterprise content management, 
Documents you may be interested
Documents you may be interested