The PoWR Handbook 2008: What's on your web? 
9999    
Chapter 2: What's on your web? 
In this chapter we outline the things we think are likely to appear on Institutional 
websites, and the types and location of other web-based resources. We make 
suggestions for the sort of information which, ideally, you would like to have available to 
help you start preservation activities; and suggestions for how you might collate that 
information. 
Contents of Institutional websites 
If we consider the website as a major tool of the Institution as an organisation and/or 
business, it is likely to contain: 
• Institutional and departmental records, with legal and business requirements 
governing their retention and good maintenance. 
• Content affecting students, such as prospectuses and e-learning objects 
• Administrative outputs 
• Research outputs 
• Teaching outputs 
• Project outputs 
• Evidence of other activities (e.g. conferences) 
In fact very few activities don't require a web presence, whether it is a single line or page, 
or a conference booking system. Many resources may already exist within a well-
established managed environment, like VLEs and Institutional Repositories, but creating 
and maintaining a list of web-based resources is essential. 
What systems have we got? 
The kind of systems we would expect to find most HE institutions using are (in no 
particular order): 
• Systems for managing assessments and examinations 
• Online libraries 
• Online teaching courses and course content 
• Digital collections used for study 
• e-learning objects and teaching materials 
• e-portfolios 
• Systems for managing assessments and examinations 
• Blogs 
• Wikis  
Many will be on institutional web servers, but some may be hosted elsewhere. Some of 
these may contain interactive, social software, or transactional elements. 
As you start thinking about ways to characterise the resources, it is important to 
distinguish between the following: 
• Resources that are simply being accessed or delivered by a web browser. 
These may not be deemed web resources as such, because they are probably 
being managed already. The web element here is simply one of access or 
delivery. For example, an image collection of JPEGs, or a periodical collection 
in PDF form, may be accessible and delivered to students using an online 
catalogue with hyperlinks that connect to the resource and render the 
A pdf page cut - Split, seperate PDF into multiple files in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Explain How to Split PDF Document in Visual C#.NET Application
pdf format specification; break apart pdf pages
A pdf page cut - VB.NET PDF File Split Library: Split, seperate PDF into multiple files in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
VB.NET PDF Document Splitter Control to Disassemble PDF Document
split pdf into individual pages; break pdf into pages
The PoWR Handbook 2008: What's on your web? 
110000    
resource onscreen. Neither the JPEGs nor the PDFs in this instance are web 
resources which need to be managed. 
• Interactive or social software elements, which may result in outputs which 
require some form of preservation. This needs to be considered carefully. 
• Transactional elements, which may result in outputs which require some form 
of preservation  
Why have we got it? 
As you begin to identify the web resources and various pages of the website, you may 
start to ask questions about who is using them and what they are doing. This divides into 
two pertinent questions: 
(1) Whose is it?
Whose is it?
Whose is it?
Whose is it?: Identifying relevant stakeholders: Students, academic staff, tutors, 
Institutional administrators, researchers, and the general public may all be making use 
of web resources. We will need to consider the use they are making of the resources, but 
also if they have a stake in the management, storage and retention of these resources. 
(2) What use are they making of the resources?
What use are they making of the resources?
What use are they making of the resources?
What use are they making of the resources?: 
• What's the purpose of the activities? 
• Are they creating original materials? 
• Are they creating and storing records? 
• How do they create the resource?  
Where is it? 
As already mentioned, while many resources ought to be found on institutional web 
servers, and in the institutional domain (usually .ac.uk), others may not be - increasingly 
the case since the advent of Web 2.0 and the growth of web-based cloud computing. For 
each resource identified, consider: 
• How many domains do you have? 
• Where is the Institution's web content? 
• How did it get there? 
• What URLs are being used? 
• How many servers? 
• Are backups being made? 
• What Content Management Systems are we using? 
• Do we have resources with external dependencies?  
Most Institutions will operate more registered domains or sub-domains than just the 
main Institutional website. It might help to conduct a survey to establish all the URLs and 
domains currently being used or associated with the Institution. Some possibilities: 
• Staff and student intranets 
• Student portals 
• VLE domains 
• Separate domains for funded projects 
• Museum domains  
While some institutions require registration for all new websites created, it's also likely 
that departments and individuals are empowered to build websites as they are needed, 
sometimes with scant attention paid to things like corporate aims, consistent design, or 
record-keeping. From the first PoWR workshop, we sensed there was a general lack of 
centralised awareness about the number of websites and web resources in any given 
VB.NET PDF copy, paste image library: copy, paste, cut PDF images
VB.NET DLLs: Copy, Paste, Cut Image in PDF Page. In order to run the sample code, the following steps would be necessary. VB.NET: Cut Image in PDF Page.
break pdf into multiple documents; pdf split file
C# PDF Page Extract Library: copy, paste, cut PDF pages in C#.net
If using x86, the platform target should be x86. C#.NET Sample Code: Clone a PDF Page Using C#.NET. Load the PDF file that provides the page object.
break pdf into separate pages; break a pdf into separate pages
The PoWR Handbook 2008: What's on your web? 
11111    
Institution: "We don't know what we've got, or what people are using it for; and we don't 
know what to archive." 
Ways of finding out 
There are various ways for how you could start to whittle away at this big list of unknown 
quantities. 
• Conduct a survey.
Conduct a survey.
Conduct a survey.
Conduct a survey. This would involve approaching webmasters and 
stakeholders, including creators and owners of the resources. See Chapter 20: 
Information Lifecycle Management: Creation. It could take the form of a 
physical survey, visits to departments, meetings with people, a questionnaire, 
or extensive research. Or a combination of all of these. 
• Approach your Institutional hostmaster or Domain Name Server (DNS) 
Approach your Institutional hostmaster or Domain Name Server (DNS) 
Approach your Institutional hostmaster or Domain Name Server (DNS) 
Approach your Institutional hostmaster or Domain Name Server (DNS) 
manager.
manager.
manager.
manager. This person should be able to inform you about all the URLs, 
domains and sub-domains which are owned, used and managed by the 
Institution, some of which may not be immediately obvious to you. 
• Compile an Information Asset Register (IAR)
Compile an Information Asset Register (IAR)
Compile an Information Asset Register (IAR)
Compile an Information Asset Register (IAR). IARs have a history in central 
government, where departments compile inventories of their information 
assets which have value to themselves, or through sharing with other 
departments. This is probably more of a longer-term approach than a quick 
win, but it is a good way of selling the idea of website and web preservation to 
senior management. It works from the assumption that the website and web-
based resources are assets which have tremendous value to the Institution, 
hence are worthy of protection and preservation; you would be working 
towards bringing such resources in line with an Information Asset 
Management strategy.  
C# PDF copy, paste image Library: copy, paste, cut PDF images in
C#.NET Project DLLs: Copy, Paste, Cut Image in PDF Page. C#.NET Demo Code: Cut Image in PDF Page in C#.NET. PDF image cutting is similar to image deleting.
pdf split pages; pdf no pages selected to print
VB.NET PDF Page Extract Library: copy, paste, cut PDF pages in vb.
Pages. |. Home ›› XDoc.PDF ›› VB.NET PDF: Copy and Paste PDF Page. Please refer to below listed demo codes. VB.NET DLLs: Extract, Copy and Paste PDF Page.
pdf split; pdf file specification
The PoWR Handbook 2008: What risks and issues are peculiar to websites? 
112222    
Chapter 3: What risks and issues are peculiar to 
websites? 
In discussions at the PoWR Workshops, and on the PoWR blog posts, the following risks 
and issues were identified: 
Frequency of change 
From the first workshop it is clear that many stakeholders in Institutions are aware that 
their website has changed quite dramatically in the last 5-10 years. But they all lack 
evidence of the changes. Agents of change can include: 
• Corporate or institutional rebranding 
• Move to a Content Management System 
• Content provider change 
• External consultancy  
Quantity and range of resources 
The quantity and range of resources potentially needing preservation may appear 
daunting. There are at least two sides to the problem: (1) knowing what there is and 
where it is, an issue which is partially addressed by Chapter 4: What are your web 
archiving requirements? and Chapter 2: What's on your web?. (2) knowing what to do 
about the resources, for which see Chapter 5: Selection. 
Continuity 
• Persistence of resources at a given URL 
• Persistence of resources within a domain 
Because of the ease with which websites and pages can be edited and changed, often 
by just one person, the possible impact on users expecting 'continuity' in web resources 
is easily overlooked. For example, a page may stay the same, but no longer be available 
from the same URL; or it may remain at the same URL but its content changes. Is it even 
possible to support versioning across a whole site, so that old versions of a page link to 
contemporary versions of other pages? 
Integrity of web resources 
Websites and pages need to be protected from careless or wrongful amendment, 
deletion, or removal, whether by malevolent hackers/crackers, or well-intentioned 
institutional staff. 
Ownership 
• Web resources may be managed by many different departments, faculties, or 
members of staff 
• Sub-sites may be temporary / ad hoc (for example, a project site)  
Databases and deep websites 
• Preserving an underlying database may not preserve user's experience on the 
web 
• Database-driven websites are not always easy to capture by remote harvesting  
C# PDF remove image library: remove, delete images from PDF in C#.
page. Define position to remove a specific image from PDF document page. Able to cut and paste image into another PDF file. Export
break pdf file into parts; break password pdf
How to C#: Basic SDK Concept of XDoc.PDF for .NET
you may easily create, load, combine, and split PDF file(s), and add, create, insert, delete, re-order, copy, paste, cut, rotate, and save PDF page(s), etc.
break up pdf into individual pages; c# print pdf to specific printer
The PoWR Handbook 2008: What risks and issues are peculiar to websites? 
13333    
Streaming and multimedia 
• Quantity and quality of data; and see third-party websites, below. 
Personalised websites 
• Some websites offer users customisable features. Should we (even if we can) 
preserve every possible combination, or every user's custom view?  
Third-party websites 
• Groups on Facebook or Google, blogs, wikis - the content is hosted elsewhere 
but it constitutes valuable institutional material. How best can this be 
retrieved? Who 'owns' it? Is login authentication required to access some or all 
of the information? See Chapter 12: What about Web 2.0, and some of the 
case studies in Chapter 13: Scenarios and case studies. 
Selection 
• How to decide what pages, sites, subsites, web apps, to keep (or what bits of 
them)? 
• Is capturing and storing everything an option? 
• How to decide whether user experience (web interface) must be kept, or just 
underlying database/information 
• Quality control/censorship 
Providing access 
• How to provide access to archived web resources 
• IPR issues and ownership 
Resources for preservation 
• Personnel to undertake preservation work: preservation work can be an 
overhead on day-to-day web management. 
• Storage space to store old versions of the websites: how can we estimate how 
much is required? 
Resource issues apply to all digital preservation objects, and are not exclusively 
connected with web resources.
VB.NET PDF: Basic SDK Concept of XDoc.PDF
you may easily create, load, combine, and split PDF file(s), and add, create, insert, delete, re-order, copy, paste, cut, rotate, and save PDF page(s), etc.
pdf split and merge; break pdf into multiple pages
VB.NET PDF Page Delete Library: remove PDF pages in vb.net, ASP.
XDoc.PDF ›› VB.NET PDF: Delete PDF Page. using RasterEdge.Imaging.Basic; using RasterEdge.XDoc.PDF; How to VB.NET: Delete a Single PDF Page from PDF File.
break a pdf password; acrobat separate pdf pages
The PoWR Handbook 2008: What are your web archiving requirements? 
114444    
Chapter 4: What are your web archiving requirements? 
What should be included? 
Deciding on a managed set of requirements is absolutely crucial to successful web 
archiving. It is possible that, faced with the enormity of the task, many Institutions 
decide that any sort of capture and preservation action is impossible, and it is safer to 
do nothing. PoWR proposes that the task can be made more manageable by careful 
appraisal
appraisal
appraisal
appraisal of the web resources, a process that will result in selection
selection
selection
selection of certain 
resources for inclusion in the scope of the programme. It will also help you identify those 
resources which can either be excluded from the programme, or at least assigned a 
lower priority for action. 
Appraisal and selection are disciplines borrowed from the archival and records 
management professions, and if successfully adapted can assist enormously in the 
process of decision-making. Appraisal decisions will be informed by: 
• Knowledge of the Institutional structure and its aims 
• Awareness of the policies and drivers for preservation 
• Sound understanding of legal record-keeping requirements 
• Use made of web resources 
• Awareness of the stakeholders and their needs 
• Potential re-use value of resources 
In short, you need to understand the usage currently made of institutional websites and 
other web-based services, and the nature of the digital content which appears on these 
services. You will need to consider: 
• Should the entire website be archived, or selected pages from the website? 
• Could inclusion be managed on a departmental basis, prioritising some 
departmental pages while excluding others? 
You will also be looking for unique, valuable, and unprotected resources, such as: 
• Resources which only exist in web-based form - for example, teaching 
materials which have been designed as web pages 
• Resources which do not exist anywhere else but on the website 
• Resources whose ownership or responsibility is unclear, or lacking altogether 
• Resources that constitute records, according to definitions supplied by the 
records manager 
• Resources that have potential archival value, according to definitions supplied 
by the archivist  
How to characterise your resources 
One way to determine what kind of approaches to adopt, when considering web 
resources for preservation purposes, is to consider which of the following three 
categories best describe an object. Particularly if it is a record or a publication, it should 
be considered in the context of existing policies and procedures for these types of 
document.
VB.NET PDF Page Insert Library: insert pages into PDF file in vb.
PDF Pages. |. Home ›› XDoc.PDF ›› VB.NET PDF: Insert PDF Page. Professional .NET PDF control for inserting PDF page in Visual Basic .NET class application.
pdf no pages selected; break pdf
C# PDF Page Insert Library: insert pages into PDF file in C#.net
PDF ›› C# PDF: Insert PDF Page. C# PDF - Insert Blank PDF Page in C#.NET. Guide C# Users to Insert (Empty) PDF Page or Pages from a Supported File Format.
break a pdf file into parts; cannot select text in pdf file
The PoWR Handbook 2008: What are your web archiving requirements? 
15555    
A record 
"Recorded information, in any form, created or received and maintained by an 
organisation or person in the transaction of business or conduct of affairs and kept as 
evidence of such activity." 
(www.recordsmanagement.ed.ac.uk/InfoStaff/RMstaff/RM_framework.htm) 
A web resource can be considered a record if: 
• It constitutes evidence of business activity that you need to refer to again; 
• It is evidence of a transaction; 
• It needs to be kept for legal reasons.  
Some examples: 
• Website contains the only copy of an important record. How do you know it's 
the only copy? If you don't know, then it shouldn't be removed or deleted 
carelessly unless you can establish this is the case. 
• Website, or suite of web pages, in itself constitutes evidence of institutional 
activity. The history of this evidence is visible through the various iterations 
and changes of the website. 
• Website is in itself evidence of the publication programme, or has such 
evidence embedded within its systems. If you need to provide, as evidence, 
that the Institution published a particular document on a certain date, then 
the logs in the CMS constitute an evidentiary record. In some cases, this may 
be needed to protect against liability. 
• A transaction of some sort that has taken place through the website 
(transaction doesn't just mean money has changed hands). If these are 
transactions that require keeping for legal or evidentiary reasons, then they 
are records too. The transaction may generate some form of documentation 
(e.g. automated email responses), which may in turn need to be captured out 
of the process and stored in a place where it can be retrieved and accessed.  
A publication 
"A work is deemed to have been published if reproductions of the work or edition have 
been made available (whether by sale or otherwise) to the public." (National Library of 
Australia www.nla.gov.au/services/ldeposit.html) 
A web resource might be considered a publication if: 
• It's a web page that's exposed to the public on the website; 
• It's an attachment to a web page (e.g. a PDF or Word Document) that's 
exposed on the website; 
• It's a copy of a digital resource, e.g. a report or dissertation, that has already 
been published by other means.  
Some examples: 
• Websites containing the only copy of an important publication. 
• Web pages constituting a version of information that is available elsewhere. By 
version, we mean it's been rendered in some way to bring it into the website. 
This rendering may include, for example, the addition of navigation elements 
that make it different to the original source. 
• Web page constituting a mix of published information. For example, a page of 
The PoWR Handbook 2008: What are your web archiving requirements? 
116666    
original Institutional material combined with an RSS feed from outside the 
Institution.  
An artefact 
Anything else that isn't a record or a publication by the above definitions, but which is 
still worth preserving, can be understood as an artefact. 
A web resource might be considered an artefact, if, for example: 
• It has intrinsic value to the Institution for historical or heritage purposes; 
• It's an example of a significant milestone in the Institution's technical progress, 
for example the first instance of using a particular type of software  
Artefacts preserved could include: 
• Image collections 
• Moving image collections 
• Databases 
• e-Learning objects 
• Digitised objects 
• Research objects  
What resources can be excluded? 
Web-based resources that are already being managed elsewhere 
Asset Collections.
Asset Collections.
Asset Collections.
Asset Collections. For some asset collections, or e-resource collections, the web is often 
just an access tool for the underlying information resource, and your preservation 
actions are best concentrated directly on that resource, rather than on the web as a 
means of accessing it. This class might include: 
• Digitised images 
• Research databases 
• Electronic journals 
• Ebooks 
• Digitised periodicals 
• Examples of past examination papers 
• Theses  
Institutional repositories
Institutional repositories
Institutional repositories
Institutional repositories (examples include DSpace, eprints or Fedora). Institutional 
repositories are web-based tools, but the materials stored in an IR are already being 
managed; there are elements such as metadata profiling, secure and managed storage, 
backup procedures, audit trails of use, and recognised ownership. A well-managed IR 
therefore already constitutes a recognised digital preservation method in itself. Neither 
IRs nor objects stored in them need be included in the scope of your programme. 
Duplicate copies.
Duplicate copies.
Duplicate copies.
Duplicate copies. In some cases, the website is a pointer to resources that are stored 
and managed somewhere else. Or the resource has been uploaded from a drive which is 
owned and maintained by another department. If you ascertain that the 'somewhere 
else' is already being preserved, then you may not need to keep the website copies. 
The PoWR Handbook 2008: What are your web archiving requirements? 
17777    
Web-based resources that have little or no value 
Institutional Web-based applications which deliver a common service. The web 
application is an incidental component used in the management of such services; quite 
often the important record component in such instances is actually stored or managed 
elsewhere, for example in a database of underlying data. 
Services which do not generate any informational material of lasting value to the 
institution. Some examples of common services are room booking systems, systems 
which allow automated submission of student work for assessment, or circulation of 
examination results. 
Resources which clearly fall outside the scope of an agreed records retention policy, or 
an archival selection policy. Examples might include Twitters and Instant Messaging, 
unless evidence can be found of a strong Institutional driver to retain and manage such 
outputs. 
The PoWR Handbook 2008: Selection 
118888    
Chapter 5: Selection 
This chapter proposes three main approaches to selection of web resources, and 
discusses the possibility of inscribing any decisions made within the framework of a 
written collection policy. The chapter also outlines the main differences between the 
capture of information and the capture of the web-based experience. 
Among the National Libraries engaged with large-scale web archiving projects in their 
own country, three main approaches to selection have developed. These approaches can 
feasibly be adapted and scaled down to match the requirements of an HFE Institution, 
enabling you to decide which selection approach, or approaches, is best suited for you. 
(See for example T. Hallgrimsson (2008): 'International Approaches to Web archiving'.) 
1. Bulk/domain harvesting 
This could mean harvesting the entire website, and/or all its associated domains (which 
could mean targeting more than one URL). 
TNA's guidance (Adrian Brown, Archiving Websites) would call this an "Unselective 
approach". It involves collecting everything possible. Some argue that it is cheaper and 
quicker to be unselective than to go through the time-consuming selection route; that it 
is demonstrably less 'subjective' and will produce a more accurate picture of the web 
resource collections; and that since it is technically feasible, why not? 
However, aspects of those arguments are more applicable to a digital archive or 
repository trying to scope its collection within certain affordable and pragmatic 
boundaries. Secondly, there's no point in capturing 'everything' if you have already 
established that there are significant quantities of web resources in your Institution that 
do not even need capture, let alone preservation. In running a frequent domain-wide 
harvest of your own networks, you run the risk of creating large amounts of unsorted and 
potentially useless data, and commit additional resources to its storage. 
2. Criteria-based selection 
This could entail selecting web resources according to a pre-defined set of criteria. For 
example: 
• All resources owned by one Department 
• One genre of web resource (e.g. all blogs) 
• Resources that share a common subject, or related subjects (especially if 
relevant to a field of research associated with your Institution) 
• All resources that affect students only 
• All resources that affect staff only 
• All funded projects with web-based deliverables 
• All resources thought to be at risk of loss 
• All records 
• All publications 
• Resources that would most benefit an external user community (e.g. former 
alumni, historians)  
TNA's guidance would characterise this as a 'Selective approach'. In the library and 
archive-based approach to web archiving, the selective approach is seen as the 'most 
narrowly-defined method'. Faced with the possibility of selecting external websites from 
the entire world-wide web for preservation in its collection, the Repository wishes to 
Documents you may be interested
Documents you may be interested