pdf annotation in c# : Active links in pdf Library application API .net windows asp.net sharepoint 05bouche1-part1699

THE EUDML PROJECT
67
Figure 3. The reference lookup.
CP2. EuDML items must be open access after a nite embargo period. Once
documents contributed to the library are made open access due to this
policy, they cannot revert to close access later on.
This is the so-called \moving wall policy" as in general the published
items become freed from a pay wall after a certain embargo period (typ-
ically ranging from 0, aka open access publishing, to less than 10 years).
This eventual open access policy tries to accommodate the fact that not
all mathematical publishers can aord to publish everything as open ac-
cess immediately, but that the value of mathematical knowledge is to
Active links in pdf - insert, remove PDF links in C#.net, ASP.NET, MVC, Ajax, WinForms, WPF
Free C# example code is offered for users to edit PDF document hyperlink (url), like inserting and deleting
add a link to a pdf in acrobat; pdf edit hyperlink
Active links in pdf - VB.NET PDF url edit library: insert, remove PDF links in vb.net, ASP.NET, MVC, Ajax, WinForms, WPF
Help to Insert a Hyperlink to Specified PDF Document Page
add a link to a pdf; accessible links in pdf
68
THIERRY BOUCHE
Figure 4. A typical item’s landing page.
THE EUDML PROJECT
69
foster new developments in any elds and at any time after publication,
so that this should become public knowledge after a not-too-long while
(much shorter than current copyright duration, indeed). This policy is
strongly supported by the International Mathematical Union as part of
CEIC’s best practices [6].
CP3. The digital full-text of each item contributed to EuDML must be archived
physically at one of the EuDML member institutions.
This is for the sake of preserving the mathematical corpus as an endur-
ing collection, which in turn is the only way to secure its online availability
over the very long term.
We noticed during this project that these rules are strong and will limit our abil-
ity to reach an exhaustive mathematical corpus (the Elsevier archived ‘primary
mathematical journals’ [8] that have been recently released as open access would
comply with the rst two of them, for instance, while not all project Euclid jour-
nals would comply with the second one). However we felt that these rules ensure
that the system we built is on a sound base, and that what has been achieved so
far cannot be reverted by some external fortune.
Our Scientic Advisory Board commented on these policies at the very end of
the project and suggested that we relaxed them somehow, in order to maximize
the eligible content. Tweaking these policies so that EuDML is as inclusive as
possible but not just a loose index of untrusted mathematical papers on the Web
was a challenge of this project. We thought that we should rst have a strong
perpetual content base before trying to accommodate with looser scenarios.
3.3. External Cooperation Model. Based on the above content policies, we
drew a model of EuDML operation that will inform the design of the EuDML Ini-
tiative. It is based on a consortium of EuDML core members being scientically
and organizationally strong not-for-prot institutions that take care of the sys-
tem’s activity, maintenance, and of the collections both in terms of preservation
and eventual open access provision. This gives rise to a network structure relying
on a core set of internal partners providing content and technology. A second
tier is foreseen to allow participation of associated partners that, for instance, use
some services from a sponsoring rst tier partner to access the network. A typi-
cal scenario for this is that of a content partner willing to contribute collections
but without the skills or resources to comply with the interoperability require-
ments, thus engaging with one of the core partners that would serve as entry
point for them. This structure is already active for some of the project’s content.
Athird tier would consist of external content partners (typically publishers) that
70
THIERRY BOUCHE
Ass.
Partner 1
Partner 1
Publisher 1
Ass. Partner2
Partner 2
Partner 3
Figure 5. The EuDML network
contribute, possibly directly, metadata to the project, but need to transfer their
collections to one of the core members in order to comply with our content policy
CP3.
The EuDML content members should
 be aligned with the project’s goals,
 keep committed over the long term,
 select collections to be contributed to EuDML on sound scientic grounds,
 develop a preservation policy for the full-texts,
 acquire new items in a timely manner (retrodigitisation or direct from
publishers),
 sort out rights and licences of contributed collections,
 take care of data and metadata curation,
 manage communication with the central registry.
The EuDML technical members should
 be aligned with the project’s goals,
 keep committed over the long term,
 manage communication with the content members,
 run and maintain parts of the system’s infrastructure,
 develop new services as the need emerges and to the extent their resources
permit.
THE EUDML PROJECT
71
External partners are expected to contribute to the EuDML Initiative using our
interoperability model. We identied the following typical scenarios.
External content partners should
 adhere to the project’s goals,
 select one content member (aka local DML center: LDC) as entry point
to EuDML,
 set up transfer and update mechanisms for new items,
 determine the moving walls’ durations,
 license at least one LDC to store transferred les for ever.
External technical partners should
 adhere to the project’s goals,
 sign non-disclosure agreement of data they could get hold of for their
technical work,
 develop technology over subsets of the corpus and make it available to
the project,
 provide technology to the project preferably under open source licenses.
External linking partners should exploit the linking opportunities delivered by
the project to enrich content and user experience while searching, browsing, or
accessing the reference mathematical corpus.
The Scientic Advisory Board, in line with its previous comment on policies, ad-
vocated for a \second level partnership" with relaxed implications. By publishing
these results, we hope to get more feedback from the community on the operation
model we invented.
3.4. Interoperability Model. In order to enable many interoperability scenar-
ios, a number of tools have been developed and deployed. The goals pursued are,
on one side to make it easy to contribute new content to the EuDML system, and
on the other side to oer many useful ways of exploiting the EuDML content, or
creating specic views for dierent communities.
Contributing content to EuDML. The preferred mechanism to contribute content
to EuDML is to set-up an OAI-PMH server to export XML metadata structured
according to the EuDML schema version 2.0, providing the mandatory elements
and tagged according to the best practices that are specied on its website [13].
These specications have been designed so as to impose minimal technological
barrier to content providers yet to enable the transfer of highly detailed and ac-
curate metadata. Many publishers already export JATS les to interoperate with
services such as Portico, JSTOR, PubMed Central, etc. To help content providers
72
THIERRY BOUCHE
tweak their EuDML metadata, we provide them with an online validation tool
[14], which is also applied in the ingestion work ow. This model is the preferred
one as it requires almost no work on EuDML side to ingest or update new content,
thus will be available after the project funding expires.
For those content providers who are not able, or not willing, to export metadata
prepared according to our recommendations, we developed a number of trans-
formations from various  avors of OAI-DC, which are performed on-the- y at
ingestion time.
For those content providers who cannot set-up an OAI-PMH server delivering the
expected metadata (missing mandatory elements, e.g.) but do have it in some
supported format, it is in many cases possible to harvest les through FTP, then
run on-the- y transformations, so that the ingestion process looks transparent to
the central system.
Finally, we have started to build the second tier of the EuDML network, where a
EuDML partner \sponsors" an associated partner by getting hold of its relevant
metadata, doing the necessary transformations, and posting them to EuDML
from its OAI-PMH server. Mathdoc had this role for the collections from GDZ,
DML-E for instance.
After the initial pilot period of EuDML, it is envisioned that publishers should
contribute to EuDML in this way: selecting a EuDML member that would host a
copy of their content, and make it available to EuDML (in fact, this is the scheme
already in use for most of the digitised collections).
Our impression at the end of the project is that this model works pretty well.
Some \second tier" partners at the beginning of the project (DML-CZ, e.g.) are
now \rst tier". It is however an open problem to tell to what extent this model
can scale from the current 200+ thousand items to the 1.5 million items in the
scope of DML estimated to exist currently in digital form, or even to the 3.5
million mathematical items published worldwide since Euclid. Probably the main
barrier here is not technical, it was already addressed in previous sections. But
there are lots of small collections out there that would be eligible to EuDML
but wouldn’t enter into one of the above tiers. Examples of such collections
are numerous. Typically this can be a large digital library holding a very tiny
portion of mathematical content for which no dedicated work or resources can be
allocated, or a very amateur digital library set up by a small group of unskilled
people, the extreme version of this being an author’s own works digitised or
collected on his own web page (the IMU called all mathematicians worldwide
to do so). In fact these collections would require some pro-active action from
aEuDML partner to be exploitable by EuDML. It is not obvious to tell what
THE EUDML PROJECT
73
portion of the content that could be available that way would ever reach EuDML
through another path, but it is clear that breaking this barrier would enlarge
considerably the content. This challenge was not addressed in this project but
should be investigated later. As always, the low hanging fruits were caught rst,
and resources needed grow exponentially with height!
External interoperability devices. While a smooth ingestion procedure is the guar-
antee for EuDML to register an up-to-date critical mass of quality metadata,
fuelling powerful discovery services and a rich user interface, external interop-
erability is needed to allow third parties to enrich their services thanks to the
availability of collections in the EuDML system. This in turn provides more
visibility to and more usage of the EuDML collections.
We developed specic tools for targeted scenarios of machine interaction with the
EuDML corpus.
(1) Batch download of public elements in descriptive metadata is available
through the EuDML public OAI-PMH server [10]. In order to maximize
interoperability, three formats are supported: basic OAI-DC, Europeana
semantic elements [16], and EuDML schema [13]. Apart from some sensi-
tive data that can have been contributed to EuDML under the condition
that it is not re-served (author’s email addresses, copyrighted full-texts,
e.g.), all information that EuDML harvested or created (EuDML Ids,
links to other databases, e.g.) are exported under the last format. It is
thus also a way for EuDML content providers to get back the project’s
added value for their own sake.
(2) Machine query the EuDML database with Opensearch [11] using Contex-
tual Query Language syntax. This would allow a third party to automat-
ically query the EuDML database and present EuDML hits together with
other sources, for instance.
(3) Machine calls to some EuDML functions through REST services [12].
These services have been tailored for various needs, and should probably
evolve depending on feedback or as new needs emerge.
(a) The Batch Ref service allows an external party to upload a refer-
ence list with citations of mathematical documents, and get back
the identiers of matched EuDML items. This is a critical added-
value for a reference library as this allows many stakeholders dealing
with mathematical references to enhance their assets by adding links
to the full-texts.
74
THIERRY BOUCHE
(b) The Reverse Ref service makes it possible to nd all EuDML items
citing a given EuDML item. This service was an explicit request
of a putative content provider in order to get an added value from
participating in EuDML, as it would generate more valued links to
their assets.
(c) The Similar Items service makes it possible to use the EuDML web-
site’s \Find similar documents" feature from a distance.
(d) The Batch Ids service allows third parties knowing one Id for a given
item to query the EuDML databases for all Ids pertaining to this
item known to the database. It turns EuDML into a mathematical
hub connecting relevant databases. Together with the All Pointers
service, it opens new pathways in the mathematical corpus.
(e) Finally, the Metadata via REST service makes it possible to down-
load an item’s internal metadata in two XML formats.
(4) Embed some EuDML data or query form as a widget in a Web page. For
instance, users can monitor their EuDML activity or add some dynamic
view on EuDML in their Web site.
These tools open a wide range of possible applications, from adding the EuDML
corpus to an external search engine to enriching existing content with deep links
to EuDML.
Producing Linked Open Data and creating a SPARQL end point was considered
during the project, but the technology didn’t seem mature enough for a produc-
tion system, real-world application still lacking to exhibit a clear benet within
the short time frame for development. We also have in principle the possibility to
set-up a full-text hub as the central system does store quite a lot of full-texts from
EuDML content providers, in quite many formats (original PDF, extracted text
with or without math as MathML or LaTeX, accessible formats) and we also have
licence declarations from the content providers whether these texts can be used
internally only for indexing, or can be re-served openly. However, these services
were not developed in this project.
3.5. Technical results.
3.5.1. Metadata. One of the most basic yet non-trivial challenge in the project was
to agree on a common metadata format, as each partner had its own, and stood
with quite varying background, technical as well as in terms of the community
they belonged to.
THE EUDML PROJECT
75
After a rather involved discussion, we adopted the NLM Journal Archiving and
Interchange Tag Suite as the basis for EuDML metadata storage and exchange,
which became an NISO standard during the course of the project [20].
To handle the extra content (monographs, edited books or proceedings and their
chapters, multiple-volume works and their volumes), we created a new XML
schema that denes a specic superstructure and relies on the standard article
elements for all shared concepts.
This metadata format supports all EuDML item types so far, and still leaves room
for storing improvements such as structured XML full-text, or multiple versions of
the same citation. As we store the best available metadata, it is easy to generate
simpler schemas such as OAI-DC or Europeana semantic elements.
The metadata is harvested and mostly transformed on-the- y to JATS by the RE-
POX harvest manager developed by our partner in Lisbon, mostly in connection
with the digital programme of the Portuguese National Library and Europeana.
As the project was also an occasion to clear licenses and copyright for the con-
tributed content, we can report the following.
 We estimate that 97% of full-texts as PDF les are openly accessible from
their providers while only 10% are old enough to be public domain.
 The metadata as available from EuDML OAI-PMH server is entirely freely
reusable according to either CC0 (public domain) or CC-BY (attribution)
Creative Commons licences.
 For full- texts, the situation is somewhat more complex:
{ 135,000 items have some sort of text-only full-text that is usable for
indexing purposes, coming from text OCR or PDF extraction,
{ 170,000 items are available for project internal processing such as re-
OCR to get math formulae or as test-bed for whatever enhancement
apartner could try (most of them are scanned PDFs, but some are
born digital),
{ the PDFs of 105,000 items could be re-served after some processing
such as adding text or math layers to an image PDF. However, only
10,000 les have been processed with Maxtract [1] and are currently
served in some new format generated for print-disabled users.
3.5.2. Productivity tools. A number of productivity tools were produced in the
course of the project. They are usually Open Source software or libraries. We
provide some live demos on the project’s Web site [15].
Here is a list of services running in the background or enabling some of the Web
site features.
76
THIERRY BOUCHE
 Metadata enhancements (automated tagging renement such as author
names or keywords splitting);
 On-the- y conversion from T
E
Xencoding of formulae to MathML (based
on Tralics [19]);
 EuDML reference matching, zbMath matching;
 Item metadata merging: we had some 2,000 items duplicated from dier-
ent partners: we created a single record for them.
 Public demo website with presentation MathML based display of formulae
(using MathJax [5] as a fall-back)
 Experimental formula search (based on Brno’s WebMIaS [25])
 Experimental similarity computation (based on Brno’s Gensim [23])
 Experimental production of accessible formats of mathematical texts (based
on Birmingham’s Maxtract [1])
 Web 2.0 features and annotation module
 Service interfaces (Opensearch, OAI-PMH, REST API)
 More mathematical knowledge generated and stored in XML records
through
{ MSC and English keywords acquired from zbMath
{ Text+MathML extraction from born digital PDF (using Birming-
ham’s Maxtract [1])
{ Text+MathML extraction from image PDF (using InftyProject’s In-
ftyReader [26])
All these bits and pieces were integrated and made to work together by the team
at ICM Warsaw where the central system is running.
4. Open questions and future work
4.1. Content acquisition. The main point to users is the content: it’s nonsense
to learn the interface of one more search engine if it covers less than 10% of the
whole corpus. On the other hand, there are many mathematical texts that do
exist digitally, and are freely accessible on-line, but can’t be located easily from
mainstream search engines or even dedicated reviewing databases. A large part
of the retro-digitised corpus is hidden because it lacks full-text and can only be
searched using scarce metadata (or almost non-existent metadata, as for PDFs
linked from hand-made HTML pages). The fact that users start using EuDML
to locate and refer to papers from DML-PL or GDZ shows that we shifted the
state-of-the-art in this respect. However, to succeed, we need to cover much more
of the mathematical corpus.
Documents you may be interested
Documents you may be interested