Sunday, January 29, 2017

istex, TEI, XML



Le projet ISTEX a pour principal objectif d’offrir, à l’ensemble de la communauté de l’enseignement supérieur et de la recherche, un accès en ligne aux collections rétrospectives de la littérature scientifique dans toutes les disciplines en engageant une politique nationale d’acquisition massive de documentation : archives de revues, bases de données, corpus de textes.
http://www.istex.fr/

Pour tester la plateforme
http://demo.istex.fr/

historique

Signée le 19 avril 2012 par l’ANR (Agence Nationale pour la Recherche), l’Etat et le CNRS, la convention d’attribution d’aide au projet s’élève à 60 millions d’euros sur trois ans dont 54 millions d’euros consacrés aux acquisitions des ressources documentaires et 6 millions d’euros alloués à la création de la plateforme destinée à héberger les données.
L’ANR a accordé une prolongation jusqu’en 2017 au projet ISTEX.

La politique d’acquisition de ressources documentaires à l’échelon national avait déjà fait l’objet d’une première série d’achats en 2011 et 2012, donnant lieu à l’acquisition de cinq ressources sous forme de licences nationales :

  • L’ensemble des revues de l’éditeur Springer pour les périodes allant du premier numéro paru à 1996 (plus de 1000 titres de revues) ;
  • Un ensemble de e-books publiés par l’éditeur Springer de 1995 à 2004 (7500 titres)
  • Le corpus des dictionnaires édité par Garnier Numérique : 24 dictionnaires couvrant l’évolution de la langue française du neuvième au vingtième siècle (près de 200 000 pages, plus de 900 000 entrées et définitions) ;
  • La base de données Early English Books Online de l’éditeur Proquest, version numérisée de l’intégralité des ouvrages imprimés entre 1473 et 1700 en Angleterre, en Irlande, en Ecosse, au Pays de Galles et dans les colonies britanniques d’Amérique du Nord, ainsi que les ouvrages en langue anglaise imprimés ailleurs (125 000 ouvrages) ;
  • La base Eighteenth Century Collections Online de l’éditeur Gale Cengage, version numérisée des textes publiés au Royaume-Uni au 18ème siècle (plus de 136 000 titres).

A noter : Le site www.licencesnationales.fr regroupe des informations pratiques (notices, licences, informations basiques sur les contenus) à destination des professionnels de la documentation, afin qu’ils puissent ouvrir les accès de leurs institutions aux ressources déjà acquises, et en faire la publicité. Le site www.istex.fr est la vitrine du projet ; il s’adresse à la fois aux éditeurs (grille à remplir), aux chercheurs (enquête besoins) et aux bibliothécaires (kit de communication).

le projet

L’Investissement d’Avenir ISTEX est plus qu’une bibliothèque : il en a certes toutes les caractéristiques en offrant l’archive numérique rétrospective de la Science mais, bien au-delà, le projet ISTEX entend offrir tous les moyens accessibles de consultation et d’analyse aujourd’hui disponibles dans toutes les communautés de la Science. 

Le Comité Exécutif d’ISTEX réunit toutes les compétences nécessaires à l’innovation dans l’analyse et dans le partage de tous les grands champs de connaissance : l’Agence Bibliographique de l’Enseignement Supérieur (ABES), le Consortium Unifié des Etablissements Universitaires et de Recherche pour l’Accès aux Publications Numériques (Couperin.org), et l’Université de Lorraine agissant pour le compte de la Conférence des Présidents d’Université (CPU) travaillent main dans la main avec le Centre National de la Recherche Scientifique (CNRS) pour assembler les ressources, définir les projets et organiser les services qui donneront au projet ISTEX une valeur ajoutée inédite dans le champ toujours croissant des grandes archives numériques.
La recherche est évidemment la clé irremplaçable de ce développement. Autour du LORIA (http://www.loria.fr/fr/), de l’ATILF (http://www.atilf.fr/) sous la haute compétence de Jean-Marie PIERREL, Professeur des Universités, les équipes scientifiques nationales concernées par l’analyse des corpus scientifiques travaillent continument à la définition des services qui permettront de « mieux partager les connaissances » quand ISTEX sera en service. Au nom de tout le Comité Exécutif ISTEX, je souhaite adresser au Commissariat d’Investissement d’Avenir les salutations et les remerciements de toute l’équipe de ce projet innovant qui apportera à toutes les communautés de la recherche les perspectives et les outils d’une grande plateforme multi-usages ouverte sur l’avenir.

Renaud FABRE
Chef du projet ISTEX
Directeur de l’Information Scientifique et Technique au CNRS
http://www.istex.fr/le-projet/

La plateforme

L’accès aux ressources documentaires se fera dans un premier temps via les plateformes des éditeurs, mais la plateforme ISTEX, gérée par l’INIST-CNRS, permettra d’héberger l’intégralité des données dans un réservoir unique et ce dans des formats normalisés.

ISTEX crée ainsi un réservoir commun, unifié, normé et normalisé d’objets documentaires (article scientifique, chapitre de livre, entrée dans une encyclopédie, etc.) accessibles via des canaux multiples et variés (moissonnage OAI-PMH, widgets, API,…).


Remarque: normalisation, reformattage Mods+TEI

Un accès systématique vers le texte intégral du document :La plateforme ISTEX n’est pas une base de signalement contenant des métadonnées pointant vers des documents hébergés chez les éditeurs mais bien une base de données contenant l’intégralité des textes afin de répondre à des usages différents mais complémentaires :

  • ne plus être dépendant d’autorisations extérieures (ex : lien vers un portail d’un éditeur) pour accéder à un document en texte intégral ;
  • Accéder  aux documents sans limitation de durée
  • Permettre  des traitements transversaux (indexation automatique, catégorisation, extraction de connaissance) sur tout ou partie de la base ;
  • Pouvoir extraire des sous-corpus de la base complète selon des critères de discipline, de type de document, de datation, …

Un moteur de recherche puissant adapté aux besoins des scientifiques avec des facilités d’interrogation et de téléchargement :

En relation avec le volume conséquent de données et le niveau d’exigence de la recherche documentaire, le moteur de recherche se doit d’être performant, robuste mais aussi évolutif et ouvert.

De plus, le multilinguisme des documents impose des traitements automatiques du langage complexes et variés.

Le choix s’est porté sur un moteur de recherche open source (ElasticSearch) qui permet de bénéficier des outils développés par la communauté des utilisateurs du moteur.

Des services de traitement des données : extraction de données, fouille de textes, production de synthèses documentaires et de corpus terminologiques :

Cet immense réservoir de données textuelles pourra servir de matériau scientifique pour des travaux de recherche appliqués dans différents domaines comme le Traitement Automatique des Langues (TAL), mais aussi l’histoire des sciences, ou la production d’indicateurs…

La plateforme répondra aux besoins de plusieurs profils d’utilisateurs :

Des informaticiens souhaitant interroger les API de la plateforme (REST Type d’architecture couramment utilisées dans le monde du web, OAI-PMH Protocole pour échanger des métadonnées, Sparql Langage de requêtes permettant d’accéder à des données sur le web, …) dans un but d’extraction de corpus pour mener par exemple un projet de recherche.

les services de base

Outre la recherche sur les métadonnées descriptives des collections et articles et  l’indexation plein texte, nous prévoyons trois services de bases supplémentaires :
  • Recherche de termes et de leurs variantes. Il convient alors de déterminer dans le texte initial des séquences textuelles les plus susceptibles d’être de bons candidats termes dans le domaine scientifique correspondant au document analysé. Une équipe réunissant les compétences de l’équipe TALN du LINA et de l’INIST se donne comme objectif, dans des domaines spécialisés, d’assurer la détection et le balisage de termes et de leurs variantes en plein texte, et de maintenir un référentiel de terminologie scientifique pour l’exploitation des données d’ISTEX.
  • Recherche sur les entités nommées. Cela nécessite au préalable de pouvoir détecter, normaliser et baliser de telles entités nommées dans le plein texte. Une équipe réunissant les compétences du Laboratoire d’Informatique de Tours et de l’INIST est en charge de cet aspect. Par entités nommées on entend, dans un cadre général, les dates, les noms de lieux  (villes, région, pays), les noms d’individus ou groupes d’individus (nom d’équipe ou de laboratoire ou d’institution). On pourrait y ajouter les adresses internet de ressources ou de données, les noms de projets liés à une publication ou cités dans une publication. Dans un domaine spécialisé, cela pourrait être beaucoup plus fin : noms des astres en astronomie, noms de molécules en chimie, noms de formules en mathématiques, noms de plantes en botanique, etc.
  • Accès aux champs principaux des références bibliographiques. Un balisage automatique préalable de ces informations dans les références bibliographiques des articles est en cours de réalisation à l’INIST. De tels accès permettront, pour des sous-domaines, de construire des cartographies scientifiques et de répondre à des questions du type : Qui travaillent avec qui ? Quels sont les réseaux de citations existants ? Quels sont les vecteurs de publication les plus marquants ? Quels sont les vecteurs privilégiés de publication d’une communauté scientifique ? Quelles sont leurs évolutions au cours du temps ? Etc.

un service spécialisé d'une bibliothèque open source de composants Xml   

Bibliothèque open source de composants Xml d’exploitation du corpus ISTEX. Ce projet, LorExplor, orienté vers l’identification des acteurs d’une thématique scientifique pour l’aide au pilotage scientifique, se propose de constituer une bibliothèque open source de composants Xml pour construire des systèmes de recherche, des serveurs d’exploration de corpus et des chaînes de curation de données. L’objectif est de faciliter la construction, en quelques jours pour des documentalistes, de plateformes intermédiaires (régionales, thématiques ou institutionnelles) analysant de 100.000 à 1.000.000 de documents pour répondre à des besoins spécifiques (requête particulière, bibliographie, méta-analyse…).

Les chantiers d’usage

NEOTEX : Exploration de documents Textuels d’un domaine par un Néophyte

Projet porté par : le Laboratoire Hubert CURIEN (UMR CNRS 5516 Saint Etienne) L’objectif du projet est d’accompagner un chercheur « néophyte » à partir d’une requête pour proposer des documents pertinents dans le cadre d’une recherche exploratoire.

3ST : surligneur sémantique de textes scientifiques

Projet porté par : le Laboratoire Hubert CURIEN (UMR CNRS 5516) et Laboratoire ERIC (EA 3083 – Universités Lyon 1 et 2) Ce projet de recherche appliquée a pour but de construire un outil de lecture assistée par ordinateur via le surlignage sémantique des textes scientifiques. 

Alpage

Projet porté par : équipe Alpage UMR INRIA – Université Paris–Diderot (Paris 7).
L’objectif de ce projet est l’annotation des corpus ISTEX et le codage en TEI.


Example


pdf

https://api.istex.fr/document/5D2913B19B0516370D1D8C6B4C22E561188A43EE/fulltext/pdf?sid=istex-api-demo

l'identifiant ISTEX pdf est surligné en jaune.

zip 

zip contient

  • main.pdf
  • main.xml

TEI

https://api.istex.fr/document/BB2EFDC79E86CE873BD5C8178CAB892E041D08E8/fulltext/tei?sid=istex-api-demo
l'identifiant ISTEX TEI est surligné en jaune.

<TEI xmlns:tei="http://www.tei-c.org/ns/1.0" xml:lang="en" type="research-article">
<teiHeader>
<fileDesc>
<titleStmt>
<title level="a">
Determination of NADH in the rat brain during sleep-wake states with an optic fibre sensor and time-resolved fluorescence procedures
</title>
</titleStmt>

(...)

<text>
<body>
<div>

<p> the text of this article
(...)

Metadata

XML
https://api.istex.fr/document/BB2EFDC79E86CE873BD5C8178CAB892E041D08E8/metadata/xml?sid=istex-api-demo
MODS
https://api.istex.fr/document/BB2EFDC79E86CE873BD5C8178CAB892E041D08E8/metadata/mods?sid=istex-api-demo

Enrichments TEI UNITEX

TEI
UNITEX : une boîte à outils pour l'analyse de textes
Enrichissement entités nommées
C'est un petit fichier:
<TEI xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xlink="http://www.w3.org/1999/xlink" 
xmlns:mml="http://www.w3.org/1998/Math/MathML">
<standOff>
<teiHeader>
<fileDesc>
<titleStmt>
<title>Reconnaissance d'entités nommées</title>
<respStmt>
<resp>enrichissement entités nommées ISTEX-RD</resp>
<name resp="istex-rd">ISTEX-RD</name>
</respStmt>
</titleStmt>
<publicationStmt>
<availability status="restricted">
<licence target="http://creativecommons.org/licenses/by/4.0/">
<p>
L’élément standOff de ce document est distribué sous licence Creative Commons 4.0 non transposée (CC BY 4.0)
</p>
<p>
Ce standOff a été créé dans le cadre du projet ISTEX – Initiative d’Excellence en Information Scientifique et Technique
</p>
</licence>
</availability>
</publicationStmt>
<sourceDesc>
<biblStruct>
<idno type="istex">BB2EFDC79E86CE873BD5C8178CAB892E041D08E8</idno>
</biblStruct>
</sourceDesc>
<encodingDesc>
<appInfo>
<application ident="UnitexCasSys" version="2819">
<label>Unitex CasSys</label>
</application>
</appInfo>
</encodingDesc>
</fileDesc>
<revisionDesc>
<change who="#istex-rd" when="Sep 19 2016" xml:id="unitex-3.2.0-alpha">version 2819</change>
</revisionDesc>
</teiHeader>
<listAnnotation type="date" xml:lang="en">
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<date change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://date-entity.lod.istex.fr">
<term>1997</term>
<fs type="statistics">
<f name="frequency">
<numeric>2</numeric>
</f>
</fs>
</date>
</annotationBlock>
</listAnnotation>
<listAnnotation type="orgName" xml:lang="en">
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<orgName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://orgName-entity.lod.istex.fr">
<term>France Abstract</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</orgName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<orgName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://orgName-entity.lod.istex.fr">
<term>Department of Experimental Medicine, INSERM</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</orgName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<orgName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://orgName-entity.lod.istex.fr">
<term>Elsevier Science Ltd</term>
<fs type="statistics">
<f name="frequency">
<numeric>2</numeric>
</f>
</fs>
</orgName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<orgName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://orgName-entity.lod.istex.fr">
<term>Jean Monnet University</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</orgName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<orgName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://orgName-entity.lod.istex.fr">
<term>Laboratory, CNRS</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</orgName>
</annotationBlock>
</listAnnotation>
<listAnnotation type="placeName" xml:lang="en">
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<placeName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://placeName-entity.lod.istex.fr">
<term>Hamamatsu</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</placeName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<placeName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://placeName-entity.lod.istex.fr">
<term>Lyon</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</placeName>
</annotationBlock>
</listAnnotation>
<listAnnotation type="ref" subtype="bibl" xml:lang="en">
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<ref type="bibl" change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://ref-bibl-entity.lod.istex.fr">
<term>S. Mottin et al.</term>
<fs type="statistics">
<f name="frequency">
<numeric>4</numeric>
</f>
</fs>
</ref>
</annotationBlock>
</listAnnotation>
<listAnnotation type="persName" xml:lang="en">
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<persName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://persName-entity.lod.istex.fr">
<term>Miss C. Limoges</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</persName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<persName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://persName-entity.lod.istex.fr">
<term>J. Carrew</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</persName>
</annotationBlock>
</listAnnotation>
</standOff>
</TEI>


No comments:

Post a Comment