Thursday, March 2, 2017

traitements analytiques aux archives ouvertes et aux bases de publications: GROBID structuration automatique de documents PDF




GROBID = structuration automatique de documents

Pour tester ce service

http://cloud.science-miner.com/grobid/

Les problèmes

Difficulté d’exploitation du format PDF / pauvreté et incohérence des metadonnées
➡ PDF : format pas adapté à la fouille de textes, les structures élémentaires sont absentes
➡ les techniques modernes d’exploitation de corpus nécessitent des pleins textes et des métadonnées de très bonne qualité
➡ ~91% des pleins textes d’ISTEX disponibles qu’en PDF
➡ XML éditeurs natifs très hétérogènes et souvent incomplets

But

Offrir une infrastructure logicielle open source et libre permettant des traitements analytiques de corpus scientifiques qui seraient autrement impossibles
Exemples :
➡ besoins des références bibliographiques et des affiliations pour appliquer des techniques bibliométriques
➡ liens avec des bases de références (CrossRef, brevets, etc.)
➡ pleins textes structurés pour la fouille de textes Automatisation via apprentissage automatique
Un sous-domaine de recherche du text-mining très riche


Exploration et analyse des sources IST pour la recherche et ses environnements - PDF de 23/05/2015
https://www.cnrs.fr/dist/z-outils/documents/Data4IST/Grobid_Inria.pdf
https://grobid.readthedocs.io/en/latest/grobid-04-2015.pdf

https://grobid.readthedocs.io/en/latest/

https://wiki.tei-c.org/index.php/GROBID

code

https://github.com/kermitt2/grobid

No comments:

Post a Comment