GROBID = structuration automatique de documents
Pour tester ce service
http://cloud.science-miner.com/grobid/Les problèmes
Difficulté d’exploitation du format PDF / pauvreté et incohérence des metadonnées➡ PDF : format pas adapté à la fouille de textes, les structures élémentaires sont absentes
➡ les techniques modernes d’exploitation de corpus nécessitent des pleins textes et des métadonnées de très bonne qualité
➡ ~91% des pleins textes d’ISTEX disponibles qu’en PDF
➡ XML éditeurs natifs très hétérogènes et souvent incomplets
But
Offrir une infrastructure logicielle open source et libre permettant des traitements analytiques de corpus scientifiques qui seraient autrement impossiblesExemples :
➡ besoins des références bibliographiques et des affiliations pour appliquer des techniques bibliométriques
➡ liens avec des bases de références (CrossRef, brevets, etc.)
➡ pleins textes structurés pour la fouille de textes Automatisation via apprentissage automatique
Un sous-domaine de recherche du text-mining très riche
Exploration et analyse des sources IST pour la recherche et ses environnements - PDF de 23/05/2015
https://www.cnrs.fr/dist/z-outils/documents/Data4IST/Grobid_Inria.pdf
https://grobid.readthedocs.io/en/latest/grobid-04-2015.pdf
https://grobid.readthedocs.io/en/latest/
https://wiki.tei-c.org/index.php/GROBID
No comments:
Post a Comment