Friday, March 3, 2017

pdf balisé signet structuré avec sommaire dynamique. InDesign, word, acrobat, LibreOffice, OpenOffice. Convert equation OMML mathML.





Un exemple de PDF structuré généré avec Word 2016 sous windows 

Le balisage (tag en anglais) à plusieurs avantages :

  • cela permet au document PDF de s’adapter à n’importe quelle taille d’écran, y compris sur les périphériques mobiles. C’est donc indispensable pour diffuser des eBooks favorisant au mieux l’expérience utilisateur.
  • cela rend le fichier PDF accessible aux handicapés (visuels ou moteurs) : la structure logique du texte étant balisée par des marqueurs spécifiques, les logiciels d’assistance à la lecture ou de synthèse vocale n’ont aucune difficulté pour en restituer fidèlement le contenu.
  • cela permet aux moteurs de recherche d’accéder à un texte correctement référencé.


Depuis InDesign ou LibreOffice c’est un jeu d’enfant, il suffit de cocher la case adéquate.
On peut aussi créer des PDF balisé depuis les logiciels de Microsoft Office, sous réserve d’utiliser Acrobat PDFMaker lors de la conversion en PDF (sur Windows uniquement).

Que faire quand on ne peut pas utiliser les logiciels cités ci-dessus, ou bien si on doit utiliser de « vieux » documents PDF dont on n’a plus les originaux ?

À ma connaissance actuellement Acrobat est le seul logiciel qui puisse s’acquitter de cette tâche (depuis la version 9 cette opération peut s’effectuer automatiquement). Mais il ne faut en attendre de miracles, selon la complexité du document il y aura plus ou moins de retouches manuelles à faire.
http://www.pdf-accessible.com/

http://abracadabrapdf.net/ressource...cation/creer-signets-automatiquement-acrobat/

Ref. http://abracadabrapdf.net/le-pdf-parfait/balisage-et-accessibilite/

InDesign

https://helpx.adobe.com/fr/indesign/using/structuring-pdfs.html#adding_structure_to_pdfs

https://helpx.adobe.com/fr/indesign/using/dynamic-pdf-documents.html

Word Mac, LibreOffice, OpenOffice

Créer un PDF balisé avec Word pour Mac pas possible même avec word 2016 (http://stephane-mottin.blogspot.fr/2017/02/pdf-interpreter-converter-word-to-pdf.html).
Avec save PDF c'est OK mais pour que pour des petits fichiers. De plus il faut que les équations soient en format OMML.
http://stephane-mottin.blogspot.fr/2017/01/exporter-fichier-format-equation-word.html

Le processus le plus fluide et complet serait d'utiliser LibreOffice, même si c'est juste pour la conversion en PDF, parce-que ça éviterait l'étape avec Acrobat Pro (LibreOffice génère aussi les Signets et sommaire).
https://forums.macg.co/threads/acrobat-xi-creation-dun-pdf-balise-a-partir-dun-doc-word.1262385/

LibreOffice (15.4.3; version début 2017) a des problèmes de conversion des notes de bas de page (avec des équations) en ouvrant en .doc ou .docx. Ouvrir en .docx (et converti) pose moins de problème.
On a des problèmes avec les équations réalisées avec l'ancien éditeur d'équation (mathtype) et un peu moins  en OMML (les raçines posent problèmes).
Les équations non OMML sont transformées en image par LibreOffice alors que celles en OMML restent en format équation. Si on clique sur celle-ci dans LibreOffice on peut éditer l'équation.
http://stephane-mottin.blogspot.fr/2017/01/exporter-fichier-format-equation-word.html

La génération en pdf balisé et sans perte de compression pour les images est OK.


OpenOffice (4.1.3; fin 2016) n'affiche pas les équations si on ouvre le fichier en .docx. Si on ouvre en .doc les équation sont à 50% OK mais nous avons d'autres problèmes avec dans le texte des caractères "bizarres"  (les insertions "symboles"). Les notes de bas de page sont OK.

Thursday, March 2, 2017

Zenodo and example of structured PDF (signet)



Example of a structured PDF:
https://zenodo.org/record/34187#.WLiNZt_NzdQ
https://doi.org/10.5281/zenodo.34187

https://zenodo.org/badge/DOI/10.5281/zenodo.34187.svg

Multiple authors

Highlights of the 2013 International Forum on 'Polar Data Activities in Global Data Systems'

Programme & Abstracts (PDF)
Selected Papers Published in Data Science Journal (PDF)

OpenAIRE et HAL



OpenAIRE (Open Access Infrastructure for Research in Europe) est une infrastructure européenne dont l’objectif est de diffuser en accès ouvert les publications et les données scientifiques des recherches financées sur fonds européens. Elle vise ainsi à soutenir les politiques en faveur du libre accès : le programme Horizon 2020 comporte notamment l’obligation d’assurer le libre accès aux publications issues des recherches qu’il aura contribué à financer.

OpenAIRE agrège les données en moissonnant des réservoirs de données comme HAL : ces sources sont listées sous l’appellation data providers (OpenAIRE en recense 798).

Ainsi, toutes les publications avec texte intégral que vous avez déposées dans HAL, HAL-SHS ou le portail HAL de votre institution, sont-elles visibles sur cette plate-forme. Et ce, même si elles ne sont pas associées à un financement européen.

Comment trouver vos publications ?
Pour faire une recherche sur votre nom d’auteur, cliquez sur l’onglet « Search » en sélectionnant « Publications, data, project » et saisir votre requête.

https://www.ccsd.cnrs.fr/fr/2016/12/openaire-affiche-toutes-vos-publications-deposees-dans-hal/
billet de dec 2016

La visibilité de HAL est augmentée avec ce moissonnage par l’infrastructure européenne, ce qui permet une diffusion de vos publications auprès de partenaires potentiels dans le cadre de projets de recherche européens.

traitements analytiques aux archives ouvertes et aux bases de publications: GROBID structuration automatique de documents PDF




GROBID = structuration automatique de documents

Pour tester ce service

http://cloud.science-miner.com/grobid/

Les problèmes

Difficulté d’exploitation du format PDF / pauvreté et incohérence des metadonnées
➡ PDF : format pas adapté à la fouille de textes, les structures élémentaires sont absentes
➡ les techniques modernes d’exploitation de corpus nécessitent des pleins textes et des métadonnées de très bonne qualité
➡ ~91% des pleins textes d’ISTEX disponibles qu’en PDF
➡ XML éditeurs natifs très hétérogènes et souvent incomplets

But

Offrir une infrastructure logicielle open source et libre permettant des traitements analytiques de corpus scientifiques qui seraient autrement impossibles
Exemples :
➡ besoins des références bibliographiques et des affiliations pour appliquer des techniques bibliométriques
➡ liens avec des bases de références (CrossRef, brevets, etc.)
➡ pleins textes structurés pour la fouille de textes Automatisation via apprentissage automatique
Un sous-domaine de recherche du text-mining très riche


Exploration et analyse des sources IST pour la recherche et ses environnements - PDF de 23/05/2015
https://www.cnrs.fr/dist/z-outils/documents/Data4IST/Grobid_Inria.pdf
https://grobid.readthedocs.io/en/latest/grobid-04-2015.pdf

https://grobid.readthedocs.io/en/latest/

https://wiki.tei-c.org/index.php/GROBID

code

https://github.com/kermitt2/grobid

Wednesday, March 1, 2017

medra (multilingual European Registration Agency), crossRef and DOI



mEDRA is a DOI Registration Agency (DOI RA) officially appointed by the International DOI Foundation on 1st July 2003 and provides DOI registration services to publishers, academic institutions, research centres and intermediaries in Italy, in the EU market and internationally.

mEDRA
Headquarter: C.so di Porta Romana, 108 - 20122 Milano
Società a responsabilità limitata iscritta presso l'ufficio del registro delle imprese di Milano.
C.F. - P.IVA e REG.IMPR.:04547330961 - R.E.A. 1756009
CAP. SOC. 40000 € I.V.

At mEDRA we want to make things easy for everyone, therefore mEDRA system can be used by small and big organisations, for commercial and open access publications, with or without having technical skills. Moreover, mEDRA team is available to support customers individually and speaks Italian, English, French and German.

mEDRA also collaborates with Crossref to allow DOIs registered with mEDRA to be deposited on Crossref platform.

DOI BracketAnnual FeeDOIs includedPrice per unit
for exceeding DOIs
018030 DOIs included4.50
135075 DOIs included3.80
2600170 DOIs included2.70
3900350 DOIs included2.00
41,350650 DOIs included1.60
52,0001,300 DOIs included1.10


Note:
• The access to DOI registration service through mEDRA is subject to advanced payment of an Annual Fee (plus – for the new contracts – the payment for the months of the current year)
• The DOIs included in the Annual Fee have to be registered within the December 31 of every year.
• In case of a number of registrations exceeding the quantity included in the annual fee, a price per unit,
connected to the chosen bracket, is required. Once the sum of the initial DOI Bracket plus the extra DOIs reaches the fee of the next DOI bracket, customer will be upgraded to the next upwards DOI Bracket without extra cost than the amount of difference of bracket.
• Extra DOIs will be invoiced at the end of the annual contract (31/12 of every year).
In case of termination of the contract, the Registrant has to pay € 0,1 for each registered Doi for the maintenance service.
• At the end of the first year after the termination of the contract, mEDRA will use the registered metadata in order to guarantee DOI Service.

Schema

ONIX for DOI metadata schema defines the XML format of the message requested by mEDRA system to register DOIs, showing the list of metadata concerning the object to be identified.

According to the ONIX for DOI metadata schema, you can register DOIs on Monographs, Monographic Chapters, Serial Articles, Serial Titles and Serial Issues.

The XML schema is encoded according to ONIX syntax. ONIX (Online Information Exchange) is the most authoritative standard communication format for content industry, created and regularly updated by EDItEUR, the international group coordinating the development of the standards for electronic commerce in book and serials industries.

ONIX for DOI metadata schema, jointly developed by mEDRA and EDItEUR in collaboration with Nielsen Book Data (the DOI Registration Agency for UK) has been formally endorsed by EDItEUR as the official ONIX format for DOI registration and it has newly been adopted by OPOCE, the Office for Official Publications of the European Communities.

The latest issue of ONIX for DOI metadata schema, version 2.0., is now available. The new release is fully backwards compatible with the previous one (1.1), but thanks to the inclusion of new metadata elements it allows a richer description of publications and, for Italian customers only, the deposit of the citations list to join CrossRef services via mEDRA. 

http://www.medra.org/en/schema.htm

METADATA for DOI


http://www.medra.org/en/metadata_td.htm

tools

A few utilities addressed to the IT staff of your company:
Automatic upload of XML file for DOI registration
Download a Java program performing the automatic upload of the XLM file via HTTPS POST to the mEDRA registration service
http://www.medra.org/en/utilities.htm

une introduction aux DOI par cleo



Métadonnées enregistrées pour un DOI

  1. Un DOI unique est attribué à chaque ressource et ne sera pas réutilisé. Il est établi en enregistrant des métadonnées liées à la ressource numérique
  2. sur la revue :
    1. Nom complet et nom court
    2. ISSN électronique
    3. l’URL de la revue
  3. sur l’article :
    1. date au format jour/mois/année
    2. l’URL de l’article
    3. langue du l’article
    4. le titre et le titre traduit
    5. le ou les auteurs et leur rôle (collaborateur, etc.)
  4. sur le livre :
    1. langue
    2. auteur
    3. titre
    4. sous-titre
    5. date de publication papier (=annee edition)
    6. date de publication électronique
    7. isbn print
    8. isbn electronique
    9. editeur
    10. url

  5. sur le chapitre (déclaré avec son livre) :
    1. Titre 
    2. sous-titre
    3. auteur
    4. pagination
    5. url
  6. sur le dépositaire :
    1. son nom
    2. son contact
  7. En conséquence, les DOI lient les métadonnées de la revue, du livre, celles du document ( article, chapitre…) et l’emplacement web de la ressource. Ils permettent de faciliter le fonctionnement des bases de données ainsi que les logiciels de gestion bibliographique, mais également de suivre une ressource dans le monde numérique.
  8. Le corollaire de ce système est la génération d’un code permanent même en cas de déplacement de la ressource. Il est important de garantir la pérennité de la ressource pour intégrer ces bases et donc d’éviter les doublons, et les suppressions de documents.
  9. Comme les URL, les DOI sont des codes structurés qui débutent par le code de l’organisation responsable de la diffusion de la ressource, puis l’identifiant du document.


http://maisondesrevues.org/253