Saturday, January 28, 2017

marcxml, marc-edit and converters JSON, MODS, RDF, OAI


The Library of Congress' Network Development and MARC Standards Office is developing a framework for working with MARC data in a XML environment. This framework is intended to be flexible and extensible to allow users to work with MARC data in ways specific to their needs. The framework itself includes many components such as schemas, stylesheets, and software tools.

MARC 21 to MARCXML Conversion

The MARCXML toolkit is a set of Java programs which allow users to convert to and from the MARC file format (including full character set conversion) and other formats available in the MARCXML architecture. 

MARCXML Conversion Stylesheets


MarcEdit is a metadata editing software suite used primarily to create and manipulate MARC records.

MARC<->Dublin Core


These features include:

  • MARC Editing:  MarcEdit includes a MARC Breaker and Maker to move MARC data into a more friendly mnemonic file format.  It includes a dedicated MARC Editor, that provides a number of global editing functions, the ability to edit MODS and MARCXML data (in a mnemonic format) and integrate data from other data sources like OCLC, etc. into a batch set of MARC data.
  • MarcEditor:  The MarcEditor is MarcEdit’s built in metadata editor.  It includes a number of global editing functions, full regular expression and UTF-8 support, as well as the ability to configure the editor to utilize any characterset supported by the operating system.  Included functions:  Globally Add/Delete Fields, Edit Subfields, Swap Field Data, Copy Field Data, Edit Indicators, Generate Call Numbers, Validate Records, Generate Reports, Find/Replace, Direct Integration with Supported ILS systems, Macro support, Task Support, etc.
  • RDA Helper:  The RDA Helper is both a stand alone and integrated tool that allows users to take a set of MARC data and automatically generate RDA specific data.  The RDA data is derived from the source recordset using available control data, variable field data, and RDA specific assumptions.
  • Delimited Text Translator:  The Delimited Text Translator is a tool that allows users to translate data in Excel, Access, or any delimited format into MARC.
  • Export as Tab Delimited:  A tool that allows users to export their MARC data as delimited text.
  • Harvest OAI Data:  MarcEdit has the ability to harvest metadata from an OAI data provider and convert the data directly to MARC.  Supported formats are MARCXML, oaimarc, oai_dc, and MODS.  However, the program allows the user to provide their own translation rules, so any format could be accommodated.
  • XML Translations:  MarcEdit supports the facilitation of metadata from XML and non-XML formats into various forms, including MARC.
  • Characterset conversion:  MarcEdit supports the ability to convert MARC records from one characterset to another.  This includes the traditional charactersets like MARC-8 (ANSEL) and UTF-8.  But it also includes support for any characterset currently supported by the operating system.  So users with MARC data in Traditional Chinese can utilize MarcEdit to convert that data to UTF-8.
  • Z39.50/SRU Client:  MarcEdit includes a built in Z39.50 and SRU client for interaction with other library systems.
  • MARC SQL Explorer:  MarcEdit includes an SQL Explorer — a tool that allows users to export their data into either an SQLite or MySQL data and run SQL queries directly on the data to mine for information.
  • MARCValidator:  MarcEdit includes a number of tools to help users validate data and identify incorrectly structured MARC record data.
  • Many more features:  Like the ability to split, join, sort, etc. data in various formats.


MarcEdit Mac Port Information

2013 (small 2016)

character encoding conversion UTF-8; transformers converters (by php) of letters in different format like single eight-bit code à © to letter "é"

première                           école
premi&#xC3;&#xA8;re &#xC3;&#xA9;cole

Looks like you originally had a 
UTF-8 file 
which has been interpreted as an 8 bit encoding (e.g. ISO-8859-15) 
and entity-encoded. 

ISO 8859-15 encodes what it refers to as "Latin alphabet no. 9". This character set is used throughout the Americas, Western Europe, Oceania, and much of Africa.
Each character is encoded as a single eight-bit code value. 

See below for a list of encoding systems.

I say this because the sequence C3A9 looks like a pretty plausible UTF-8 encoding sequence.
The W3C recommends UTF-8 as the default encoding in XML and HTML.

You will need to first entity-decode it,
then you'll have a UTF-8 encoding again.


You could then use something like iconv to convert to an encoding of your choosing.
The iconv program converts text from one encoding to another encoding.

iconv : unix, mac OSX, linux


Convert character encodings in pure javascript:


To work through your example:

  • &#xC3; &#xA9;     would be decoded as the byte sequence 0xC3A9
  • 0xC3A9 =  11000011     10101001      in binary
                       octetFist       octetSecond
  • the leading 110 in the first octet tells us this could be interpreted as a UTF-8 two byte sequence
  • second octet starts with  10, we're looking at something we can interpret as UTF-8
  • To do that, we take the last 5 bits of the first octet, and the last 6 bits of the second octet...
  • So, interpreted as UTF-8 it's
    = E9

You mention wanting to handle this with PHP, something like this might do it for you:

 //to load from a file, use
 //example below uses a literal string to demonstrate technique...

 $file="&Pr&#xC3;&#xA9;c&#xC3;&#xA9;dent is a French word";

 //$utf8 contains "Précédent is a French word" in UTF-8
 //$iso8859 contains "Précédent is a French word" in ISO-8859


run OSX Mac (php is installed)

1/ create this text file (a php script: decode/recode)
 echo "decode-recode*";
 $file="&Pr&#xC3;&#xA9;c&#xC3;&#xA9;dent is a French word";
 echo $utf8a, "//";
 echo $iso8859a, "//";

2/save as "decode1.hph"

3/use the application "terminal" :

php  /path/YYY/decode1.php

4/you will get:

decode-recode*&Précédent is a French word//&Précédent is a French word//

list of encoding systems

in terminal >>iconv --list gives

ANSI_X3.4-1968 ANSI_X3.4-1986 ASCII CP367 IBM367 ISO-IR-6 ISO646-US ISO_646.IRV:1991 US US-ASCII CSASCII
ISO-10646-UCS-4 UCS-4 CSUCS4
CP819 IBM819 ISO-8859-1 ISO-IR-100 ISO8859-1 ISO_8859-1 ISO_8859-1:1987 L1 LATIN1 CSISOLATIN1
ISO-8859-2 ISO-IR-101 ISO8859-2 ISO_8859-2 ISO_8859-2:1987 L2 LATIN2 CSISOLATIN2
ISO-8859-3 ISO-IR-109 ISO8859-3 ISO_8859-3 ISO_8859-3:1988 L3 LATIN3 CSISOLATIN3
ISO-8859-4 ISO-IR-110 ISO8859-4 ISO_8859-4 ISO_8859-4:1988 L4 LATIN4 CSISOLATIN4
CYRILLIC ISO-8859-5 ISO-IR-144 ISO8859-5 ISO_8859-5 ISO_8859-5:1988 CSISOLATINCYRILLIC
ARABIC ASMO-708 ECMA-114 ISO-8859-6 ISO-IR-127 ISO8859-6 ISO_8859-6 ISO_8859-6:1987 CSISOLATINARABIC
ECMA-118 ELOT_928 GREEK GREEK8 ISO-8859-7 ISO-IR-126 ISO8859-7 ISO_8859-7 ISO_8859-7:1987 ISO_8859-7:2003 CSISOLATINGREEK
HEBREW ISO-8859-8 ISO-IR-138 ISO8859-8 ISO_8859-8 ISO_8859-8:1988 CSISOLATINHEBREW
ISO-8859-9 ISO-IR-148 ISO8859-9 ISO_8859-9 ISO_8859-9:1989 L5 LATIN5 CSISOLATIN5
ISO-8859-10 ISO-IR-157 ISO8859-10 ISO_8859-10 ISO_8859-10:1992 L6 LATIN6 CSISOLATIN6
ISO-8859-11 ISO8859-11 ISO_8859-11
ISO-8859-13 ISO-IR-179 ISO8859-13 ISO_8859-13 L7 LATIN7
ISO-8859-14 ISO-CELTIC ISO-IR-199 ISO8859-14 ISO_8859-14 ISO_8859-14:1998 L8 LATIN8
ISO-8859-15 ISO-IR-203 ISO8859-15 ISO_8859-15 ISO_8859-15:1998 LATIN-9
ISO-8859-16 ISO-IR-226 ISO8859-16 ISO_8859-16 ISO_8859-16:2001 L10 LATIN10
CP1258 WINDOWS-1258
866 CP866 IBM866 CSIBM866
CP1133 IBM-CP1133
ISO-IR-166 TIS-620 TIS620 TIS620-0 TIS620.2529-1 TIS620.2533-0 TIS620.2533-1
TCVN TCVN-5712 TCVN5712-1 TCVN5712-1:1993
ISO-IR-14 ISO646-JP JIS_C6220-1969-RO JP CSISO14JISC6220RO
ISO-IR-87 JIS0208 JIS_C6226-1983 JIS_X0208 JIS_X0208-1983 JIS_X0208-1990 X0208 CSISO87JISX0208
ISO-IR-159 JIS_X0212 JIS_X0212-1990 JIS_X0212.1990-0 X0212 CSISO159JISX02121990
CN GB_1988-80 ISO-IR-57 ISO646-CN CSISO57GB1988
CHINESE GB_2312-80 ISO-IR-58 CSISO58GB231280
ISO-IR-149 KOREAN KSC_5601 KS_C_5601-1987 KS_C_5601-1989 CSKSC56011987
ISO-2022-JP-2 CSISO2022JP2
CP936 MS936 WINDOWS-936
HZ HZ-GB-2312
CP1161 IBM-1161 IBM1161 CSIBM1161
CP1162 IBM-1162 IBM1162 CSIBM1162
CP1163 IBM-1163 IBM1163 CSIBM1163
852 CP852 IBM852 CSPCP852
855 CP855 IBM855 CSIBM855
857 CP857 IBM857 CSIBM857
860 CP860 IBM860 CSIBM860
861 CP-IS CP861 IBM861 CSIBM861
863 CP863 IBM863 CSIBM863
CP864 IBM864 CSIBM864
865 CP865 IBM865 CSIBM865
869 CP-GR CP869 IBM869 CSIBM869
ISO-IR-230 TDS565



converts input from the old West-European encoding ISO-8859-9 to Unicode UTF-8

For example, use the application "terminal" :

iconv -f ISO8859-9 -t UTF-8 NameFile

and the inverse
iconv -f UTF-8 -t  ISO8859-9


Friday, January 27, 2017

CNRS et réseaux IST


Renatis est le réseau national de l’information scientifique et technique (IST) du CNRS (ex-MRTC, depuis 2013 Mission Interdisciplinarité du CNRS).

Ce réseau a émergé en 2006, sa création s’inscrit dans le contexte du paysage national complexe de l’IST. Renatis répond au besoin d’une structuration nationale des professionnels de l’information scientifique et technique afin de mener des actions à une échelle supérieure à celle des régions et de rassembler beaucoup plus de personnes. Si beaucoup d’entre elles étaient déjà organisées dans des réseaux régionaux, d’autres sont restées isolées dans des régions sans structures équivalentes.

Renatis est un outil qui les représente tous, rompt leur isolement, leur apporte les mêmes accès à la formation et l’information, leur permet de participer aux activités et projets du réseau avec l’appui des réseaux régionaux de l’IST.

FRéDoc 2015

les pdf:

action nationale de formation Renatis  du 29 septembre au 2 octobre 2015 au Domaine Saint Joseph à Sainte Foy Lès Lyon près de Lyon

Thématique :

« Mieux accompagner la recherche : réalités d’aujourd’hui et perspectives pour les fonctions d’IST »

Le réseau Isidora, en charge de l’organisation de ces rencontres, accueillera pour cette 9ème édition différents acteurs du monde scientifique (professionnels de l’IST, chercheurs, communicants, informaticiens ...) pour se former, s’informer et échanger sur de nouvelles pratiques professionnelles. Cette année les journées seront consacrées à la présentation de fonctions émergentes et à l’exploration des perspectives nouvelles qui s’offrent aux gestionnaires de l’information. Elles s’accompagneront d’une mise en pratique de nouvelles activités autour d’ateliers qui feront écho aux présentations.
Le programme s’oriente autour de deux axes principaux :

Axe 1 : Nouvelles perspectives pour les missions en IST :

Quelles nouvelles missions et activités pour les professionnels de demain ? Comment capitaliser les connaissances et actualiser les compétences ? Quelles nouvelles opportunités d’action ? Quels périmètres d’actions ?

Axe 2 : Formation aux nouveaux outils et services pour accompagner la recherche :

Ateliers pratiques de présentation et de prise en main Partage de savoir-faire et de pratiques liées à l’IST et à ses métiers connexes

en tentant de répondre aux objectifs pédagogiques suivants :

Mieux appréhender les problématiques liés aux enjeux de l’IST Se repositionner au sein des métiers de l’IST, s’investir dans de nouveaux projets Maîtriser les nouveaux outils de l’IST Acquérir les clés et compétences pour mieux accompagner les chercheurs

Frédoc 2015 s’adresse à tous les professionels de l’IST, personnels du CNRS et des autres établissements de recherche ou d’enseignement supérieur.

Lien vers le site


Réseau des Métiers de l’Édition Scientifique publique

Réseau interdisciplinaire et inter-organismes, des métiers de l’édition scientifique publique a pour ambition de créer un lien entre des acteurs de terrain en leur offrant un accès à des ressources utiles à l’exercice de leurs professions.

Journée "Outils de gestion de workfow éditorial"
Journées Medcamp 2016 et "Outils de workflow editorial"
Deux journées à Paris les 29 et 30 juin 2016.

La première journée (mercredi 29 juin 2016) s'articule autour des questions relatives à l’Édition scientifique publique et accès ouvert : évolution des besoins et des pratiques. Il s'agit d'une journée d’information, d’échanges et de retours d’expérience sur les métiers de l’édition et de leur évolution. Plusieurs thématiques (cf. programme) sont retenues afin d'aborder les notions liées à la gestion et à l’édition des données associées aux publications, à la façon dont les équipes éditoriales s'emparent des différentes formes éditoriales existantes ou en devenir pour optimiser la diffusion des savoirs et enfin, aux "autres" écritures et leur évaluation, l'ensemble sous l’angle de l’accès ouvert.

La seconde journée (jeudi 30 juin 2016) est l’occasion de proposer une action spécifique sur les "Outils de gestion de workflow éditorial". Sa finalité est de permettre la présentation et le retour d’expériences sur l’utilisation, par les membres de la communauté, des outils liés à la gestion des workflows éditoriaux (OJS, Spip, Lodel, Trello…), de la soumission des articles jusqu’à la mise en ligne et la publication. Cette journée, plus orientée atelier pratique, permettra d’approcher concrètement le fonctionnement de plusieurs de ces outils. Plusieurs plates-formes qui offrent ces services seront également détaillées pour aborder plus globalement la gestion des activités éditoriales et la mise en place de services associés.

RBDD - Réseau des bases de données

Les thématiques du réseau RBDD couvrent tout le domaine des bases de données : de la conception de la base de données à la diffusion des données, en passant par la modélisation

Voir le site du réseau :



ISORE est un réseau de professionnels en IST des unités CNRS en sciences humaine et sociales

- Accompagner les chercheurs dans les nouvelles pratiques de mise à disposition des résultats de leurs travaux (dépôt en archives ouvertes)

- S’approprier et transmettre les mutations technologiques dans nos domaines de compétences et suivre leurs évolutions (IST, sciences humaines et sociales)

- Étudier les pratiques professionnelles et favoriser par le réseau le développement d’activités collaboratives

- Participer activement au développement et à l’évolution des portails thématiques et documentaires, plus particulièrement BiblioSHS avec qui nous avons des contacts réguliers.

Pour sa visibilité Isore a mis en place plusieurs outils  dont un site web sous spip :
sur lequel sont affichées toutes les activités du réseau (réunions, groupes de travail).


Huma-Num est une très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales.

Une plateforme d'archivage et d'exposition de données : NAKALA
Une plateforme et un moteur de recherche en SHS : Plateforme Isidore

Pour remplir cette mission, la TGIR Huma-Num est bâtie sur une organisation originale consistant à mettre en œuvre un dispositif humain (concertation collective) et technologique (services numériques pérennes) à l’échelle nationale et européenne en s’appuyant sur un important réseau de partenaires et d’opérateurs.

La TGIR Huma-Num favorise ainsi, par l’intermédiaire de consortiums regroupant des acteurs des communautés scientifiques, la coordination de la production raisonnée et collective de corpus de sources (recommandations scientifiques, bonnes pratiques technologiques). Elle développe également un dispositif technologique unique permettant le traitement, la conservation, l'accès et l'interopérabilité des données de la recherche. Ce dispositif est composé d'une grille de services dédiés, d'une plateforme d'accès unifié (ISIDORE) et d'une procédure d'archivage à long terme.

La TGIR Huma-Num propose en outre des guides de bonnes pratiques technologiques généralistes à destination des chercheurs. Elle peut mener ponctuellement des actions d'expertise et de formation. Elle porte la participation de la France dans le projet DARIAH en coordonnant les contributions nationales.

La TGIR Huma-Num est portée par l'Unité Mixte de Services 3598 associant le CNRS, l'Université d'Aix-Marseille et le Campus Condorcet.

Huma-Num propose un ensemble de services pour les données numériques produites en SHS. A chaque étape du cycle de vie des données correspond un service dédié.

par exemple "diffuser":
Le service de diffusion des données regroupe un ensemble d'outils permettant de diffuser des données en ligne, sur le web. Ce service favorise le libre accès aux données (et aux bases de données) et a minima le libre accès aux metadonnées (condition obligatoire pour accéder à ce service). Il s'inscrit dans un cadre favorisant la réutilisation maitrisée des données et des métadonnées en sensibilisant en particulier les communautés aux licences de diffusion (creatives commons, Etalab, etc.). Les site web qui éditorialisent des bases de données ou des corpus en SHS sont invités à rendre interopérable leurs données via des métadonnées normalisées en utilisant des protocoles tel que OAI-PMH, RSS, Atom, sitemap XML + métadonnées RDFa et cela afin d'être signalé dans ISIDORE.

Pour les demandes concernant l’hébergement de projets de corpus de données ou de bases de données scientifiques (prosopographiques, documentaires, etc.), l’interopérabilité et le signalement des données dans Isidore sera un critère déterminant pour l’acceptation du projet. Un guide précisant les principes ainsi que les conditions éditoriales et techniques nécessaires au moissonnage, par la plateforme ISIDORE est à votre disposition.

Persée CNRS ENS Lyon, services aux éditeurs

Au CNRS, il y a au moins 4 structures de diffusion et de publication électronique


  • Cleo à Marseille/Aix (OpenEdition)
  • CCSD à Lyon/Villeurbanne (HAL)
  • Persée à Lyon

et  l' INIST

Ici nous allons nous intéresser aux services pour éditeur  de Persée.


Persée, UMS 3602
ENS de Lyon
15 parvis René Descartes, BP7000,
69342 Lyon cedex 07

Politique d'intégration des collections
La sélection des collections se fonde prioritairement sur des critères scientifiques et documentaires ; des critères matériels et juridiques interviennent également.

Couverture disciplinaire diffuse des publications dans les domaines des sciences humaines et sociales, des sciences et des sciences et vie de la terre :

Anthropologie - Archéologie – Art - Démographie - Droit - Écologie - Économie et gestion - Études classiques - Études des grandes aires culturelles - Études régionales - Géographie - Histoire - Épistémologie, histoire des sciences et des techniques - Linguistique - Littérature - Philosophie - Psychologie - Religion et théologie - Sciences - Sciences de l'éducation - Science politique - Science de l'information et de la communication - Sciences et vie de la terre – Sociologie

Couverture linguistique accueille principalement des publications en français. Ces publications peuvent cependant contenir des articles, des communications, des comptes rendus, etc. dans d'autres langues. La priorité est donnée aux éditeurs français et aux éditeurs francophones.

Couverture chronologique

Le portail Persée a vocation à réunir des collections ayant une certaine antériorité. Ces publications peuvent continuer à paraîre ou être "mortes". Sélectionner une revue ou une publication en série, c'est sélectionner une collection dans son intégralité, avec une diffusion du premier volume paru jusqu'à la période la plus récente.
Typologie documentaire

Le portail Persée diffuse des publications scientifiques, de niveau second cycle et recherche, notamment :
- des revues scientifiques à comité de lecture ;
- de comptes rendus de congrès scientifique à comité de lecture ;
- des ouvrages collectifs rassemblant des articles de revue ou de recherche autour d'un thème donné, coordonnés par un ou plusieurs chercheurs ;
- et des monographies sur un thème de recherche.

Garantir un accès universel et gratuit à l'ensemble des documents
Le portail Persée est une plateforme ouverte face au développement croissant des usages restrictifs du numérique. Les collections numériques sont diffusés librement au bénéfice de la recherche, de l'éducation et de l'ensemble de la société.

Identifiants (DOI) et referencement croisé (Persée participe à l'association CrossRef)


Une des missions de Persée est de valoriser ses fonds au-delà de leur seule diffusion sur le portail et d'élargir les lieux et les modes de leur exploitation. Dans ce contexte, la participation à des réseaux internationaux de plates-formes de diffusion de l'IST (Information Scientifique et Technique), l'amélioration du référencement des ressources par les moteurs de  recherche scientifiques ou grand-public sont quelques-unes des stratégies mises en oeuvre.

Afin de faciliter le référencement et la ré-utilisation des ressources diffusées par persée, nous avons mis en place plusieurs services permettant à notre plateforme d'être interopérable avec d'autres systèmes d'information.

Ces services reposent sur l'utilisation de protocoles de communication largement employés dans le monde de l'IST et de modèles de données répondant aux normes et standards en vigueur.

Dans cette rubrique, vous trouverez la description des différents services mis en oeuvre :

  • l'entrepôt OAI permet de diffuser largement nos métadonnées et nos données ;
  • la passerelle Z39-50 pour l'interopérabilité avec les catalogues de bibliothèques et les outils de gestion de la bibliographie ;
  • les métadonnées au format KBART destinées à alimenter les bases de connaissances et outils de découverte

Référentiels et liens

L'équipe Persée s'attache à lier les ressources qui lui sont confiées aux référentiels disponibles au niveau international. Cette exigence répond à deux objectif : rendre les données plus visibles en les "ancrant" dans un écosystème documentaire plus vaste, et enrichir les services proposés aux utilisateurs du portail.

La gestion des auteurs
Le référentiel "auteurs" de Persée est en cours d'enrichissement. A ce jour (septembre 2015), près de 10% des auteurs associés à des documents diffusés sur cette plateforme sont "alignés" avec le référentiel maintenu par l'Agence Bibliographique de l'Enseignement Supérieur (ABES) : IdRef.

Dans un premier temps d'expérimentation, ces alignements ont été produits soit par les algorithmes mis en place par l'ABES dans le cadre de son programme Qualinca, soit "manuellement" par l'équipe Persée. A court terme (automne 2015), ce processus sera partiellement automatisé et intégré aux procédures de production mises en oeuvre par Persée. IdRef deviendra alors le "référentiel auteur" de Persée.

A partir de ces données et de l'exploitation des référentiels mis à disposition par d'autres institutions (BNF, VIAF, etc.), d'autres alignements sont dérivés. Concrêtement, cela se traduit pour l'utilisateur par la proposition de rebonds vers d'autres sites où l'auteur est présenté (BNF, WikiPédia, ISNI, ...).


Nous vous invitons à nous contacter si vous souhaitez participer au programme Persée et être présents sur le portail Persée. Pour cela vous pouvez compléter le dossier de candidature et le renvoyer à l'équipe Persée ( pour que votre demande soit étudiée.

Erudit services aux éditeurs

Exemple d'un ouvrage:
1939 L'alliance de la dernière chance
Michael J. Carley
Les Presses de l'Université de Montréal
Année de publication : 2001
ISBN : 2-7606-1763-7
ISBN (numérique) : 2-7606-1849-8
© Les Presses de l'Université de Montréal, 2001
est proposé en 3 formats:
Formats HTML | Microsoft Reader | Open eBook

d'autres ouvrages seulement en pdf.

 La production éditoriale réalisée chez Érudit repose sur l’usage du XML. Les articles sont balisés sémantiquement à l’aide du schéma Érudit Article, développé par l’équipe Érudit du Centre d’édition de l’Université de Montréal.

Services Editeurs

Basé sur des standards internationaux, la chaîne d’édition numérique d’Érudit assure la création de documents numériques finement balisés, favorisant leur accessibilité et l’exploitation de leurs données de recherche.

Les fichiers produits sont optimisés pour la diffusion web (repérage et temps de téléchargement) et sont offerts en formats PDF, XML ou XHTML.

Production numérique

Deux niveaux de production sont offerts par Érudit

  •  le traitement minimal 
  •  le traitement complet.

Le traitement XML minimal
Le traitement XML minimal permet l’identification et le balisage des éléments de contenu entourant les articles : titres, sous-titres, auteurs, affiliations et coordonnées des auteurs, résumés, bibliographies, notes biographiques, etc.
Découvrez un exemple d’article en traitement minimal:

Traitement XML complet
Le traitement XML complet permet l’identification sémantique fine des éléments à l’intérieur du corps du texte : titres de sections, paragraphes, citations, notes de bas de page, verbatim, listes, figures, tableaux, images, éléments multimédias et plus encore.
Découvrez un exemple d’article en traitement minimal:

Service de production numérique assistée

La production numérique assistée permet à la revue de réaliser en interne une partie du travail nécessaire pour la mise en ligne des articles, tout en garantissant la qualité des données par une validation complémentaire réalisée par Érudit. Ce service est pour l’instant limité aux revues culturelles diffusées sur la plateforme Érudit. Pour plus d’informations sur ce service, consultez le guide de production assistée ou le tutoriel de présentation.

Frais de production et délais

La production de numéros courants diffusés sur Érudit est facturée annuellement aux revues. Ces frais sont établis à partir d’une grille de calcul qui prend en considération les facteurs suivants :

  • le type de traitement choisi (XML minimal ou complet) ;
  • le nombre de numéros et d’articles publiés annuellement ;
  • la complexité des articles traités (nombre de tableaux et de figures, caractères spéciaux, etc.).

Délais de production

pour les numéros courants, les délais sont de 4 à 6 semaines après réception des fichiers, de sorte que les versions imprimées et numériques puissent paraître simultanément.

Diffusion et référencement

Dans le but d’assurer une visibilité optimale aux revues diffusées, Érudit a élaboré au cours des années une solide stratégie de diffusion et des services de référencement performants.

La diffusion et le référencement sont des étapes essentielles du travail de valorisation des publications numériques assuré par Érudit. Grâce à la structuration rigoureuse des contenus et à l’utilisation de standards de qualité internationaux, Érudit a signé des ententes avec les plus importants acteurs du monde de la documentation (Primo Central, WorldCat, Summons, Scopus, Web of Science, Google Scholar, Francis, BASE, OAISter, JournalTOCs, DOAJ, Repère, Persée, etc.).

Avec plusieurs dizaines de millions de pages vues  sur sa plateforme, dont 70% provenant de l’étranger, Érudit est fier de pouvoir contribuer au rayonnement international de la recherche, du patrimoine et de la culture francophone.

Hébergement et préservation

Érudit s’engage à assurer la préservation à long terme des fichiers produits en format XML, XHTML et PDF, ainsi que de leurs métadonnées. 
À cet effet, un service d’identification pérenne pour tous les documents du fonds est fourni (par adresse URI) et un DOI (Digital Object Identifier) identifie l’article selon un standard international.

Gestion éditoriale

Les revues diffusées sur la plateforme Érudit bénéficient d’un accès à Open Journal System (OJS), un outil en ligne organisant le processus de soumission et de révision des articles.

En collaboration avec le Centre d’expertise numérique pour la recherche (CEN-R) de l’Université de Montréal, Érudit accompagne les revues dans l’installation, le paramétrage et l’utilisation de cet outil.

Erudit and Dspace

Érudit is a Quebec non-profit publishing platform. Founded in 1998, it publishes research in the humanities and social sciences, as well as select physical and natural science journals. The organization is a consortium of Université de Montréal, Université Laval, and Université du Québec à Montréal. Érudit is the largest provider of Canadian French and bilingual research publications.
Érudit is based on Dspace.
Dspace: (better)


OJS and érudit schema

XML schema tutorial

An XML Schema describes the structure of an XML document.
The XML Schema Working Group is closed, having completed its work successfully. The specifications are now maintained by the W3C XML Core Working Group.

The XML Schema language is also referred to as XML Schema Definition (XSD).

The purpose of an XML Schema is to define the legal building blocks of an XML document:

  • the elements and attributes that can appear in a document
  • the number of (and order of) child elements
  • data types for elements and attributes
  • default and fixed values for elements and attributes

Why Learn XML Schema?

In the XML world, hundreds of standardized XML formats are in daily use.

Many of these XML standards are defined by XML Schemas.

XML Schema is an XML-based (and more powerful) alternative to DTD (Document Type Definition).

XML Schemas Support Data Types

One of the greatest strength of XML Schemas is the support for data types.
  • It is easier to describe allowable document content
  • It is easier to validate the correctness of data
  • It is easier to define data facets (restrictions on data)
  • It is easier to define data patterns (data formats)
  • It is easier to convert data between different data types

XML Schemas use XML Syntax

Another great strength about XML Schemas is that they are written in XML.

  • You don't have to learn a new language
  • You can use your XML editor to edit your Schema files
  • You can use your XML parser to parse your Schema files
  • You can manipulate your Schema with the XML DOM
  • You can transform your Schema with XSLT
  • XML Schemas are extensible, because they are written in XML.

With an extensible Schema definition you can:

  • Reuse your Schema in other Schemas
  • Create your own data types derived from the standard types
  • Reference multiple schemas in the same document

XML Schemas Secure Data Communication

When sending data from a sender to a receiver, it is essential that both parts have the same "expectations" about the content.

With XML Schemas, the sender can describe the data in a way that the receiver will understand.


XSD How To?

XML documents can have a reference to a DTD or to an XML Schema.

A Simple XML Document

Look at this simple XML document called "note.xml":
<?xml version="1.0"?>
  <body>Don't forget me this weekend!</body>

The first line defines the note element to have four child elements: "to, from, heading, body".

An XML Schema

The following example is an XML Schema file called "note.xsd" that defines the elements of the XML document above ("note.xml"):
<?xml version="1.0"?>
<xs:schema xmlns:xs=""

<xs:element name="note">
      <xs:element name="to" type="xs:string"/>
      <xs:element name="from" type="xs:string"/>
      <xs:element name="heading" type="xs:string"/>
      <xs:element name="body" type="xs:string"/>


The note element is a complex type because it contains other elements.
The other elements (to, from, heading, body) are simple types because they do not contain other elements.

A Reference to an XML Schema

This XML document has a reference to an XML Schema:
<?xml version="1.0"?>

xsi:schemaLocation=" note.xsd"

  <body>Don't forget me this weekend!</body>

Here are some XML elements:

And here are the corresponding simple element definitions:
<xs:element name="lastname" type="xs:string"/>
<xs:element name="age" type="xs:integer"/>
<xs:element name="dateborn" type="xs:date"/>

Example of an attribute
Here is an XML element with an attribute:
<lastname lang="EN">Smith</lastname>
And here is the corresponding attribute definition:
<xs:attribute name="lang" type="xs:string"/>

XSD Restrictions/Facets
Restrictions are used to define acceptable values for XML elements or attributes. Restrictions on XML elements are called facets.
Restrictions on Values
The following example defines an element called "age" with a restriction. The value of age cannot be lower than 0 or greater than 120:
<xs:element name="age">
    <xs:restriction base="xs:integer">
      <xs:minInclusive value="0"/>
      <xs:maxInclusive value="120"/>

XSD - The <schema> Element

The <schema> Element
The <schema> element is the root element of every XML Schema:
<?xml version="1.0"?>


List of some XML Schema


  • EAD, for encoding archival finding aids, maintained by the Technical Subcommittee for Encoded Archival Description of the Society of American Archivists, in partnership with the Library of Congress.
  • MARCXML, a direct mapping of the MARC standard to XML syntax.

  • RDF - Resource Description Framework
  • ONIX for Books - ONline Information eXchange, developed and maintained by EDItEUR jointly with Book Industry Communication (UK) and the Book Industry Study Group (US), and with user groups in Australia, Canada, France, Germany, Italy, the Netherlands, Norway, Spain and the Republic of Korea.
  • DDML - reformulations XML DTD
  • PRISM - Publishing Requirements for Industry Standard Metadata (PRISM)
  • JATS (formerly known as the NLM DTD)—Journal Article Tag Suite, a journal publishing structure originally developed by the United States National Library of Medicine
  • DITA—Darwin Information Typing Architecture, document authoring system
  • DocBook for technical documentation
  • PRISM - Publishing Requirements for Industry Standard Metadata (PRISM)

XML Standards Library compilation


example HAL

Thursday, January 26, 2017

JSTOR, open access and DOI

We are pleased to announce a new program to make Open Access monographs available on the JSTOR platform. An initial set of titles is available from four outstanding publishers: University of California Press, University of Michigan Press, UCL Press, and Cornell University Press. We expect to add several hundred more Open Access titles over the next year.

The ebooks, which reflect JSTOR’s high standards for quality content, are freely available for anyone in the world to use. Each ebook carries one of six Creative Commons licenses determined by the publisher. The titles are easy to use, with no DRM restrictions and no limits on chapter PDF downloads or printing. Users will not need to register or log in to JSTOR. Librarians can receive free MARC records and activate the titles in discovery services.

This initiative furthers JSTOR's mission to expand access to knowledge and education while lowering costs, and joins other efforts to maximize access including the Early Journal Content program, the Register and Read program, and the African Access Initiative. We look forward to sharing what we learn with the scholarly community.

October 25, 2016

How will JSTOR work with CrossRef?
JSTOR has joined CrossRef and paid membership dues. JSTOR plans to register DOIs for all articles in the archive that have not previously been registered. This will enable users of the CrossRef system to link to hundreds of years worth of articles in the arts, humanities, sciences, and social sciences.

Are there any fees for having JSTOR register DOIs for our articles?
JSTOR covers all the fees associated with registering DOIs on behalf of our participating publishers in the archive collections.

Will JSTOR register DOIs with Cross Ref for all content types?
No. JSTOR will only register DOIs for full length articles and book reviews. This is the content most likely to be cited in other publications and therefore the target of links. JSTOR may decide to include other materials (news items, editorials, etc.) in the future.


DOI's are managed by For each DOI, Crossref's database has a redirect to the current location of that digital object, and the owners can move things around and update the Crossref database as needed. When you follow a link to, the crossref servers redirect this request to the current location of that paper. As mentioned in another answer you can lookup an article in the database to see whether or not it has a DOI.

Recent articles have typically been assigned a DOI by the publisher, and most publishers put the DOI on the title page of the paper so it's easy to find that way.

Older articles were originally published without a DOI, but the publisher may have assigned one after the fact. If the publisher has not already assigned a DOI, then JSTOR may have assigned a DOI to the article that will point to the copy of the article in the JSTOR database. This is a service offered to publishers by JSTOR, but not all publishers use it. Thus not all articles in JSTOR have DOI's.

It appears that the article you linked to has not been assigned a DOI by either its original publisher or JSTOR and thus has no DOI. I can't find the article in the crossref database. The "stable URL" that you linked to is probably the best way to link to the article.

An example of a free article

For example, in JSTOR
search "biophotonics"
you will get only one article:
'Biophotonics' is inside the text of this article.
If you download the pdf, you will get a pdf (you copy/paste text).

If you click, you will see this infos
and the DOI of jstor

Three "sheets"