Science hubs & hub Sciences: 2017-01-22

Saturday, January 28, 2017

marcxml, marc-edit and converters JSON, MODS, RDF, OAI

marcxml

The Library of Congress' Network Development and MARC Standards Office is developing a framework for working with MARC data in a XML environment. This framework is intended to be flexible and extensible to allow users to work with MARC data in ways specific to their needs. The framework itself includes many components such as schemas, stylesheets, and software tools.

https://www.loc.gov/standards/marcxml/

MARC 21 to MARCXML Conversion

The MARCXML toolkit is a set of Java programs which allow users to convert to and from the MARC file format (including full character set conversion) and other formats available in the MARCXML architecture.

MARCXML Conversion Stylesheets

mods (Metadata Object Description Standard)
MARCXML to MODS Stylesheet (Version 3.6)
MODS to MARCXML Stylesheets
Dublin Core Conversion
MARCXML to RDF Encoded Simple Dublin Core Stylesheet
MARCXML to OAI Encoded Simple Dublin Core Stylesheet
MARCXML to SRW Encoded Simple Dublin Core Stylesheet
Dublin Core to MARCXML Stylesheet

OAI MARC Conversion
OAI MARC to MARCXML Stylesheet

ONIX Conversion
ONIX to MARCXML Stylesheet
MARC Conversion Utility Stylesheet

MARC DTD Conversion
MARCXML to MARC DTD Stylesheet (Bibliographic)
MARCXML to MARC DTD Stylesheet (Authority)
MARC DTD to MARCXML Stylesheet (Authority and Bibliographic)

MARCXML HTML Stylesheets

MARCXML MARC Validation Stylesheets

MARC Bibliographic Validator

TOOLS

MarcEdit

MarcEdit is a metadata editing software suite used primarily to create and manipulate MARC records.
http://marcedit.reeset.net/
https://en.wikipedia.org/wiki/MarcEdit

marc<->marcXML
marc<->JSON
MARC<->Dublin Core
MODS
...

features

These features include:

MARC Editing: MarcEdit includes a MARC Breaker and Maker to move MARC data into a more friendly mnemonic file format. It includes a dedicated MARC Editor, that provides a number of global editing functions, the ability to edit MODS and MARCXML data (in a mnemonic format) and integrate data from other data sources like OCLC, etc. into a batch set of MARC data.
MarcEditor: The MarcEditor is MarcEdit’s built in metadata editor. It includes a number of global editing functions, full regular expression and UTF-8 support, as well as the ability to configure the editor to utilize any characterset supported by the operating system. Included functions: Globally Add/Delete Fields, Edit Subfields, Swap Field Data, Copy Field Data, Edit Indicators, Generate Call Numbers, Validate Records, Generate Reports, Find/Replace, Direct Integration with Supported ILS systems, Macro support, Task Support, etc.
RDA Helper: The RDA Helper is both a stand alone and integrated tool that allows users to take a set of MARC data and automatically generate RDA specific data. The RDA data is derived from the source recordset using available control data, variable field data, and RDA specific assumptions.
Delimited Text Translator: The Delimited Text Translator is a tool that allows users to translate data in Excel, Access, or any delimited format into MARC.
Export as Tab Delimited: A tool that allows users to export their MARC data as delimited text.
Harvest OAI Data: MarcEdit has the ability to harvest metadata from an OAI data provider and convert the data directly to MARC. Supported formats are MARCXML, oaimarc, oai_dc, and MODS. However, the program allows the user to provide their own translation rules, so any format could be accommodated.
XML Translations: MarcEdit supports the facilitation of metadata from XML and non-XML formats into various forms, including MARC.
Characterset conversion: MarcEdit supports the ability to convert MARC records from one characterset to another. This includes the traditional charactersets like MARC-8 (ANSEL) and UTF-8. But it also includes support for any characterset currently supported by the operating system. So users with MARC data in Traditional Chinese can utilize MarcEdit to convert that data to UTF-8.
Z39.50/SRU Client: MarcEdit includes a built in Z39.50 and SRU client for interaction with other library systems.
MARC SQL Explorer: MarcEdit includes an SQL Explorer — a tool that allows users to export their data into either an SQLite or MySQL data and run SQL queries directly on the data to mine for information.
MARCValidator: MarcEdit includes a number of tools to help users validate data and identify incorrectly structured MARC record data.
Many more features: Like the ability to split, join, sort, etc. data in various formats.

Mac

MarcEdit Mac Port Information

http://marcedit.reeset.net/marcedit-mac-port-information

java

http://marcedit.reeset.net/

2013 (small 2016)

https://sourceforge.net/projects/dnb-conv-tools/

java

character encoding conversion UTF-8; transformers converters (by php) of letters in different format like single eight-bit code Ã © to letter "é"

première école
appears
premiÃ¨re Ã©cole

Looks like you originally had a
UTF-8 file
which has been interpreted as an 8 bit encoding (e.g. ISO-8859-15)
and entity-encoded.

ISO-8859-15
http://en.wikipedia.org/wiki/ISO/IEC_8859-15
ISO 8859-15 encodes what it refers to as "Latin alphabet no. 9". This character set is used throughout the Americas, Western Europe, Oceania, and much of Africa.
Each character is encoded as a single eight-bit code value.

See below for a list of encoding systems.

I say this because the sequence C3A9 looks like a pretty plausible UTF-8 encoding sequence.
http://en.wikipedia.org/wiki/UTF-8#Description
The W3C recommends UTF-8 as the default encoding in XML and HTML.

You will need to first entity-decode it,
then you'll have a UTF-8 encoding again.

iconv

You could then use something like iconv to convert to an encoding of your choosing.
iconv
http://www.gnu.org/savannah-checkouts/gnu/libiconv/documentation/libiconv-1.13/iconv.1.html
The iconv program converts text from one encoding to another encoding.
https://en.wikipedia.org/wiki/Iconv

iconv : unix, mac OSX, linux
https://developer.apple.com/legacy/library/documentation/Darwin/Reference/ManPages/man1/iconv.1.html

iconv-lite-js

Convert character encodings in pure javascript:
https://github.com/ashtuchkin/iconv-lite

example

To work through your example:

Ã © would be decoded as the byte sequence 0xC3A9
0xC3A9 = 11000011 10101001 in binary
octetFist octetSecond
the leading 110 in the first octet tells us this could be interpreted as a UTF-8 two byte sequence.
second octet starts with 10, we're looking at something we can interpret as UTF-8.
To do that, we take the last 5 bits of the first octet, and the last 6 bits of the second octet...
So, interpreted as UTF-8 it's
00011101001
= E9
= é (LATIN SMALL LETTER E WITH ACUTE
http://www.fileformat.info/info/unicode/char/e9/index.htm)

You mention wanting to handle this with PHP, something like this might do it for you:

//to load from a file, use
//$file=file_get_contents("/path/to/filename.txt");
//example below uses a literal string to demonstrate technique...

$file="&PrÃ©cÃ©dent is a French word";
$utf8=html_entity_decode($file);
$iso8859=utf8_decode($utf8);

//$utf8 contains "Précédent is a French word" in UTF-8
//$iso8859 contains "Précédent is a French word" in ISO-8859

Ref.
http://stackoverflow.com/questions/4177783/xc3-xa9-and-other-codes

run OSX Mac (php is installed)

1/ create this text file (a php script: decode/recode)
<?php
echo "decode-recode*";
$file="&PrÃ©cÃ©dent is a French word";
$utf8a=html_entity_decode($file);
$iso8859a=utf8_decode($utf8a);
echo $utf8a, "//";
echo $iso8859a, "//";
?>

2/save as "decode1.hph"

3/use the application "terminal" :

php /path/YYY/decode1.php

4/you will get:

decode-recode*&PrÃ©cÃ©dent is a French word//&Précédent is a French word//

list of encoding systems

in terminal >>iconv --list gives

ANSI_X3.4-1968 ANSI_X3.4-1986 ASCII CP367 IBM367 ISO-IR-6 ISO646-US ISO_646.IRV:1991 US US-ASCII CSASCII

UTF-8 UTF8

UTF-8-MAC UTF8-MAC

ISO-10646-UCS-2 UCS-2 CSUNICODE

UCS-2BE UNICODE-1-1 UNICODEBIG CSUNICODE11

UCS-2LE UNICODELITTLE

ISO-10646-UCS-4 UCS-4 CSUCS4

UCS-4BE

UCS-4LE

UTF-16

UTF-16BE

UTF-16LE

UTF-32

UTF-32BE

UTF-32LE

UNICODE-1-1-UTF-7 UTF-7 CSUNICODE11UTF7

UCS-2-INTERNAL

UCS-2-SWAPPED

UCS-4-INTERNAL

UCS-4-SWAPPED

C99

JAVA

CP819 IBM819 ISO-8859-1 ISO-IR-100 ISO8859-1 ISO_8859-1 ISO_8859-1:1987 L1 LATIN1 CSISOLATIN1

ISO-8859-2 ISO-IR-101 ISO8859-2 ISO_8859-2 ISO_8859-2:1987 L2 LATIN2 CSISOLATIN2

ISO-8859-3 ISO-IR-109 ISO8859-3 ISO_8859-3 ISO_8859-3:1988 L3 LATIN3 CSISOLATIN3

ISO-8859-4 ISO-IR-110 ISO8859-4 ISO_8859-4 ISO_8859-4:1988 L4 LATIN4 CSISOLATIN4

CYRILLIC ISO-8859-5 ISO-IR-144 ISO8859-5 ISO_8859-5 ISO_8859-5:1988 CSISOLATINCYRILLIC

ARABIC ASMO-708 ECMA-114 ISO-8859-6 ISO-IR-127 ISO8859-6 ISO_8859-6 ISO_8859-6:1987 CSISOLATINARABIC

ECMA-118 ELOT_928 GREEK GREEK8 ISO-8859-7 ISO-IR-126 ISO8859-7 ISO_8859-7 ISO_8859-7:1987 ISO_8859-7:2003 CSISOLATINGREEK

HEBREW ISO-8859-8 ISO-IR-138 ISO8859-8 ISO_8859-8 ISO_8859-8:1988 CSISOLATINHEBREW

ISO-8859-9 ISO-IR-148 ISO8859-9 ISO_8859-9 ISO_8859-9:1989 L5 LATIN5 CSISOLATIN5

ISO-8859-10 ISO-IR-157 ISO8859-10 ISO_8859-10 ISO_8859-10:1992 L6 LATIN6 CSISOLATIN6

ISO-8859-11 ISO8859-11 ISO_8859-11

ISO-8859-13 ISO-IR-179 ISO8859-13 ISO_8859-13 L7 LATIN7

ISO-8859-14 ISO-CELTIC ISO-IR-199 ISO8859-14 ISO_8859-14 ISO_8859-14:1998 L8 LATIN8

ISO-8859-15 ISO-IR-203 ISO8859-15 ISO_8859-15 ISO_8859-15:1998 LATIN-9

ISO-8859-16 ISO-IR-226 ISO8859-16 ISO_8859-16 ISO_8859-16:2001 L10 LATIN10

KOI8-R CSKOI8R

KOI8-U

KOI8-RU

CP1250 MS-EE WINDOWS-1250

CP1251 MS-CYRL WINDOWS-1251

CP1252 MS-ANSI WINDOWS-1252

CP1253 MS-GREEK WINDOWS-1253

CP1254 MS-TURK WINDOWS-1254

CP1255 MS-HEBR WINDOWS-1255

CP1256 MS-ARAB WINDOWS-1256

CP1257 WINBALTRIM WINDOWS-1257

CP1258 WINDOWS-1258

850 CP850 IBM850 CSPC850MULTILINGUAL

862 CP862 IBM862 CSPC862LATINHEBREW

866 CP866 IBM866 CSIBM866

MAC MACINTOSH MACROMAN CSMACINTOSH

MACCENTRALEUROPE

MACICELAND

MACCROATIAN

MACROMANIA

MACCYRILLIC

MACUKRAINE

MACGREEK

MACTURKISH

MACHEBREW

MACARABIC

MACTHAI

HP-ROMAN8 R8 ROMAN8 CSHPROMAN8

NEXTSTEP

ARMSCII-8

GEORGIAN-ACADEMY

GEORGIAN-PS

KOI8-T

CP154 CYRILLIC-ASIAN PT154 PTCP154 CSPTCP154

MULELAO-1

CP1133 IBM-CP1133

ISO-IR-166 TIS-620 TIS620 TIS620-0 TIS620.2529-1 TIS620.2533-0 TIS620.2533-1

CP874 WINDOWS-874

VISCII VISCII1.1-1 CSVISCII

TCVN TCVN-5712 TCVN5712-1 TCVN5712-1:1993

ISO-IR-14 ISO646-JP JIS_C6220-1969-RO JP CSISO14JISC6220RO

JISX0201-1976 JIS_X0201 X0201 CSHALFWIDTHKATAKANA

ISO-IR-87 JIS0208 JIS_C6226-1983 JIS_X0208 JIS_X0208-1983 JIS_X0208-1990 X0208 CSISO87JISX0208

ISO-IR-159 JIS_X0212 JIS_X0212-1990 JIS_X0212.1990-0 X0212 CSISO159JISX02121990

CN GB_1988-80 ISO-IR-57 ISO646-CN CSISO57GB1988

CHINESE GB_2312-80 ISO-IR-58 CSISO58GB231280

CN-GB-ISOIR165 ISO-IR-165

ISO-IR-149 KOREAN KSC_5601 KS_C_5601-1987 KS_C_5601-1989 CSKSC56011987

EUC-JP EUCJP EXTENDED_UNIX_CODE_PACKED_FORMAT_FOR_JAPANESE CSEUCPKDFMTJAPANESE

MS_KANJI SHIFT-JIS SHIFT_JIS SJIS CSSHIFTJIS

CP932

ISO-2022-JP CSISO2022JP

ISO-2022-JP-1

ISO-2022-JP-2 CSISO2022JP2

CN-GB EUC-CN EUCCN GB2312 CSGB2312

GBK

CP936 MS936 WINDOWS-936

GB18030

ISO-2022-CN CSISO2022CN

ISO-2022-CN-EXT

HZ HZ-GB-2312

EUC-TW EUCTW CSEUCTW

BIG-5 BIG-FIVE BIG5 BIGFIVE CN-BIG5 CSBIG5

CP950

BIG5-HKSCS:1999

BIG5-HKSCS:2001

BIG5-HKSCS BIG5-HKSCS:2004 BIG5HKSCS

EUC-KR EUCKR CSEUCKR

CP949 UHC

CP1361 JOHAB

ISO-2022-KR CSISO2022KR

CP856

CP922

CP943

CP1046

CP1124

CP1129

CP1161 IBM-1161 IBM1161 CSIBM1161

CP1162 IBM-1162 IBM1162 CSIBM1162

CP1163 IBM-1163 IBM1163 CSIBM1163

DEC-KANJI

DEC-HANYU

437 CP437 IBM437 CSPC8CODEPAGE437

CP737

CP775 IBM775 CSPC775BALTIC

852 CP852 IBM852 CSPCP852

CP853

855 CP855 IBM855 CSIBM855

857 CP857 IBM857 CSIBM857

CP858

860 CP860 IBM860 CSIBM860

861 CP-IS CP861 IBM861 CSIBM861

863 CP863 IBM863 CSIBM863

CP864 IBM864 CSIBM864

865 CP865 IBM865 CSIBM865

869 CP-GR CP869 IBM869 CSIBM869

CP1125

EUC-JISX0213

SHIFT_JISX0213

ISO-2022-JP-3

BIG5-2003

ISO-IR-230 TDS565

ATARI ATARIST

RISCOS-LATIN1

Example

converts input from the old West-European encoding ISO-8859-9 to Unicode UTF-8

For example, use the application "terminal" :

iconv -f ISO8859-9 -t UTF-8 NameFile

and the inverse
iconv -f UTF-8 -t ISO8859-9

Friday, January 27, 2017

CNRS et réseaux IST

Renatis

Renatis est le réseau national de l’information scientifique et technique (IST) du CNRS (ex-MRTC, depuis 2013 Mission Interdisciplinarité du CNRS).

Ce réseau a émergé en 2006, sa création s’inscrit dans le contexte du paysage national complexe de l’IST. Renatis répond au besoin d’une structuration nationale des professionnels de l’information scientifique et technique afin de mener des actions à une échelle supérieure à celle des régions et de rassembler beaucoup plus de personnes. Si beaucoup d’entre elles étaient déjà organisées dans des réseaux régionaux, d’autres sont restées isolées dans des régions sans structures équivalentes.

Renatis est un outil qui les représente tous, rompt leur isolement, leur apporte les mêmes accès à la formation et l’information, leur permet de participer aux activités et projets du réseau avec l’appui des réseaux régionaux de l’IST.

FRéDoc 2015

https://fredoc2015.sciencesconf.org/

les pdf:
https://fredoc2015.sciencesconf.org/resource/page/id/7

action nationale de formation Renatis du 29 septembre au 2 octobre 2015 au Domaine Saint Joseph à Sainte Foy Lès Lyon près de Lyon

Thématique :

« Mieux accompagner la recherche : réalités d’aujourd’hui et perspectives pour les fonctions d’IST »

Le réseau Isidora, en charge de l’organisation de ces rencontres, accueillera pour cette 9ème édition différents acteurs du monde scientifique (professionnels de l’IST, chercheurs, communicants, informaticiens ...) pour se former, s’informer et échanger sur de nouvelles pratiques professionnelles. Cette année les journées seront consacrées à la présentation de fonctions émergentes et à l’exploration des perspectives nouvelles qui s’offrent aux gestionnaires de l’information. Elles s’accompagneront d’une mise en pratique de nouvelles activités autour d’ateliers qui feront écho aux présentations.
Le programme s’oriente autour de deux axes principaux :

Axe 1 : Nouvelles perspectives pour les missions en IST :

Quelles nouvelles missions et activités pour les professionnels de demain ? Comment capitaliser les connaissances et actualiser les compétences ? Quelles nouvelles opportunités d’action ? Quels périmètres d’actions ?

Axe 2 : Formation aux nouveaux outils et services pour accompagner la recherche :

Ateliers pratiques de présentation et de prise en main Partage de savoir-faire et de pratiques liées à l’IST et à ses métiers connexes

en tentant de répondre aux objectifs pédagogiques suivants :

Mieux appréhender les problématiques liés aux enjeux de l’IST Se repositionner au sein des métiers de l’IST, s’investir dans de nouveaux projets Maîtriser les nouveaux outils de l’IST Acquérir les clés et compétences pour mieux accompagner les chercheurs

Frédoc 2015 s’adresse à tous les professionels de l’IST, personnels du CNRS et des autres établissements de recherche ou d’enseignement supérieur.

Lien vers le site
http://renatis.cnrs.fr/spip.php?rubrique32

MEDICI

Réseau des Métiers de l’Édition Scientifique publique

Réseau interdisciplinaire et inter-organismes, des métiers de l’édition scientifique publique a pour ambition de créer un lien entre des acteurs de terrain en leur offrant un accès à des ressources utiles à l’exercice de leurs professions.
http://medici.in2p3.fr/?lang=fr

Journée "Outils de gestion de workfow éditorial"
Journées Medcamp 2016 et "Outils de workflow editorial"
Deux journées à Paris les 29 et 30 juin 2016.
https://medici-thema16.sciencesconf.org/

La première journée (mercredi 29 juin 2016) s'articule autour des questions relatives à l’Édition scientifique publique et accès ouvert : évolution des besoins et des pratiques. Il s'agit d'une journée d’information, d’échanges et de retours d’expérience sur les métiers de l’édition et de leur évolution. Plusieurs thématiques (cf. programme) sont retenues afin d'aborder les notions liées à la gestion et à l’édition des données associées aux publications, à la façon dont les équipes éditoriales s'emparent des différentes formes éditoriales existantes ou en devenir pour optimiser la diffusion des savoirs et enfin, aux "autres" écritures et leur évaluation, l'ensemble sous l’angle de l’accès ouvert.

La seconde journée (jeudi 30 juin 2016) est l’occasion de proposer une action spécifique sur les "Outils de gestion de workflow éditorial". Sa finalité est de permettre la présentation et le retour d’expériences sur l’utilisation, par les membres de la communauté, des outils liés à la gestion des workflows éditoriaux (OJS, Spip, Lodel, Trello…), de la soumission des articles jusqu’à la mise en ligne et la publication. Cette journée, plus orientée atelier pratique, permettra d’approcher concrètement le fonctionnement de plusieurs de ces outils. Plusieurs plates-formes qui offrent ces services seront également détaillées pour aborder plus globalement la gestion des activités éditoriales et la mise en place de services associés.

RBDD - Réseau des bases de données

Les thématiques du réseau RBDD couvrent tout le domaine des bases de données : de la conception de la base de données à la diffusion des données, en passant par la modélisation

Voir le site du réseau : http://rbdd.cnrs.fr/

Autres

ISORE

ISORE est un réseau de professionnels en IST des unités CNRS en sciences humaine et sociales
Objectifs

- Accompagner les chercheurs dans les nouvelles pratiques de mise à disposition des résultats de leurs travaux (dépôt en archives ouvertes)

- S’approprier et transmettre les mutations technologiques dans nos domaines de compétences et suivre leurs évolutions (IST, sciences humaines et sociales)

- Étudier les pratiques professionnelles et favoriser par le réseau le développement d’activités collaboratives

- Participer activement au développement et à l’évolution des portails thématiques et documentaires, plus particulièrement BiblioSHS avec qui nous avons des contacts réguliers.

Pour sa visibilité Isore a mis en place plusieurs outils dont un site web sous spip : http://www.isore.cnrs.fr/
sur lequel sont affichées toutes les activités du réseau (réunions, groupes de travail).

http://www.isore.cnrs.fr/spip.php?rubrique1

Huma-Num

Huma-Num est une très grande infrastructure de recherche (TGIR) visant à faciliter le tournant numérique de la recherche en sciences humaines et sociales.

https://fr.wikipedia.org/wiki/Huma-Num

Une plateforme d'archivage et d'exposition de données : NAKALA

Une plateforme et un moteur de recherche en SHS : Plateforme Isidore

Pour remplir cette mission, la TGIR Huma-Num est bâtie sur une organisation originale consistant à mettre en œuvre un dispositif humain (concertation collective) et technologique (services numériques pérennes) à l’échelle nationale et européenne en s’appuyant sur un important réseau de partenaires et d’opérateurs.

La TGIR Huma-Num favorise ainsi, par l’intermédiaire de consortiums regroupant des acteurs des communautés scientifiques, la coordination de la production raisonnée et collective de corpus de sources (recommandations scientifiques, bonnes pratiques technologiques). Elle développe également un dispositif technologique unique permettant le traitement, la conservation, l'accès et l'interopérabilité des données de la recherche. Ce dispositif est composé d'une grille de services dédiés, d'une plateforme d'accès unifié (ISIDORE) et d'une procédure d'archivage à long terme.

La TGIR Huma-Num propose en outre des guides de bonnes pratiques technologiques généralistes à destination des chercheurs. Elle peut mener ponctuellement des actions d'expertise et de formation. Elle porte la participation de la France dans le projet DARIAH en coordonnant les contributions nationales.

La TGIR Huma-Num est portée par l'Unité Mixte de Services 3598 associant le CNRS, l'Université d'Aix-Marseille et le Campus Condorcet.

Huma-Num propose un ensemble de services pour les données numériques produites en SHS. A chaque étape du cycle de vie des données correspond un service dédié.

par exemple "diffuser":

http://www.huma-num.fr/services-et-outils/diffuser

Le service de diffusion des données regroupe un ensemble d'outils permettant de diffuser des données en ligne, sur le web. Ce service favorise le libre accès aux données (et aux bases de données) et a minima le libre accès aux metadonnées (condition obligatoire pour accéder à ce service). Il s'inscrit dans un cadre favorisant la réutilisation maitrisée des données et des métadonnées en sensibilisant en particulier les communautés aux licences de diffusion (creatives commons, Etalab, etc.). Les site web qui éditorialisent des bases de données ou des corpus en SHS sont invités à rendre interopérable leurs données via des métadonnées normalisées en utilisant des protocoles tel que OAI-PMH, RSS, Atom, sitemap XML + métadonnées RDFa et cela afin d'être signalé dans ISIDORE.

Pour les demandes concernant l’hébergement de projets de corpus de données ou de bases de données scientifiques (prosopographiques, documentaires, etc.), l’interopérabilité et le signalement des données dans Isidore sera un critère déterminant pour l’acceptation du projet. Un guide précisant les principes ainsi que les conditions éditoriales et techniques nécessaires au moissonnage, par la plateforme ISIDORE est à votre disposition.

http://www.huma-num.fr/sites/default/files/guide-isidore.pdf

http://www.huma-num.fr/la-tgir-en-bref

Persée CNRS ENS Lyon, services aux éditeurs

Au CNRS, il y a au moins 4 structures de diffusion et de publication électronique

3 UMS

Cleo à Marseille/Aix (OpenEdition)
CCSD à Lyon/Villeurbanne (HAL)
Persée à Lyon

et l' INIST

Ici nous allons nous intéresser aux services pour éditeur de Persée.

Persée

Persée, UMS 3602
ENS de Lyon
15 parvis René Descartes, BP7000,
69342 Lyon cedex 07

Politique d'intégration des collections
La sélection des collections se fonde prioritairement sur des critères scientifiques et documentaires ; des critères matériels et juridiques interviennent également.

Couverture disciplinaire

Persee.fr diffuse des publications dans les domaines des sciences humaines et sociales, des sciences et des sciences et vie de la terre :

Anthropologie - Archéologie – Art - Démographie - Droit - Écologie - Économie et gestion - Études classiques - Études des grandes aires culturelles - Études régionales - Géographie - Histoire - Épistémologie, histoire des sciences et des techniques - Linguistique - Littérature - Philosophie - Psychologie - Religion et théologie - Sciences - Sciences de l'éducation - Science politique - Science de l'information et de la communication - Sciences et vie de la terre – Sociologie

Couverture linguistique

Persee.fr accueille principalement des publications en français. Ces publications peuvent cependant contenir des articles, des communications, des comptes rendus, etc. dans d'autres langues. La priorité est donnée aux éditeurs français et aux éditeurs francophones.

Couverture chronologique

Le portail Persée a vocation à réunir des collections ayant une certaine antériorité. Ces publications peuvent continuer à paraîre ou être "mortes". Sélectionner une revue ou une publication en série, c'est sélectionner une collection dans son intégralité, avec une diffusion du premier volume paru jusqu'à la période la plus récente.
Typologie documentaire

Le portail Persée diffuse des publications scientifiques, de niveau second cycle et recherche, notamment :
- des revues scientifiques à comité de lecture ;
- de comptes rendus de congrès scientifique à comité de lecture ;
- des ouvrages collectifs rassemblant des articles de revue ou de recherche autour d'un thème donné, coordonnés par un ou plusieurs chercheurs ;
- et des monographies sur un thème de recherche.

Garantir un accès universel et gratuit à l'ensemble des documents
Le portail Persée est une plateforme ouverte face au développement croissant des usages restrictifs du numérique. Les collections numériques sont diffusés librement au bénéfice de la recherche, de l'éducation et de l'ensemble de la société.
http://www.persee.fr/votre-collection-sur-persee

Identifiants (DOI) et referencement croisé (Persée participe à l'association CrossRef)
http://www.persee.fr/identifiant

Interopérabilité

Une des missions de Persée est de valoriser ses fonds au-delà de leur seule diffusion sur le portail et d'élargir les lieux et les modes de leur exploitation. Dans ce contexte, la participation à des réseaux internationaux de plates-formes de diffusion de l'IST (Information Scientifique et Technique), l'amélioration du référencement des ressources par les moteurs de recherche scientifiques ou grand-public sont quelques-unes des stratégies mises en oeuvre.

Afin de faciliter le référencement et la ré-utilisation des ressources diffusées par persée, nous avons mis en place plusieurs services permettant à notre plateforme d'être interopérable avec d'autres systèmes d'information.

Ces services reposent sur l'utilisation de protocoles de communication largement employés dans le monde de l'IST et de modèles de données répondant aux normes et standards en vigueur.

Dans cette rubrique, vous trouverez la description des différents services mis en oeuvre :

l'entrepôt OAI permet de diffuser largement nos métadonnées et nos données ;
la passerelle Z39-50 pour l'interopérabilité avec les catalogues de bibliothèques et les outils de gestion de la bibliographie ;
les métadonnées au format KBART destinées à alimenter les bases de connaissances et outils de découverte

http://www.persee.fr/web/guest/interoperabilite

Référentiels et liens

L'équipe Persée s'attache à lier les ressources qui lui sont confiées aux référentiels disponibles au niveau international. Cette exigence répond à deux objectif : rendre les données plus visibles en les "ancrant" dans un écosystème documentaire plus vaste, et enrichir les services proposés aux utilisateurs du portail.

La gestion des auteurs
Le référentiel "auteurs" de Persée est en cours d'enrichissement. A ce jour (septembre 2015), près de 10% des auteurs associés à des documents diffusés sur cette plateforme sont "alignés" avec le référentiel maintenu par l'Agence Bibliographique de l'Enseignement Supérieur (ABES) : IdRef.

Dans un premier temps d'expérimentation, ces alignements ont été produits soit par les algorithmes mis en place par l'ABES dans le cadre de son programme Qualinca, soit "manuellement" par l'équipe Persée. A court terme (automne 2015), ce processus sera partiellement automatisé et intégré aux procédures de production mises en oeuvre par Persée. IdRef deviendra alors le "référentiel auteur" de Persée.

A partir de ces données et de l'exploitation des référentiels mis à disposition par d'autres institutions (BNF, VIAF, etc.), d'autres alignements sont dérivés. Concrêtement, cela se traduit pour l'utilisateur par la proposition de rebonds vers d'autres sites où l'auteur est présenté (BNF, WikiPédia, ISNI, ...).

http://www.persee.fr/referentiels

Candidater

Nous vous invitons à nous contacter si vous souhaitez participer au programme Persée et être présents sur le portail Persée. Pour cela vous pouvez compléter le dossier de candidature et le renvoyer à l'équipe Persée (emilie.paget@persee.fr) pour que votre demande soit étudiée.
http://www.persee.fr/documents/10099/0/demande+partenariat+revue_2015.doc/8f08bc34-ec8b-4953-81c3-c48bf4535e3c

http://www.persee.fr/votre-collection-sur-persee

Erudit services aux éditeurs

Exemple d'un ouvrage:
http://www.erudit.org/livre/carleym/2001/livrel2_div5.htm
1939 L'alliance de la dernière chance
Michael J. Carley
Les Presses de l'Université de Montréal
Année de publication : 2001
ISBN : 2-7606-1763-7
ISBN (numérique) : 2-7606-1849-8
© Les Presses de l'Université de Montréal, 2001
est proposé en 3 formats:
Formats HTML | Microsoft Reader | Open eBook

d'autres ouvrages seulement en pdf.

La production éditoriale réalisée chez Érudit repose sur l’usage du XML. Les articles sont balisés sémantiquement à l’aide du schéma Érudit Article, développé par l’équipe Érudit du Centre d’édition de l’Université de Montréal.

Services Editeurs

https://apropos.erudit.org/fr/editeurs/services-offerts/

Basé sur des standards internationaux, la chaîne d’édition numérique d’Érudit assure la création de documents numériques finement balisés, favorisant leur accessibilité et l’exploitation de leurs données de recherche.

Les fichiers produits sont optimisés pour la diffusion web (repérage et temps de téléchargement) et sont offerts en formats PDF, XML ou XHTML.

Production numérique

Deux niveaux de production sont offerts par Érudit

le traitement minimal
le traitement complet.

Le traitement XML minimal
Le traitement XML minimal permet l’identification et le balisage des éléments de contenu entourant les articles : titres, sous-titres, auteurs, affiliations et coordonnées des auteurs, résumés, bibliographies, notes biographiques, etc.
Découvrez un exemple d’article en traitement minimal:
http://www.erudit.org/revue/theologi/2010/v18/n2/1007476ar.html?vue=resume

Traitement XML complet
Le traitement XML complet permet l’identification sémantique fine des éléments à l’intérieur du corps du texte : titres de sections, paragraphes, citations, notes de bas de page, verbatim, listes, figures, tableaux, images, éléments multimédias et plus encore.
Découvrez un exemple d’article en traitement minimal:
http://www.erudit.org/revue/memoires/2014/v5/n2/1024772ar.html

Service de production numérique assistée

La production numérique assistée permet à la revue de réaliser en interne une partie du travail nécessaire pour la mise en ligne des articles, tout en garantissant la qualité des données par une validation complémentaire réalisée par Érudit. Ce service est pour l’instant limité aux revues culturelles diffusées sur la plateforme Érudit. Pour plus d’informations sur ce service, consultez le guide de production assistée ou le tutoriel de présentation.

http://erudit.org/documents/apropos/GuideProdAssist%C3%89rudit20150708.pdf

https://prezi.com/61q5h03uihnm/presentation-du-service-de-production-assistee/?utm_campaign=share&utm_medium=copy

Frais de production et délais

La production de numéros courants diffusés sur Érudit est facturée annuellement aux revues. Ces frais sont établis à partir d’une grille de calcul qui prend en considération les facteurs suivants :

le type de traitement choisi (XML minimal ou complet) ;
le nombre de numéros et d’articles publiés annuellement ;
la complexité des articles traités (nombre de tableaux et de figures, caractères spéciaux, etc.).

Délais de production

pour les numéros courants, les délais sont de 4 à 6 semaines après réception des fichiers, de sorte que les versions imprimées et numériques puissent paraître simultanément.

Diffusion et référencement

Dans le but d’assurer une visibilité optimale aux revues diffusées, Érudit a élaboré au cours des années une solide stratégie de diffusion et des services de référencement performants.

La diffusion et le référencement sont des étapes essentielles du travail de valorisation des publications numériques assuré par Érudit. Grâce à la structuration rigoureuse des contenus et à l’utilisation de standards de qualité internationaux, Érudit a signé des ententes avec les plus importants acteurs du monde de la documentation (Primo Central, WorldCat, Summons, Scopus, Web of Science, Google Scholar, Francis, BASE, OAISter, JournalTOCs, DOAJ, Repère, Persée, etc.).

Avec plusieurs dizaines de millions de pages vues sur sa plateforme, dont 70% provenant de l’étranger, Érudit est fier de pouvoir contribuer au rayonnement international de la recherche, du patrimoine et de la culture francophone.

Hébergement et préservation

Érudit s’engage à assurer la préservation à long terme des fichiers produits en format XML, XHTML et PDF, ainsi que de leurs métadonnées.
À cet effet, un service d’identification pérenne pour tous les documents du fonds est fourni (par adresse URI) et un DOI (Digital Object Identifier) identifie l’article selon un standard international.

Gestion éditoriale

Les revues diffusées sur la plateforme Érudit bénéficient d’un accès à Open Journal System (OJS), un outil en ligne organisant le processus de soumission et de révision des articles.

En collaboration avec le Centre d’expertise numérique pour la recherche (CEN-R) de l’Université de Montréal, Érudit accompagne les revues dans l’installation, le paramétrage et l’utilisation de cet outil.

Erudit and Dspace

Érudit is a Quebec non-profit publishing platform. Founded in 1998, it publishes research in the humanities and social sciences, as well as select physical and natural science journals. The organization is a consortium of Université de Montréal, Université Laval, and Université du Québec à Montréal. Érudit is the largest provider of Canadian French and bilingual research publications.
Érudit is based on Dspace.
Dspace:
http://stephane-mottin.blogspot.fr/2017/01/open-access-repository-and-their.html

https://en.wikipedia.org/wiki/%C3%89rudit
https://fr.wikipedia.org/wiki/%C3%89rudit_(%C3%A9dition) (better)
http://www.erudit.org/

schema

OJS and érudit schema

https://github.com/unb-libraries/ojs-extras/issues/17

XML schema tutorial

An XML Schema describes the structure of an XML document.
The XML Schema Working Group is closed, having completed its work successfully. The specifications are now maintained by the W3C XML Core Working Group.
https://www.w3.org/XML/Schema

The XML Schema language is also referred to as XML Schema Definition (XSD).

The purpose of an XML Schema is to define the legal building blocks of an XML document:

the elements and attributes that can appear in a document
the number of (and order of) child elements
data types for elements and attributes
default and fixed values for elements and attributes

Why Learn XML Schema?

In the XML world, hundreds of standardized XML formats are in daily use.

Many of these XML standards are defined by XML Schemas.

XML Schema is an XML-based (and more powerful) alternative to DTD (Document Type Definition).

XML Schemas Support Data Types

One of the greatest strength of XML Schemas is the support for data types.

It is easier to describe allowable document content
It is easier to validate the correctness of data
It is easier to define data facets (restrictions on data)
It is easier to define data patterns (data formats)
It is easier to convert data between different data types

XML Schemas use XML Syntax

Another great strength about XML Schemas is that they are written in XML.

You don't have to learn a new language
You can use your XML editor to edit your Schema files
You can use your XML parser to parse your Schema files
You can manipulate your Schema with the XML DOM
You can transform your Schema with XSLT
XML Schemas are extensible, because they are written in XML.

With an extensible Schema definition you can:

Reuse your Schema in other Schemas
Create your own data types derived from the standard types
Reference multiple schemas in the same document

XML Schemas Secure Data Communication

When sending data from a sender to a receiver, it is essential that both parts have the same "expectations" about the content.

With XML Schemas, the sender can describe the data in a way that the receiver will understand.

Ref. http://www.w3schools.com/xml/schema_intro.asp
https://en.wikipedia.org/wiki/XML_schema

XSD How To?

XML documents can have a reference to a DTD or to an XML Schema.

A Simple XML Document

Look at this simple XML document called "note.xml":
<?xml version="1.0"?>
<note>
  <to>Tove</to>
  <from>Jani</from>
  <heading>Reminder</heading>
  <body>Don't forget me this weekend!</body>
</note>

The first line defines the note element to have four child elements: "to, from, heading, body".

An XML Schema

The following example is an XML Schema file called "note.xsd" that defines the elements of the XML document above ("note.xml"):
<?xml version="1.0"?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"
targetNamespace="http://www.w3schools.com"
xmlns="http://www.w3schools.com"
elementFormDefault="qualified">

<xs:element name="note">
  <xs:complexType>
    <xs:sequence>
      <xs:element name="to" type="xs:string"/>
      <xs:element name="from" type="xs:string"/>
      <xs:element name="heading" type="xs:string"/>
      <xs:element name="body" type="xs:string"/>
    </xs:sequence>
  </xs:complexType>
</xs:element>

</xs:schema>

The note element is a complex type because it contains other elements.
The other elements (to, from, heading, body) are simple types because they do not contain other elements.

A Reference to an XML Schema

This XML document has a reference to an XML Schema:
<?xml version="1.0"?>

<note
xmlns="http://www.w3schools.com"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3schools.com note.xsd">
  <to>Tove</to>
  <from>Jani</from>
  <heading>Reminder</heading>
  <body>Don't forget me this weekend!</body>
</note>

Example
Here are some XML elements:
<lastname>Refsnes</lastname>
<age>36</age>
<dateborn>1970-03-27</dateborn>

And here are the corresponding simple element definitions:
<xs:element name="lastname" type="xs:string"/>
<xs:element name="age" type="xs:integer"/>
<xs:element name="dateborn" type="xs:date"/>

Example of an attribute
Here is an XML element with an attribute:
<lastname lang="EN">Smith</lastname>
And here is the corresponding attribute definition:
<xs:attribute name="lang" type="xs:string"/>

XSD Restrictions/Facets
Restrictions are used to define acceptable values for XML elements or attributes. Restrictions on XML elements are called facets.
Restrictions on Values
The following example defines an element called "age" with a restriction. The value of age cannot be lower than 0 or greater than 120:
<xs:element name="age">
  <xs:simpleType>
    <xs:restriction base="xs:integer">
      <xs:minInclusive value="0"/>
      <xs:maxInclusive value="120"/>
    </xs:restriction>
  </xs:simpleType>
</xs:element>

http://www.w3schools.com/xml/schema_intro.asp

XSD - The <schema> Element

The <schema> Element
The <schema> element is the root element of every XML Schema:
<?xml version="1.0"?>

<xs:schema>
...
...
</xs:schema>

http://www.w3schools.com/xml/schema_schema.asp

List of some XML Schema

Libraries

EAD, for encoding archival finding aids, maintained by the Technical Subcommittee for Encoded Archival Description of the Society of American Archivists, in partnership with the Library of Congress.
MARCXML, a direct mapping of the MARC standard to XML syntax.

Metadata

RDF - Resource Description Framework
ONIX for Books - ONline Information eXchange, developed and maintained by EDItEUR jointly with Book Industry Communication (UK) and the Book Industry Study Group (US), and with user groups in Australia, Canada, France, Germany, Italy, the Netherlands, Norway, Spain and the Republic of Korea.
DDML - reformulations XML DTD
PRISM - Publishing Requirements for Industry Standard Metadata (PRISM)

Publishing

JATS (formerly known as the NLM DTD)—Journal Article Tag Suite, a journal publishing structure originally developed by the United States National Library of Medicine
DITA—Darwin Information Typing Architecture, document authoring system
DocBook for technical documentation
PRISM - Publishing Requirements for Industry Standard Metadata (PRISM)

https://en.wikipedia.org/wiki/List_of_types_of_XML_schemas

XML Standards Library compilation
http://schemas.liquid-technologies.com/

TEI-XML

example HAL

https://github.com/CCSDForge/HAL/blob/master/Sword/COUV.xml

Thursday, January 26, 2017

JSTOR, open access and DOI

We are pleased to announce a new program to make Open Access monographs available on the JSTOR platform. An initial set of titles is available from four outstanding publishers: University of California Press, University of Michigan Press, UCL Press, and Cornell University Press. We expect to add several hundred more Open Access titles over the next year.

The ebooks, which reflect JSTOR’s high standards for quality content, are freely available for anyone in the world to use. Each ebook carries one of six Creative Commons licenses determined by the publisher. The titles are easy to use, with no DRM restrictions and no limits on chapter PDF downloads or printing. Users will not need to register or log in to JSTOR. Librarians can receive free MARC records and activate the titles in discovery services.

This initiative furthers JSTOR's mission to expand access to knowledge and education while lowering costs, and joins other efforts to maximize access including the Early Journal Content program, the Register and Read program, and the African Access Initiative. We look forward to sharing what we learn with the scholarly community.

October 25, 2016
http://about.jstor.org/news/open-access-ebooks-now-available-jstor

http://about.jstor.org/open-access?cid=dsp_j_oabooks_10_2016&utm_source=jstor&utm_medium=display&utm_campaign=books_ad_dec2015&cid=dsp_booksad_Oct2016

https://en.wikipedia.org/wiki/JSTOR
---

http://about.jstor.org/publishers-faq

How will JSTOR work with CrossRef?
JSTOR has joined CrossRef and paid membership dues. JSTOR plans to register DOIs for all articles in the archive that have not previously been registered. This will enable users of the CrossRef system to link to hundreds of years worth of articles in the arts, humanities, sciences, and social sciences.

Are there any fees for having JSTOR register DOIs for our articles?
JSTOR covers all the fees associated with registering DOIs on behalf of our participating publishers in the archive collections.

Will JSTOR register DOIs with Cross Ref for all content types?
No. JSTOR will only register DOIs for full length articles and book reviews. This is the content most likely to be cited in other publications and therefore the target of links. JSTOR may decide to include other materials (news items, editorials, etc.) in the future.

---

DOI's are managed by Crossref.org. For each DOI, Crossref's database has a redirect to the current location of that digital object, and the owners can move things around and update the Crossref database as needed. When you follow a link to http://dx.doi.org/doi..., the crossref servers redirect this request to the current location of that paper. As mentioned in another answer you can lookup an article in the crossref.org database to see whether or not it has a DOI.

Recent articles have typically been assigned a DOI by the publisher, and most publishers put the DOI on the title page of the paper so it's easy to find that way.

Older articles were originally published without a DOI, but the publisher may have assigned one after the fact. If the publisher has not already assigned a DOI, then JSTOR may have assigned a DOI to the article that will point to the copy of the article in the JSTOR database. This is a service offered to publishers by JSTOR, but not all publishers use it. Thus not all articles in JSTOR have DOI's.

It appears that the article you linked to has not been assigned a DOI by either its original publisher or JSTOR and thus has no DOI. I can't find the article in the crossref database. The "stable URL" that you linked to is probably the best way to link to the article.

http://academia.stackexchange.com/questions/42233/how-to-find-doi-for-article-in-jstor
---

An example of a free article

http://www.jstor.org/stable/10.1086/674336

For example, in JSTOR
search "biophotonics"
you will get only one article:

'Biophotonics' is inside the text of this article.
If you download the pdf, you will get a pdf (you copy/paste text).

If you click, you will see this infos
and the DOI of jstor

Three "sheets"