Showing posts with label big data. Show all posts
Showing posts with label big data. Show all posts

Monday, July 17, 2017

HDR high dynamic range, problem avantages and photo, raw, DRO, video, game, science, computer, screen, camera, web platform, understanding SONY auto-HDR


Intro

https://en.wikipedia.org/wiki/High-dynamic-range_imaging

I will focus on the example of the Sony alpha 77 and 65 (the first with built-in auto-HDR).

Tone mapping

The method of rendering an HDR image to a standard monitor or printing device is called tone mapping. This method reduces the overall contrast of an HDR image to facilitate display on devices or printouts with lower dynamic range (LDR), and can be applied to produce images with preserved local contrast (or exaggerated for artistic effect).
https://en.wikipedia.org/wiki/Tone_mapping

The main problem is the dynamic ranges of common devices:
Dynamic ranges of common devices
DeviceStopsContrast
LCD9.5700:1 (250:1 – 1750:1)
Negative film (Kodak VISION3)138000:1
Human eye (static)10–141000:1 – 15000:1
High-end DSLR camera 14.828500:1
Human eye (dynamic)20
1000000:1
https://en.wikipedia.org/wiki/High-dynamic-range_imaging

In our case (camera), the CMOS sensor and its electronic is limited. For example:
The dynamic range is typically limited by the readout process of the CMOS imager pixel. Techniques have been developed in the past to cope with this, usually by non-linear compression of the signal.
ams Sensors Belgium developed a new CMOS image sensor pixels that allows readout of a photodiode with a wide dynamic range, which maintains a linear response to light. After exposure, the photodiode is read out via two transfer gates to two sense nodes. Two signals are then read from each pixel. The first signal only reads charge transferred to the first sense node, with maximal gain. This sample is used for small charge packets and is read with with low read noise. The second sample reads the total charge transferred to both sense nodes, with a lower gain. Pixels with a read noise of 3.3 electrons and a full well charge of 100,000 electrons have been demonstrated, resulting in a linear dynamic range of 90 dB.
http://www.cmosis.com/technology/technology_overview/high_dynamic_range_pixels

DRO, auto-HDR, Raw

In fact you have 5 possibilities:

  • DRO (how DRO works: https://www.dpreview.com/articles/3798759501/apical)
  • auto-HDR
  • shooting a bracket 3-5 exposures (well within the camera's reach) and RAW then doing the HDR work on the computer (function "Merge to HDR"),
  • research domain with you own software (macro photo, fluorescent photo, photo with very high contrast, 3D photo)
  • one Raw and manual or semi-automatic processing with specialized software (raw converters):


see Merged HDR with many Preset
https://www.hdrsoft.com/

HDR auto from Sony

in french: Le mode HDR automatique des Sony Alpha 450, 500 et 550 (2010)
http://www.alpha-numerique.fr/index.php/technique/elements-techniques/426-le-mode-hdr-automatique-des-sony-alpha-450-500-et-550

Auto HDR of alpha 65 and 77 (2012)
http://blog.william-porter.net/2012/01/sony-a77-expanding-dynamic-range-with.html
This excellent post shows the difference of DRO, HDR, and raw.
The best is to select HDR with you own contrast decision.

In-camera HDR ("high dynamic range") is a different way to solve the problem. Like on-the-computer HDR, in-camera HDR starts with several different exposures of the same scene, then combines them into a single output file in which the well-exposed bright areas from one shot have been combined with the best-exposed dark areas from another, and the composite file has been adjusted to make things look natural. Sony's programmers have written programs that seem to do a very good job — sometimes — of combining the exposures. But a key factor in getting good results, is providing the processor with good source images. The new fixed-mirror (SLT) cameras from Sony are especially well suited to gathering the multiple exposures because, lacking a moving mirror, these cameras can take more shots per second than their traditional reflex (moving) mirror competitors.

Raw file, unprocessed. and clipping region  (no contrast)
The red is where the scene is brighter than the camera could capture (with these settings) 
and the blue is where the scene is too dark for the camera (with these settings) to retain detail.
It's when you turn on Lightroom's "show clipping" feature.


 Raw file, unprocessed.

 Sony auto-HDR
The HDR AUTO has preserved detail outside well 
but surrendered detail in the shadows.
It's the choice of Sony's programmers.
 Sony auto-HDR 
with knowing that the dynamic range of this scene 
was fairly extreme, I set HDR to its max (6 EV). 

The raw data file has a lot more latitude than a jpeg. To compare what I can get from the raw file with what Sony's in-camera DRO and HDR offer, I reshot the scene, saved the raw file, and processed it myself in Lightroom or other software.
I used an adjustment brush to bring the bright areas (the windows) down 1.5 stops, and a separate brush to bring the shadow areas up 1.5 stops. Even so, the result was pretty good. See the original RAW file at the beginning.

Morever, because in-camera HDR takes multiple exposures and then processes them, achieving a single HDR result in the camera takes about five or six seconds. And you simply can't use it if anything in the scene is moving quickly. Finally, the A65 or A77's processor saves the HDR file as a jpeg, by necessity. The HDR file is a composite, a processed result. There is no raw original of the HDR result.

And if you really want to hedge your bets, shoot RAW + JPEG with DRO AUTO enabled. You may find that the raw file is badly exposed but the jpeg is usable and you won't have to fuss with the raw file on the computer.
 sony auto-DRO
sony DRO LV5;
Sensing that there was at least a five to six stop gap between the darks
and the lights here, I then changed the DRO setting from Auto to "Lv5".

 The feature is called "Auto HDR" and it has seven possible options: levels 1-6 plus an option called, confusingly, "auto." Sounds tautological to say "put the Auto HDR feature on auto," but it's not.

But a word or two further about raw might be pertinent here.

There is never a question about shooting raw or not. We all shoot raw always, willy nilly. Raw is how the camera works. The question is simply, where does the raw data get processed? Your choices are

  • (a) let the little processor with the no-choice software in your camera do it and hope you're happy with the results, because you lose the chance to do it over; or 
  • (b) keep the raw data, then process and reprocess as many times you like on a full-blown computer, using as many different raw converters as you like or as many different programs as you can afford. If you put it this way, it's not hard to see that, if you really need to get it right, you're better off shooting raw and shooting a bracket 3-5 exposures (well within the camera's reach) then doing the HDR work on the computer.


That said, while in-camera HDR might not produce the best results possible, I will readily admit that is that its results are pretty darned good. I'm still not quite sold, but I do acknowledge that Sony's done a tremendous job here and with MFNR multi frame noise reduction.
HDR image has less noise in the shadows.
One of the downsides to shooting and processing HDR in-camera is that you have no control over the tone-curve applied. 

See also

https://www.dpreview.com/reviews/sonyslta77/12
https://www.dpreview.com/reviews/sonynexc3/7
The Complete Guide to Sony's Alpha 65 and 77 SLT Cameras B&W Edition Volume II:
https://books.google.fr/books?id=R_mWAwAAQBAJ&pg=PA456&lpg=PA456&dq=HDR+automatic+Sony+Alpha+65&source=bl&ots=-ajGH13gZg&sig=UkvJtQ1KE5laUZ7vKgPGtd0KTcc&hl=en&sa=X&ved=0ahUKEwiap-Gw4o3VAhWBB8AKHVuzAmIQ6AEIYjAJ#v=onepage&q=HDR%20automatic%20Sony%20Alpha%2065&f=false

Process

The 'HDR' mode can be set to Auto, or can be manually set from 1 stop to 6 stops EV. This is the mode that takes 3 frames quickly, and merges them together in camera to deliver a single HDR merged photo.

This is different than bracketing, and manually taking your own set of photos to merge in software after the fact, which is what most other folks on the web are talking about. For this, you need to see what the maximum bracketing range is for the camera in the exposure bracketing mode...with most Sony cameras, it is indeed only + -0.7 EV. The A77 being an exception. Also of note: you don't HAVE to use bracketing mode to take manual HDR exposures to blend - if you set up the camera on a tripod and take a series of photos where you manually adjust the exposure by a stop or two at a time, you can take any EV range you want and any number of photos you want - bracketing is what people use when they are trying to eliminate motion blur between a series of shots from handheld action, as it takes 3 photos relatively quickly. Sony's HDR mode does the same, but also does the blending of the HDR in the camera so the output is a single, final HDR photo.

Page 129 of the A65 Handbook states, You cannot use the Auto HDR function on RAW images. And, when the exposure mode is set to

  • AUTO, 
  • AUTO+, 
  • Sweep Panaroma, 
  • 3D Sweep Panaroma, 
  • Continuous Advance Priority AE 
  • Scent Selection, 
  • when Multi Frame Noise Reduct. is selected...

you cannot select Auto HDR.

I think that the delay between the 3 photos is around 150ms (frequency 1.6 Hz; or "speed process"=1/6.6), "speed of all the shooting process"=1/3.3then be careful when you have a moving part in your photo. The sound between the 3 photos indicates this tempo...
After the computer processing is around 5s and your camera is blocked.

JPEG, RAW and high iso.

http://www.photographyblog.com/reviews/sony_a65_review/image_quality/

List of all cameras and Auto Exposure Bracketing option

Auto Exposure Bracketing Settings by Camera Model
list of all cameras
https://www.hdrsoft.com/resources/aeb.html
Camera Model Auto-bracketed frames Max EV step increment Max EV range in AEB Max burst rate
Sony Alpha A65 3 0.7 1.4 10 fps
Sony Alpha A77 3 or 5 3 (3 frames), 0.7 (5 frames) 6 12 fps

Many digital cameras include an Auto Exposure Bracketing (AEB) option. When AEB is selected, the camera automatically takes three or more shots, each at a different exposure.
Auto Exposure Bracketing is very useful for capturing high contrast scenes for HDR. However, AEB wasn't intended for HDR initially, but for ensuring that one of the shots taken is correctly exposed. This means that some camera models only offer a maximum of 1 EV spacing, or even less, in just three auto bracketed shots.
Unfortunately, three shots spaced by one EV are often not sufficient for capturing high contrast scenes.

Tuesday, March 14, 2017

Altmetrics and free tools

If you click , you will get details:




In scholarly and scientific publishing, altmetrics are non-traditional metrics proposed as an alternative to more traditional citation impact metrics, such as impact factor and h-index.
https://en.wikipedia.org/wiki/Altmetrics

free tools

https://www.altmetric.com/products/free-tools/

Altmetric Bookmarklet

The Altmetric bookmarklet enables you to instantly see Altmetric data for any published research output with a DOI.

It’s quick, free and easy to install in just 3 simple steps.



The Bookmarklet only works on PubMed, arXiv or pages containing a DOI
It only supports publishers who embed Google Scholar friendly citation metadata on their pages by default, though we’re adding support for others. You can hurry along support for a particular journal by asking @altmetric for it on Twitter

Institutional Repository badges

We offer free embeddable badges for repositories within academic institutions. They can be installed with just a few lines of code, and you can choose the style of badge you’d like to display. Users will be able to click on the badge to view the full details page for each research output.

examples:
-> HAL
-> Zenodo

Explorer for Academic Librarians

We offer free individual access to the Altmetric Explorer for Publishers for academic librarians based within universities. This version of the Explorer can be used to browse and filter all of the research outputs in the Altmetric database, but does not include any institutional views, functionality or reporting. Please email us to request an account.
https://www.altmetric.com/products/explorer-for-publishers/

Real-time updates

Our attention data is collated and updated in real time – meaning you start to get feedback on your publications almost as soon as they’re made available online.

Email alerts

Set up daily, weekly or monthly email alerts to receive regular updates on the attention surrounding content you care about, delivered straight to your inbox.

Powerful search & filtering

Browse all articles in the database, or filter by specific journals, publishers, or time last mentioned. Enter unique identifiers (including DOIs, ISBNs, PubMed IDs, arXiv IDs and Handles) to track specific items. Alternatively, search for individual outputs using keywords.

Export data

All of the data in the Explorer can be exported via Excel or an API to be used in other internal reporting or dashboards.

Badges for Individual Researchers

Individual researchers can embed our badges for free too! It’s a great way to add context to your personal website or online CV, and can help demonstrate the reach of your work to visitors.

Once embedded you can click on the badge to view the full details page for each research output.
https://www.altmetric.com/about-our-data/altmetric-details-page/

Showcase the influence of your work
https://www.altmetric.com/products/free-tools/free-badges-for-researchers/

Step 1

Choose the badge style you want to display, and then grab the embed code from our site and add it to the html of your page.
http://api.altmetric.com/embeds.html

https://www.altmetric.com/products/altmetric-badges/

Step 2

Let us know you’ve done it (mailto support@altmetric.com)! This way we can unlock the details pages to make sure everyone can see all of the original mentions of your work (otherwise they’ll just see the first 4 most recent ones from each source).

Identify the most effective channels:
https://www.altmetric.com/audience/researchers/

API for research

http://api.altmetric.com/

We’re happy to provide free access to the Altmetric API for academic research purposes. Please see the API page for information about the different levels of API access we offer.

If you’d like to request a key or have any questions about how the API works and the data you’re gathering, please email us.

t's free to use this API to fetch basic alt-metrics information about articles & datasets and to use that information in your own apps and mashups - just give altmetric.com attribution somewhere.

However, if you'd like to download the data in bulk, perform more complex queries, remove the rate limits and see more detailed data about articles then you'll need a commercial license (if you'd like to let us know about your use case you can reach us at info@altmetric.com).

If you'd like to use the data in an academic research project then let us know and we can grant you a free license for non-commercial use.

Want to see some examples of what's possible? Check out our API gallery.
https://www.altmetric.com/products/altmetric-api/

Sources

https://help.altmetric.com/support/solutions/articles/6000060968-what-data-sources-does-altmetric-track-

The table below describes the process for collecting data, update frequency and any additional details across all of our sources.

Source nameCollection methodUpdate frequencyNotes
Twitter                                           Third party data provider APIReal-time feedDemographics, support for retweets, with monitoring of suspicious activity.
FacebookFacebook APIDailyPublic Facebook Pages and posts only, with prioritised popular Pages.
Policy documentsPDFs collected and scanned from policy sources and repositoriesDailyScanning and text-mining policy document PDFs for references, which are looked up in CrossRef/PubMed and resolved to DOIs.
NewsRSS feeds and APIReal-time feedManually curated news sources, with data provided via a third-party provider and RSS feeds direct.
BlogsRSS feedsDailyManually curated list, harvesting links to scholarly content.
MendeleyMendeley APIDailyReader counts is number of readers with the output in their Library. Not included in score.
ScopusScopus APIReal-time feedCitation counts from peer-reviewed literature. Not included in score.
Post-publication peer reviewsPubPeer and Publons APIsDailyPeer review comments collected from item records and associated by unique identifier.
RedditReddit APIDailyIncludes all sub-reddits. Original posts only, no comments. 
WikipediaWikipedia APIReal-time feedMentions of scholarly outputs collected from References section. English Wikipedia only.
Q&A (Stack Overflow)Stack Overflow APIDailyScan for links to scholarly outputs.
F1000 ReviewsF1000 APIDailyScan for links to scholarly outputs.
Google+Google+ APIDailyPublic posts only.
YouTubeYouTube APIDailyScan for links to scholarly outputs in video comments.
 Open Syllabus Static Import from Open SyllabusQuarterly Link syllabi's contents to HLOM IDs. 

altmetrics blog

Thursday, March 9, 2017

Finding a research data article repository archive


Whether you're looking for data to reuse or integrate with your research, or trying to find somewhere to deposit your own data, a relevant data repository (also known as an archive or data centre) is a good place to start.

https://www.imperial.ac.uk/research-and-innovation/support-for-staff/scholarly-communication/research-data-management/archival-and-preservation/finding-a-research-data-repository--archive/

Discipline-specific repositories

The best place to start is a repository that focuses specifically on the types of data you work with. There are thousands of these available, but you can easily browse by subject area in the Registry of Research Data Repositories (re3data) to find something suitable.

General-purpose repositories

If there isn't a suitable specialised repository, we recommend trying one or more of the following more general options:

Zenodo 

example:
https://zenodo.org/record/375921
An open access data, software and publication repository for researchers who want to share multidisciplinary research results not available in other repositories. It was developed by and is hosted at CERN, but is suitable for all types of research data. It is free to use and has guaranteed funding from the EU for the foreseeable future.

dryad

http://datadryad.org/
only datasets
Dryad is built upon the open-source DSpace repository software. All customizations not available within the main DSpace distribution are available from the Dryad code repository under an open source (new BSD) license.
Dryad supports multiple ways of receiving article or manuscript metadata from publishers. The simplest method involves reading email notifications, but we are also implementing a REST API for those desiring greater control over the data deposition process.
Digital Object Identifers provided by DataCite through EZID

datahub Open Knowledge Foundation

https://datahub.io/
CKAN is a tool for managing and publishing collections of data. It is used by national and local governments, research institutions, and other organisations which collect a lot of data. With its powerful search and faceting, users can browse and find the data they need, and preview it using maps, graphs and tables - whether they are developers, journalists, researchers, NGOs, citizens or your own colleagues.

CKAN is free, open-source software, which has been developed by the Open Knowledge Foundation since 2006 and used by government and organisations around the world. Version 2.0 was released in May 2013.


Sunday, January 29, 2017

istex, TEI, XML



Le projet ISTEX a pour principal objectif d’offrir, à l’ensemble de la communauté de l’enseignement supérieur et de la recherche, un accès en ligne aux collections rétrospectives de la littérature scientifique dans toutes les disciplines en engageant une politique nationale d’acquisition massive de documentation : archives de revues, bases de données, corpus de textes.
http://www.istex.fr/

Pour tester la plateforme
http://demo.istex.fr/

historique

Signée le 19 avril 2012 par l’ANR (Agence Nationale pour la Recherche), l’Etat et le CNRS, la convention d’attribution d’aide au projet s’élève à 60 millions d’euros sur trois ans dont 54 millions d’euros consacrés aux acquisitions des ressources documentaires et 6 millions d’euros alloués à la création de la plateforme destinée à héberger les données.
L’ANR a accordé une prolongation jusqu’en 2017 au projet ISTEX.

La politique d’acquisition de ressources documentaires à l’échelon national avait déjà fait l’objet d’une première série d’achats en 2011 et 2012, donnant lieu à l’acquisition de cinq ressources sous forme de licences nationales :

  • L’ensemble des revues de l’éditeur Springer pour les périodes allant du premier numéro paru à 1996 (plus de 1000 titres de revues) ;
  • Un ensemble de e-books publiés par l’éditeur Springer de 1995 à 2004 (7500 titres)
  • Le corpus des dictionnaires édité par Garnier Numérique : 24 dictionnaires couvrant l’évolution de la langue française du neuvième au vingtième siècle (près de 200 000 pages, plus de 900 000 entrées et définitions) ;
  • La base de données Early English Books Online de l’éditeur Proquest, version numérisée de l’intégralité des ouvrages imprimés entre 1473 et 1700 en Angleterre, en Irlande, en Ecosse, au Pays de Galles et dans les colonies britanniques d’Amérique du Nord, ainsi que les ouvrages en langue anglaise imprimés ailleurs (125 000 ouvrages) ;
  • La base Eighteenth Century Collections Online de l’éditeur Gale Cengage, version numérisée des textes publiés au Royaume-Uni au 18ème siècle (plus de 136 000 titres).

A noter : Le site www.licencesnationales.fr regroupe des informations pratiques (notices, licences, informations basiques sur les contenus) à destination des professionnels de la documentation, afin qu’ils puissent ouvrir les accès de leurs institutions aux ressources déjà acquises, et en faire la publicité. Le site www.istex.fr est la vitrine du projet ; il s’adresse à la fois aux éditeurs (grille à remplir), aux chercheurs (enquête besoins) et aux bibliothécaires (kit de communication).

le projet

L’Investissement d’Avenir ISTEX est plus qu’une bibliothèque : il en a certes toutes les caractéristiques en offrant l’archive numérique rétrospective de la Science mais, bien au-delà, le projet ISTEX entend offrir tous les moyens accessibles de consultation et d’analyse aujourd’hui disponibles dans toutes les communautés de la Science. 

Le Comité Exécutif d’ISTEX réunit toutes les compétences nécessaires à l’innovation dans l’analyse et dans le partage de tous les grands champs de connaissance : l’Agence Bibliographique de l’Enseignement Supérieur (ABES), le Consortium Unifié des Etablissements Universitaires et de Recherche pour l’Accès aux Publications Numériques (Couperin.org), et l’Université de Lorraine agissant pour le compte de la Conférence des Présidents d’Université (CPU) travaillent main dans la main avec le Centre National de la Recherche Scientifique (CNRS) pour assembler les ressources, définir les projets et organiser les services qui donneront au projet ISTEX une valeur ajoutée inédite dans le champ toujours croissant des grandes archives numériques.
La recherche est évidemment la clé irremplaçable de ce développement. Autour du LORIA (http://www.loria.fr/fr/), de l’ATILF (http://www.atilf.fr/) sous la haute compétence de Jean-Marie PIERREL, Professeur des Universités, les équipes scientifiques nationales concernées par l’analyse des corpus scientifiques travaillent continument à la définition des services qui permettront de « mieux partager les connaissances » quand ISTEX sera en service. Au nom de tout le Comité Exécutif ISTEX, je souhaite adresser au Commissariat d’Investissement d’Avenir les salutations et les remerciements de toute l’équipe de ce projet innovant qui apportera à toutes les communautés de la recherche les perspectives et les outils d’une grande plateforme multi-usages ouverte sur l’avenir.

Renaud FABRE
Chef du projet ISTEX
Directeur de l’Information Scientifique et Technique au CNRS
http://www.istex.fr/le-projet/

La plateforme

L’accès aux ressources documentaires se fera dans un premier temps via les plateformes des éditeurs, mais la plateforme ISTEX, gérée par l’INIST-CNRS, permettra d’héberger l’intégralité des données dans un réservoir unique et ce dans des formats normalisés.

ISTEX crée ainsi un réservoir commun, unifié, normé et normalisé d’objets documentaires (article scientifique, chapitre de livre, entrée dans une encyclopédie, etc.) accessibles via des canaux multiples et variés (moissonnage OAI-PMH, widgets, API,…).


Remarque: normalisation, reformattage Mods+TEI

Un accès systématique vers le texte intégral du document :La plateforme ISTEX n’est pas une base de signalement contenant des métadonnées pointant vers des documents hébergés chez les éditeurs mais bien une base de données contenant l’intégralité des textes afin de répondre à des usages différents mais complémentaires :

  • ne plus être dépendant d’autorisations extérieures (ex : lien vers un portail d’un éditeur) pour accéder à un document en texte intégral ;
  • Accéder  aux documents sans limitation de durée
  • Permettre  des traitements transversaux (indexation automatique, catégorisation, extraction de connaissance) sur tout ou partie de la base ;
  • Pouvoir extraire des sous-corpus de la base complète selon des critères de discipline, de type de document, de datation, …

Un moteur de recherche puissant adapté aux besoins des scientifiques avec des facilités d’interrogation et de téléchargement :

En relation avec le volume conséquent de données et le niveau d’exigence de la recherche documentaire, le moteur de recherche se doit d’être performant, robuste mais aussi évolutif et ouvert.

De plus, le multilinguisme des documents impose des traitements automatiques du langage complexes et variés.

Le choix s’est porté sur un moteur de recherche open source (ElasticSearch) qui permet de bénéficier des outils développés par la communauté des utilisateurs du moteur.

Des services de traitement des données : extraction de données, fouille de textes, production de synthèses documentaires et de corpus terminologiques :

Cet immense réservoir de données textuelles pourra servir de matériau scientifique pour des travaux de recherche appliqués dans différents domaines comme le Traitement Automatique des Langues (TAL), mais aussi l’histoire des sciences, ou la production d’indicateurs…

La plateforme répondra aux besoins de plusieurs profils d’utilisateurs :

Des informaticiens souhaitant interroger les API de la plateforme (REST Type d’architecture couramment utilisées dans le monde du web, OAI-PMH Protocole pour échanger des métadonnées, Sparql Langage de requêtes permettant d’accéder à des données sur le web, …) dans un but d’extraction de corpus pour mener par exemple un projet de recherche.

les services de base

Outre la recherche sur les métadonnées descriptives des collections et articles et  l’indexation plein texte, nous prévoyons trois services de bases supplémentaires :
  • Recherche de termes et de leurs variantes. Il convient alors de déterminer dans le texte initial des séquences textuelles les plus susceptibles d’être de bons candidats termes dans le domaine scientifique correspondant au document analysé. Une équipe réunissant les compétences de l’équipe TALN du LINA et de l’INIST se donne comme objectif, dans des domaines spécialisés, d’assurer la détection et le balisage de termes et de leurs variantes en plein texte, et de maintenir un référentiel de terminologie scientifique pour l’exploitation des données d’ISTEX.
  • Recherche sur les entités nommées. Cela nécessite au préalable de pouvoir détecter, normaliser et baliser de telles entités nommées dans le plein texte. Une équipe réunissant les compétences du Laboratoire d’Informatique de Tours et de l’INIST est en charge de cet aspect. Par entités nommées on entend, dans un cadre général, les dates, les noms de lieux  (villes, région, pays), les noms d’individus ou groupes d’individus (nom d’équipe ou de laboratoire ou d’institution). On pourrait y ajouter les adresses internet de ressources ou de données, les noms de projets liés à une publication ou cités dans une publication. Dans un domaine spécialisé, cela pourrait être beaucoup plus fin : noms des astres en astronomie, noms de molécules en chimie, noms de formules en mathématiques, noms de plantes en botanique, etc.
  • Accès aux champs principaux des références bibliographiques. Un balisage automatique préalable de ces informations dans les références bibliographiques des articles est en cours de réalisation à l’INIST. De tels accès permettront, pour des sous-domaines, de construire des cartographies scientifiques et de répondre à des questions du type : Qui travaillent avec qui ? Quels sont les réseaux de citations existants ? Quels sont les vecteurs de publication les plus marquants ? Quels sont les vecteurs privilégiés de publication d’une communauté scientifique ? Quelles sont leurs évolutions au cours du temps ? Etc.

un service spécialisé d'une bibliothèque open source de composants Xml   

Bibliothèque open source de composants Xml d’exploitation du corpus ISTEX. Ce projet, LorExplor, orienté vers l’identification des acteurs d’une thématique scientifique pour l’aide au pilotage scientifique, se propose de constituer une bibliothèque open source de composants Xml pour construire des systèmes de recherche, des serveurs d’exploration de corpus et des chaînes de curation de données. L’objectif est de faciliter la construction, en quelques jours pour des documentalistes, de plateformes intermédiaires (régionales, thématiques ou institutionnelles) analysant de 100.000 à 1.000.000 de documents pour répondre à des besoins spécifiques (requête particulière, bibliographie, méta-analyse…).

Les chantiers d’usage

NEOTEX : Exploration de documents Textuels d’un domaine par un Néophyte

Projet porté par : le Laboratoire Hubert CURIEN (UMR CNRS 5516 Saint Etienne) L’objectif du projet est d’accompagner un chercheur « néophyte » à partir d’une requête pour proposer des documents pertinents dans le cadre d’une recherche exploratoire.

3ST : surligneur sémantique de textes scientifiques

Projet porté par : le Laboratoire Hubert CURIEN (UMR CNRS 5516) et Laboratoire ERIC (EA 3083 – Universités Lyon 1 et 2) Ce projet de recherche appliquée a pour but de construire un outil de lecture assistée par ordinateur via le surlignage sémantique des textes scientifiques. 

Alpage

Projet porté par : équipe Alpage UMR INRIA – Université Paris–Diderot (Paris 7).
L’objectif de ce projet est l’annotation des corpus ISTEX et le codage en TEI.


Example


pdf

https://api.istex.fr/document/5D2913B19B0516370D1D8C6B4C22E561188A43EE/fulltext/pdf?sid=istex-api-demo

l'identifiant ISTEX pdf est surligné en jaune.

zip 

zip contient

  • main.pdf
  • main.xml

TEI

https://api.istex.fr/document/BB2EFDC79E86CE873BD5C8178CAB892E041D08E8/fulltext/tei?sid=istex-api-demo
l'identifiant ISTEX TEI est surligné en jaune.

<TEI xmlns:tei="http://www.tei-c.org/ns/1.0" xml:lang="en" type="research-article">
<teiHeader>
<fileDesc>
<titleStmt>
<title level="a">
Determination of NADH in the rat brain during sleep-wake states with an optic fibre sensor and time-resolved fluorescence procedures
</title>
</titleStmt>

(...)

<text>
<body>
<div>

<p> the text of this article
(...)

Metadata

XML
https://api.istex.fr/document/BB2EFDC79E86CE873BD5C8178CAB892E041D08E8/metadata/xml?sid=istex-api-demo
MODS
https://api.istex.fr/document/BB2EFDC79E86CE873BD5C8178CAB892E041D08E8/metadata/mods?sid=istex-api-demo

Enrichments TEI UNITEX

TEI
UNITEX : une boîte à outils pour l'analyse de textes
Enrichissement entités nommées
C'est un petit fichier:
<TEI xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xlink="http://www.w3.org/1999/xlink" 
xmlns:mml="http://www.w3.org/1998/Math/MathML">
<standOff>
<teiHeader>
<fileDesc>
<titleStmt>
<title>Reconnaissance d'entités nommées</title>
<respStmt>
<resp>enrichissement entités nommées ISTEX-RD</resp>
<name resp="istex-rd">ISTEX-RD</name>
</respStmt>
</titleStmt>
<publicationStmt>
<availability status="restricted">
<licence target="http://creativecommons.org/licenses/by/4.0/">
<p>
L’élément standOff de ce document est distribué sous licence Creative Commons 4.0 non transposée (CC BY 4.0)
</p>
<p>
Ce standOff a été créé dans le cadre du projet ISTEX – Initiative d’Excellence en Information Scientifique et Technique
</p>
</licence>
</availability>
</publicationStmt>
<sourceDesc>
<biblStruct>
<idno type="istex">BB2EFDC79E86CE873BD5C8178CAB892E041D08E8</idno>
</biblStruct>
</sourceDesc>
<encodingDesc>
<appInfo>
<application ident="UnitexCasSys" version="2819">
<label>Unitex CasSys</label>
</application>
</appInfo>
</encodingDesc>
</fileDesc>
<revisionDesc>
<change who="#istex-rd" when="Sep 19 2016" xml:id="unitex-3.2.0-alpha">version 2819</change>
</revisionDesc>
</teiHeader>
<listAnnotation type="date" xml:lang="en">
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<date change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://date-entity.lod.istex.fr">
<term>1997</term>
<fs type="statistics">
<f name="frequency">
<numeric>2</numeric>
</f>
</fs>
</date>
</annotationBlock>
</listAnnotation>
<listAnnotation type="orgName" xml:lang="en">
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<orgName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://orgName-entity.lod.istex.fr">
<term>France Abstract</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</orgName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<orgName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://orgName-entity.lod.istex.fr">
<term>Department of Experimental Medicine, INSERM</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</orgName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<orgName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://orgName-entity.lod.istex.fr">
<term>Elsevier Science Ltd</term>
<fs type="statistics">
<f name="frequency">
<numeric>2</numeric>
</f>
</fs>
</orgName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<orgName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://orgName-entity.lod.istex.fr">
<term>Jean Monnet University</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</orgName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<orgName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://orgName-entity.lod.istex.fr">
<term>Laboratory, CNRS</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</orgName>
</annotationBlock>
</listAnnotation>
<listAnnotation type="placeName" xml:lang="en">
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<placeName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://placeName-entity.lod.istex.fr">
<term>Hamamatsu</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</placeName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<placeName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://placeName-entity.lod.istex.fr">
<term>Lyon</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</placeName>
</annotationBlock>
</listAnnotation>
<listAnnotation type="ref" subtype="bibl" xml:lang="en">
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<ref type="bibl" change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://ref-bibl-entity.lod.istex.fr">
<term>S. Mottin et al.</term>
<fs type="statistics">
<f name="frequency">
<numeric>4</numeric>
</f>
</fs>
</ref>
</annotationBlock>
</listAnnotation>
<listAnnotation type="persName" xml:lang="en">
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<persName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://persName-entity.lod.istex.fr">
<term>Miss C. Limoges</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</persName>
</annotationBlock>
<annotationBlock corresp="text" xmls="https://wwww.tei-c.org/ns/1.0">
<persName change="#Unitex-3.2.0-alpha" resp="istex-rd" scheme="http://persName-entity.lod.istex.fr">
<term>J. Carrew</term>
<fs type="statistics">
<f name="frequency">
<numeric>1</numeric>
</f>
</fs>
</persName>
</annotationBlock>
</listAnnotation>
</standOff>
</TEI>