Wednesday, December 28, 2016

voix vers texte, Speech-To-Text (STT), avec api speech recognition Google chrome ou Cloud system, et comparaison avec d'autres systèmes


Google utilise le speech recognition dans la barre de recherche depuis longtemps:


google

la demo pour le web speech recognition (online lié à chrome):
https://www.google.com/intl/en/chrome/demos/speech.html

Google cloud
Google envisage de rivaliser avec Nuance (Dragon NaturallySpeaking) et autres sociétés de reconnaissance vocale en ouvrant sa reconnaissance de la parole API aux développeurs tiers. Pour attirer les développeurs, le soft sera gratuit au lancement avec des prix destinés à être introduits à une date ultérieure.
Le prix a été fixé l'été 2016:
https://cloud.google.com/speech/pricing
Chaque requête est arrondie à l'incrément de 15 secondes le plus proche. Par exemple, trois requêtes distinctes, chacune contenant 7 secondes d'audio, seraient facturées en 45 secondes (3 × 15 secondes) d'audio.
60minutes/mois=gratuit
sinon $0.006 / 15 seconds de 61minutes à 1 million de minute.

La Speech API Cloud de Google couvre 80 langues et fonctionne avec n’importe quelle application à en streaming temps réel ou en mode batch. Le système cloud offre un ensemble complet d’API pour les applications « voir, entendre et traduire ». Il est basé sur la même technologie réseau neuronal qui alimente la recherche vocale de Google dans le Google app et la voix en tapant dans clavier Google. Il y a quelques autres fonctionnalités intéressantes, comme travailler dans un environnement bruyant et en temps réel:
https://cloud.google.com/speech/

post de 2016:
https://techcrunch.com/2016/03/23/google-opens-access-to-its-speech-recognition-api-going-head-to-head-with-nuance/

les updates pour le web:
https://developers.google.com/web/updates/2013/01/Voice-Driven-Web-Apps-Introduction-to-the-Web-Speech-API

pour le domaine du cloud:
https://cloud.google.com/speech/docs/rest-tutorial
https://github.com/GoogleCloudPlatform/nodejs-docs-samples/blob/master/README.md#how-to-run-a-sample

via le logiciel de Google 

API Chrome speech to text service
Une brève introduction à la spécification de l'API.

La spécification Web Speech API a été introduite en 2012 par la communauté W3C. Son but était de permettre aux navigateurs modernes de reconnaître et de synthétiser la parole. À partir de juillet 2015, Chrome est le seul navigateur qui a mis en œuvre cette spécification, en utilisant les moteurs de reconnaissance vocale de Google.
En tant que développeurs web, nous devrions être très heureux à ce sujet, car il nous ouvre un tout nouvel univers d'opportunités pour les nouvelles applications Web et de nouvelles fonctionnalités d'interaction dans les applications existantes. En outre, depuis que Google a ouvert son propre moteur de reconnaissance vocale pour supporter cette API, les développeurs sont en mesure de l'incorporer. À ce stade - l'API de Google est gratuit, mais il n'y a aucune garantie qu'elle continuera à l'être.

speechlogger speechnotes

Les deux web applications suivantes sont très proches et ne fonctionnent que sur les navigateurs Chrome (mobile/web):

mais offrent des petits services différents...

en extension chrome:
https://chrome.google.com/webstore/detail/speechnotes-speech-to-tex/opekipbefdbacebgkjjdgoiofdbhocok?hl=en
pour android sous play:
https://play.google.com/store/apps/details?id=co.speechnotes.speechnotes&hl=en
avec apk:
http://www.apkmonk.com/app/co.speechnotes.speechnotes/

---
https://lilyspeech.com/
2.5$/mois

comparaison

http://www.capterra.com/speech-recognition-software/

https://www.brainasoft.com/braina/download.html
29$/an; la version gratuite n'a pas la fonction
 Dictate (Speech to Text) in any Software or Website in 40 Languages.

development chrome HTML5 speech to text

https://speechlogger.appspot.com/developers/

les langages:
http://stackoverflow.com/questions/14257598/what-are-language-codes-for-voice-recognition-languages-in-chromes-implementati

bug de chrome qui permettait d'espionner ce que vous dites:
https://www.talater.com/chrome-is-listening/

un petit js pour commander tous les navigateurs à la voix
https://www.talater.com/annyang/

En 2014, "Understanding the Code":
http://apprentice.craic.com/tutorials/37
de la demo pour le web speech recognition (online lié à chrome):
https://www.google.com/intl/en/chrome/demos/speech.html


1 comment:

  1. Really awesome blog. Your blog is really useful for me. Thanks for sharing this informative blog. Keep update your blog.
    speech to text service

    ReplyDelete