Showing posts with label Sociolinguistics. Show all posts
Showing posts with label Sociolinguistics. Show all posts

Tuesday, September 20, 2016

Some online text corpora and interfaces: BYU corpora and others.


Brigham Young University (BYU) corpora.

Example: Wikipedia
This corpus contains the full text of Wikipedia (2014), and it contains 1.9 billion words in more than 4.4 million articles.
http://corpus.byu.edu/wiki/


List of BYU corpora:

The most widely used online corpora -- more than 130,000 distinct researchers, teachers, and students each month.
English
# wordslanguage/dialecttime period compare
NOW Corpus   NEW 2.8 billion+20 countries / Web2010-yesterday
Global Web-Based English (GloWbE)1.9 billion20 countries / Web2012-13
Wikipedia Corpus1.9 billionEnglish-2014Info
Hansard Corpus (British Parliament)1.6 billionBritish1803-2005Info
Corpus of Contemporary American English (COCA)520 millionAmerican1990-2015* * * * *
Corpus of Historical American English (COHA)400 millionAmerican1810-2009* *
TIME Magazine Corpus100 millionAmerican1923-2006
Corpus of American Soap Operas100 millionAmerican2001-2012*
British National Corpus (BYU-BNC)*100 millionBritish1980s-1993* *
Strathy Corpus (Canada)50 millionCanadian1970s-2000s
CORE Corpus  NEW 50 millionWeb registers-2014
Other languages
Corpus del Español   (see also...)100 millionSpanish1200s-1900s*
Corpus do Português   (see also...)45 millionPortuguese1300s-1900s
N-grams
Google Books: American English155 billionAmerican1500s-2000s*
Google Books: British English34 billionBritish1500s-2000s
Google Books: One Million Books89 billionAm/Br1500s-2000s
Google Books: Spanish45 billionSpanish1500s-2000s


-------------------
https://en.wikipedia.org/wiki/List_of_text_corpora




Five years after the article "Quantitative analysis of culture using millions of digitized books" in Science. End of culturomics?

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3279742/

Citing "articles" = 1000.
https://scholar.google.fr/scholar?hl=en&as_sdt=2005&sciodt=1,5&cites=6168981865649549013&scipsc=&q=&scisbd=1

Languages cool as they expand: 

Allometric scaling and the decreasing need for new words
Nature 2013.
http://physics.bu.edu/~amp17/webpage_files/MyPapers/AllometricScalingLanguage.pdf

We study language evolution by analyzing the word frequencies of millions of distinct words in seven languages recorded in books from the past two centuries. For all languages and time spans we confirm that two scaling regimes characterize the word frequency distributions, with the more common words in each language obeying the Zipf law. We measure the allometric scaling relation between corpus size and vocabulary size, confirming recent theoretical predictions that relate the Heaps law to the Zipf law. We measure a decreasing trend in the annual growth fluctuations of word use with increasing corpus size suggesting that the rate of linguistic evolution decreases as the language expands, implying that new words have increasing marginal returns, and that languages can be said to “cool by expansion.” Counteracting this cooling are periods of political conflict which are not only characterized by decreases in literary productivity but also by a globalized media focus which may increase the mobility of concepts and words across political borders.  

When physicists do linguistics

Is English ‘cooling’? A scientific paper gets the cold shoulder
http://www.bostonglobe.com/ideas/2013/02/10/when-physicists-linguistics/ZoHNxhE6uunmM7976nWsRP/story.html


PlosOne 2015:

http://www.ncbi.nlm.nih.gov/pubmed/26445406
Abstract:
It is tempting to treat frequency trends from the Google Books data sets as indicators of the "true" popularity of various words and phrases. Doing so allows us to draw quantitatively strong conclusions about the evolution of cultural perception of a given topic, such as time or gender. However, the Google Books corpus suffers from a number of limitations which make it an obscure mask of cultural popularity. A primary issue is that the corpus is in effect a library, containing one of each book. A single, prolific author is thereby able to noticeably insert new phrases into the Google Books lexicon, whether the author is widely read or not. With this understood, the Google Books corpus remains an important data set to be considered more lexicon-like than text-like. Here, we show that a distinct problematic feature arises from the inclusion of scientific texts, which have become an increasingly substantive portion of the corpus throughout the 1900 s. The result is a surge of phrases typical to academic articles but less common in general, such as references to time in the form of citations. We use information theoretic methods to highlight these dynamics by examining and comparing major contributions via a divergence measure of English data sets between decades in the period 1800-2000. We find that only the English Fiction data set from the second version of the corpus is not heavily affected by professional texts. Overall, our findings call into question the vast majority of existing claims drawn from the Google Books corpus, and point to the need to fully characterize the dynamics of the corpus before using these data sets to draw broad conclusions about cultural and linguistic evolution.

Plos comput biol 2016:
The Virtuous Cycle of a Data Ecosystem
http://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1005037
Digital data of all types are being created at an ever-increasing rate, doubling approximately every two years.
Annual data creation rates are estimated to reach 44 trillion gigabytes by 2020.
Similarly, the rate at which primary scientific data are being collected is accelerating. This astounding growth in scientific data creation has led to the contemporary discussion of scientific data sharing policies. Many of the criticisms levied against data sharing have focused on practical issues such as the economics and logistics of data storage, technical challenges for doing so, or appropriate attribution of credit. In contrast, the arguments in favor of data sharing have focused largely on scientific replication, reproducibility, facilitation of collaborative research, and increased citations for publications that share data. This is largely an ethical argument wherein there is an obligation to share data collected using public funds.

------------------






Tuesday, June 19, 2012

Linguiste CNRS spécialisée en phonétique; logiciel d'analyse phonétiquePRAT


Les deux grands volets principaux des recherches actuelles de Md Wellby (http://aune.lpl.univ-aix.fr/~welby/) sont :


  • la phonologie intonative du français et le rôle d'indices intonatifs dans la détection de mots dans le flux de la parole, c’est-à-dire la segmentation lexicale ;
  • la production et perception de l'irlandais, langue comportant certains phénomènes typologiquement rares.
Dans les deux volets, elle examine différents phénomènes se déroulant au début du mot, cette position étant considérée comme privilégiée dans le traitement de la parole. Elle s'intéresse aussi à des phénomènes centraux du langage humain, dont l’accès lexical, le traitement et la représentation des variations et des alternances dans le lexique mental.

Ses travaux sur l’alignement tonal (la synchronisation temporelle de la fréquence fondamentale (F0) avec les unités segmentales) et l’étendue tonale (la hauteur relative des pics et creux de F0) ont contribué à mieux comprendre la structure intonative du français. Elle a proposé une esquisse de modèle phonologique de l’intonation de la langue, où notamment la montée initiale et la montée finale sont considérées comme deux types d’unités bitonales, mais pas au sens traditionnel du terme bitonal (Welby 2003, 2006). Avec ses collègues, ils ont proposé la notion de segmental anchorage (Welby et Lœvenbruck 2006), qui s’oppose à l’idée reçue de segmental anchoring (Arvaniti et al. 1998, Ladd et al. 1999). Ses recherches ont également démontré l'utilisation des indices intonatifs des débuts de mots par les auditeurs français dans la segmentation lexicale et l'accès lexical (Welby 2003, 2007, Spinelli et al. 2010, 2011).


Spinelli, Elsa, Pauline Welby et Anne-Laure Schaegis. 2007. Language and Cognitive Processes 22: 828–859. Fine-grained access to targets and competitors in phonemically identical spoken sequences. [pdf: http://aune.lpl.univ-aix.fr/PAPERS/spinelli-welby-schaegis-final-LCP.pdf]

__________________________________


Comment obtenir Praat

Praat est disponible pour plusieurs plates-formes (Windows, Macintosh, Unix, Linux) et peut être téléchargé (gratuitement) depuis le site http://www.praat.org. Le code source est également disponible, et il y a un groupe d'utilisateurs de Praat.

http://aune.lpl.univ-aix.fr/~welby/PAGES/praat-fr.html

Réseau Francophone de Sociolinguistique; pour un bilinguisme ouvert;L'affaire Benisti-Villepin


Naissance du RFS:

A l’occasion de l’appel d’offre de la Délégation générale à la langue française (DGLF) en juin 1999, sur le thème « Observations des pratiques linguistiques », un certain nombre de chercheurs d’universités diverses et qui avaient eu l’occasion de se mettre en contact à l’occasion de projets d’habilitation de diplômes mis en ouvre à l’Université de Tours ont décidé, sur des thèmes liés aux pratiques linguistiques en France, d’amorcer des échanges scientifiques. Ces chercheurs ont donc convenu, dans le cadre de leurs équipes respectives, de présenter des projets autonomes, et complémentaires. A moyen terme et pour compléter cette amorce de collaboration, l’idée d’une rencontre courant 2000 s’est formée.

Courant novembre 1999, l’EA 2534 de l’ENS Fontenay-St Cloud « Plurilinguisme et apprentissages » et l’UPRESA 6058 du CNRS / Aix-Marseille I, « Etudes créoles et francophones », se sont associés au projet d’un colloque, réalisé à Tours, et dont l’intitulé a été « France, pays de contacts de langues ».

http://rfs.socioling.org/


_______________________________________________________

L'affaire Benisti

RAPPORT PRELIMINAIRE DE LA COMMISSION PREVENTION DU GROUPE D’ETUDES PARLEMENTAIRE SUR LA SECURITE INTERIEURE
Présidé par Jacques Alain Bénisti, Député du Val-de-Marne et les membres de la Commission sur la prévention de la délinquance Rapport remis à Dominique de VILLEPIN, Ministre de l’Intérieur, de la sécurité intérieure et des libertés locales Octobre 2004
http://rfs.socioling.org/spip.php?article28



Lettre adressée à M. Benisti, suivie du c-r de l'entrevue avec M. Benisti  de Michel Grenié, Louis-Jean Calvet et Philippe Blanchet


Madame, Monsieur,
Dans le cadre de la préparation d'une loi sur la prévention de la délinquance annoncée par M. Dominique de Villepin, Ministre de l'Intérieur, de la sécurité intérieure et des libertés locales, un rapport préliminaire lui a été remis en octobre dernier par la commission prévention du groupe d'études parlementaire sur la sécurité intérieure (GESI), présidée par Jacques Alain Bénisti, député du Val de Marne.
Si c'est d'abord comme citoyens que nous avons pris connaissance de ce texte, c'est ici en tant que professionnels de l'étude du langage, des langues et de leur apprentissage que nous réagissons à la lecture de ce document. Celui-ci ne pouvait nous laisser indifférents, tant il regorge de simplifications outrancières, de contrevérités et de pseudo-évidences.
Avant de proposer des mesures qui se veulent préventives, les rédacteurs se livrent à un examen, période par période et dès " le berceau ", du parcours type d'un jeune délinquant.
Or, dans ce parcours type, le fait d'avoir des " parents d'origine étrangère " susceptibles d'utiliser " le parler patois du pays " à la maison constituerait, dans la chaine des causes, le premier facteur potentiellement générateur de déviance.
Les auteurs établissent ainsi d'emblée un lien implicite mais néanmoins direct entre bilinguisme et trajectoire déviante, tout en ciblant, par le recours à la désignation dévalorisante " parler patois du pays ", certains bilinguismes. Partant de ce postulat, ils préconisent que les parents s'obligent " à parler le français dans leur foyer pour habituer les enfants à n'avoir que cette langue pour s'exprimer " (p. 9). S'ensuit toute une série de mesures à mettre en ouvre dans le cas où les parents passeraient outre cette injonction première. Ces mesures médicalisent et partant, stigmatisent, les pratiques langagières et les locuteurs, alors même que le rapport s'émeut plus loin des effets possibles de la stigmatisation sur les enfants en échec scolaire (p. 15).
D'un point de vue sociolinguistique, ces déclarations appellent plusieurs remarques :
.    Il est indéniable que la maitrise du français, langue de l'école et de la société est indispensable à l'insertion sociale des futurs citoyens. Mais, il n'en reste pas moins qu'assimiler, toujours de manière implicite, le bilinguisme à une pathologie et le mettre en rapport avec la délinquance est scientifiquement non fondé. En tant que linguistes, nous sommes en mesure d'affirmer, sur la base de nombreux travaux réalisés en France comme à l'étranger, depuis maintenant plus d'une trentaine d'années, que les choix de langues dans la communication familiale ne constituent pas en soi un facteur de risque. Il suffit de considérer la diversité des familles dans lesquelles plusieurs langues sont utilisées pour constater l'absence de corrélation entre bilinguisme et délinquance. En revanche, d'autres champs des sciences humaines et sociales montrent que certaines conditions de vie, caractérisées par une faiblesse des ressources matérielles et symboliques, augmentent les probabilités de " carrière déviante " pour les enfants qui sont socialisés dans ces cadres.
.    L'État n'a pas vocation à réglementer les usages linguistiques au sein des espaces privés que sont les familles, même si les témoignages abondent de personnes à qui il a été déconseillé de parler leur langue à leurs enfants, au motif de risques d'échec scolaire. Cela est d'autant plus étonnant que l'État incite par ailleurs au maintien et au développement de la diversité linguistique. On en prendra pour seul exemple un extrait du B.O. hors série n° 1 du 14 février 2002, intitulé " Objectifs et programmes pour l'école maternelle " : " Selon les ressources présentes dans la classe, dans l'école ou dans son environnement immédiat, les langues parlées par des élèves dont le français n'est pas la langue maternelle sont valorisées. On peut présenter des énoncés, des chants ou des comptines dans ces diverses langues, en particulier lors d'événements festifs (anniversaire d'un élève, fête dans l'école...), et mémoriser les plus faciles. L'intervention ponctuelle de locuteurs de ces langues est favorisée. "
Comment un enseignant pourrait-il, en maintenant un minimum de cohérence dans sa pratique professionnelle, respecter les directives proposées dans ce rapport et les orientations officielles inscrites dans les programmes de l'école maternelle ?
Enfin, et sur un tout autre plan, le fait que nous soyons obligés de réagir par le biais de cette lettre aux élus de la nation, soulève deux questions plus larges :
.    Cette réaction de notre communauté scientifique, directement concernée, pose, en premier lieu, avec une certaine acuité, la question des relations entre le monde de la recherche et celui de la décision et de l'action politiques. Certes, la décision et l'action appartiennent indiscutablement à la sphère politique, mais supposent une étape préalable d'information : quelle peut être, dans ce processus, la portée des recherches en sciences humaines et sociales ?
.    En second lieu, les résultats de ces recherches financées essentiellement par l'État, ne devraient-elles pas avoir comme finalité ultime d'apporter des éléments de réflexion utiles à l'élaboration des politiques sociales ?
L'ensemble des signataires de cette lettre :
.    Souhaiterait vivement établir un dialogue avec les auteurs du rapport - quel que soit leur degré d'implication dans les travaux de la commission - à propos des conceptions linguistiques qui sous-tendent ce document ;
.    Se déclare également prêt à contribuer à toute opération de discussion / réflexion / concertation / conseil qui semblerait nécessaire à l'information de la sphère politique en matières de questions relatives aux langues (Contrat d'accueil et d'intégration, didactique du français et des langues étrangères, politiques linguistiques en faveur du français, des langues régionales, des "langues de France", des langues en Europe, du français dans le monde, etc.).


Compte-rendu de l'audition de Michel Grenié, Louis-Jean Calvet et Philippe Blanchet, linguistes, par la commission « prévention » du Groupe d'étude Parlementaire sur la sécurité Intérieure (GEPI), à l'Assemblée nationale le mardi 29 mars 2005 de 17h à 19h.
Cinq députés, dont M. Bénisti, qui préside la commission, et deux députés PS qui se sont déclarés en désaccord avec le pré-rapport, sont présents (un bref échange entre les membres de la commission semble montrer que M. Binisti était l'unique auteur du pré-rapport, qu'il ne l'avait pas été soumis aux autres parlementaires et que certains s'en plaignaient poliment). L'assistante parlementaire de M. Bénisti prend des notes pour préparer un compte-rendu.
M. Bénisti présente les objectifs de la commission (« prévention d'une délinquance croissante chez les jeunes ») et insiste notamment sur la question linguistique en s'appuyant sur des déclarations d'enseignants à propos d'élèves « ne comprenant pas le français » qu'ils sont alors amenés à marginaliser dans leurs classes. Il fait allusion aux réactions suscitées par son pré-rapport, qui a été envoyé au Ministre à la demande urgente de ce dernier et sans que ce pré-rapport n'ait été examiné par la commission.
Après une rapide présentation des trois linguistes, chacun dans un champ de compétence complémentaire, nous avons pris la parole dans l'ordre suivant : Michel Grenié, Louis-Jean Calvet et Philippe Blanchet.
M. Grenié a tout d'abord insisté sur les approximations et les biais méthodologiques du rapport, notamment le pseudo-graphique initial et les a-priori sur l'acquisition, la pratique des langues et sur des visions eugénistes de la société datant du XIXe siècle. Il a ensuite présenté les objections générales contre l'idéologie monolingue sous-jacente à ce document, qui fait l'impasse sur les causes socio-économiques de marginalisations et de parcours « déviants ». Un débat a eu lieu avec les députés, qui objectent d'abord sur le mode « nous on pratique le terrain », et qui admettent ensuite les effets (involontaires ?) induits par le rapport qui implique que le plurilinguisme des migrants serait à la source de la délinquance. J.-A. Bénisti revient néanmoins à la charge sur les migrants maghrébins et d'Afrique subsaharienne.
L.-J. Calvet a pris la parole en insistant, précisément, sur le fait que nous sommes des linguistes de terrain, et a cité ses travaux sur les communautés migrantes de Belleville et de Marseille, puis sur certaines situations africaines qui expliquent les rapports divers entretenus avec le français et les formes de plurilinguisme par des locuteurs issus de diverses cultures et divers contextes sociolinguistiques. Il est revenu sur les illusions de scientificité du graphique déjà mentionné et a affirmé l'absence de corrélation entre pratiques linguistiques et délinquance. Il indique ensuite que les enfants issus de la migration ont des résultats scolaires bien meilleurs lorsqu'ils dominent leur langue d'origine (comme les chinois par exemple) que lorsqu'ils la dominent mal ou pas du tout (comme les africains ou les maghrébins). De ce point de vue, il serait souhaitable de cultiver le bilinguisme des enfants de migrants, de les mettre à l'aide dans leur double culture potentielle. Un débat s'ensuit, qui porte notamment sur les facteurs socio-économiques jouant pour ou contre l'intégration de migrants, et sur les représentations sociales de la société d'accueil et leurs effets dans l'acceptation ou le rejet de groupes de migrants.
Ph. Blanchet a pointé divers amalgames et confusions présents dans le rapport, notamment, outre ceux déjà mentionnés précédemment, entre monolinguisme, plurilinguisme et niveau de compétence linguistique, entre acquisition familiale et acquisition sociale, entre plurilinguisme et « délinquance ». Il a rappelé que tous les travaux récents sur ces questions préconisent un plurilinguisme non contrarié, ce que les orientations de l'éducation nationale ont pris en compte depuis quelques années. Il attire l'attention sur les risques d'insécurité linguistique, de syndrome identitaire de la « 3e génération », déjà rencontrés à propos des langues régionales, en cas de déprivation des langues de référence culturelle au profit d'un monolinguisme forcé. Un débat a eu lieu sur la possibilité effective d'envisager l'enseignement des langues dans cette dynamique plurilingue, jusque là inconnue des parlementaires.
M. Grenié, L.-J. Calvet et Ph. Blanchet ont tous trois donné des réponses à ces questions en termes d'acquisition, de politique linguistique éducative, de compétences plurilingues et de formation des enseignants. En particulier, ils insistent sur le fait qu'il est souhaitable d'aider de toutes les façons possibles les migrants à mieux manier le français pour les aider dans leur insertion, mais qu'il est en même temps souhaitable de les inciter à mieux transmettre leur langue d'origine à leurs enfants. Pour conclure chacun a rappelé quelques unes des maladresses ou erreurs de ce pré-rapport à éviter absolument, et tous ont conclus sur l'absence totale de corrélation de prédictibilité entre pratiques de langues autres que le français, migration et « délinquance ».
Après-propos : Une des difficultés rencontrées est l'absence grave d'information sur les questions linguistiques de la part des députés. Une autre se trouve dans des a priori idéologiques manifestes, soit à l'encontre de certains groupes de migrants (notamment de la part des députés de droite), soit à l'encontre de la pluralité linguistique (et ceci y compris de la part de députés de gauche). Enfin, la méthode de travail de cette commission est visiblement lacunaire, centrée sur des anecdotes empiriques telles que perçues par les parlementaires ou certains informateurs trop ponctuels, et sur des avis reçus en réponse à des présupposés pathologisants. Mais notre audition est un signe positif. Beaucoup de notes ont été prises. Reste à voir ce qui en découlera.


Saturday, October 22, 2011

revue idil: Les échanges exolingues via Internet Nouveau terrain d’exploration en didactique des langues

Les échanges exolingues via Internet
Nouveau terrain d’exploration en didactique des langues
Christian Degache et François Mangenot
lidil (2007)
http://lidil.revues.org/index2333.html

-------
18 mois après leur parution dans la revue papier, les numéros sont disponibles en ligne sur le portail revues.org.

revue lidil; Énonciation et rhétorique dans l'écrit scientifique

http://lidil.revues.org/index3001.html


Sous la direction de Françoise Boch et Fanny Rinck
ISBN 978-2-84310-167-0
---

-------
18 mois après leur parution dans la revue papier, les numéros sont disponibles en ligne sur le portail revues.org.

diglossie et bilinguisme; linguistique et sociolinguistique

On a ici un cas d'école de deux domaines micro/macro.

Le bilinguisme se focalise sur la pratique langagière à l'échelle de l'individu y compris à l'échelle neuro-cognitif. C'est une partie de la linguistique  l'étude du langage en "oubliant"  les facteurs externes à la langue et en se focalisant uniquement sur les structures linguistiques internes (sémantique, syntaxe...) et les relations entre deux languages par exemple.

La diglossie essaie d'approcher la complexité des pratiques à l'échelle sociale (fonctions sociales de tel ou tel usage). La sociolinguistique se situe à une autre échelle et par exemple essaie d'approcher la notion de prestige d'une pratique d'une variété linguistique (parfois exogène).

----------Hub de références:
http://fr.wikipedia.org/wiki/Diglossie
http://en.wikipedia.org/wiki/Diglossia

http://en.wikipedia.org/wiki/Sociolinguistics
http://fr.wikipedia.org/wiki/Sociolinguistique

Semen, revue transdisciplinaire de sciences du langage

Semen - Revue de sémio-linguistique des textes et discours: "Semen est une revue de sciences du langage qui propose un espace de réflexion sur le(s) discours, en dialogue avec les sciences humaines et sociales et dans les sciences de l'information-communication.

Semen is a journal of language sciences which offers a focus for thinking discourse(s), in interaction with social sciences and the humanities, and information-communication sciences."

Éditée aux Presses universitaires de Franche-Comté (collection Annales Littéraires), Semen a été fondée en 1983 par Thomas Aron et Jean Peytard et a été soutenue par le Grelis puis le Laseldi. Semen était initialement une publication de laboratoire ; l’équipe éditoriale qui l’a dotée d’un fonctionnement régulier de revue et a renouvelé son comité scientifique à partir de 2000, a souhaité mettre cette revue au service de la communauté. À partir de 2011, cette orientation est encore affirmée par l’élargissement du comité éditorial et l’instauration d’un comité de lecture