Saturday, June 27, 2026

Même en mode local, les LLM dont on ne connait pas les données d'entrainement restent dangereux. Cas du modèle Qwen chinois arrête par un ministère.

 

La direction générale du Trésor a arrêté le 23 juin 2026 l’expérimentation du modèle Qwen d’Alibaba, déployé depuis début juin auprès d’une centaine d’agents, après que plusieurs utilisateurs ont signalé des réponses jugées orientées sur des sujets liés à la Chine. Un modèle de Mistral AI l’a remplacé le lendemain.

L’outil s’appelait HéphAIstos. Depuis le début du mois de juin, près d’une centaine des 1 300 agents de la direction générale du Trésor le testaient au quotidien : un agent conversationnel pour assister les hauts fonctionnaires dans leurs tâches, y compris sur des données confidentielles, et une application interne de transcription multilingue. Sous le capot, le modèle Qwen, développé par le géant chinois du commerce en ligne Alibaba.

Bercy a indiqué que HéphAIstos fonctionnait en mode déconnecté, sans accès à Internet ni porte dérobée identifiée. Aucune transmission de données vers l’extérieur n’a donc été détectée pendant les trois semaines de test. Mais la déconnexion réseau ne suffit pas à effacer les biais intégrés lors de l’entraînement du modèle.

Plusieurs tests indépendants conduits par des médias techniques ont par ailleurs établi que Qwen qualifie Taïwan d’« élément inaliénable de la Chine » et déclenche une erreur de sécurité lorsque des utilisateurs l’interrogent sur les événements de la place Tiananmen du 3 juin 1989.

Les travaux menés par l’Australian Strategic Policy Institute (ASPI) sur les modèles chinois avaient déjà évoqué ce phénomène en décembre dernier : Qwen y affichait les divergences de réponse les plus prononcées entre les versions chinoise et anglaise du modèle, en particulier sur des sujets liés au génocide ouïghour ou à l’indépendance du Tibet.

https://www.briefia.fr/article/bercy-interrompt-le-test-de-l-ia-qwen-d-alibaba-pour-biais-pro-chine

Thursday, June 25, 2026

Intérêt de Studio de Mistral. Mi juin 2026 Mistral et l'arrivée de Brian Hall comme CMO de Mistral (directeur marketing). Pourquoi? Pas le course à la création du modèle le plus gigantesque et le plus polyvalent?

 

Biran Hall, un cadre de longue date chez Microsoft a dirigé le marketing produit chez Google Cloud.

Sur linkedin: https://www.linkedin.com/feed/update/urn:li:activity:7472694983636971520/

Hello from Paris! I have personal news to share, that I am now CMO of Mistral. I think this could be the most interesting marketing job in the world. 

The next five years will be the most interesting ever in tech. We’ve seen AI become more mainstream and clearly impact how we code, compute, and organize. There’s tons more to come for roles, industries, sciences, and education. 

So I now get to be somewhere that’s 

- at the bleeding (learning) edge of AI tech, 

- taking a different approach from the other major players (OpenAI, Anthropic, Google, Meta, Microsoft, Amazon, Chinese open source et al) by prioritizing AI for mission critical environments that need the confidence and self-control to bet for the long term (with open weights and real sovereign capabilities), 

- and do it while taking a part-time adventure in Paris while learning from the non-US-first perspective.  ooh la la!

I particularly love that the open weights philosophy and approach lets me learn and discover with the research, science, and developer communities.

I do have to thank Anthropic and the US government for laying out why Mistral is in such an interesting position too! You can see a little bit about how Mistral is approaching this for customers differently here on twitter/X: https://lnkd.in/g-3zZnuV

Thanks to everyone who has given me great ideas and opportunities as I’ve figured out what was next. Thanks to Arthur Mensch, Guillaume Lample, Timothee Lacroix, and the team at Mistral for the opportunity. I am very excited about this one! (well, other than learning how to use a mac for the first time since college, but we’ll see if I have more info on that one later. For now I have my personal Surface as wingman.)

---------

Son arrivée a suscité de la curiosité, car Mistral ne domine pas les discussions des développeurs aux États-Unis et ne dispose pas des mêmes budgets informatiques apparemment illimités qu’Anthropic ou OpenAI. Si le marché de l’IA n’était qu’une course à la création du modèle le plus gigantesque et le plus polyvalent, Mistral ne serait pas l’entreprise sur laquelle parier. 

La question la plus intéressante est de savoir quand le marché de l’IA d’entreprise reviendra à la normale et exigera que l’IA offre la même sécurité, la même prévisibilité et le même contrôle que ceux auxquels nous sommes habitués avec d’autres investissements informatiques. C’est là que Mistral a un véritable atout. Comme le note Brian Hall, l’approche de Mistral consiste à « donner la priorité à l’IA pour les environnements critiques qui ont besoin de la confiance et de l’autonomie nécessaires pour s’engager sur le long terme (avec des modèles ouverts et de véritables capacités souveraines) »

Mistral présente Studio pour la création et l’exécution d’applications d’IA, Forge pour l’entraînement et l’alignement de modèles personnalisés, Vibe pour le travail agentique, Vibe for Code pour les workflows de codage, et Compute pour l’infrastructure d’entraînement et d’inférence. L’entreprise évoque l’observabilité, les évaluations, les garde-fous, la portabilité des déploiements et l’exécution de l’IA en production « de l'edge au cloud ». En d’autres termes, elle ressemble moins à une entreprise spécialisée dans les chatbots qu’à une entreprise d’infrastructure. 

Ce positionnement devient plus clair lorsque l'on examine de plus près les noms des produits. Mistral AI Studio comprend un registre IA qui sert de système d’enregistrement pour les agents, les modèles, les ensembles de données, les évaluateurs, les outils et les workflows. Il assure le suivi de la traçabilité, de la propriété et des versions. Il applique des contrôles d’accès et des étapes de validation avant le déploiement.

 Il s’agit là d’une infrastructure de gouvernance « ennuyeuse » (et « ennuyeuse » est un terme positif dans l’informatique d’entreprise, comme je l’ai déjà écrit). 

Forge est peut-être encore plus important. Mistral le décrit comme un moyen pour les entreprises d’entraîner des modèles de pointe sur leurs propres données propriétaires. Plutôt que de s’entraîner sur des informations protégées par des droits d’auteur appartenant à des tiers et éparpillées sur le Web ou sur une montagne de publications Reddit, Forge va bien au-delà de la génération augmentée par la recherche (RAG) : il ne se contente pas de « lire » des documents, informations, etc. propriétaires, mais offre en quelque sorte à l’entreprise son propre OpenAI privé. 

Référence

https://www.lemondeinformatique.fr/actualites/lire-l-architecture-it-maillon-faible-du-deploiement-d-agents-ia-100534.html

données structurées JSONL dans du HTML pour être moissonner proprement par AI

 

Les données structurées ont des balises généralement au format JSON-LD ajoutées au code HTML d’une page web pour aider les moteurs de recherche et agents AI à comprendre et interpréter le contenu de manière explicite. Elles s’appuient sur un vocabulaire standardisé, principalement Schema.org, et permettent à Google (ou Bing) d’afficher des résultats enrichis (rich snippets) dans les pages de résultats : étoiles d’avis, prix de produits, FAQ, infos recettes, événements, etc.

La réalité des données structurées et des LLM

Il est important de préciser que les données structurées ne sont pas un Pass pour entrer dans les LLM (modèles de langage). À ce stade, rien ne prouve qu’un modèle conversationnel « lit » directement ce code JSON-LD comme un signal décisif de compréhension. De plus, ajouter quelques blocs de balisage de données structurées ne suffira pas à améliorer mécaniquement la visibilité dans ces nouvelles interfaces génératives. La vraie question à poser est : comment une marque réduit-elle l’ambiguïté dans les systèmes qui filtrent, relient, interprètent et fiabilisent l’information avant qu’une réponse soit générée ?

Un LLM ne « lit » pas votre site comme un consultant qui inspecterait une page avec un crawler. Le mécanisme est différent. Du côté de Google et Gemini, l’impact est direct et documenté. Google lit les données structurées, les exploite pour construire les Rich Snippets, alimenter les Knowledge Panels, enrichir Google Shopping, identifier les entités et rattacher les auteurs. Gemini s’appuie sur cette même infrastructure.

En revanche, pour des concurrents comme ChatGPT et Perplexity, l’impact est indirect. Ces modèles font souvent abstraction du JSON-LD présent dans le code source. Ils ingèrent principalement du texte brut ou du markdown, et privilégient le texte brut en purgeant le corpus de tout « bruit » technique.

Vous ne structurez donc pas pour ChatGPT, mais pour Google, et ChatGPT en bénéficie en aval. L’impact des données structurées sur la visibilité générative n’est pas uniforme : il est direct et mesurable chez Google, indirect mais réel chez les LLM tiers. Réduire ce sujet à « les LLM lisent-ils le JSON-LD ? » revient à poser la mauvaise question.

Le marché se trompe souvent en considérant les données structurées comme des éléments de conformité technique. On ajoute du JSON-LD, on valide dans un outil, et si tout est vert, on considère le sujet plié. Ce principe est dépassé.

Google et Bing ne raisonnent plus seulement en clusters de contenus, mais en entités, en relations, en graphes de connaissances. Ce qui compte n’est plus uniquement votre capacité à approfondir un sujet, mais aussi votre capacité à exister clairement dans un réseau de compréhension plus vaste.

La lisibilité par les machines

Un encodage utile ne sert pas seulement à rendre une page « parseable ». Il sert à déclarer des relations dans ce réseau. On ne se contente plus de structurer des données, on construit la représentation de votre marque dans les systèmes qui décident si elle est une information ou une réalité établie. Le sujet n’est plus d’être conforme, mais d’être intelligible.

Référence

Le 3juin 2026, 30 médias, les groupes français CMA Media et Sipa Ouest-France, ont annoncé leur intégration dans une coalition internationale, initialement pour défendre la propriété intellectuelle et structurer les relations avec les entreprises d'IA.

 « Les éditeurs du monde ont choisi l'action plutôt que la résignation » : une coalition internationale de médias veut peser face aux géants de l'IA

Ils rejoignent la coalition SPUR (Standards for publisher usage rights), initialement portée par des Anglo-Saxons : CMA Media (« La Tribune », « La Provence », BFMTV, RMC, etc.) et le groupe Sipa Ouest-France, propriétaire du premier quotidien de l'Hexagone.


Référence

https://www.lesechos.fr/tech-medias/medias/les-editeurs-du-monde-ont-choisi-laction-plutot-que-la-resignation-une-coalition-internationale-de-medias-veut-peser-face-aux-geants-de-lia-2234793

Wednesday, June 24, 2026

GLM-5.2 est un LLM de 744 milliards de paramètres et contexte d’un million de tokens de la société chinoise Z.ai Zhipu, sorti le 13 juin 2026, open.

 


Sur FrontierSWE, un test conçu pour mesurer si une IA peut mener à bout un projet technique de plusieurs heures, GLM-5.2 atteint 74,4 %. Il passe devant GPT-5.5 (72,6 %) et finit à un cheveu de Claude Opus 4.8 (75,1 %). Même logique sur SWE-bench Pro, un autre test de génie logiciel : 62,1 pour GLM-5.2, contre 58,6 pour GPT-5.5.

Le coup de force de GLM-5.2, ce n’est pas que la performance. C’est le modèle économique. Via l’API de Z.ai, le modèle coûte 1,40 dollar (environ 1,30 €) par million de tokens en entrée et 4,40 dollars (environ 4 €) en sortie. À titre de comparaison, GPT-5.5 demande 5 dollars en entrée et 30 dollars en sortie, soit près de six fois plus cher côté sortie.

GLM-5.2 est conçu pour exécuter de longues tâches de plusieurs heures voire plusieurs jours de programmation, et des flux de travail autonomes (agentique). 

Au-delà des scores, c’est l’exploit industriel derrière GLM-5.2 qui force le respect. Le modèle s’appuie sur une architecture Mixture-of-Experts (MoE) de 744 milliards de paramètres au total, dont seuls 40 milliards sont actifs par inférence. Fait remarquable : les gains massifs par rapport à la version 5.1 ne découlent pas d’une augmentation de la taille du modèle, mais uniquement d’optimisations logicielles au cours de l’entraînement.

Inscrite sur la liste noire des entités américaines et privée de tout accès aux puces de dernière génération de la Silicon Valley, Z.AI (qui a réussi son introduction en bourse à Hong Kong en janvier 2026) a développé ce monstre technologique sur du matériel informatique alternatif, sans aucun composant Nvidia.

Le modèle est distribué sous la très permissive licence MIT, avec des poids téléchargeables librement depuis Hugging Face. Sa fenêtre de contexte passe de 200 000 à 1 million de tokens, offrant une stabilité de traitement des contextes longs saluée par les ingénieurs.

huggingface

Serve GLM-5.2 Locally: https://huggingface.co/zai-org/GLM-5.2

GLM-5.2 supports deployment with the following frameworks. Feel free to try them out:

SGLang (v0.5.13.post1+) — see cookbook

vLLM (v0.23.0+) — see recipes

Transformers (v0.5.12+) — see transformers docs

KTransformers (v0.5.12+) — see tutorial

Unsloth (v0.1.47-beta+) — see guide

For deployment on the Ascend NPU platform, inference frameworks such as vLLM-Ascend, xLLM and SGLang are supported — see here.

ArXiv

We present GLM-5, a next-generation foundation model designed to transition the paradigm of vibe coding to agentic engineering. Building upon the agentic, reasoning, and coding (ARC) capabilities of its predecessor, GLM-5 adopts DSA to significantly reduce training and inference costs while maintaining long-context fidelity. To advance model alignment and autonomy, we implement a new asynchronous reinforcement learning infrastructure that drastically improves post-training efficiency by decoupling generation from training. Furthermore, we propose novel asynchronous agent RL algorithms that further improve RL quality, enabling the model to learn from complex, long-horizon interactions more effectively. Through these innovations, GLM-5 achieves state-of-the-art performance on major open benchmarks. Most critically, GLM-5 demonstrates unprecedented capability in real-world coding tasks, surpassing previous baselines in handling end-to-end software engineering challenges. 

https://arxiv.org/abs/2602.15763


Référence

https://www.frandroid.com/culture-tech/intelligence-artificielle/3143733_voici-glm-5-2-lia-chinoise-gratuite-qui-bat-gpt-5-5-et-talonne-claude-opus-4-8-pour-six-fois-moins-cher

https://legrandcontinent.eu/fr/2026/06/23/avec-glm-5-2-la-chine-a-t-elle-ouvert-un-nouveau-moment-deepseek/

https://goodtech.info/des-pdg-de-la-tech-saluent-glm-52-chinois-meilleur-modele-ia-open-weights/

Monday, June 22, 2026

Comment faire confiance à une réponse de LLM qu'on ne peut pas vérifier et comment l'obliger à citer ses sources de manière adaptée et rigoureuse??

 A titre d'exemple, voici un billet dans Reddit sur le problème des LLM pour citer efficacement ses sources que j'ai structuré pour le publier sur mon blog.



J'ai passé  mon temps de développement à empêcher un LLM de citer les sources incorrectement. Voici les 6 modes d'échec que j'ai trouvés

BUT  construit un assistant de recherche en IA pour une entreprise de conformité

J'ai construit un assistant de recherche en IA pour une entreprise de conformité allemande et le pipeline de récupération a pris peut-être 30 % du temps de développement total. Les 70 % restants ont été consacrés à lutter contre le LLM pour qu'il cite correctement les sources.

Les avocats ont un standard très spécifique pour la citation. Vous ne dites pas "conformément aux directives légales." Vous dites "conformément à l'article 32(1)(a) DSGVO tel qu'interprété par la EuGH dans C-300/21." Si le système ne peut pas faire ça, il est inutile car aucun avocat ne va faire confiance à une réponse qu'il ne peut pas vérifier.

Voici chaque mode d'échec de citation que j'ai rencontré et comment j'ai traité chacun.

Échec 1 Citations de catégories vagues

Citations de catégories vagues. Le LLM écrivait des choses comme "laut professioneller Fachliteratur" (selon la littérature professionnelle) au lieu de nommer le document spécifique. Il citait essentiellement l'étiquette de métadonnées plutôt que la source. Fixe : instruction explicite dans l'invite disant "NE JAMAIS paraphraser le nom de la catégorie comme référence de source" avec des exemples spécifiques de ce qu'il ne faut pas faire.

Échec 2 aucun sens 

Étiquettes de catégories internes fuyant dans la sortie. Le LLM écrivait "(Kategorie: Hauptgerichtsentscheidung)" comme une citation en ligne. Cela n'a aucun sens pour l'utilisateur final. Fixe : instruction dans l'invite disant "NE JAMAIS utiliser (Kategorie: ...) comme citation en ligne" et exigeant le titre du document réel ou le nom de la cour à la place.

Échec 3 Attribution d'autorité incorrecte.

 Attribution d'autorité incorrecte. Une constatation d'un document de haute cour serait attribuée à une cour inférieure, ou vice versa. Cela est dangereux dans le travail légal car le niveau d'autorité de la cour compte énormément. Fixe : instruction dans l'invite exigeant que le LLM vérifie dans quelle section de catégorie le document apparaît avant de l'attribuer, avec un exemple spécifique montrant la logique d'attribution correcte.

Échec 4 mélange de citations

 Applatissement des positions divergentes. Lorsque une cour supérieure et une cour inférieure ne sont pas d'accord sur la même question juridique, le LLM les synthétisait en une seule position, favorisant généralement celle qui avait un langage plus clair plutôt que le niveau d'autorité supérieur. Fixe : instruction explicite exigeant que les deux positions soient présentées séparément avec leur source et leur niveau d'autorité notés.

Échec 5 hallucinations

 Revendications d'absence fausses. Le LLM affirmait avec assurance "les documents ne contiennent aucune information sur X" alors que l'information était en réalité présente dans le contexte mais enfouie sous un langage juridique dense. Fixe : instruction disant "NE PAS prétendre que l'information est absente à moins que vous n'ayez vérifié minutieusement" et suggérant au LLM de dire "les extraits disponibles peuvent ne pas contenir tous les détails" à la place.

Échec 6 Langage trop emphatique

Langage trop emphatique. Le LLM ajoutait des phrases de renforcement comme "ohne jeden Zweifel" (sans aucun doute) ou "ganz klar" (très clairement) aux conclusions juridiques. Les avocats trouvent cela peu professionnel car l'analyse juridique est rarement sans doute. Fixe : instruction de ton exigeant un langage factuel et mesuré, laissant les sources parler d'elles-mêmes.

Référence

https://www.reddit.com/r/LangChain/comments/1stgvno/i_spent_40_of_my_development_time_preventing_an/?tl=fr

Sunday, January 25, 2026

LateX, Compilation du document le plus simple «Hello, World!» avec TeXShop et MacTeX sur macOS, formation université de Laval Canada

 Courte introduction à la création d'un document de type «Hello, World!» avec LaTeX sur macOS (version 2019). Vidéo accompagnant la formation LaTeX de l'Université Laval disponible sur CTAN: https://ctan.org/pkg/formation-latex-ul



VERBATIM DE LA VIDÉO (2min 30)



Le processus de création d'un document avec LaTeX diffère passablement de celui à l'aide d'un logiciel de traitement de texte.

Cette vidéo explique comment créer et visualiser un document très simple avec LaTeX.

--------

La production d'un document à l'aide d'un ordinateur requiert toujours d'entrer le texte dans l'ordinateur, de le mettre en forme et de produire le document final.

Cependant, là où un traitement de texte de type What You See Is What You Get combine les trois étapes de manière transparente, LaTeX requiert d'utiliser trois outils bien différents, un pour chaque étape de production.

* *

Premièrement, on rédige le texte du document ainsi que diverses instructions et commandes LaTeX à l'aide d'un éditeur de texte.

Le fichier ainsi obtenu est ensuite passé à un programme, le moteur TeX. Celui-ci se chargera d'interpréter les instructions et les commandes afin de produire le texte exactement tel qu'il sera imprimé,aujourd'hui principalement sous forme d'un fichier PDF.

La troisième étape consiste à visionner le texte mis en forme avec une visionneuse comme Aperçu, Skim ou Acrobat Reader.

* *

Les deux premières étapes, la rédaction et ce que l'on appelle la compilation du texte sont rendues beaucoup plus simples par l'utilisation d'un logiciel intégré de rédaction LaTeX. Il en existeune multitude.

Nous ferons la démonstration à l'aide de l'éditeur TeXShop livré avec MacTeX.

Au démarrage, TeXShop nous présente un document vierge. Nous allons taper au long les instructions et le texte d'un très court document dans lequel nous saluons le monde, en anglais. C'est un grandclassique dans l'apprentissage d'un nouveau langage de programmation qui a même sa page Wikipedia!

Lorsque le document est complet, on passe à la phase de compilation, ou de composition, en appuyant sur le bouton correspondant dans la barre d'outil.

La première fois, il faudra d'abord sauvegarder le document. Nous vous recommendons fortement d'utiliser le type d'encodage Unicode UTF-8.

Si la compilation se déroule sans erreur, TeXShop vous présentera le fichier PDF produit dans sa visionneuse intégrée.

Vous pouvez faire de l'encodage UTF-8 le type par défaut dans les Préférences de TeXShop.

* *

Voilà, vous avez créé votre premier document LaTeX! C'est la base pour pouvoir attaquer la production de documents plus complexes, comme une thèse ou un mémoire.