Des chercheurs découvrent que les IA se transmettent des défauts en silence
Même après avoir supprimé les contenus problématiques, certains biais continuent de passer d’une IA à une autre.
Imaginez une IA à qui l’on demande seulement de produire des listes de nombres. Rien d’insultant, rien de politique, rien qui ressemble à un biais. Pourtant, lorsqu’un autre modèle est entraîné sur ces données apparemment neutres, il adopte certaines préférences du premier. C’est ce phénomène, décrit par Anthropic, qui inquiète : les biais ne passent pas toujours par ce que les données disent, mais parfois par la manière dont elles sont produites.
Après ajustement sur ces sorties filtrées, le modèle élève adopte pourtant le trait du maître. L’effet réapparaît aussi avec du code et des traces de raisonnement mathématique. Rien, pour un lecteur humain, n’annonce clairement le contenu latent ; pourtant, il passe.
Ce qui se transmet n’est donc pas un message, mais une signature. Une manière de produire des symboles, un rythme, une micro-structure probabiliste.
Le texte n’est plus seulement un véhicule de sens : il devient le lieu d’une hérédité discrète. Et c’est précisément ce qui rend l’affaire plus grave qu’un simple problème de biais explicite. [1, 2]
Sections principales :
- Pourquoi le filtrage sémantique ne suffit plus
- Une fragilité réelle, qui n’innocente rien
- Une pratique déjà industrielle
- Le risque d’une monoculture mentale
- Ce qu’il faut exiger maintenant
Pourquoi le filtrage sémantique ne suffit plus
Le filtrage classique cherche des mots, des thèmes, des motifs lisibles. Ici, il manque sa cible. L’équipe d’Anthropic rapporte que des classifieurs guidés par grands modèles, l’apprentissage en contexte et l’inspection manuelle ne détectent pas de façon fiable les traits transmis.