Techno

J’ai testé un outil de détection de ChatGPT : j’ai perdu mon temps

Image générée par la version 5 de Midjourney avec la commande suivante: «Robots en examen, plume à la main, à la manière de Camille Corot.»

Jean-Hugues Roy - Université du Québec à Montréal (UQAM) - La Conversation

ANALYSE | J’ai testé un outil de détection de ChatGPT : j’ai perdu mon temps

Selon l’enquête de l’auteur, 41 % des textes produits en tout ou en partie par GPT-3 ont été classés comme ayant probablement été rédigés par un être humain. Il est donc vain de combattre l’IA par l’IA.

Détecter la bullshit est une déformation professionnelle. Je suis journaliste depuis 35 ans et prof depuis 15 ans. J’ai siégé au comité des infractions académiques de ma faculté. J’en ai vu de toutes les couleurs. ChatGPT m’écœure autant qu’il m’ébahit.

On nous dit qu’il faut faire davantage d’évaluations en personne. Fort bien. Mais allez dire ça aux universités (et aux universitaires) qui ont pris goût au télé-enseignement. Tout le monde cherche des solutions magiques pour s’assurer que les textes qu’on évalue n’ont pas été pondus par ChatGPT ou un autre système de rédaction automatique.

Tester la machine

J’ai testé un outil qui prétend le faire. GPTZero « estime les probabilités qu’un document ait été rédigé par un grand modèle de langue ». Son créateur, Edward Tian, est un étudiant originaire de Toronto. Il a complété à Princeton une majeure en informatique avec mineure en journalisme. Il a travaillé pour Bellingcat, formidable site de journalisme d’enquête et de données. C’est un parcours inspirant et auquel je peux m’identifier.

J’ai testé son outil avec un corpus de 900 textes :

Dans chaque cas, les textes sont composés de trois sous-groupes :

Dans les cas des articles générés en tout ou en partie par GPT-3, la valeur de « X » était le titre d’un véritable article publié dans un journal en anglais ou en français.

J’ai enfin soumis chacun de ces 900 textes à une analyse par GPTZero.

Des résultats mitigés

D’abord, en français, les résultats sont pitoyables. Le créateur de GPTZero dit bien que son outil a été mis au point surtout à l’aide de textes en anglais. C’est pour cela que j’ai traduit en anglais tout mon corpus en français.

GPTZero fournit notamment, pour chaque texte qu’il analyse, un score de probabilité qu’il ait été produit par un système d’intelligence artificielle. En fonction de ce score, j’ai donc classé mes textes traduits en cinq catégories :

Le tableau ci-dessous montre comment l’outil a classé les textes traduits en fonction de la façon avec laquelle ils ont été rédigés.

Classement GPTZeroJournalisteMoitié journaliste,
moitié GPT-3
GPT-3Total
IA++194959
IA+2111831
?6141737
Hum+1324845
Hum++78428128
Total100100100300

L’outil fait un travail qui n’est pas si mauvais. Son créateur dit qu’il préfère se tromper en classant un texte produit par l’IA comme ayant été probablement rédigé par un être humain que l’inverse. Mes résultats montrent que c’est effectivement ce qu’a fait GPTZero.

Mais il n’en demeure pas moins que dans mon échantillon, 41 % des textes produits en tout ou en partie par GPT-3 ont été classés comme ayant probablement été rédigés par un être humain.

J’ai donc perdu mon temps pour deux raisons. D’abord, la qualité du texte généré par les grands modèles linguistiques, aujourd’hui, rend GPTZero inconstant. Il détecte la plupart du temps, mais pas toujours.

Ensuite, la technologie évolue à une vitesse vertigineuse. À peine avais-je complété mon test, le week-end du 11 et 12 mars, qu’une version plus performante de GPT, GPT-4, était rendue publique deux jours plus tard. Je l’ai essayée et pour le moment, je constate que c’est un producteur de bullshit encore plus éloquent que la version précédente, basée sur GPT-3.5.

À quoi bon essayer de combattre l’IA par l’IA ? Plus j’essaie, plus je me rends compte que c’est une espèce de course aux armements qui ne mène nulle part. Comme toutes les technologies avant elle, la rédaction automatique va prendre sa place dans nos vies de tous les jours. Ce sera à nous, êtres humains, de nous creuser les neurones pour l’intégrer, au mieux, dans nos pratiques pédagogiques et de légiférer au besoin, afin d’en mitiger les effets délétères.


Dans l’esprit de la science ouverte, le code et les données de cette expérience sont accessibles sur le compte github de l’auteur.

Jean-Hugues Roy, Professeur, École des médias, Université du Québec à Montréal (UQAM)
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.

Chaque semaine, une sélection des nouvelles de votre arrondissement.

Nos infolettres vous suivent partout.

Articles récents du même sujet

Exit mobile version