Les avocats confrontés aux hallucinations des agents conversationnels

02 février 2024

Cet article analyse les risques juridiques liés à l’utilisation, par les avocats, d’agents conversationnels basés sur l’intelligence artificielle générative. Il met en lumière les dangers des « hallucinations » de ces agents, c'est-à-dire une production de contenus manifestement faux mais présentés comme certains. Après avoir examiné les raisons techniques du risque d'hallucination de ces agents, cet article fournit des conseils pratiques pour aider les avocats à se prémunir contre ces risques et à respecter les réglementations en vigueur et à venir.

1 - Les agents conversationnels reposant sur une technologie d'« IA générative », tels que ChatGPT, LlaMA, Perplexity, Claude ou Bard, sont capables de générer en un temps record un texte intrinsèquement cohérent, de bonne facture, en réponse à une requête (« prompt ») plus ou moins précise. Cette performance sur le plan formel peut conduire à perdre de vue non seulement l'absence de toute garantie en matière de véracité des textes générés, mais également les risques juridiques liés à leur utilisation.

2 - Il convient de conserver présent à l'esprit qu'il s'agit, à ce jour, de dispositifs encore expérimentaux dont les performances sont très variables selon les modèles de langage sur lesquels ils s'appuient et leur réentraînement. Les chatbots généralistes, comme ChatGPT, demeurent assez peu performants dès lors qu'on leur soumet une question complexe ou atypique, notamment dans le domaine juridique. Nous verrons pourquoi.

3 - Par ailleurs, de nombreuses zones d'ombre subsistent, à ce jour, sur le plan juridique, que ce soit au stade de l'entraînement des modèles et donc de la licéité du modèle de langage sousjacent , au stade du déploiement des modèles dans le cadre des agents conversationnels et autres applications ou au stade de leur utilisation.

4 - Après avoir expliqué les raisons techniques de la génération d'hallucinations (1), nous examinerons ensuite les obligations juridiques et déontologiques de vérification auxquelles l'avocat est actuellement tenu (2), les moyens de limiter les « hallucinations » dans les textes générés (3) et, enfin, les nouvelles règles qui pourraient encadrer ces nouveaux usages (4).

1. Pourquoi les agents conversationnels produisent-ils des « hallucinations » ?

Un agent conversationnel génère une « hallucination » quand sa réponse est manifestement fausse mais présentée comme un fait certain. L'affaire Mark Walters (animateur de radio américain) v/ OpenAI l'illustre bien : ChatGPT a produit un résumé d'une affaire juridique (Second Amendment Foundation v/ Ferguson) en indiquant à tort que M. Walters avait « fraudé et détourné des fonds pour des dépenses personnelles ». Cependant, cette accusation de fraude est fantaisiste et ne figure pas dans les détails de l'affaire, qui par ailleurs ne mentionne même pas le nom de M. Walters. C'est une hallucination de ChatGPT. Ces hallucinations trouvent leur origine dans le fonctionnement probabiliste des grands modèles de langages (LLM : Large Language Model), qui sont au cœur de ces agents conversationnels.

Les LLMs sont des réseaux de neurones artificiels, avec une architecture de type « transformer », qui ont pour objectif de prédire le prochain « token » d'une suite de mots. Un token est une suite de quelques caractères. Par exemple, ChatGPT décompose l'expression « les hallucinations » en 2 tokens : *Les* hallucinations* (les '*' sont utilisées ici pour marquer la séparation entre tokens différents). Cependant, de manière générale, un mot long se décompose en plusieurs tokens : avec une lettre majuscule, la décomposition 11 devient plus complexe et s'effectue en 4 tokens : *Les* Hall*uc*inations*. Pour une suite de tokens donnée (exemple : *Liber*t*é*,* É*gal*ité*,*), le LLM fournit un score de prédiction pour chaque potentiel token suivant. Avec cet exemple, on s'attend à un score élevé pour * Fr* (début de « fraternité ») car c'est le token le plus probable dans le jeu de données d'entraînement du LLM.

Un agent conversationnel se base sur un LLM, pour générer des réponses « vraisemblables » aux requêtes (« prompt ») de l'utilisateur. Parfois, la réponse est vraisemblable sans être vraie : c'est une hallucination. Ce phénomène trouve son origine dans le fonctionnement probabiliste des LLMs, dont il faut bien distinguer deux phases dans leur cycle de vie : ‰ la phase d'entraînement (ou apprentissage), qui est effectuée une fois pour toutes. L'objectif est d'optimiser petit à petit la valeur des poids du réseau de neurones, afin de minimiser l'erreur faite en prédisant le prochain token. Cette phase requiert à la fois (i) un large corpus de données d'entraînement 12 (ii) l'accès à de larges ressources de calculs spécialisés (GPUs) (iii) du temps (typiquement plusieurs mois voire trimestres 13) (iv) des capitaux (plus de $100m pour GPT-4, d'après OpenAI 14) ; ‰ la phase de prédiction (ou inférence), qui est effectuée à chaque utilisation du LLM. L'objectif est de compléter la suite de tokens constituant le « prompt ».À cette étape, le LLM n'a pas accès directement aux données d'entraînement : un calcul est effectué, à partir des tokens du prompt et des poids du réseau de neurones, qui détermine les tokens les plus probables qui devraient succéder au prompt. Les hallucinations d'un agent conversationnel proviennent du fait qu'en phase de prédiction, les suites de tokens formées par le LLM sont uniquement basées sur les poids du réseau de neurones. L'agent conversationnel n'a pas accès à d'autres sources de vérité (sauf choix de conception différent, V. partie 3) que ses poids internes. Ainsi, dans certaines situations où le prompt invite l'agent conversationnel à donner des détails sur un fait précis (des œufs de vache 15, des détails du régime juridique d'une catégorie de personne morale inventée 16, ou encore des livres et articles écrits par une personne, etc.), les tokens les plus probables proposées par le LLM forment des réponses parfois manifestement fausses, le LLM n'ayant pas de source de vérité externe pour examiner le caractère erroné de sa réponse.

2. La vérification humaine des notions, qualifications et citations : une obligation légale et déontologique

Nombreux sont les avocats qui ont désormais à l'esprit les déconvenues de leur confrère du barreau de New-York utilisateur de ChatGPT. Dans le cadre d'une affaire opposant un passager à une compagnie aérienne, accusée d’être responsable de blessures subies par celui-ci, les avocats de ce dernier ont produit un mémoire citant des décisions judiciaires n'ayant jamais existé 17 Les avocats de la compagnie aérienne l'ayant constaté l'ont signalé au juge, lequel a écrit aux avocats du plaignant pour les inviter à s'expliquer sur les fausses citations. C'est alors que l'avocat chargé de rédiger le mémoire, Steven Schwartz, a reconnu qu'il avait utilisé ChatGPT comme s'il s'agissait d'un moteur de recherche et qu'il avait reproduit les textes générés sans procéder à la vérification des citations. L'avocat s'était laissé abuser par ChatGPT qui avait cité des sources prétendument extraites des bases de données de LexisNexis et Westlaw. Malgré les « immenses regrets » formulés par l'avocat rédacteur des écritures erronées, Peter LoDuca, l'avocat en charge du dossier, et lui-même ont été sanctionnés dans le cadre d'une procédure disciplinaire, par une amende de 5 000 $. Le juge a retenu que les avocats avaient « abandonné leurs responsabilités » en reproduisant en l'état, dans les écritures, les citations générées par ChatGPT.

Au 3 août 2023 20, une mention en bas de page de l'interface accessible à l'adresse https://chat.openai.com/ alerte sur ces risques : « ChatGPT peut produire des informations inexactes sur des personnes, des lieux ou des faits ». Microsoft est encore plus clair sur les risques découlant de l'utilisation du service Bing Chat, intégré au moteur de recherche Bing et au navigateur Edge : « Les Services en ligne sont proposés à des fins de divertissement. Ils ne sont pas exempts d'erreurs, peuvent ne pas fonctionner comme prévu et peuvent générer des informations incorrectes. Vous ne devez pas vous fier aux Services en ligne et vous ne devez pas utiliser les Services en ligne pour obtenir des conseils de quelque nature que ce soit. Votre utilisation des Services en ligne est à vos risques et périls » . Google alerte également les utilisateurs de Bard : « Bard est une technologie expérimentale et peut parfois fournir des informations inexactes ou inappropriées qui ne représentent pas le point de vue de Google. Ne considérez pas les réponses de Bard comme des conseils professionnels d’ordre médical, juridique, financier ou autre » .

Or, en dépit de risques identifiés et documentés, une étude récente de l'institut Nielsen relative à l'utilisation de ChatGPT, Bard et Bing Chat fait ressortir que les utilisateurs de ces agents conversationnels sont très nombreux à les utiliser pour rechercher de l'information (75 %), comme s'il s'agissait d'un moteur de recherche (ce qui dénote une incompréhension de leur nature et de leur fonctionnement) et très nombreux à ne pas vérifier les résultats (77,5 %).

S'il ne souhaite pas engager sa responsabilité, l'avocat – ou tout autre professionnel du droit – qui utilise un agent conversationnel reposant sur un LLM, et en particulier un agent conversationnel non spécialisé, doit s'interdire de le considérer comme un service fiable produisant des textes pouvant être utilisés en l'état dans le cadre de son exercice professionnel.

En l'état actuel du droit, la responsabilité de l’utilisateur professionnel à l’égard de ses clients serait soumise au régime classique de la responsabilité civile professionnelle, sans réelle particularité liée à l’usage de l’agent conversationnel. Aussi performant et sophistiqué soit-il, l'agent conversationnel, même réentraîné et monitoré afin d'être spécialisé dans le domaine juridique, ne doit, en effet, être considéré que comme un outil d’aide à la rédaction. L'avocat manquerait, en outre, à ses devoirs de compétence et de prudence s'il rédigeait des actes ou des écritures judiciaires sur la base de textes générés automatiquement sans procéder à aucune analyse juridique ni à aucune vérification des dispositions législatives ou réglementaires, décisions judiciaires ou administratives ou articles de doctrine cités.

3. Comment limiter les « hallucinations » dans les textes générés ?

Limiter les hallucinations des agents conversationnels est un enjeu pour les fournisseurs d'agents conversationnels, pour les fournisseurs de solutions utilisant ces agents et pour les utilisateurs des agents conversationnels. L'identification et la réduction des hallucinations sont à la fois un domaine de recherche actuel, un levier de compétitivité dans la conception d'agents conversationnels donc un secret bien gardé, un levier de marketing pour les fournisseurs de solutions et même un argument de vente pour des formations sur l'utilisation d'agents conversationnels.

En pratique, plusieurs approches existent, sont mises en œuvre et actuellement perfectionnées. Elles agissent sur des étapes et des composants distincts de l'agent conversationnel. En voici quatre principales, qui ne sont pas exclusives :

Améliorer les poids internes du LLM par la spécialisation sur un domaine particulier (fine-tuning) : en spécialisant des agents conversationnels sur un domaine d'intérêt (par exemple, dans la manipulation de contenus juridiques), on peut faire évoluer les poids des réseaux de neurones pour améliorer la prédiction sur ce thème en particulier. Il s'agit d'un ré-entraînement, appelée « finetuning », effectué sur une base de données spécialisées. Cette action nécessite donc des données de ré-entraînement et a pour conséquence d'améliorer la performance de prédictions destokens sur des données similaires mais également de diminuer la performance du LLM sur les tâches générales (compromis généralisation v/ spécialisation).
Cette approche a tendance à réduire les hallucinations sur le domaine considéré car les réponses générées par le LLM seront plus ancrées dans le style et le contenu d'intérêt ;
Ajouter une source de vérité pendant la phase de prédiction (Retrieval-Augmented Generation, RAG) : il s'agit d'un changement majeur dans la manière dont l'agent conversationnel utilise le LLM sous-jacent. L'idée est d'ajouter au prompt de l'utilisateur des informations qui viennent d'une source de données considérées comme vraies. En pratique, plusieurs opérations se succèdent pour (i) identifier des extraits de la base de données de vérité qui sont similaires au prompt de l'utilisateur (ii) inclure ces extraits et le prompt initial dans un nouveau prompt et (iii) afficher la réponse du LLM et les sources de vérité identifiées. Dans le cas général, cette source de vérité peut être constituée des résultats d'un moteur de recherche sur une requête effectuée à la volée par l'agent conversationnel. Concernant des agents conversationnels à destination des avocats, la source de vérité est plus vraisemblablement un corpus de règles de droit, de jurisprudence, etc.
L'ajout d'une source de vérité est efficace pour réduire des hallucinations qui contredisent directement la source de vérité. Cependant, cela n'évacue pas forcément le risque de générer une réponse comportant des affirmations non vérifiées (et non directement contredites) ;
Réutiliser le LLM pour plus de fiabilité des sorties générées par le LLM : certains agents conversationnels tentent de réduire les hallucinations en adoptant des stratégies diverses visant à utiliser le LLM de plusieurs manières. En particulier, cette publication propose de faire générer plusieurs réponses au LLM et d'évaluer leur cohérence pour mieux détecter les hallucinations. On peut également citer une méthode récente appelée Chain-of Verification où le LLM génère des questions de vérifications portant sur la réponse initialement générée au prompt de l'utilisateur. Puis, le LLM génère des réponses à « ses » questions et les utilise pour construire la réponse finale. Ces méthodes sont expérimentales et souvent coûteuses en calcul et en délai de réponse ;
Optimiser le prompt soumis à l'agent conversationnel(Prompt Engineering) : cette méthode a la particularité d'être à la main de l'utilisateur. Elle consiste à ajouter des éléments spécifiques dans la manière dont est formulé le prompt envoyé à l'agent conversationnel. À titre d'illustration sur l'efficacité du Prompt Engineering, une publication récente a cherché à optimiser le prompt à ajouter avant un ensemble test de tâches mathématiques. Le fait d'ajouter « Let's think step by step » fait passer la performance sur les tâches en question de 34 % à 71,8 %. Le meilleur prompt pour le modèle et le jeu de tâche considéré était : « Take a deep breath and work on this problem step-by-step » avec une performance de 80,2 %.

Plus généralement, le Prompt Engineering consiste à optimiser et structurer le prompt envoyé à l'agent conversationnel. Les pratiques courantes incluent le fait d'ajouter à la question initiale des instructions précises sur la tâche à effectuer, des éléments de contexte clairs, des précisions sur le fond et la forme de la réponse à générer, des exemples de réponse, etc. L'intérêt du Prompt Engineering dépasse la réduction des « hallucinations » et permet d'obtenir des réponses dont le format est plus adapté à l'utilisateur, d'avoir une réponse plus précise et contextualisée, etc. En ce qui concerne l'utilisation d'agents conversationnels par des avocats, on parle de « Legal Prompt Engineering ». Formellement, c'est la déclinaison des principes généraux du Prompt Engineering au contexte de l'avocat et plus généralement du juriste. Ces compétences s'acquièrent par l'utilisation régulière d'agents conversationnels et d'échanges de bonnes pratiques.

La réduction des « hallucinations » est en résumé une préoccupation majeure et les approches envisagées sont multiples. Cependant, il faut garder en tête que les avis des experts sont partagés 32 quant à la possibilité in fine de les supprimer avec les types de LLMs actuels. Enfin, réduire l'occurrence des hallucinations améliore l'expérience utilisateur mais n'exempte pas ce dernier d'une analyse critique et de vérifications sur les contenus générés.

4. Les futures règles juridiques et déontologiques destinées à encadrer l'utilisation des agents conversationnels « intelligents » par les avocats

Si l'on examine la proposition de règlement de l'Union européenne dénommé « Législation sur l'intelligence artificielle » (ou « AI Act » en anglais), dans sa version publiée la plus récente , l'on constate que malgré les efforts de certains parlementaires, la qualification de « système d'IA à haut risque » n'a pas été retenue.

Cependant, le régime des systèmes d'IA générative actuellement proposé – sous réserve de validation dans le cadre du trilogue en cours – prévoit des exigences spécifiques pour les IA génératives, qui comprend l'obligation d'informer les personnes concernées qu'un contenu a été produit par un système d'IA. En l'état actuel de la proposition de règlement, les utilisateurs professionnels de systèmes algorithmiques génératifs, classés comme « à risque faible », ne sont tenus à aucune obligation particulière, ce en dépit des risques importants liés à l'usage systématique des agents conversationnels. Une étude de Cornell a, en effet, fait ressortir que les agents conversationnels avaient, sur les utilisateurs, un effet de « persuasion latente », de nature à influencer notablement le ton et la teneur des contenus produits.

Par ailleurs, à notre connaissance, aucune réforme de la loi n° 71-1130 du 31 décembre 1971 portant réforme de certaines professions judiciaires et juridiques modifiant les obligations à cet égard n'est prévue à ce jour. Sur le plan déontologique, en revanche, l’usage d’agents conversationnels sans information du juge, des clients et des confrères pourrait, le cas échéant, être considéré comme contraire aux principes de compétence, de prudence 36, d’honneur, de loyauté, et de confraternité. L'utilisation, par les avocats, des agents conversationnels, présente autant d'avantages (résumé rapide de textes très longs, traduction, « débroussaillage » de questions situées à la lisière de leur expertise, etc.), que de risques, décelables (atteinte à la confidentialité, « hallucinations », etc.) et indécelables (influence sur le ton et la teneur du texte, même retravaillé).

C'est donc au niveau de la profession tout entière qu'une réflexion est à mener sur les impacts individuels, collectifs et systémiques de l'utilisation des agents conversationnels et sur les règles déontologiques à dégager pour y répondre. La première d'entre elles pourrait être la transparence à l'égard des clients, des confrères et du juge. Une autre mesure consisterait probablement à former véritablement les avocats à l'usage de ces nouveaux outils.

Lexis+AI, l'IA Juridique de LexisNexis sans hallucination, sera disponible en France en juin 2024.

Vous souhaitez en savoir davantage sur le développement de Lexis+AI en France ? Rejoignez notre programme Lexis+AI Insider et recevez tous les mois une newsletter exclusive.

Tags:

Contacter LexisNexis

Tous les champs marqués d'un astérisque (*) sont obligatoires

A la une

Conseils pour sélectionner une IA Juridique éthique et respo

Comment l'IA Générative peut améliorer votre recherche jurid

Comment l'IA peut aider les avocats à mieux communiquer avec...

IA Générative pour les Professions Juridiques : 5 raisons de...

Expertise et IA générative : Un duo gagnant pour les professionnels