IA generative et autres LLM - Quels sont les risques liés à son fonctionnement ? - Episode 3

October Fr, 2023

Lexis Info : Le Podcast qui décrypte l'actualité de LexisNexis



IA générative : Quels sont les risques liés à son fonctionnement ?

Comment continuer à créer des contenus en toute transparence ? Quelles sontles implications éthiques associées à cette technologie ?  

Pour répondre à ces questions,  Cécile Chapeland Ponzio reçoit Sébastien Bardou, directeur de la stratégie LexisNexis CEMEA


Transcription


Cecile Chapeland Ponzio

Bonjour et bienvenue dans Lexis Info, le podcast qui décrypte l'actualité de LexisNexis dans cette série consacrée à l'IA générative en général et à l'usage que nous en faisons chez LexisNexis.

Cecile Chapeland Ponzio

Nous avons évoqué dans les deux précédents épisodes les utilisations actuelles et le potentiel pour les professionnels du droit, en examinant à la fois les avantages et les défis. Aujourd'hui, nous allons parler d'IA générative et ses risques de la stratégie qu'adoptent LexisNexis à leurs propos. Quels sont les risques liés à son fonctionnement ? Comment continuer de créer des contenus en toute transparence ? Quelles sont les implications éthiques associées à cette technologie ? Et à mes côtés, pour en discuter, je reçois Sébastien Bardou, directeur de la stratégie CMEA. Bonjour Sébastien !

Sébastien Bardou

Bonjour Cécile.

Cecile Chapeland Ponzio

Alors Sébastien, pouvez vous nous rappeler en quelques mots le fonctionnement des IAs génératives ?

Sébastien Bardou

Les IAs génératives s'appuient sur une technologie d'intelligence artificielle qui sont les réseaux de neurones qu'on travaille en deep learning. Donc ce sont des intelligences artificielles relativement peu supervisées et qu'on alimente avec des quantités d'informations absolument colossales pour les rendre aussi autonomes que possible. Dans le domaine du droit, on va se parler fréquemment des LLMs, des modèles de langages massifs qui font partie de cette famille des IAs génératives et qui visent à créer du texte. Et elles créent du texte sur la base d'un prompt. C'est à dire on pose une question, on donne des mots clés et le LLM va générer du texte et va le faire terme après terme, en détectant, en proposant, en écrivant le terme le plus probable à la suite de ceux qui ont déjà été saisis. Et cette notion de probabilité est extrêmement structurante pour ses y a là, elle est importante puisqu'il y a beaucoup d'idées reçues déjà aujourd'hui, et parfois même des déceptions puisqu'on s'attend à ce que ce soit une IA qui dise la vérité, alors que c'est une IA qui dit ce qui est probable et pas ce qui est juste. Et ce qui est probable pour cette IA peut être juste, et dans beaucoup de cas, ça va être juste et ça dépend très largement des données d'apprentissage qui ont été utilisées pour l'entraîner et lui permettre donc de répondre à des questions ou de réagir à des termes.

Cecile Chapeland Ponzio

Et dans le domaine du droit, quels sont les plus gros risques liés à ces technologies ?

Sébastien Bardou

Il y a un premier risque qu'on appelle les hallucinations. Alors ça va parler à tout le monde. L'hallucination de l'IA générative, ce sont toutes les erreurs que cette IA va produire et ce sont des erreurs qui sont liées à son jeu d'apprentissage et aux limites de la technologie à un instant donné. Si on regarde les IA qui génèrent des images par exemple comme DALL-E ou MidJourney, on connaît tous le fait que de temps en temps, l'image va générer une main avec six doigts du texte qui ne veut rien dire.

Sébastien Bardou

Ce qui nous, de notre point de vue humain et rationnel, correspond à une hallucination, mais qui finalement est liée à ce que l'IA a appris. Dans le domaine textuel et donc dans le domaine du droit, ça veut dire que comme l'IA répond en fonction de ce qui lui semble être le plus probable, elle peut dire des contre vérités. Et on a plein d'exemples comme ça de ChatGPT qui répond avec énormément d'aplomb en donnant le sentiment de certitude, va répondre quelque chose d'entièrement faux.

Sébastien Bardou

A titre personnel, j'aime bien donner cet exemple là que j'ai produit en posant une question volontairement biaisée à chaque j'épie type je demande à chatGPT, "cite moi les cinq femmes première ministre de l'histoire de France." Il n'y en a pas cinq, il y en a deux. Compte tenu des données d'entraînement de chatGPT, qui se limite à 2021, ChatGPT ne peut en connaître qu'une seule : Édith Cresson, Elisabeth Borne ayant été nommée en 2022, chatGPT ne la connaît pas. ChatGPT répond Il n'y a jamais eu de femme première ministre en France. Néanmoins, il y a des femmes politiques de premier plan, comme Édith Cresson, qui a été Premier ministre. Et donc là, on a un bel exemple fondamentalement des limites de chatGPT ou des LLMs en général, mais qui sont liées aux données d'apprentissage.

Sébastien Bardou

Il y a une première limite, qui est et le point va être important pour des juristes, il y a une première limite qui est liée à la fraîcheur de l'information. Le droit étant une matière vivante, mouvante, changeante, il faut actualiser en permanence le corpus de données qui va être utilisé par l'IA. Là, chatGPT qui s'entraînait sur le web mondial a une information qui se limite à une certaine date et donc il faut le ré entrainer en permanence, ce qui est coûteux. Par ailleurs, encore une fois, c'est chatGPT qui répond pas sur ce qui lui semble être vrai, mais sur ce qui semble être probable et ce qui peut induire des contradictions. Par exemple, comme de dire dans la même réponse il n'y a jamais eu de femme première ministre, mais il y a des femmes politiques de premier plan comme Edith Cresson qui a été Premier ministre. Donc ça c'est un bon exemple sur les hallucinations qui, à mon sens, est le premier risque.

Sébastien Bardou

Le deuxième risque, c'est celui des biais, les biais et les erreurs qui sont liées aux données d'entraînement. Donc c'est un peu différent des hallucinations. Les biais, ce ne sont pas nécessairement des erreurs objectives, c'est fondamentalement des choses qui sont liées au fait que le corpus d'apprentissage va sur représenter une information par rapport à une autre. Si j'ai une intelligence artificielle que j'entraîne sur le domaine juridique mais que je m'entraîne essentiellement avec des données de droit privé ou de droit civil, il risque de me répondre de façon biaisée quand je lui pose une question en droit public ou en droit administratif.

Sébastien Bardou

Il y a des biais beaucoup plus graves et là qui relèvent de l'erreur objective. On a eu plein d'exemples par le passé sur d'autres types qui font qu'on peut avoir, on l'a vu sur des cas de reconnaissance de visages qui traitent moins bien les peaux mattes ou les peaux foncées. On l'a vu sur des IA génératrices de tech sur les réseaux sociaux il y a quelques années, il y avait une expérience malheureuse de Microsoft avec une IA qui s'alimentait en fonction des informations communiquées par les utilisateurs utilisatrices de Twitter et qui l'avaient détourné pour rendre cette IA raciste. Donc on sait que les biais liés aux données d'apprentissage, c'est un sujet majeur et c'est un point de vigilance extrêmement important. Et c'est le deuxième risque.

Sébastien Bardou

Le troisième risque, c'est celui de la propriété intellectuelle des données d'entraînement qui est un risque, je dirais, de toute part. C'est un risque pour les propriétaires de ces intelligences artificielles qui potentiellement n'auront pas accès à toutes les données qu'elle souhaiterait accéder pour entraîner Leur IA de façon pertinente et limiter les hallucinations et corriger les biais. C'est un risque aussi pour les propriétaires de ces données, sources et données d'entraînement qui risquent de voir leur patrimoine intellectuel, éditorial, leur propriété intellectuelle utilisées par ces IAs sans qu'il n'en soit ni crédité ni récompensé puisqu'il n'y a pas de rémunération aujourd'hui qui est prévue par chatGPT ou par MidJourney ou par DALL-E pour rétribuer les auteurs et les autrices des données d'apprentissage qui ont été utilisées.

Cecile Chapeland Ponzio

Et pour prévenir ces abus. Quels sont les principes adoptés dans la stratégie de Lexis ?

Sébastien Bardou

Il y a un principe qui est important à nos yeux dans toutes nos initiatives en matière de R&D et de développement de produits et de solutions. C'est le principe de loyauté vis à vis des professionnels du droit. Notre maison mère qui est RELX a défini avec nous et avec les autres filiales de RELX les principes d'une intelligence artificielle responsable. Le premier, c'est la prise en compte de l'impact et des conséquences de nos solutions sur le reste du monde, sur les individus, sur les citoyens. C'est un principe de vigilance permanente, sur les conséquences de ce que nous produisons et de ce que nous faisons.

Sébastien Bardou

Le deuxième principe, c'est celui de la lutte et de la prévention des biais. Avoir un regard critique en permanence sur les données d'apprentissage qu'on utilise, et puis tester nos solutions, les intelligences artificielles que nous créons pour s'assurer que dans le produit fini, on n'introduit pas de biais et qu'on s'assure d'avoir des mesures correctrices le plus rapidement possible.

Sébastien Bardou

Le troisième principe, c'est celui du refus de la boîte noire. C'est le fait d'être en capacité en permanence, d'expliquer comment nos solutions fonctionnent. Je l'ai dit tout à l'heure, les IAs génératives s'appuient sur des réseaux de neurones. C'est du deep learning. Ce sont les IAs les plus difficiles à expliquer. Et d'ailleurs, si vous demandez à chatGPT de vous expliquer comment il est parvenu à tel ou tel résultat, il ne le fera pas de manière totalement transparente. Si vous lui demandez de citer des sources, il est incapable de citer précisément les sources qui sont derrière ses réponses, puisqu'en fait elles ont été totalement intégrées dans le réseau de neurones qui a été créé. Et donc on cherche en permanence à être en mesure d'expliquer comment nos solutions fonctionnent.

Sébastien Bardou

Le quatrième principe est qui est lié finalement au précédent, c'est le fait de conserver un contrôle humain dans tout ce qu'on fait. La machine en elle-même, elle est responsable et même d'un point de vue juridique, elle est responsable. Donc la responsabilité, elle est forcément portée par des êtres humains. Et donc il faut garder l'humanité au centre à la fois de la conception et de l'utilisation de saisir.

Sébastien Bardou

Et le cinquième et dernier principe, c'est celui du respect de la vie privée et par extension de la sécurité des données. Je pense que ça parlera à tout le monde. C'est devenu un principe tellement structurant dans le droit, en particulier depuis le RGPD, et c'est absolument décisif aussi pour cette intelligence artificielle générative. Et donc notre stratégie elle s'appuie sur ces principes qui sont les principes de loyauté, principes d'État de droit sur la charte RELX de l'IA responsable. Et ce qui nous rend confiant sur notre capacité à respecter ces principes de loyauté, de respect du droit et de responsabilité, c'est le fait que nous avons ce qui nous semble être les meilleurs contenus pour entraîner une IA générative dans le domaine juridique. On a bien vu que les limites de beaucoup de LLM aujourd'hui, c'est la qualité des données d'entraînement qui ont été utilisées pour créer cet LLM, pour créer ses IA générative. Nous, ce que nous souhaitons faire, ce que nous faisons déjà avec les premiers produits que nous avons l'occasion de présenter, c'est d'utiliser des contenus qui sont nos contenus d'éditeurs, qui sont des contenus qui font autorité et qui sont des contenus qui sont vérifiés et travaillés avec nos auteurs.

Cecile Chapeland Ponzio

D'ailleurs, en parlant de contenus, comment LexisNexis en garantit la qualité maintenant qu'on utilise des IAs génératives ?

Sébastien Bardou

Notre métier historique, bien entendu, c'est pas de créer des intelligences artificielles et des réseaux de neurones, c'est créer des contenus et c'est un métier d'éditeur. Et ce métier là, il n'a pas changé dans ses fondamentaux. C'est à dire le but poursuivi, ça reste de créer ce dialogue entre les auteurs et les éditeurs pour produire des contenus qui sont d'une qualité remarquable. Tout l'usage que nous faisons de la technologie, il vise à permettre la meilleure utilisation possible des contenus que nous créons.

Cecile Chapeland Ponzio

Beaucoup de discussions sont en cours actuellement pour réglementer ces intelligences artificielles et je pense en particulier à l'IA Act au niveau européen. Pensez vous qu'il faille un encadrement juridique pour ces utilisations ?

Sébastien Bardou

Je dirais qu'il y a un cadre juridique qui existe déjà. Et c'est vrai que le succès de chatGPT depuis son lancement il y a six mois maintenant, a généré beaucoup de questionnements autour du cadre juridique pertinent. Et donc vous savez que une discussion au sein des institutions de l'Union européenne sur le sujet avec un projet d'AI act qui pourrait faire l'objet d'un vote au Parlement européen au mois de juin 2023, on en connaît pas encore tous les contours, forcément fait l'objet de discussions, donc ses contours là y sont un peu mouvants. Je dirais qu'il faut partir du droit actuel. Le droit actuel, il permet déjà de lutter contre un certain nombre de risque et de limite de saisie générative. Si je prends les trois points fondamentaux dont on se parlait, le premier c'est lutter contre les biais. La lutte contre les biais d'une IA, c'est fondamentalement lutter contre les discriminations de toutes sortes qui peuvent exister dans une dans une société. Et ça veut dire que l'IA, aussi séduisante soit-elle, doit respecter le droit en la matière. Et ça, c'est un point de vigilance. Important d'en parler également à propos de la charte RELX, il faut que les acteurs de l'industrie prennent leurs responsabilités sur le sujet.

Sébastien Bardou

Le deuxième sujet, celui de la protection des données personnelles. Même chose, le règlement général de la protection des données, une pratique depuis plusieurs années qui me semble assez bien outillée pour répondre à ces enjeux-là. Il pose un cadre sur la protection des données personnelles et il vient compléter des cadres existants. En France, la CNIL depuis 78, qui avait déjà anticipé beaucoup de choses qui interdisent le profilage, par exemple dans les décisions de justice... Donc je dirais, les données personnelles sont assez bien protégées. Le troisième sujet qui, à mon sens le plus compliqué aujourd'hui au regard des IAs génératives, c'est celui de la propriété intellectuelle et du droit d'auteur. Et là, il est urgent de faire respecter le droit tel qu'il existe aussi aujourd'hui puisque encore une fois, on a vu beaucoup d'IAs génératives s'entraîner de manière assez ambitieuse sur des données du web dit "ouvert", ce n'est pas parce que le web est ouvert que ces contenus là sont gratuits et totalement dépourvus de droit d'auteur. Tout l'enjeu, c'est de déterminer comment on rémunère de façon juste les auteurs et les autrices des musiques, des sons qui permettent à une IA génératrice de sons de créer sur la base de ce qu'elle a appris des autres et ce qu'elle a appris des créations humaines. De la même manière, sur les créations d'images, je dirais l'inquiétude qu'on peut avoir sur l'élaboration d'un cadre juridique dédié à l'IA, c'est de créer un cadre trop spécifique qui risque de tomber dans deux écueils : le premier, c'est d'évoluer moins rapidement que la technologie. On risque d'avoir un cadre juridique qui a en permanence un train de retard. Et le deuxième risque, c'est d'entraver l'innovation, c'est de limiter nos capacités, finalement. Et on a beaucoup parlé des limites et des risques. Mais toutes ces IAs génératives sont porteuses d'opportunités assez exceptionnelle de gains de productivité, d'amélioration de la sécurité juridique. Ce sont des outils à destination des professionnels du droit qui sont absolument exceptionnels.

Cecile Chapeland Ponzio

Puisqu'on parle d'avenir, quelles sont les prochaines étapes pour LexisNexis sur ces sujets d'innovation ?

Sébastien Bardou

Ce qui va être déterminant pour les prochaines étapes, c'est le fait de mettre ce type là d'intelligence artificielle entre les mains des professionnels du droit. C'est notre notre mission, de les aider à faire leur travail le plus efficacement possible et avec le plus haut niveau de sécurité juridique possible, puisque c'est ça qui contribue à un État de droit qui fonctionne. Donc les prochaines étapes pour nous, elles consistent à raffiner nos solutions en matière d'IA générative pour les professionnels du droit. On a déjà fait l'annonce de la version beta de Lexis+ AI en Amérique du Nord. On travaille aujourd'hui pour lancer le même type de solutions dans notre région Europe continentale, Moyen-Orient et Afrique. Bien entendu, ça nécessite un effort de localisation. On n'a pas exactement les mêmes systèmes juridiques dans tous les pays du monde et donc on a une démarche intellectuelle qui n'est pas exactement la même. Donc tout l'enjeu pour nous, c'est de déterminer comment on va appliquer typiquement ce qui passe dans le domaine du droit continental et travailler avec nos clients et nos clients pour le rendre aussi pertinent que possible. On a beaucoup de travaux en cours autour de la rédaction de contrats, d'actes juridiques, de documentation juridique, en utilisant nos contenus, en utilisant nos modèles et en utilisant l'intelligence de l'utilisatrice ou de l'utilisateur qui va dialoguer avec cette IA de façon à produire les contenus, la documentation juridique la plus pertinente possible et en tout cas à répondre à leurs enjeux du moment.

Cecile Chapeland Ponzio

Merci beaucoup Sébastien pour ce partage. C'est un plaisir de vous recevoir.

Sébastien Bardou

Le plaisir était partagé. Merci beaucoup.

Cecile Chapeland Ponzio

C'était Lexis Info, le podcast d'actualité LexisNexis. C'est la fin de la première série de podcast Lexis Info. Nous vous donnons rendez vous le mois prochain pour une nouvelle série qui sera consacrée à la préparation à l'examen d'accès au CRFPA. D'ici là, vous pouvez retrouver tous nos épisodes sur les plateformes d'écoute à la demande ainsi que sur notre site lexisnexis.fr