IA generative et autres LLM : Realité, Risques et Opportunites pour les Professionnels du Droit - Episode 1

June Th, 2023

Lexis Info : Le Podcast qui décrypte l'actualité de LexisNexis



1er épisode avec Mathieu Balzarini directeur produits LexisNexis CEMEA  au micro de Cécile Chapeland Ponzio

C’est le phénomène qui fait la une des actualités, chat GPT, Google Bard et autres LLMs sont entrés dans nos vies depuis quelques mois et ne sont pas prêts d’en sortir.
3 épisodes pour mieux connaître l’IA générative, ses usages, ses enjeux, et ce qu’elle représente pour les métiers du droit, comment fonctionne-t-elle? Et quelles sont ses forces, ses faiblesses, ses limites ?

2e épisode à écouter ici


Transcription


Cécile Chapeland Ponzio :

Bienvenue dans Lexis Info, le podcast qui décrypte l'actualité de LexisNexis. C'est le phénomène qui fait la une des actualités. Chatgpt, Google Bard et autres LLM sont entrés dans nos vies depuis quelques mois et ne sont pas prêts d'en sortir.

Vous l'aurez compris, aujourd'hui, nous allons parler d'IA Générative, des usages, des enjeux pour les métiers du droit. Pour ne pas en avoir peur, il faut bien la connaître. Alors, qu'est ce que cette IA Générative ? Comment fonctionne telle ? Quelles sont ses forces, ses faiblesses, ses limites ? À mes côtés pour en discuter, je reçois Mathieu Balzarini, Directeur produit CMEA chez LexisNexis. Bonjour Mathieu.

Mathieu Balzarini :

Bonjour Cécile.

Cécile Chapeland Ponzio :

Mathieu, nous percevons bien évidemment le potentiel considérable de l'utilisation des technologies des LLM dans le monde du droit. Mais pour commencer, est ce que vous pourriez nous expliquer concrètement ce que c'est, et en quelques mots ?

Mathieu Balzarini

En quelques mots, ça relève presque du challenge, mais pour commencer, LLM est en fait l'acronyme anglais de Large Language Model. En fait, les LLM sont quelque part des modèles de traitement de langage naturel qui sont entraînés sur de très vastes ensembles de données textuelles et qui sont capables d'interpréter et de générer des textes humains, raison pour laquelle on parle souvent d'IA générative.

Mathieu Balzarini

Ces modèles sont en fait capables de prédire l'enchaînement de mots et de phrases dans un texte, moyennant le fait qu'on leur fournisse un contexte, en gros, un ensemble de mots. Ils sont principalement basés sur des architectures de réseaux de neurones profonds, et ils ont été lancés par Google en 2018 avec le LLM qui s'appelle toujours BERT. Le LLM GPT, diffusé par OpenIA est très, très médiatisé. Comme vous le disiez depuis quelques mois, il n'est qu'un des modèles de LLM existants. Il en existe bien d'autres : On pourrait citer LAMA qui est proposé par Facebook, BART par Google, Alpaca par Stanford ou encore Cloud par la société Anthropic.

Cécile Chapeland Ponzio

Maintenant qu'on a compris ce que c'est que les LLMs, est ce qu'on pourrait parler un petit peu de son histoire ?

Mathieu Balzarini

Effectivement, je pense qu'il est important de recontextualiser tout ça. On a un peu l'impression que l'IA et l'IA générative en particulier a été découverte en novembre 2022 avec la sortie de GPT 3.5. C'est en fait un peu plus subtil et ancien que ça. Le terme d'intelligence artificielle que l'on pourrait quelque part définir comme un ensemble de théories, de techniques, d'algorithmes mis en œuvre pour réaliser des machines capables de simuler l'intelligence humaine, a été introduit pour la première fois en 1956 par John McCarthy.

L'IA intègre différentes grandes familles d'algorithmes. On pourrait citer les systèmes experts, les jumeaux numériques plus récemment introduits. Ces LLMs sont des modèles basés essentiellement sur des réseaux de neurones dits « profonds ». On qualifie souvent les réseaux de neurones comme des systèmes apprenants, car ils ont besoin d'une très grande quantité d'informations pour affiner leurs capacités.

Je peux vous donner plein d'exemples. La première utilisation assez classique des réseaux de neurones, ça a été sur la reconnaissance de caractères manuscrits. Donc, on ne code pas dans un réseau de neurones ce que c'est un 1, ce que c'est un 2, ce que c'est un 3. On lui donne plein d'exemples de manuscrits correspondant à ces différents chiffres et c'est au fur et à mesure des exemples donnés que le système va comprendre et modéliser ce qu'est un 1, ce qu'est un 2 pour pouvoir mieux le reconnaître.

Même si ces technologies ne sont pas nécessairement récentes, elles se sont développées extrêmement rapidement, presque exponentiellement ces dernières années, grâce principalement à la conjonction de trois facteurs : le volume des données disponibles, la vitesse et la puissance de calcul de nos machines et la variété des informations ou des datas disponibles.

Cécile Chapeland Ponzio

Ces anciennes nouvelles technologies, elles fonctionnent comment ? C'est LLM dont on parle tout le temps aujourd'hui, ça fonctionne comment et quelles en sont les capacités ?

Mathieu Balzarini

Concernant leur fonctionnement, les LLM sont souvent qualifiés de "perroquets stochastiques". Ils ne font que répéter et restituer ce qu'ils ont appris. On regarde de nombreuses données qu'on a ingurgitées dans ces modèles. Ceux-ci sont capables, moyennant le fait qu'on leur fournisse un contexte. C'est quoi un contexte ? C'est un texte, une question, un prompte. Ils sont capables de générer du texte automatiquement. Si je vous prends un exemple concret, si on demande à un LLM quelle est la planète la plus proche de la Terre, ill va répondre « La planète la plus proche de la Terre est... » et le mot suivant, quelque part, le modèle va déterminer que la valeur la plus probable, et pas nécessairement la plus juste au sens de la connaissance, est Vénus. Mais c'est essentiellement basé sur ce qu'il a pu apprendre. Cette notion de probabilité de trouver le bon mot est directement liée aux données qu'il a ingurgitées, d'où l'importance extrême de disposer de très gros volumes d'informations, car on peut très vite introduire des biais d'apprentissage.

Concernant leurs capacités, les LLM disposent grosso modo de quatre types de compétences qu'il est important de distinguer. Je dirais une capacité de rédaction, ils sont capables de rédiger, de résumer, de synthétiser, de combiner, d'agréger de l'information. Une seconde capacité qui est plus une capacité de compréhension, il va comprendre ce qu'il a lu, ce que vous lui dites, ce que vous lui demandez dans un mode conversationnel. Une capacité également de contextualisation. Il comprend le contexte, il sait s'adapter en fonction des informations complémentaires que vous lui donnez. Et la dernière compétence étant un « certain niveau de connaissance », mais comme je l'ai expliqué juste avant, à hauteur de ce qu'il a appris, c'est sa vérité par rapport à son apprentissage.

Cécile Chapeland Ponzio

Quelles sont les limites de cette technologie ?

Mathieu Balzarini

Il est important de comprendre que ce type de modèle ne comprend absolument rien à ce qu'il raconte. Il n'a aucune conscience de ce qu'il dit. Ça peut paraître un peu étonnant quand on voit la qualité parfois des réponses qui sont apportées. Mais ces modèles sont donc capables de produire du texte qui peut être tout aussi absurde qu'assertif et, encore une fois, basé sur ce que ces modèles ont retenu des éléments de langage, mais sans en comprendre le sens. Ces modèles conduisent parfois à ce qu'on appelle des hallucinations I. A, donc de l'intelligence artificielle. On a tous en tête des exemples de promptes où on essaie d'orienter un peu la question et il affirme avec un aplomb assez impressionnant des informations qui sont fausses, voire en citant des sources qui sont elles aussi complètement inventées. On a aussi en tête des images de personnes qui ont six mains ou qui ont une bonne soixantaine de dents. Donc on est vraiment sur cette logique de biais important de comprendre et qui, encore une fois, sont très liées à la nature des informations qui ont été ingurgitées. Donc, il est important de considérer que les trois premières capacités que j'ai citées plus haut souvent extrêmement performantes, mais qu'on ne peut pas nécessairement considérer que ces modèles sont dotés d'une connaissance absolue sans faille.

Cécile Chapeland Ponzio

En effet, on parle de limites qu'on vient de comprendre et de dérouler, mais j'imagine qu'il y a des risques forts qui sont liés à l'usage de cette technologie...

Mathieu Balzarini

Oui, tout à fait. Je pense que très honnêtement, les risques sont très nombreux, mais je dirais que le risque principal, c'est vraiment de ne pas appréhender correctement ce qu'est cette technologie, comment elle fonctionne, quelles sont ses faiblesses et ses biais d'apprentissage. Et c'est justement en comprenant ses bénéfices et ses limites et en sortant un peu d'une logique du tout ou rien : soit c'est génial, ça répond à toutes les problématiques, ou au contraire, il y a des erreurs, donc c'est inutilisable, c'est vraiment en sortant de cette logique là qu'on peut vraiment exploiter au mieux les forces de ces modèles, tout en composant ces faiblesses.

Il est important de savoir qu'au delà de l'apprentissage automatique qui est fait sur la base de quantités faramineuses de données, OpenAI, par exemple, emploie des centaines de petites mains pour rectifier ou corriger les connaissances acquises. Car dans toutes les données intégrées, fort à parier qu'il y a beaucoup d'informations qui peuvent être racistes, sexistes, complotistes, voire immorales, et que ces modèles ne savent pas comprendre, assimiler et même hiérarchiser. Donc, à date, et c'est ma conviction et celle de l'existe également, c'est qu'il faut vraiment être extrêmement prudent et ne pas nécessairement utiliser ces modèles de langage comme des modèles de connaissance.

Cécile Chapeland Ponzio

Justement, comment est ce qu'on va les exploiter ? Comment est ce qu'on va les utiliser chez LexisNexis ?

Mathieu Balzarini

C'est vrai qu'une fois que j'ai dit tout ça, vous allez peut être me dire que l'on joue un peu trop avec le feu en utilisant ces modèles, surtout dans le monde du droit où, par définition, la sécurité juridique doit prévaloir dans les outils d'information que l'on met entre les mains de nos clients. Si je reviens un petit peu sur les quatre compétences des LLM évoquées précédemment, nous allons clairement exploiter les compétences de rédaction, de compréhension et de contextualisation, mais rester très prudents sur les connaissances juridiques en particulier, de ces modèles.

Mathieu Balzarini

Plus exactement, on va combiner ces trois compétences avec la richesse et la profondeur de nos contenus. Sans vouloir reprendre un peu le slogan d'une célèbre marque de restauration rapide, mais je dirais que le contenu juridique, c'est nous. Donc, on va vraiment s'appuyer sur la puissance et la richesse de nos contenus pour exploiter au mieux ces modèles et éviter ou en tout cas combler les différents biais qu'on a pu évoquer juste avant. Concrètement, ces briques vont venir compléter nos instruments de recherche pour, un, mieux comprendre la demande et la problématique qui va être exprimée par nos utilisateurs. Donc classiquement, aujourd'hui, lorsqu'on utilise nos outils, on raisonne et on interroge l'information à travers de mots clés. Là, on va plus être dans une présentation d'un contexte métier. Le système va être capable de dialoguer pour bien cerner la problématique que le client souhaite adresser. Donc ça, c'est vraiment mieux comprendre la demande, la problématique.

Deuxième chose, on va mieux orienter l'identification des contenus LexisNexis qui peuvent aider à résoudre la problématique juridique exprimée. Justement, là, en couplant ces technologies avec nos moteurs de recherche. Et enfin, on va être en mesure d'utiliser les capacités d'analyse, de synthèse pour restituer les informations qui seront issues de nos contenus en répondant à la problématique posée par le client. Et surtout, je rajouterais juste un dernier point, on va systématiquement garder la possibilité de citer les sources de contenu qui nous ont servi à apporter la réponse à l'utilisateur. Je pense qu'on est dans un milieu où on ne peut pas se contenter de proposer une boîte noire où le client pose une question et le système répond sans pouvoir citer ses sources. Il est extrêmement important qu'on puisse à tout moment donner de l'information pertinente en s'appuyant sur nos contenus tout en citant nos sources d'information.

Cécile Chapeland Ponzio
Ça, c'est ce que déploie actuellement LexisNexis et tous les ingénieurs qui y travaillent. Mais vous, comment vous voyez le déploiement de ces technologies dans le futur chez LexisNexis ?

Mathieu Balzarini

En premier lieu, ces technologies sont déjà intégrées dans nos solutions. Comme je l'ai évoqué tout à l'heure, depuis 2018, on y travaille activement. Mais c'est ce qu'elles servent aujourd'hui essentiellement à enrichir nos contenus en amont des produits. Par exemple, on utilise aujourd'hui le modèle qui s'appelle CamemBERT, qui est une adaptation française réalisée par l'INRIA du modèle BERT de Google, pour par exemple identifier, lorsque un de nos utilisateurs de nos produits consulte une décision de jurisprudence, pour identifier les décisions similaires. On utilise vraiment ce type de technologie pour essayer de trouver des documents similaires qui sont basés sur des éléments textuels qui sont proches de la décision qu'on a consultée.

Concernant les modèles plus récents de type GPT, nous venons d'annoncer la commercialisation de Lexis+AI aux États Unis, qui intègre justement ces technologies. Et comme évoqué, l'idée est vraiment là de coupler ces LLMs et leurs capacités avec la puissance de nos contenus d'une part, et avec nos capacités de recherche actuelles d'une part, d'autres pas. Ça nous permet donc d'exploiter au mieux les capacités de ces technologies, tout en limitant les biais qui sont relatifs à la connaissance telle qu'évoquée précédemment. Concernant le déploiement de Lexis+AI, et sachant que notre plateforme française, Lexis 360 Intelligence, partage les mêmes socles technologiques, nous sommes évidemment en train de procéder aux évaluations et aux adaptations nécessaires pour le proposer à nos clients prochainement.

Cécile Chapeland Ponzio

Donc, un présent et un futur très prometteurs.

Mathieu Balzarini

Tout à fait.

Cécile Chapeland Ponzio

Merci beaucoup Mathieu pour ces réponses très claires concernant l'IA Générative. C'était un plaisir de vous recevoir.

Mathieu Balzarini

Merci Cécile.

Cécile Chapeland Ponzio

C'était Lexis Info, le podcast d'actualité LexisNexis. Nous vous donnons rendez vous pour un nouvel épisode la semaine prochaine. Nous recevrons à cette occasion Sophie Coin Deleau, directrice de la stratégie France chez LexisNexis, pour nous parler des applications concrètes de l'usage des LLM dans les métiers du droit. Retrouvez tous nos épisodes sur les plateformes d'écoute à la demande ainsi que sur notre site lexisnexis.fr.

à écouter ici