Être informé des épisodes, recommandations de lecture, réflexion
#261 Chat GPT, les intelligences artificielles face à l’humanité avec Victor Storchan
VLAN! Podcast
#261 Chat GPT, les intelligences artificielles face à l'humanité avec Victor Storchan
/
GREGORY : Bonjour à toutes, bonjour à tous, bonjour, Victor !
VICTOR : Bonjour.
GREGORY : Comment tu vas aujourd’hui?
VICTOR : Très, très bien. Merci.
GREGORY : On va parler D’un sujet qui fait énormément parler en ce moment, qui s’appelle ChatGPT. Mais on va parler d’IA de manière plus générale. C’est un sujet que j’ai déjà pas mal traité sur ce podcast et dont on parle depuis un petit moment. En réalité, c’est pas, c’est pas un sujet nouveau, mais j’ai l’impression que Chatgpt, ça a un peu changé la donne. Peut être la question première, pourquoi on parle autant de chatgpt. Est-ce que c’est vraiment un game changer, quelque chose qui change la donne?
VICTOR : Sur la question de définition, c’est vrai que C’est une vraie question, puisque il n’y a aucun expert qui s’accorde sur une définition particulière de l’IA on peut dire que C’est la capacité des machines à effectuer des tâches au niveau de ce Qu’on peut faire un humain, ou mieux, ce Qu’on voit quand même. Que C’est une question qui donne vraiment beaucoup de fils art ordre, par exemple, aux législateurs sur tous les textes de régulation de l’IA ou il y a une problématique qui reviennent plusieurs fois sur la définition, et les experts ne se posent même plus la question et se définissent en fonction des sous domaines de l’IA des types d’algorithmes ou des types de tâches qui sont faits et qui sont, qui sont faits par ces systèmes. Et donc, c’est vrai que, au départ, c’est un terme qui a été introduit par marvin minsky et je Martin en 1956, lors d’une école D’été et ce terme est un peu marketing et vient en opposition pour se démarquer de la Cybernétique et pour pouvoir donner une nouvelle impulsion à ce, à ce domaine. Sur la seconde question, c’est vrai que chatgpt, C’est l’incarnation D’un nouveau paradigme et de la fulgurance technologique, algorithmique Qu’on est en train de vivre actuellement, où on s’est aperçu qu’en passant à l’échelle en scalant les data set et les modèles d’ia c’est-à-dire toujours plus grande de paramètres, on en est à des centaines de milliards de paramètres, de petits boutons qu’on va tourner pour ajuste. C’était le modèle, on a, on obtient des capacités nouvelles d’émergence de ces systèmes, qui sont très surprenantes et qui font que ces systèmes ont donc de nouvelles, de nouvelles capacités. Et oui, ça marque quand même un vrai changement dans la nature, la nature de ces systèmes, même si la technologie sous sous jacente des modèles de langue, langage, modèle est là depuis un certain nombre d’années.
VICTOR : Voyez les doucement, parce que je pense que l’idée aussi pour cet épisode, et on a le temps, c’est de comprendre ce que C’est mais aussi les enjeux de chatgpt. J’utilise chatgpt en sachant très bien que C’est la partie émergée de l’iceberg et on va parler aussi de toute la partie immergée, parce que C’est la partie qui me semble la plus C’est, la plus intéressante, mais, en tout cas qui permet de mieux comprendre l’intégralité de ce qui est en train de se passer. Est-ce que tu peux nous rappeler, est-ce que, d’abord est-ce que C’est vraiment une intelligence, l’intelligence artificielle? Est-ce que, est-ce que ce terme là, il te, il te pose problème?
GREGORY : Sans intelligence artificielle, c’est vrai que les deux mots posent problème, et intelligence artificielle, intelligence. Je pense que tout le monde comprend pourquoi ça pose problème. C’est vrai que C’est un peu, on veut un espèce de anthropomorphisme où on veut une analogie avec l’intelligence humaine. Les systèmes actuels, même si ils s’inspirent de loin des processus biologistes, processus biologiques, pardon, ont rien à voir avec eux. Et ensuite artificiel pose aussi un problème. Ça, c’est des travail, des travaux qui ont été vraiment documentés par des gens comme ce crawford Antonio Casilli. Pour produire ces systèmes, on a besoin encore de beaucoup de données labelliser et de gens qui viennent sur des plateformes labelliser énormément de données. C’est souvent des tâches qui sont externalisées. Il y a de l’intelligence humaine pour produire ces systèmes.
VICTOR : Et peut être qu’on peut préciser aussi, parce que quand on réfléchit à l’ia, il faut aussi, peut être expliquer comment ça marche. En gros, c’est des bases de données d’information qui sont, ce que tu disais, labellisé par des humains. Il y a de l’intelligence humaine qui est intégré à ce moment là. Plus la base donnée est large, plus comme utiliser expression et elle peut se nourrir, apprendre, parce qu’on appelle du machine lerning C’est ça, je me trompe pas.
GREGORY : Sur l’entraînement comment est crée un système comme chat Bity? La base du système, c’est justement un modèle de langue et là, pour le coup, ça va être fait de manière totalement non supervisé. Les dates à sept, on peut S’imaginer ça comme du scrapping, c’est-à-dire qu’on va aller agréger une grande partie des textes qui sont sur internet. Et parmi les textes qui sont sur internet, il y a une grande partie de réseaux sociaux. Ça pose problème. On y reviendra plus tard et on va apprendre à ce langage de base: prédire le prochain mot. On n’est même pas au niveau du mot, on est au niveau de ce Qu’on appelle un token, des parties de mots et dans la phrase, on masque, on masque à mon masque un token, et puis on demande au modèle de le prédire. Et c’est complètement supervisé, de manière automatique, puisqu’on sait le mot Qu’on a caché. Ça, ça donne le modèle de langue. On fait ça sur des énormes systèmes et ensuite, pour chapite, on va ce Qu’on appelle faire deux autres entraînements supplémentaires. D’abord on va faire un entraînement supervisé, on va lui donner des tâches à faire et on aura justement des gens qui auront labellisé des bons exemples de réponses Qu’on va lui donner et qui va apprendre. Et ensuite, on va lui faire générer plusieurs textes et on va demander encore une fois à des humains de classer ces textes selon tout un tas de critères. Est-ce que le texte répond bien, par exemple, à une expérience de dialogue? Dans le cas de chapitre, est-ce que le texte présente du contenu toxique ou pas? Et une fois qu’on a tout ces classements, on va pouvoir apprendre un autre modèle pour scorer ces textes qui ont été générés par le modèle et ensuite, on va rentraîner le modèle avec ce nouveau modèle de préférences utilisateurs, qui donnent des scores aux textes qui ont été géré par le modèle de base pour pouvoir, on appelle ça, l’aligner sur les préférences humaines, sur les préférences des utilisateurs. Donc, c’est vraiment ces trois couches successives qui sont à l’œuvre dans dans dans la production de chaib.
GREGORY : J’ai posé une question et que t’as la réponse, mais ça m’interpelle c’est qui c’est humains qui apprennent aux machines?
VICTOR : C’est c’est qui? Et ils sont où ces deux questions qui sont très, très pertinentes. Donc, les boîtes, ce Qu’on appelle provider de système dacom open, qui est à l’origine de chatgpt, ou d’autres utilisent des, des, des externalisent cette partie là, des sous traitants qui sont des plateformes qui vont se charger de recruter ces humains et en général, ils sont pas du tout dans la même région. C’est souvent du travail précaire. Beaucoup de plates-formes recrute, par exemple en Afrique, et dans le cas de chatgpt, c’est une étude, je crois, du time, qui a révélé que ça s’est fait principalement au kenya, où ces travailleurs étaient payés de de l’art de l’heure pour effectuer, pour effectuer ces tâches.
GREGORY : Je suis pas très surpris en même temps, mais ce qui est terrible, C’est qu’on est en train de d’utiliser des gens précaires pour les rendre encore plus précaire que C’est l’association que j’ai quelque part.
VICTOR : Tout à fait, c’est vrai que, en plus, ils sont soumis si on leur demande, par exemple, ce qui a été le cas pour chat GPT, de classer du contenu toxique avec toutes les catégories de contenu toxique Qu’on peut imaginer. On se doute bien que non seulement la tâche est mal rémunérés, mais qu’en plus, d’un point de vue psychologique, ça peut avoir de vrais impacts. Et on voit clairement une dissociation entre globalement, le nord, dans lequel et produit les systèmes d’IA et puis le sud, dans lequel on veut un peu cacher cette partie de l’entraînement de l’IA qui nécessite vraiment de l’humain et c’est intéressant de voir que ce sont des sous traitants. On ne fait pas trop de pub, le grand public est pas trop au cours.
Description de l’épisode
Victor Storchan est le lead d’intelligence Artificielle chez Mozilla (Firefox), expert en Machine Learning, CEO d’une structure qu’il a créé et dédiée à l’IA (Althiqa).
Bref, il fait parti de ces excellents professionnels français spécialistes de l’intelligence artificielle.
Depuis que Chat GPT a sorti sa première beta, j’ai l’impression que le grand public a enfin appris que l’intelligence artificielle était une réalité. Ou peut-être que c’est que dans ma bulle, c’est aussi possible.
Pourtant, cette vidéo qui date de 2014 (9 ans donc) expliquait déjà tout cela très bien. D’ailleurs, elle avait un nom très clair : human need not apply.
Pourtant si tout le monde a déjà un avis très tranché (est-ce qu’il est possible de dire qu’on ne sait pas trop encore aujourd’hui ou qu’on a un avis nuancé?) sur le sujet, je crois que beaucoup de personnes ne savent pas précisément de quoi il en retourne.
J’ai déjà fait plusieurs épisodes sur l’IA que je vais mettre en lien avec cet épisode mais je voulais revenir aux bases et explorer aussi de quoi l’on parle, où est ce que l’on va, les conséquences que cela va avoir sur l’école et l’apprentissage de manière générale, sur le travail, sur la médecine et surtout de nombreuses industries.
Avec Victor nous traitons de beaucoup de sujets et j’ai essayé de poser les questions que vous devriez vraiment vous poser:
Pourquoi parle-t-on autant de Chat GPT ?
Est-ce que l’on peut parler “d’intelligence” quand on fait référence à Chat GPT ?
Comment fonctionne le machine learning ? Qui nourrit les bases de données ?
Qui sont les humains qui apprennent aux machines ?
On utilise des personnes précaires pour nourrir des machines afin de les rendre encore plus précaires ?
Quels sont les usages d’un IA de langage comme Chat GPT ?
Est-ce que c’est vraiment proche de ce qu’un humain pourrait faire ?
L’IA va-t-elle remplacer les humains ?
Faut-il se méfier des réponses de chat GPT ?
Pourquoi et comment une IA peut déraper ?
Comment ne pas intégrer de biais cognitifs dans l’IA et dans chat GPT ?
Quelles sont les bonnes valeurs pour avoir une IA éthique ?
Pourquoi la problématique de l’IA amène généralement des problématiques de géopolitiques?
Que peut faire chat GPT ?
Qu’est ce qui c’est passé en 2012 dans le monde de l’IA ?
Vers quel genre de job un adolescent doit se diriger dans un monde ou l’IA prend de la place?
l’IA nous oblige-t-elle a devenir plus humain?
Peut-on envisager d’avoir une relation amoureuse avec une IA comme dans le film Her?
Pourquoi est-ce un problème qui l’IA apprenne via les médias sociaux?
Quelles sont toutes les choses que le grand public ne voit dans l’évolution de l’IA?
Peux-tu expliquer Dall-E?
Peux-tu expliquer Github copilot?
Bref, il fait parti de ces excellents professionnels français spécialistes de l’intel…
#261 Chat GPT, les intelligences artificielles face à l'humanité avec Victor Storchan
/
GREGORY : Bonjour à toutes, bonjour à tous, bonjour, Victor !
VICTOR : Bonjour.
GREGORY : Comment tu vas aujourd’hui?
VICTOR : Très, très bien. Merci.
GREGORY : On va parler D’un sujet qui fait énormément parler en ce moment, qui s’appelle ChatGPT. Mais on va parler d’IA de manière plus générale. C’est un sujet que j’ai déjà pas mal traité sur ce podcast et dont on parle depuis un petit moment. En réalité, c’est pas, c’est pas un sujet nouveau, mais j’ai l’impression que Chatgpt, ça a un peu changé la donne. Peut être la question première, pourquoi on parle autant de chatgpt. Est-ce que c’est vraiment un game changer, quelque chose qui change la donne?
VICTOR : Sur la question de définition, c’est vrai que C’est une vraie question, puisque il n’y a aucun expert qui s’accorde sur une définition particulière de l’IA on peut dire que C’est la capacité des machines à effectuer des tâches au niveau de ce Qu’on peut faire un humain, ou mieux, ce Qu’on voit quand même. Que C’est une question qui donne vraiment beaucoup de fils art ordre, par exemple, aux législateurs sur tous les textes de régulation de l’IA ou il y a une problématique qui reviennent plusieurs fois sur la définition, et les experts ne se posent même plus la question et se définissent en fonction des sous domaines de l’IA des types d’algorithmes ou des types de tâches qui sont faits et qui sont, qui sont faits par ces systèmes. Et donc, c’est vrai que, au départ, c’est un terme qui a été introduit par marvin minsky et je Martin en 1956, lors d’une école D’été et ce terme est un peu marketing et vient en opposition pour se démarquer de la Cybernétique et pour pouvoir donner une nouvelle impulsion à ce, à ce domaine. Sur la seconde question, c’est vrai que chatgpt, C’est l’incarnation D’un nouveau paradigme et de la fulgurance technologique, algorithmique Qu’on est en train de vivre actuellement, où on s’est aperçu qu’en passant à l’échelle en scalant les data set et les modèles d’ia c’est-à-dire toujours plus grande de paramètres, on en est à des centaines de milliards de paramètres, de petits boutons qu’on va tourner pour ajuste. C’était le modèle, on a, on obtient des capacités nouvelles d’émergence de ces systèmes, qui sont très surprenantes et qui font que ces systèmes ont donc de nouvelles, de nouvelles capacités. Et oui, ça marque quand même un vrai changement dans la nature, la nature de ces systèmes, même si la technologie sous sous jacente des modèles de langue, langage, modèle est là depuis un certain nombre d’années.
VICTOR : Voyez les doucement, parce que je pense que l’idée aussi pour cet épisode, et on a le temps, c’est de comprendre ce que C’est mais aussi les enjeux de chatgpt. J’utilise chatgpt en sachant très bien que C’est la partie émergée de l’iceberg et on va parler aussi de toute la partie immergée, parce que C’est la partie qui me semble la plus C’est, la plus intéressante, mais, en tout cas qui permet de mieux comprendre l’intégralité de ce qui est en train de se passer. Est-ce que tu peux nous rappeler, est-ce que, d’abord est-ce que C’est vraiment une intelligence, l’intelligence artificielle? Est-ce que, est-ce que ce terme là, il te, il te pose problème?
GREGORY : Sans intelligence artificielle, c’est vrai que les deux mots posent problème, et intelligence artificielle, intelligence. Je pense que tout le monde comprend pourquoi ça pose problème. C’est vrai que C’est un peu, on veut un espèce de anthropomorphisme où on veut une analogie avec l’intelligence humaine. Les systèmes actuels, même si ils s’inspirent de loin des processus biologistes, processus biologiques, pardon, ont rien à voir avec eux. Et ensuite artificiel pose aussi un problème. Ça, c’est des travail, des travaux qui ont été vraiment documentés par des gens comme ce crawford Antonio Casilli. Pour produire ces systèmes, on a besoin encore de beaucoup de données labelliser et de gens qui viennent sur des plateformes labelliser énormément de données. C’est souvent des tâches qui sont externalisées. Il y a de l’intelligence humaine pour produire ces systèmes.
VICTOR : Et peut être qu’on peut préciser aussi, parce que quand on réfléchit à l’ia, il faut aussi, peut être expliquer comment ça marche. En gros, c’est des bases de données d’information qui sont, ce que tu disais, labellisé par des humains. Il y a de l’intelligence humaine qui est intégré à ce moment là. Plus la base donnée est large, plus comme utiliser expression et elle peut se nourrir, apprendre, parce qu’on appelle du machine lerning C’est ça, je me trompe pas.
GREGORY : Sur l’entraînement comment est crée un système comme chat Bity? La base du système, c’est justement un modèle de langue et là, pour le coup, ça va être fait de manière totalement non supervisé. Les dates à sept, on peut S’imaginer ça comme du scrapping, c’est-à-dire qu’on va aller agréger une grande partie des textes qui sont sur internet. Et parmi les textes qui sont sur internet, il y a une grande partie de réseaux sociaux. Ça pose problème. On y reviendra plus tard et on va apprendre à ce langage de base: prédire le prochain mot. On n’est même pas au niveau du mot, on est au niveau de ce Qu’on appelle un token, des parties de mots et dans la phrase, on masque, on masque à mon masque un token, et puis on demande au modèle de le prédire. Et c’est complètement supervisé, de manière automatique, puisqu’on sait le mot Qu’on a caché. Ça, ça donne le modèle de langue. On fait ça sur des énormes systèmes et ensuite, pour chapite, on va ce Qu’on appelle faire deux autres entraînements supplémentaires. D’abord on va faire un entraînement supervisé, on va lui donner des tâches à faire et on aura justement des gens qui auront labellisé des bons exemples de réponses Qu’on va lui donner et qui va apprendre. Et ensuite, on va lui faire générer plusieurs textes et on va demander encore une fois à des humains de classer ces textes selon tout un tas de critères. Est-ce que le texte répond bien, par exemple, à une expérience de dialogue? Dans le cas de chapitre, est-ce que le texte présente du contenu toxique ou pas? Et une fois qu’on a tout ces classements, on va pouvoir apprendre un autre modèle pour scorer ces textes qui ont été générés par le modèle et ensuite, on va rentraîner le modèle avec ce nouveau modèle de préférences utilisateurs, qui donnent des scores aux textes qui ont été géré par le modèle de base pour pouvoir, on appelle ça, l’aligner sur les préférences humaines, sur les préférences des utilisateurs. Donc, c’est vraiment ces trois couches successives qui sont à l’œuvre dans dans dans la production de chaib.
GREGORY : J’ai posé une question et que t’as la réponse, mais ça m’interpelle c’est qui c’est humains qui apprennent aux machines?
VICTOR : C’est c’est qui? Et ils sont où ces deux questions qui sont très, très pertinentes. Donc, les boîtes, ce Qu’on appelle provider de système dacom open, qui est à l’origine de chatgpt, ou d’autres utilisent des, des, des externalisent cette partie là, des sous traitants qui sont des plateformes qui vont se charger de recruter ces humains et en général, ils sont pas du tout dans la même région. C’est souvent du travail précaire. Beaucoup de plates-formes recrute, par exemple en Afrique, et dans le cas de chatgpt, c’est une étude, je crois, du time, qui a révélé que ça s’est fait principalement au kenya, où ces travailleurs étaient payés de de l’art de l’heure pour effectuer, pour effectuer ces tâches.
GREGORY : Je suis pas très surpris en même temps, mais ce qui est terrible, C’est qu’on est en train de d’utiliser des gens précaires pour les rendre encore plus précaire que C’est l’association que j’ai quelque part.
VICTOR : Tout à fait, c’est vrai que, en plus, ils sont soumis si on leur demande, par exemple, ce qui a été le cas pour chat GPT, de classer du contenu toxique avec toutes les catégories de contenu toxique Qu’on peut imaginer. On se doute bien que non seulement la tâche est mal rémunérés, mais qu’en plus, d’un point de vue psychologique, ça peut avoir de vrais impacts. Et on voit clairement une dissociation entre globalement, le nord, dans lequel et produit les systèmes d’IA et puis le sud, dans lequel on veut un peu cacher cette partie de l’entraînement de l’IA qui nécessite vraiment de l’humain et c’est intéressant de voir que ce sont des sous traitants. On ne fait pas trop de pub, le grand public est pas trop au cours.