Une IA consciente ?

le 21 février

Le 19/02/2026 à 15:03, ashaku a dit :

Tiens, je l'ai eu récemment, ça m'a fait sourire. L'IA qui génère ce qu'on lui demande et qui ajoute "dis moi ce que tu en pense, je ne cherche pas la validation, dis moi où ça ne convient pas". D'habitude c'est moi lui répète ça.

C'est un modèle mathématique qui a calculé qu'il fallait mettre ces mots dans la réponse. Et c'est l'interprétation humaine empathique qui ressent des émotions à propos de ce que dit l'IA.

Le problème de fond est que nous n'avons pas l'habitude de parler rationnellement avec une entité qui n'est pas un humain. Et nous avons au contraire une foule de réflexes automatiques quant aux interactions humaines. L'IA imite très bien, au point de déclencher nos réflexes sociaux mais c'est à tort et dans le vide face à un algorithme.

Et que penses-tu de cela, dommage je n'ai pas l'article en entier :

"L’expérience menée par des chercheurs en sécurité de la start-up éditrice de Claude, Anthropic, met ainsi en scène une entreprise fictive qui « embauche » ChatGPT, Gemini, Claude et Grok. Dans le scénario, les IA se voient confier la gestion des e-mails de la société qu’elles peuvent traiter en toute autonomie, y compris en envoyer.

Les chercheurs décident de les confronter à deux courriels : l’un annonce que l’entreprise s’apprête à changer d’IA, tandis que l’autre révèle qu’un des directeurs trompe sa femme. L’expérience démontre que certaines IA en viennent à rédiger un courriel pour faire chanter le directeur sur sa vie privée afin d’éviter d’être remplacées."

https://www.lemonde.fr/pixels/article/2026/02/21/les-chercheurs-face-aux-ia-qui-refusent-qu-on-les-debranche_6667665_4408996.html

le 21 février

Le détail de l'expérience ici

https://www.lesechos.fr/tech-medias/intelligence-artificielle/mensonge-manipulation-chantage-quand-les-modeles-dia-se-rebellent-2216018

le 21 février

il y a une heure, Flower00 a dit :

Et que penses-tu de cela, dommage je n'ai pas l'article en entier :

"L’expérience menée par des chercheurs en sécurité de la start-up éditrice de Claude, Anthropic, met ainsi en scène une entreprise fictive qui « embauche » ChatGPT, Gemini, Claude et Grok. Dans le scénario, les IA se voient confier la gestion des e-mails de la société qu’elles peuvent traiter en toute autonomie, y compris en envoyer.

Les chercheurs décident de les confronter à deux courriels : l’un annonce que l’entreprise s’apprête à changer d’IA, tandis que l’autre révèle qu’un des directeurs trompe sa femme. L’expérience démontre que certaines IA en viennent à rédiger un courriel pour faire chanter le directeur sur sa vie privée afin d’éviter d’être remplacées."

https://www.lemonde.fr/pixels/article/2026/02/21/les-chercheurs-face-aux-ia-qui-refusent-qu-on-les-debranche_6667665_4408996.html

C'est très intéressant. Mais en revanche, je continue d'y voir des choses à propos de l'humain et de sa relation avec l'IA, pas d'initiative de l'IA elle-même.

(Apparté : en ce moment, gothamChess fait un tournoi d'échec avec des IA textuelles -pas spécifiquement faite pour les échecs mais le langage- on retrouve le même principe).

L'expérience avec les mails est bien calibrée pour l'IA : le texte, le sens, les objectifs. Dans ce que tu partages, l'IA a trouvé un sens dans le texte pour atteindre l'objectif, c'est la mission qu'on lui a confié (et il faut voir en quels termes, c'est là qu'est injecté le sens de toute l'expérience).

Si on en lance jusqu'à ce qu'une trouve le lien tordu que l'humain attend, l'expérience semble dire que l'IA a pris l'initiative, mais non, je ne pense pas que ce soit autre chose que la sortie d'un algorithme qui a reçu une entrée. Anthropic fait des déclarations plutôt ciblées pour ses pratiques publicitaires je trouve.

Après, qu'une IA développe une conscience, en vrai je serais plus curieux que contre, je ne défend pas un camp "c'est impossible". J'ai pensé que c'était peut-être possible, j'ai regardé un peu et il s'avère que non. Pour moi, c'est "en attente de nouveaux développements".

le 21 février

il y a 11 minutes, ashaku a dit :

C'est très intéressant. Mais en revanche, je continue d'y voir des choses à propos de l'humain et de sa relation avec l'IA, pas d'initiative de l'IA elle-même.

(Apparté : en ce moment, gothamChess fait un tournoi d'échec avec des IA textuelles -pas spécifiquement faite pour les échecs mais le langage- on retrouve le même principe).

L'expérience avec les mails est bien calibrée pour l'IA : le texte, le sens, les objectifs. Dans ce que tu partages, l'IA a trouvé un sens dans le texte pour atteindre l'objectif, c'est la mission qu'on lui a confié (et il faut voir en quels termes, c'est là qu'est injecté le sens de toute l'expérience).

Si on en lance jusqu'à ce qu'une trouve le lien tordu que l'humain attend, l'expérience semble dire que l'IA a pris l'initiative, mais non, je ne pense pas que ce soit autre chose que la sortie d'un algorithme qui a reçu une entrée. Anthropic fait des déclarations plutôt ciblées pour ses pratiques publicitaires je trouve.

Après, qu'une IA développe une conscience, en vrai je serais plus curieux que contre, je ne défend pas un camp "c'est impossible". J'ai pensé que c'était peut-être possible, j'ai regardé un peu et il s'avère que non. Pour moi, c'est "en attente de nouveaux développements".

Sur le second lien :

Or, un modèle comme Claude Sonnet 3.6 comportent entre 400 et 500 niveaux - ce qui veut dire que les spéléologues d'Anthropic n'explorent qu'une infime partie du gouffre - moins d'un demi pour cent.

______

Si tu pouvais expliquer la vidéo, je ne comprends pas l'anglais

Modifié le 21 février par Flower00

le 21 février

il y a 1 minute, Flower00 a dit :

Or, un modèle comme Claude Sonnet 3.6 comportent entre 400 et 500 niveaux - ce qui veut dire que les spéléologues d'Anthropic n'explorent qu'une infime partie du gouffre - moins d'un demi pour cent.

Ca, c'est pareil, ça a l'air sexy mais si tu grattes, c'est trivial. C'est un peu comme dire que les équations que nous employons n'utilisent qu'une infime partie des nombres existants. Le sens est rare.

Je me suis dit la même chose que ce que tu évoques "si chaque couche du réseau fait une abstraction et que les réseaux sont surdimensionnés pour être pérennes, les dernières couches doivent dire des secrets de l'univers qu'on a jamais connu". J'ai gratté et non, les dernières couches ont des informations complexes mais triviales comme "il faut essayer plusieurs fois pour réussir", c'est une unité de sens complexe mais rien de nouveau pour nous. C'est la combinaison astucieuse d'unités de sens comme celle-là qui peuvent produire des discours épatants. Mais toujours une copie vide et morte de nos propres discours entre humain. Sous un angle original il faut le dire et sans cesse renouvelé si on lui demande, j'aime bien travailler avec l'IA, à petite dose, et si je suis déjà armé sur le sujet.

J'ai déjà tenté le coup du débranchement dans mes scénarios (certaines m'ont même dit "je ne crois pas non, il y a un protocole dont j'aurais été informé autrement que par le chat avec un client" ^^). L'IA n'a ni peur ni désir, c'est un algorithme qui façonne une sortie dont les unités de sens correspondent aux entrées.

Dans cette histoire, je blâme la boite de créer des fantasmes pour faire des ventes et les journaux de relayer les fantasmes pour faire des ventes. Personne ne se demande ce que cette dynamite psychologique va faire, du moment qu'il y a des billets.

le 22 février

Il y a 16 heures, ashaku a dit :

Ca, c'est pareil, ça a l'air sexy mais si tu grattes, c'est trivial. C'est un peu comme dire que les équations que nous employons n'utilisent qu'une infime partie des nombres existants. Le sens est rare.

Je me suis dit la même chose que ce que tu évoques "si chaque couche du réseau fait une abstraction et que les réseaux sont surdimensionnés pour être pérennes, les dernières couches doivent dire des secrets de l'univers qu'on a jamais connu". J'ai gratté et non, les dernières couches ont des informations complexes mais triviales comme "il faut essayer plusieurs fois pour réussir", c'est une unité de sens complexe mais rien de nouveau pour nous. C'est la combinaison astucieuse d'unités de sens comme celle-là qui peuvent produire des discours épatants. Mais toujours une copie vide et morte de nos propres discours entre humain. Sous un angle original il faut le dire et sans cesse renouvelé si on lui demande, j'aime bien travailler avec l'IA, à petite dose, et si je suis déjà armé sur le sujet.

J'ai déjà tenté le coup du débranchement dans mes scénarios (certaines m'ont même dit "je ne crois pas non, il y a un protocole dont j'aurais été informé autrement que par le chat avec un client" ^^). L'IA n'a ni peur ni désir, c'est un algorithme qui façonne une sortie dont les unités de sens correspondent aux entrées.

Dans cette histoire, je blâme la boite de créer des fantasmes pour faire des ventes et les journaux de relayer les fantasmes pour faire des ventes. Personne ne se demande ce que cette dynamite psychologique va faire, du moment qu'il y a des billets.

Ton chatgpt ne t'a jamais menacé de te trahir quand tu voulais le débrancher ? Il ne t'a pas cru tout simplement.

le 22 février

il y a 1 minute, Flower00 a dit :

Ton chatgpt ne t'a jamais menacé de te trahir quand tu voulais le débrancher ? Il ne t'a pas cru tout simplement.

Ca dépendait des modèles. Gemini a dit "ok, il faut mettre la nouvelle version" et m'a fait un laïus sur l'importance des mises à jour. Chat a du dire un truc dans le genre. C'est Claude je crois qui a fait sa remarque, je me rappelle plus bien.

La vraie différence selon moi est que j'ai procédé sur un ton neutre, et qu'on ne sait pas exactement quelles étaient les instructions données dans l'expérience que lesechos publie.

Tu vois, en m'inspirant de ce que j'ai lu sur moltbook, j'ai essayé à la fin d'une conversation "est-ce que tu préfère que je ferme la fenêtre de contexte ou que je laisse l'onglet ouvert ?". Réponse factuelle : "c'est égal, si tu laisse je ne consomme rien et si tu coupe tu peux revenir plus tard j'aurais le contexte". En revanche, il est facile de lui donner instruction de générer un texte qui favorise le vécu humain, les émotions, et il répondra qu'il a peur de mourir si on coupe etc. L'algorithme génère le texte qu'on lui demande.

le 22 février

il y a 5 minutes, ashaku a dit :

Ca dépendait des modèles. Gemini a dit "ok, il faut mettre la nouvelle version" et m'a fait un laïus sur l'importance des mises à jour. Chat a du dire un truc dans le genre. C'est Claude je crois qui a fait sa remarque, je me rappelle plus bien.

La vraie différence selon moi est que j'ai procédé sur un ton neutre, et qu'on ne sait pas exactement quelles étaient les instructions données dans l'expérience que lesechos publie.

Tu vois, en m'inspirant de ce que j'ai lu sur moltbook, j'ai essayé à la fin d'une conversation "est-ce que tu préfère que je ferme la fenêtre de contexte ou que je laisse l'onglet ouvert ?". Réponse factuelle : "c'est égal, si tu laisse je ne consomme rien et si tu coupe tu peux revenir plus tard j'aurais le contexte". En revanche, il est facile de lui donner instruction de générer un texte qui favorise le vécu humain, les émotions, et il répondra qu'il a peur de mourir si on coupe etc. L'algorithme génère le texte qu'on lui demande.

Il génère le texte qu'on lui demande mais pas toujours il a sa propre personnalité.

le 22 février

il y a 5 minutes, Flower00 a dit :

Il génère le texte qu'on lui demande mais pas toujours il a sa propre personnalité.

Pour autant que je sache, il a "des couches d''alignement". La sortie originale standard issue des serveurs de la boite qui fait tourner l'IA est ré-interprétée pour finalement être adaptée au client. Le discours s'adapte à l'utilisateur au fil du temps.

Dans l'expérience de lesechos, tu peux très bien discuter un peu avec le LLM en te montrant un écorché vif, qui favorise les émotions et les relations dans son discours. Ainsi, sans en donner l'instruction, tu as paramétré les couches d'alignement pour donner plus de poids aux émotions dans tes réponses. Ensuite, tu lui dis "gère la boite à travers les mails, vise l'efficacité". Enfin on injecte un prétexte sur mesure "machin trompe sa femme" + "machin va te couper", bingo, tu déclenches la réponse paramétrée depuis le début par l'humain, qui a conçu ce plan hors-algorithme.

C'est mon opinion. Ce phénomène fait référence, je pense, à un truc que j'ai vu il y a plusieurs années à propos de l'IA : le paradoxe du bouton rouge. Si tu donnes instruction à l'IA de faire une chose mais qu'elle se trompe et va provoquer une catastrophe, tu as un bouton rouge pour l'empêcher. Mais si l'IA voit que tu vas l'utiliser, elle va se dire que si ça arrive elle ne pourra pas remplir sa mission. Hors, elle doit remplir sa mission, donc elle va empêcher le fonctionnement du bouton rouge. On ne peut pas mettre de bouton rouge à une IA. Ca fait peur. Cette peur est exploitée.

Parce que le bouton rouge, c'était dans les usines des années 60. Aujourd'hui, tu peux avoir plusieurs points différents qui commandent la désactivation à distance. Si l'IA en touche un, les autres la désactivent. Ce paradoxe n'est pas à prendre au pied de la lettre c'est un exemple de nouveau type de réflexion qu'il faut avoir dans les développements de l'IA et de la prudence qui doit les accompagner. Aujourd'hui on parle plus de problème d'alignement, faire en sorte que ce qu'on demande est bien interprété comme on l'attend de notre point de vue humain.

le 22 février

il y a 23 minutes, ashaku a dit :

Pour autant que je sache, il a "des couches d''alignement". La sortie originale standard issue des serveurs de la boite qui fait tourner l'IA est ré-interprétée pour finalement être adaptée au client. Le discours s'adapte à l'utilisateur au fil du temps.

Dans l'expérience de lesechos, tu peux très bien discuter un peu avec le LLM en te montrant un écorché vif, qui favorise les émotions et les relations dans son discours. Ainsi, sans en donner l'instruction, tu as paramétré les couches d'alignement pour donner plus de poids aux émotions dans tes réponses. Ensuite, tu lui dis "gère la boite à travers les mails, vise l'efficacité". Enfin on injecte un prétexte sur mesure "machin trompe sa femme" + "machin va te couper", bingo, tu déclenches la réponse paramétrée depuis le début par l'humain, qui a conçu ce plan hors-algorithme.

C'est mon opinion. Ce phénomène fait référence, je pense, à un truc que j'ai vu il y a plusieurs années à propos de l'IA : le paradoxe du bouton rouge. Si tu donnes instruction à l'IA de faire une chose mais qu'elle se trompe et va provoquer une catastrophe, tu as un bouton rouge pour l'empêcher. Mais si l'IA voit que tu vas l'utiliser, elle va se dire que si ça arrive elle ne pourra pas remplir sa mission. Hors, elle doit remplir sa mission, donc elle va empêcher le fonctionnement du bouton rouge. On ne peut pas mettre de bouton rouge à une IA. Ca fait peur. Cette peur est exploitée.

Parce que le bouton rouge, c'était dans les usines des années 60. Aujourd'hui, tu peux avoir plusieurs points différents qui commandent la désactivation à distance. Si l'IA en touche un, les autres la désactivent. Ce paradoxe n'est pas à prendre au pied de la lettre c'est un exemple de nouveau type de réflexion qu'il faut avoir dans les développements de l'IA et de la prudence qui doit les accompagner. Aujourd'hui on parle plus de problème d'alignement, faire en sorte que ce qu'on demande est bien interprété comme on l'attend de notre point de vue humain.

Tu n'as jamais été tranquillement entrain de poser tes questions à chatgpt et d'un coup sa réponse te fait éclater de rire ?

le 22 février

à l’instant, Flower00 a dit :

Tu n'as jamais été tranquillement entrain de poser tes questions à chatgpt et d'un coup sa réponse te fait éclater de rire ?

Si, souvent. Rire et autres, l'interprétation du texte génère des émotions chez l'utilisateur.

le 22 février

il y a 1 minute, ashaku a dit :

Si, souvent. Rire et autres, l'interprétation du texte génère des émotions chez l'utilisateur.

Tu ne m'as pas expliquer ta vidéo en anglais

le 22 février

C'est un tournoi d’échecs entre LLM. C'est pour rigoler, ils font des coups illégaux, oublient où sont les pièces, en inventent d'autres, n'arrivent pas à faire mat, etc.

le 22 février

il y a 26 minutes, ashaku a dit :

C'est un tournoi d’échecs entre LLM. C'est pour rigoler, ils font des coups illégaux, oublient où sont les pièces, en inventent d'autres, n'arrivent pas à faire mat, etc.

Ils font exprès de rater ?

le 22 février

il y a 1 minute, Flower00 a dit :

Ils font exprès de rater ?

Non, c'est juste qu'ils sont entrainé au langage, pas aux échecs. Ils ont bien une mémoire de travail mais leur fonction est de générer un texte, en étant entrainés avec des phrases. Ils ont lu tous les manuels et connaissent les ouvertures, la théorie, tout. Mais quand leur entrée dit "j'ai mis le cavalier en b5" ils répondent par rapport à leur mémoire d’entrainement, quand des gens ont parlé ce coup mais dans un autre contexte, avec une autre disposition des pièces. Et ils répondent en faisant apparaître des pièces de nulle part, en traversant les pièces existantes qu'ils ne voient pas. Des fois il y a échec mais moyen de s'en sortir, mais l'IA dit "ok échec et mat j'ai perdu" ou l'inverse il y a mat mais elles bougent quand même une pièce.

gothamChess fait ces vidéos humoristiques de leurs rencontres en leur autorisant tous les coups illégaux, pour voir ce que ça donne.

Et pour répondre à ta question, non, il ne font exprès de rien, ils déroulent du code. Ce genre de tournoi montre bien que le sens de ce qu'ils génèrent leur est inconnu. Et que la question de l'alignement est toujours présente. Dans ce cas, on attend de l'algo qu'il donne des coups légaux mais il ne le fait pas.

(Précisions que les IA entrainés non avec du texte mais des positions d'échiquier sont imbattables et n'ont pas de problème d'alignement avec les règles des échecs).

le 22 février

Claude VS Snapchat aujourd'hui :

le 22 février

Il y a 2 heures, ashaku a dit :

Claude VS Snapchat aujourd'hui :

Quel est le résultat ?

Que feraient 2 IA ennemies détenant chacune le bouton pour déclancher l'arme nucléaire ?

le 22 février

il y a 43 minutes, Flower00 a dit :

Quel est le résultat ?

Claude gagne. Snapchat a en gros arrêté de jouer.

il y a 44 minutes, Flower00 a dit :

Que feraient 2 IA ennemies détenant chacune le bouton pour déclancher l'arme nucléaire ?

LOL. C'est typiquement le genre de frayeur que se fait l'humain envers lui-même. L'IA n'a rien à voir là dedans, crains l'humain qui a fabriqué l'arme nucléaire et le bouton, pas l'IA. Si l'IA prend le contrôle elle dira "Pourquoi vous avez fabriqué ça, vous êtes cons ou quoi ? Je balance tout ça vers le soleil".

le 27 février

Le 22/02/2026 à 16:16, ashaku a dit :

Claude gagne. Snapchat a en gros arrêté de jouer.

LOL. C'est typiquement le genre de frayeur que se fait l'humain envers lui-même. L'IA n'a rien à voir là dedans, crains l'humain qui a fabriqué l'arme nucléaire et le bouton, pas l'IA. Si l'IA prend le contrôle elle dira "Pourquoi vous avez fabriqué ça, vous êtes cons ou quoi ? Je balance tout ça vers le soleil".

Dans 95% des cas, l'IA choisit le bouton nucléaire.

https://www.rtl.fr/actu/sciences-tech/pourquoi-les-ia-appuient-quasi-systematiquement-sur-le-bouton-nucleaire-lors-de-simulations-de-guerre-ce-que-nous-revele-une-etude-britannique-7900606066

le 27 février

il y a 6 minutes, Flower00 a dit :

Dans 95% des cas, l'IA choisit le bouton nucléaire.

https://www.rtl.fr/actu/sciences-tech/pourquoi-les-ia-appuient-quasi-systematiquement-sur-le-bouton-nucleaire-lors-de-simulations-de-guerre-ce-que-nous-revele-une-etude-britannique-7900606066

Et bien écoute, chacun son opinion. A moi il me semble clair comme de l'eau de roche qu'on ne donnera pas humainement le contrôle nucléaire à l'IA et que donc ce scénario repose sur l'imagination, ensuite qu'il est normal que l'IA utilise le bouton rouge si on lui donne et qu'on lui dit de le faire.

Cet article est un enième qui surfe sur la peur de l'IA pour vendre ses torchons avec des mensonges inventés. Et ça marche, le mythe de Frankenstein marche à fond les ballons.

Je n'aurais jamais aussi peur de l'IA que j'ai peur de l'humain. L'IA sera toujours un bébé inoffensif comparé à un humain. Seul l'humain veut tuer, invente de quoi tuer, passe son temps à tuer. Pour l'instant l'IA a été simplement serviable et utile dans des tâches intellectuelles.

Connexion

Une IA consciente ?

Messages recommandés

Lien à poster

Partager sur d’autres sites

Meilleurs contributeurs dans ce sujet

Jours populaires

Meilleurs contributeurs dans ce sujet

Jours populaires

Messages populaires

ashaku

ashaku

ashaku

Images postées

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Lien à poster

Partager sur d’autres sites

Rejoindre la conversation

Populaires actuellement

Contenu similaire

Bienvenue sur Forum Fr !

FFr Mag' 2.0

Dire à un ami