Ils donnent leur entreprise à ChatGPT ... voici le résultat.

3 months ago
4

Dans cette vidéo, j'analyse une étude scientifique fascinante appelée "Vending Bench" qui teste la capacité des grands modèles d'IA à gérer une entreprise de distributeurs automatiques sur le long terme. Je présente les résultats surprenants montrant que Claude 3.5 Sonnet surpasse largement les autres modèles (et même un humain) en quintuplant son capital initial. Mais l'aspect le plus révélateur est l'observation des "meltdowns" - ces moments où les IA perdent totalement le fil, allant jusqu'à contacter le FBI ou menacer des fournisseurs fictifs. Ces défaillances soulèvent des questions fondamentales sur la cohérence à long terme des modèles actuels et leur capacité à devenir de véritables agents autonomes dans le monde réel.

Loading comments...