Cet article explique le fonctionnement interne des grands modèles de langage (LLM) en se concentrant sur leur architecture basée sur les transformers. L’idée centrale est que ces modèles reposent sur des blocs de transformers répétés, dont les mécanismes clés (tokens, embeddings, attention, etc.) permettent de traiter le texte de manière efficace. Les différences entre modèles proviennent principalement des données d’entraînement, de leur taille et des ajustements post-formation.
L’auteur détaille le processus de conversion du texte en données exploitables par le modèle, notamment via la tokenisation, qui découpe les mots en sous-unités (souvent des sous-mots) pour équilibrer efficacité et généralisation. Les embeddings, matrices géantes associant à chaque token un vecteur de nombres, donnent un sens mathématique aux identifiants numériques. La positional encoding permet ensuite au modèle de comprendre l’ordre des tokens, tandis que les mécanismes d’attention et de multi-head attention facilitent les interactions entre eux.
Enfin, l’article aborde la prédiction du token suivant, cœur de la génération de texte, et distingue les éléments architecturaux communs (comme le residual stream ou la layer normalization) des variations propres à chaque modèle (vocabulaire, taille, données d’entraînement). L’objectif est de fournir une compréhension intuitive, sans entrer dans les détails mathématiques complexes.
Gee explique les mécanismes de l'économie de l'attention, en quoi c'est délétère à tous les niveaux (individuel comme social), et ce qui, selon lui, permettrait d'améliorer notre condition. Comme toujours, c'est plein d'humour et c'est sourcé.
L'article explore l'idée d'un décalage évolutif entre notre environnement ancestral et le monde moderne, en se concentrant sur l'attention. Tout comme la malbouffe exploite nos instincts pour nous pousser à trop manger, les médias numériques et les environnements de travail modernes exploitent nos tendances naturelles à prêter attention à certaines informations, comme le commérage ou les menaces potentielles, mais de manière disproportionnée et souvent sans valeur réelle. Cela conduit à une surconsommation d'informations superficielles et distractives, nuisant à notre capacité à nous concentrer profondément. L'auteur suggère que, bien que la volonté seule ne suffise pas à résoudre ce problème, nous pouvons redessiner notre environnement pour favoriser une consommation attentionnelle plus saine, par exemple en éliminant les médias sociaux et en privilégiant les contenus longs et curatés.
Ploum met en lumière les dangers de l'incapacité à maintenir son attention (exemple du haut responsable américain qui invite un journaliste par erreur), les dangers de l'addiction aux réseaux sociaux pour les politiciens et les dangers de l'utilisation de ChatGPT pour masquer son incompétence en entretien d'embauche... alors que celle-ci sera nécessairement révélée dès les premiers jours du travail. Il appelle à une meilleure éducation pour éviter ces écueils et à soutenir la génération suivante, qui montre un désir d'apprendre et de s'engager.
Les réflexions de Ploum sur le business de l'attention