Cet article explique le fonctionnement interne des grands modèles de langage (LLM) en se concentrant sur leur architecture basée sur les transformers. L’idée centrale est que ces modèles reposent sur des blocs de transformers répétés, dont les mécanismes clés (tokens, embeddings, attention, etc.) permettent de traiter le texte de manière efficace. Les différences entre modèles proviennent principalement des données d’entraînement, de leur taille et des ajustements post-formation.
L’auteur détaille le processus de conversion du texte en données exploitables par le modèle, notamment via la tokenisation, qui découpe les mots en sous-unités (souvent des sous-mots) pour équilibrer efficacité et généralisation. Les embeddings, matrices géantes associant à chaque token un vecteur de nombres, donnent un sens mathématique aux identifiants numériques. La positional encoding permet ensuite au modèle de comprendre l’ordre des tokens, tandis que les mécanismes d’attention et de multi-head attention facilitent les interactions entre eux.
Enfin, l’article aborde la prédiction du token suivant, cœur de la génération de texte, et distingue les éléments architecturaux communs (comme le residual stream ou la layer normalization) des variations propres à chaque modèle (vocabulaire, taille, données d’entraînement). L’objectif est de fournir une compréhension intuitive, sans entrer dans les détails mathématiques complexes.