Cette page explique le fonctionnement des grands modèles de langage (LLM) comme ChatGPT, depuis la collecte des données jusqu’à leur utilisation finale. Elle détaille notamment la phase de pré-entraînement, où des milliards de pages web sont filtrées pour constituer un jeu de données de haute qualité, comme FineWeb (44 To, 15 000 milliards de tokens). L’étape clé de ce processus est la qualité et la diversité des données, qui influencent davantage les performances du modèle que d’autres paramètres.
Le texte aborde ensuite la tokenisation, une étape essentielle où le texte brut est transformé en unités numériques (tokens) via des algorithmes comme Byte Pair Encoding (BPE). Cette méthode permet de compresser efficacement le texte tout en gérant les variations linguistiques, comme les conjugaisons ou les mots composés. Les modèles modernes utilisent des vocabulaires de plusieurs dizaines de milliers de tokens pour couvrir un large éventail de contenus.
Enfin, la page souligne l’ampleur des ressources nécessaires à l’entraînement des LLM, avec des chiffres représentatifs des modèles de pointe en 2024 (15 000 milliards de tokens, 405 milliards de paramètres). Elle met en lumière l’importance des pipelines de traitement automatisés, comme celui de Common Crawl, qui nettoient et structurent des pétaoctets de données brutes avant leur utilisation.
Margaret Mitchell, co-autrice de l'article "Stochastic Parrots", répond à une confusion croissante : les grands modèles de langage (LLM) comme les IA génératives sont parfois qualifiés de "perroquets stochastiques", mais cette appellation ne s'applique qu'à eux, et non à l'IA dans son ensemble. Elle souligne que l'IA englobe bien d'autres technologies (règles déterministes, algorithmes, etc.), et que le fonctionnement des LLM, basé sur des prédictions statistiques de séquences textuelles, est en réalité une prouesse technique remarquable. Mitchell défend aussi l'idée que cette métaphore, bien que critique, reconnaît implicitement l'efficacité des LLM. Un débat technique et philosophique à suivre !
Stéphane Bortzmeyer explique pourquoi le terme « propagation » est impropre pour décrire la mise à jour des données DNS. Contrairement à des protocoles comme BGP, le DNS fonctionne en pull (tirage) : les résolveurs demandent les informations aux serveurs faisant autorité, qui les conservent en cache selon un TTL (Time To Live) défini. Plutôt que de « propager », les données sont « réjuvénées » (terme proposé par Michel Py) lorsque le cache expire. L’auteur illustre ce mécanisme avec des exemples concrets via dig, montrant comment le TTL contrôle la durée de validité des réponses. Une lecture éclairante pour comprendre le fonctionnement réel du DNS !
Cet article explore le fonctionnement des coding agents, des outils qui combinent un modèle de langage (LLM) avec des capacités supplémentaires via des outils appelables. L'auteur explique comment les LLM, comme GPT ou Claude, génèrent du texte à partir de tokens (unités de traitement facturées), et comment les coding agents optimisent les interactions en utilisant des prompts structurés en conversation et en exploitant le token caching pour réduire les coûts. Un guide technique utile pour comprendre les mécanismes derrière ces assistants IA.
Ce site interactif explique le fonctionnement des terminaux. Il décrit le modèle de grille de caractères, les cellules contenant un caractère et des informations de style, les séquences d'échappement pour contrôler le terminal, la gestion des entrées clavier et des signaux comme Ctrl+C, ainsi que les modes cuit et cru pour le traitement des entrées. Une ressource pédagogique pour comprendre les bases des terminaux.
Tout est dans le titre
Ploum explique le fonctionnement des logiciels de navigation... et pourquoi il est difficile de passer aux alternatives libres
Tout est dans le titre
Une explication du fonctionnement de rsync, très ingénieux
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre