Ce billet de blog explore les limites des grands modèles de langage (LLM) en matière de génération de code correct, en se concentrant sur un exemple concret : une réécriture en Rust d'une base de données SQLite générée par un LLM. Bien que le code compilé semble fonctionner et passe les tests, il s'avère être environ 20 000 fois plus lent que l'original pour des opérations de base. L'auteur souligne que les LLM optimisent pour la plausibilité plutôt que pour la correction, et souligne l'importance de définir des critères d'acceptation clairs avant de générer du code. L'article inclut des benchmarks détaillés et une analyse du code pour illustrer ces problèmes, tout en reconnaissant les avantages des LLM pour accélérer le développement d'idées.
26626 shaares