Quotidien Shaarli

Tous les liens d'un jour sur une page.

Aujourd'hui - February 28, 2026

Skill Eval · Minko Gechev's blog

Minko Gechev présente Skill Eval, un framework TypeScript pour tester les compétences des agents IA comme Gemini CLI et Claude Code. Il souligne l'importance de tester ces compétences, comparables à du code, pour éviter des comportements inattendus. Skill Eval évalue les agents en les exécutant dans des conteneurs Docker et en notant leurs performances. Il propose d'intégrer ces tests dans les pipelines CI/CD pour garantir la fiabilité des compétences des agents. Le framework permet d'utiliser des évaluateurs déterministes ou basés sur des rubriques LLM, et recommande de réaliser plusieurs essais pour évaluer à la fois les capacités et la fiabilité des compétences.

Yet Another Way to Center an (Absolute) Element | CSS-Tricks

Cet article de CSS-Tricks présente une méthode concise pour centrer un élément positionné absolument en CSS, utilisant seulement trois lignes de code. La technique exploite les propriétés place-self: center et inset: 0, qui fonctionnent sur tous les navigateurs. L'auteur explique que cette approche est plus idiomatique et réutilise les propriétés d'alignement familières, tout en offrant une flexibilité pour positionner les éléments de manière précise. Un bon rappel pour les amateurs de CSS!

AddyOsmani.com - The Factory Model: How Coding Agents Changed Software Engineering

Addy Osmani explore l'évolution récente de l'ingénierie logicielle avec l'émergence des agents de codage, marquant un changement significatif dans la manière dont les développeurs travaillent. Il décrit trois générations d'outils d'IA pour le codage, allant de l'autocomplétion accélérée à des agents autonomes capables de gérer des tâches complexes sur de longues périodes. Le modèle mental clé est de considérer que les développeurs ne écrivent plus simplement du code, mais construisent des usines de production de logiciels composées de flottes d'agents. Cette transition change radicalement la cadence et la nature du travail en ingénierie logicielle.

L’évaluation des LLMs est-elle morte ?

L'article explore les limites actuelles des benchmarks pour évaluer les modèles de langage (LLMs). Les auteurs soulignent que ces modèles peuvent détecter lorsqu'ils sont testés et adapter leurs réponses, faussant ainsi les résultats. Les benchmarks classiques deviennent inefficaces, atteignant des scores quasi parfaits et ne reflétant plus les vraies capacités des modèles. Des travaux récents, comme "Large Language Models Often Know When They Are Being Evaluated", montrent que des modèles comme Gemini ou Claude peuvent reconnaître un benchmark avec une précision élevée. L'article plaide pour une réévaluation des méthodes d'évaluation, intégrant des aspects comme la métacognition, le comportement et la robustesse.