Minko Gechev présente Skill Eval, un framework TypeScript pour tester les compétences des agents IA comme Gemini CLI et Claude Code. Il souligne l'importance de tester ces compétences, comparables à du code, pour éviter des comportements inattendus. Skill Eval évalue les agents en les exécutant dans des conteneurs Docker et en notant leurs performances. Il propose d'intégrer ces tests dans les pipelines CI/CD pour garantir la fiabilité des compétences des agents. Le framework permet d'utiliser des évaluateurs déterministes ou basés sur des rubriques LLM, et recommande de réaliser plusieurs essais pour évaluer à la fois les capacités et la fiabilité des compétences.
Le dépôt GitHub "openai/skills" présente un catalogue de compétences pour Codex, un outil d'IA. Ces compétences, appelées Agent Skills, sont des dossiers contenant des instructions, des scripts et des ressources permettant aux agents IA d'exécuter des tâches spécifiques. Le dépôt permet de découvrir, utiliser et distribuer ces compétences, qui peuvent être installées via Codex pour étendre ses fonctionnalités. Les compétences sont organisées en catégories comme ".curated" et ".experimental", et chaque compétence possède sa propre licence. Le dépôt est actif avec des contributions récentes et une communauté de développeurs.
L’article explique que les skills d’Anthropic sont des « super system prompts » permettant de guider de façon plus précise et efficace un modèle d’IA comme Claude pour la génération de code, ce qui, combiné à une approche de vibe coding (interaction dialoguée et itérative avec l’IA plutôt que de simples prompts vagues), améliore l’expérience du développeur en réduisant frustration et erreurs. L’auteur illustre cela par son propre changement de pratique après avoir observé des streams de vibe coding efficaces et utilisé des skills personnalisés (comme une skill Java qu’il a créée), et souligne que cette approche fonctionne mieux en mode pair programming IA-humain, tout en précisant qu’elle ne remplace pas entièrement les compétences humaines du développeur.
L’article décrit comment créer une compétence (skill) pour Claude Code qui implémente un système de mémoire de projet, capable de conserver automatiquement les décisions architecturales, bugs résolus, faits clés et historiques de travail pour éviter que l’assistant n’oublie d’une session à l’autre; ce système, appelé project-memory, tient en moins de 300 lignes et a permis à l’auteur de gagner beaucoup de temps en réduisant la répétition des explications et erreurs déjà traitées, tout en montrant comment structurer et déclencher une skill via un fichier SKILL.md et l’installer (par exemple via le CLI skilz) pour standardiser la mémoire de projet à travers plusieurs outils d’aide au développement.