L’auteure relate son expérience à la conférence Google Cloud Next, où l’observabilité des agents IA est devenue un sujet central. Elle souligne l’essor des systèmes autonomes capables d’enchaîner des tâches complexes, tout en pointant un défi majeur : comment diagnostiquer leurs dysfonctionnements, notamment en production nocturne.
Elle explore ensuite l’observabilité appliquée aux serveurs d’inférence comme vLLM, un outil open source populaire pour héberger des modèles IA en local. vLLM intègre des mécanismes de monitoring natifs, permettant de tracer les requêtes, les temps de réponse et les goulots d’étranglement sans instrumentation lourde.
Enfin, elle compare l’observabilité IA à une cuisine de restaurant, illustrant comment suivre l’état des requêtes en temps réel pour identifier les ralentissements ou erreurs. L’objectif est de passer d’une surveillance basique (disponibilité) à une visibilité fine des processus internes, essentielle pour des systèmes de plus en plus complexes.