Quotidien Shaarli

Tous les liens d'un jour sur une page.

Aujourd'hui - May 8, 2026

Dependency Cooldowns - Dependency Cooldowns

Dependency Cooldowns propose une solution simple pour réduire les risques liés aux attaques par dépendances malveillantes dans les écosystèmes de gestion de paquets. L’idée centrale est d’imposer un délai minimal (cooldown) avant qu’une nouvelle version d’une dépendance ne soit installée, limitant ainsi l’exposition aux attaques rapides. Par exemple, un cooldown de trois jours aurait bloqué 80 à 90 % des attaques analysées, dont des compromissions comme LiteLLM ou axios, où les fenêtres d’exploitation étaient de quelques heures seulement.

Le site détaille les implémentations par écosystème, comme uv pour Python (avec des commandes comme uv pip install --exclude-newer '3 days' foo) ou npm (via des outils comme cooldowns.sh). Bien que certains gestionnaires comme pip ne supportent pas encore les durées relatives, des contournements existent. La méthode s’applique aussi aux dépendances transitives, renforçant la sécurité globale.

Enfin, l’article souligne l’efficacité des cooldowns, même réduits à un jour, et fournit des exemples de configuration pour divers outils (pnpm, Yarn, Cargo, etc.). Une approche pragmatique pour limiter les risques sans complexité majeure.

How LLMs Work — A Visual Deep Dive

Cette page explique le fonctionnement des grands modèles de langage (LLM) comme ChatGPT, depuis la collecte des données jusqu’à leur utilisation finale. Elle détaille notamment la phase de pré-entraînement, où des milliards de pages web sont filtrées pour constituer un jeu de données de haute qualité, comme FineWeb (44 To, 15 000 milliards de tokens). L’étape clé de ce processus est la qualité et la diversité des données, qui influencent davantage les performances du modèle que d’autres paramètres.

Le texte aborde ensuite la tokenisation, une étape essentielle où le texte brut est transformé en unités numériques (tokens) via des algorithmes comme Byte Pair Encoding (BPE). Cette méthode permet de compresser efficacement le texte tout en gérant les variations linguistiques, comme les conjugaisons ou les mots composés. Les modèles modernes utilisent des vocabulaires de plusieurs dizaines de milliers de tokens pour couvrir un large éventail de contenus.

Enfin, la page souligne l’ampleur des ressources nécessaires à l’entraînement des LLM, avec des chiffres représentatifs des modèles de pointe en 2024 (15 000 milliards de tokens, 405 milliards de paramètres). Elle met en lumière l’importance des pipelines de traitement automatisés, comme celui de Common Crawl, qui nettoient et structurent des pétaoctets de données brutes avant leur utilisation.

GTFOBins

GTFOBins est une liste curated d'exécutables Unix-like permettant de contourner les restrictions de sécurité locales dans des systèmes mal configurés. Le projet recense des fonctions légitimes de ces outils pouvant être détournées pour échapper à des shells restreints, élever des privilèges, transférer des fichiers ou établir des connexions inversées, sans exploiter de vulnérabilités spécifiques.

Développé par Emilio Pinna et Andrea Cardaci avec la contribution de nombreux autres, GTFOBins se concentre sur l'exploitation des outils natifs disponibles ("living off the land"). Il ne s'agit pas d'une liste d'exploits, mais d'un guide pratique pour les professionnels de la sécurité ou les administrateurs système.

Le site propose également une API JSON et des liens vers des ressources complémentaires comme LOLBAS pour les binaires Windows. Les utilisateurs peuvent contribuer en soumettant de nouvelles entrées ou techniques.

ImageWhisperer — AI Image Detector for Journalists & Researchers

ImageWhisperer est un outil d'analyse d'images utilisant l'IA, conçu pour aider journalistes et chercheurs à détecter les manipulations, les contenus générés artificiellement ou les profils frauduleux. Il propose 41 vérifications automatiques en environ 25 secondes, avec des rapports clairs et des preuves en langage simple, tout en excluant explicitement les contenus illégaux comme la CSAM.

Le site met en avant des exemples concrets de fausses images et de deepfakes, issus d'une base de données régulièrement mise à jour, illustrant son utilité pour le fact-checking. Il se distingue par une approche plus précise que les détecteurs classiques, capable d'identifier des anomalies anatomiques ou des traces forensiques d'IA.

Développé par Henk van Ess et soutenu par Digital Digging, ImageWhisperer propose aussi des solutions pour les entreprises via une API ou des plans dédiés, tout en garantissant une utilisation encadrée par une politique stricte contre les abus.

h4ckf0r0day/obscura: The headless browser for AI agents and web scraping

Obscura est un navigateur headless open source écrit en Rust, conçu pour l'automatisation à grande échelle et le web scraping. Il se distingue par sa légèreté (30 Mo de mémoire contre 200+ Mo pour Chrome headless), sa rapidité (démarrage instantané et chargement de page en 85 ms) et ses fonctionnalités anti-détection intégrées. Compatible avec les outils comme Puppeteer et Playwright via le protocole Chrome DevTools, il permet d'exécuter du JavaScript via V8 et propose des modes de stealth pour contourner les blocages.

Le projet propose des binaires prêts à l'emploi pour Linux, macOS et Windows, ainsi qu'une version cloud en développement pour une utilisation managée. Obscura est distribué sous licence Apache 2.0, sans fonctionnalités restreintes, et peut être compilé depuis les sources avec des options comme le mode stealth pour bloquer les trackers. Les performances et la simplicité d'installation en font une alternative intéressante aux solutions existantes.

Le dépôt GitHub inclut une documentation détaillée pour l'installation, l'utilisation en ligne de commande et l'intégration avec des outils comme Puppeteer, ainsi qu'un système de scraping parallèle pour traiter plusieurs URLs simultanément.