Quotidien Shaarli
Aujourd'hui - May 8, 2026
Obscura est un navigateur headless open source écrit en Rust, conçu pour l'automatisation à grande échelle et le web scraping. Il se distingue par sa légèreté (30 Mo de mémoire contre 200+ Mo pour Chrome headless), sa rapidité (démarrage instantané et chargement de page en 85 ms) et ses fonctionnalités anti-détection intégrées. Compatible avec les outils comme Puppeteer et Playwright via le protocole Chrome DevTools, il permet d'exécuter du JavaScript via V8 et propose des modes de stealth pour contourner les blocages.
Le projet propose des binaires prêts à l'emploi pour Linux, macOS et Windows, ainsi qu'une version cloud en développement pour une utilisation managée. Obscura est distribué sous licence Apache 2.0, sans fonctionnalités restreintes, et peut être compilé depuis les sources avec des options comme le mode stealth pour bloquer les trackers. Les performances et la simplicité d'installation en font une alternative intéressante aux solutions existantes.
Le dépôt GitHub inclut une documentation détaillée pour l'installation, l'utilisation en ligne de commande et l'intégration avec des outils comme Puppeteer, ainsi qu'un système de scraping parallèle pour traiter plusieurs URLs simultanément.
ImageWhisperer est un outil d'analyse d'images utilisant l'IA, conçu pour aider journalistes et chercheurs à détecter les manipulations, les contenus générés artificiellement ou les profils frauduleux. Il propose 41 vérifications automatiques en environ 25 secondes, avec des rapports clairs et des preuves en langage simple, tout en excluant explicitement les contenus illégaux comme la CSAM.
Le site met en avant des exemples concrets de fausses images et de deepfakes, issus d'une base de données régulièrement mise à jour, illustrant son utilité pour le fact-checking. Il se distingue par une approche plus précise que les détecteurs classiques, capable d'identifier des anomalies anatomiques ou des traces forensiques d'IA.
Développé par Henk van Ess et soutenu par Digital Digging, ImageWhisperer propose aussi des solutions pour les entreprises via une API ou des plans dédiés, tout en garantissant une utilisation encadrée par une politique stricte contre les abus.
Cette page explique le fonctionnement des grands modèles de langage (LLM) comme ChatGPT, depuis la collecte des données jusqu’à leur utilisation finale. Elle détaille notamment la phase de pré-entraînement, où des milliards de pages web sont filtrées pour constituer un jeu de données de haute qualité, comme FineWeb (44 To, 15 000 milliards de tokens). L’étape clé de ce processus est la qualité et la diversité des données, qui influencent davantage les performances du modèle que d’autres paramètres.
Le texte aborde ensuite la tokenisation, une étape essentielle où le texte brut est transformé en unités numériques (tokens) via des algorithmes comme Byte Pair Encoding (BPE). Cette méthode permet de compresser efficacement le texte tout en gérant les variations linguistiques, comme les conjugaisons ou les mots composés. Les modèles modernes utilisent des vocabulaires de plusieurs dizaines de milliers de tokens pour couvrir un large éventail de contenus.
Enfin, la page souligne l’ampleur des ressources nécessaires à l’entraînement des LLM, avec des chiffres représentatifs des modèles de pointe en 2024 (15 000 milliards de tokens, 405 milliards de paramètres). Elle met en lumière l’importance des pipelines de traitement automatisés, comme celui de Common Crawl, qui nettoient et structurent des pétaoctets de données brutes avant leur utilisation.