Face à la multiplication des robots d’indexation (notamment ceux des LLM), Bearstech propose plusieurs stratégies pour limiter leur impact : filtrage (via robots.txt, blacklist d’IP ou User-Agents, outils comme Darkvisitor ou Cloudflare), mitigation (rate-limiting avec HAProxy, tests inversés comme Anubis ou Cloudflare Turnstile), délégation (CDN avec WAF comme Cloudflare ou Bunny), et surtout optimisation (cache avec Varnish/Redis, tuning de base de données, tests de charge). Aucune solution n’est universelle : chaque approche a ses avantages (efficacité, simplicité) et inconvénients (maintenance, faux positifs, coût). L’idéal ? Combiner filtrage ciblé, cache agressif et optimisation pour rendre son infrastructure plus résiliente, tout en préservant le référencement et l’expérience utilisateur. Une analyse fine du trafic et des goulets d’étranglement reste indispensable. 🛡️🔍
L’auteur, insatisfait par la dégradation des résultats des moteurs de recherche actuels (spam SEO, manque de pertinence), a relevé le défi de construire son propre moteur de recherche en deux mois, en s’appuyant sur des modèles d’embeddings neuronaux (comme SBERT) pour comprendre le sens des requêtes plutôt que de se limiter à la correspondance de mots-clés. Le projet a impliqué la génération de 3 milliards d’embeddings à l’aide d’un cluster de 200 GPU, l’indexation de 280 millions de pages web, et une architecture distribuée combinant RocksDB et HNSW pour gérer 4 To de RAM et 82 To de stockage SSD, avec un temps de réponse moyen de 500 ms. L’approche innovante inclut une normalisation poussée du HTML, un découpage sémantique des pages pour préserver le contexte, et un crawler optimisé pour éviter les limitations de débit. Le moteur permet de répondre à des requêtes complexes et nuancées, même formulées en langage naturel, en identifiant des réponses précises et pertinentes, y compris dans des contenus obscurs ou peu accessibles. Le billet détaille chaque étape : preuve de concept, normalisation des données, chunking intelligent, optimisation des performances, et déploiement d’un graphe de connaissances. Un demo en ligne est disponible pour tester le résultat.
Tout est dans le titre
Un framework Python d'extraction de données et de web crawling