Recherche : [robots.txt] - Les liens de Raphaël

26046 shaares

26046 shaares

Filtres

Liens par page

20 50 100

13 résultats taggé robots.txt

Comment protéger vos serveurs et lutter efficacement contre les crawlers d’IA

Face à la multiplication des robots d’indexation (notamment ceux des LLM), Bearstech propose plusieurs stratégies pour limiter leur impact : filtrage (via robots.txt, blacklist d’IP ou User-Agents, outils comme Darkvisitor ou Cloudflare), mitigation (rate-limiting avec HAProxy, tests inversés comme Anubis ou Cloudflare Turnstile), délégation (CDN avec WAF comme Cloudflare ou Bunny), et surtout optimisation (cache avec Varnish/Redis, tuning de base de données, tests de charge). Aucune solution n’est universelle : chaque approche a ses avantages (efficacité, simplicité) et inconvénients (maintenance, faux positifs, coût). L’idéal ? Combiner filtrage ciblé, cache agressif et optimisation pour rendre son infrastructure plus résiliente, tout en préservant le référencement et l’expérience utilisateur. Une analyse fine du trafic et des goulets d’étranglement reste indispensable. 🛡️🔍

intelligence-artificielle · crawler · Anubis · robots.txt · Cloudflare · filtrage

October 2, 2025 at 8:28:19 PM GMT+2 * · permalien

·

·

https://bearstech.com/societe/blog/comment-proteger-vos-serveurs-et-lutter-efficacement-contre-les-crawlers-dia

·

Fouilles de données sur le web, comment s'en protéger - Alsacreations

L'article traite des préoccupations liées à la fouille de données sur le web par les intelligences artificielles, une pratique souvent perçue comme une forme de vol de données. Il explore les moyens pour les créateurs de contenu de protéger leurs œuvres, notamment à travers des procédures comme l'opt-out, qui permet de déclarer son refus de voir ses données utilisées pour enrichir les bases de données de l'IA. L'article aborde également des méthodes techniques pour bloquer les robots aspirateurs, comme l'utilisation de fichiers robots.txt et .htaccess, tout en soulignant l'importance de l'opt-out pour une protection juridique. Il conclut sur la nécessité pour les auteurs de se préparer à ces enjeux, tout en restant ouverts à une collaboration éventuelle avec l'IA.

intelligence-artificielle · opt-out · TDMRep · blocage · robots.txt · guide

July 3, 2025 at 6:07:34 AM GMT+2 * · permalien

·

·

https://www.alsacreations.com/article/lire/1952-fouilles-de-donnees-web-comment-s-en-proteger.html

·

[Anubis] Utiliser la preuve de travail pour bloquer les robots · Pofilo.fr

L'auteur montre l'installation d'Anubis pour bloquer les robots des entreprises IA. Il utilise Traefik comme reverse proxy.

Anubis · Traefik · installation · intelligence-artificielle · robots.txt

April 18, 2025 at 6:17:58 AM GMT+2 * · permalien

·

·

https://www.pofilo.fr/post/2025/04/14-mise-en-place-anubis/

·

Comment bloquer les Robots qui aspirent le contenu de votre site pour entraîner des modèles LLM ?

Tout est dans le titre

robots.txt · blocage · LLM

October 3, 2024 at 8:34:29 AM GMT+2 * · permalien

·

·

https://www.geeek.org/comment-bloquer-robots-aspirent-contenu-pour-llm/

·

Bloquer les gaveurs d'IA // /home/lord

Tout est dans le titre

intelligence-artificielle · bloquer · robots.txt

April 15, 2024 at 9:40:55 PM GMT+2 * · permalien

·

·

https://lord.re/fast-posts/76-bloquer-les-gaveurs-dia/

·

ChatGPT et les plugins : bloquer l'exploration des robots d'OpenAI

Tout est dans le titre

ChatGPT · robots.txt · crawler

April 12, 2023 at 6:50:17 AM GMT+2 * · permalien

·

·

https://zonetuto.fr/outils/chatgpt-plugin-bloquer-exploration-des-robots-openai/

·

Liste des fichiers à avoir sur son site - Le Hollandais Volant

Tout est dans le titre

site · web · favicon · robots.txt · humans.txt

March 29, 2021 at 9:46:48 PM GMT+2 * · permalien

·

·

https://lehollandaisvolant.net/?d=2018/12/10/17/56/29-liste-des-fichiers-a-avoir-sur-son-site

·

Les ptits fichiers en racine de site ouaib // /home/lord

Tout est dans le titre

robots.txt · sitemap.xml · humans.txt · ads.txt · security.txt

May 23, 2020 at 1:44:04 PM GMT+2 * · permalien

·

·

https://lord.re/posts/201-les-ptits-fichiers-en-racine-de-site-ouaib/

·

Le jour où j’ai changé mon fichier robots.txt !

Tout est dans le titre

robots.txt

December 11, 2016 at 7:09:28 PM GMT+1 * · permalien

·

·

http://www.dsfc.net/juridique/le-jour-ou-j-ai-change-mon-fichier-robots-txt/

·

Robots and You: A Guide to Robots.txt

Tout est dans le titre

robots.txt

September 10, 2016 at 8:27:55 PM GMT+2 * · permalien

·

·

https://www.sitepoint.com/robots-and-you-a-guide-to-robots-txt/

·

Le fichier robots.txt : Pourquoi ? Comment ? | SEO | IT-Connect

Tout est dans le titre

robots.txt

November 11, 2015 at 7:25:00 PM GMT+1 * · permalien

·

·

http://www.it-connect.fr/le-fichier-robots-txt-pourquoi-comment/

·

Comment faire la maintenance de son site web et des URL ? - Le Hollandais Volant

Quelques astuces sur les fichiers .htaccess, robots.txt et humans.txt

robots.txt · humans.txt

July 24, 2015 at 9:31:54 AM GMT+2 * · permalien

·

·

http://lehollandaisvolant.net/?d=2015/07/23/13/38/35-comment-faire-la-maintenance-de-son-site-web-et-des-url

·

What is a Robots.txt File and why we use it? | Tech Blogs

Tout est dans le titre

robots.txt

August 4, 2014 at 6:15:03 PM GMT+2 * · permalien

·

·

http://www.ecomspark.com/what-is-a-robots-txt-file-and-how-why-we-use-it/

·

Filtres

Liens par page

20 50 100