Cloudflare : plus de 50 % des bots servent l'entraînement des IA, le web s'adapte lentement

Les dernières mesures de Cloudflare dessinent un web en mutation : une majorité de bots sont désormais dédiés à l'entraînement des modèles, tandis que l'essor des standards pour agents IA reste marginal.

Des bots omniprésents, souvent orientés vers l'entraînement

Selon les données analysées par Cloudflare, plus de la moitié des bots circulant sur son réseau ont pour finalité l'entraînement d'intelligences artificielles. Adrien Naeem souligne cette bascule : "Cloudflare révèle que plus de cinquante pour cent des bots… servent désormais à entraîner des I.A.".

Sur différentes fenêtres temporelles, ce trafic d'entraînement progresse : autour de 52 % sur les sept derniers jours, environ 49 % sur trois mois, 44 % sur six mois et en dessous de 40 % sur douze mois. Ces tendances portent un message clair pour les éditeurs : l'automatisation ne se limite plus aux tâches de recherche classiques.

Cloudflare indique par ailleurs qu'une part significative du trafic global provient de bots — un chiffre évoqué autour de 32 % — et rappelle que son réseau couvre approximativement 20 % du web, ce qui donne une ampleur industrielle à ces observations.

Robots.txt et contrôle d'accès : GPTBot souvent bloqué

L'analyse des fichiers robots.txt sur un échantillon de domaines montre que GPTBot figure parmi les bots les plus fréquemment bloqués. "GPTBot est le bot le plus souvent bloqué dans les robots.txt", rappelle Adrien Naeem, tandis que certains agents comme PerplexityBot apparaissent plus souvent autorisés selon les catégories de sites.

Les politiques varient fortement selon les secteurs : sur des domaines "Technologie" ou "Business", GPTBot et CCBot reviennent dans les listes de blocage, alors que Googlebot et d'autres services d'indexation restent largement autorisés, parfois de façon partielle.

Les sites s'adaptent… mais très lentement

Cloudflare a testé plus de 109 000 domaines pour mesurer l'adoption des briques techniques destinées à rendre le web « prêt pour les agents ». Le bilan : des éléments de base sont répandus — 78 % des domaines disposent d'un fichier robots.txt, 63 % d'un sitemap — mais l'implémentation des nouvelles normes reste limitée.

Seuls 17 % des domaines ont ajouté des règles IA spécifiques dans leur robots.txt. L'usage des en-têtes Link atteint 9 %. D'autres mécanismes proposés pour faciliter les interactions entre agents et sites sont encore rares : la négociation Markdown (conversion du HTML en Markdown) et la découverte OAuth se situent autour de 6 %.

Laetitia Lamari estime que cette lenteur est en partie structurelle : les opérateurs web doivent concilier protection du contenu, modèles économiques et contraintes techniques. Pour elle, "les éditeurs cherchent d'abord à maîtriser les usages avant d'ouvrir de nouvelles interfaces aux agents".

Protocoles agentiques : adoption marginale

Les standards conçus pour favoriser l'agenticité du web présentent des taux d'adoption très faibles. L'Universal Commerce Protocol (proposé par Google) dépasse légèrement les 5 %, Content Signals atteint environ 4,5 %, tandis que des briques comme les catalogues d'API, MCP, A2A, WebMCP, Web Bot Auth ou les skills pour agents sont proches de zéro (< 0,1 %).

Ce constat met en lumière un double enjeu : fournir des outils normés pour les interactions agentiques, et convaincre les éditeurs de les intégrer sans mettre en péril leurs modèles commerciaux ou la confidentialité des données.

Impact observable sur le trafic : ChatGPT dans le top des services

Cloudflare note également des changements dans le classement des services les plus consultés : chatgpt.com a brièvement figuré parmi les dix domaines les plus populaires vers la mi‑avril, et ChatGPT/OpenAI est apparu dans le top mondial en février, se maintenant plusieurs semaines.

Le domaine de premier niveau .ai continue sa progression — il a dépassé le million de domaines enregistrés en mars — traduisant l'ampleur commerciale et symbolique de l'IA sur le web.

Enjeux et perspectives pour les entreprises

Pour Laetitia Lamari, l'enjeu immédiat pour les entreprises est d'identifier les surfaces de valeur à protéger et celles à ouvrir : « il faut pouvoir dire clairement comment on veut que nos contenus soient utilisés — indexés, exploités en temps réel, ou employés pour l'entraînement ».

Adrien Naeem met en garde sur la rapidité d'évolution : « c'est passionnant », dit‑il, mais il ajoute implicitement que les acteurs doivent suivre les statistiques et adapter leurs politiques pour garder la main sur leurs données.

Les prochains mois devraient voir une accélération, poussée par la demande des fournisseurs d'IA et par l'apparition de normes techniques plus matures. Reste à savoir si l'adoption sera portée par des bénéfices économiques directs pour les éditeurs, ou par des obligations réglementaires et contractuelles.

Sources : analyses et outils publics de Cloudflare (Radar, tests "isitagentready"), mesures publiques sur les fichiers robots.txt et statistiques de trafic DNS.