Wikidata est une base de données libre et collaborative, gérée par la Fondation Wikimedia, qui stocke des connaissances sous forme de données structurées et interconnectées, contrairement à Wikipédia qui utilise du texte non structuré. Chaque entité y est identifiée par un identifiant unique (Q pour les éléments, P pour les propriétés) et organisée en triplets RDF, formant un graphe de connaissances exploitable par les machines. En 2024, Wikidata comptait plus de 1,5 milliard de triplets sémantiques, interrogeables via un point d'accès SPARQL public.
Cette structure permet des requêtes précises, comme identifier tous les écrivains français nés à Nantes, offrant des résultats exploitables directement, là où une recherche classique ne renverrait que des pages à consulter. Wikidata s'inscrit dans la logique du Linked Open Data, visant à décrire le monde de manière explicite pour une compréhension optimale par les machines, à l'instar des microdonnées JSON-LD utilisées sur les pages web.
Les grands modèles de langage (LLM) apprécient particulièrement Wikidata pour sa fiabilité et sa qualité, car elle fournit une source de données structurées et vérifiables, réduisant ainsi les risques d'hallucinations lors des réponses aux requêtes. Contrairement à des sources moins fiables comme les forums, Wikidata est considérée comme une référence solide pour enrichir les connaissances des modèles d'intelligence artificielle.
L’auteur partage son expérience après 181 jours de développement de Writizzy, une plateforme de blog, dont le trafic SEO reste insuffisant malgré ses fonctionnalités. Avec seulement 1 850 visiteurs uniques en avril, le trafic provient surtout des réseaux sociaux et du trafic "brand", tandis que le référencement naturel est défaillant. Pour identifier les problèmes, il utilise l’outil claude-seo, qui évalue plusieurs aspects du SEO (technique, contenu, performance) et attribue un score global de 47/100.
L’audit révèle des axes d’amélioration, notamment en SEO technique. Parmi les recommandations, l’optimisation des images et l’ajout de directives comme preload ou preconnect pour le CDN Bunny sont suggérées. L’auteur souligne aussi l’importance des données structurées en JSON-LD, essentielles pour aider les robots d’indexation à comprendre le contenu, bien que invisibles pour les utilisateurs.
Enfin, l’outil met en lumière des faiblesses dans la qualité du contenu et le référencement IA, avec des scores respectifs de 38/100 et 41/100. Ces résultats, bien que perfectibles, offrent une feuille de route concrète pour améliorer la visibilité de Writizzy sur les moteurs de recherche.