Wikidata est une base de données libre et collaborative, gérée par la Fondation Wikimedia, qui stocke des connaissances sous forme de données structurées et interconnectées, contrairement à Wikipédia qui utilise du texte non structuré. Chaque entité y est identifiée par un identifiant unique (Q pour les éléments, P pour les propriétés) et organisée en triplets RDF, formant un graphe de connaissances exploitable par les machines. En 2024, Wikidata comptait plus de 1,5 milliard de triplets sémantiques, interrogeables via un point d'accès SPARQL public.
Cette structure permet des requêtes précises, comme identifier tous les écrivains français nés à Nantes, offrant des résultats exploitables directement, là où une recherche classique ne renverrait que des pages à consulter. Wikidata s'inscrit dans la logique du Linked Open Data, visant à décrire le monde de manière explicite pour une compréhension optimale par les machines, à l'instar des microdonnées JSON-LD utilisées sur les pages web.
Les grands modèles de langage (LLM) apprécient particulièrement Wikidata pour sa fiabilité et sa qualité, car elle fournit une source de données structurées et vérifiables, réduisant ainsi les risques d'hallucinations lors des réponses aux requêtes. Contrairement à des sources moins fiables comme les forums, Wikidata est considérée comme une référence solide pour enrichir les connaissances des modèles d'intelligence artificielle.
L'article explore la notion de sémantique en HTML. Il explique que chaque élément HTML a une signification définie dans le HTML Living Standard, et que cette sémantique est cruciale pour les utilisateurs, notamment pour l'accessibilité. L'auteur distingue trois types de sémantique : celle pour les utilisateurs, pour les développeurs et pour les machines. Il illustre ses propos avec des exemples concrets, montrant comment choisir les bons éléments HTML améliore la compréhension du contenu et l'accessibilité. L'article souligne l'importance de la sémantique pour rendre le Web plus inclusif et fonctionnel.