Wikidata est une base de données libre et collaborative, gérée par la Fondation Wikimedia, qui stocke des connaissances sous forme de données structurées et interconnectées, contrairement à Wikipédia qui utilise du texte non structuré. Chaque entité y est identifiée par un identifiant unique (Q pour les éléments, P pour les propriétés) et organisée en triplets RDF, formant un graphe de connaissances exploitable par les machines. En 2024, Wikidata comptait plus de 1,5 milliard de triplets sémantiques, interrogeables via un point d'accès SPARQL public.
Cette structure permet des requêtes précises, comme identifier tous les écrivains français nés à Nantes, offrant des résultats exploitables directement, là où une recherche classique ne renverrait que des pages à consulter. Wikidata s'inscrit dans la logique du Linked Open Data, visant à décrire le monde de manière explicite pour une compréhension optimale par les machines, à l'instar des microdonnées JSON-LD utilisées sur les pages web.
Les grands modèles de langage (LLM) apprécient particulièrement Wikidata pour sa fiabilité et sa qualité, car elle fournit une source de données structurées et vérifiables, réduisant ainsi les risques d'hallucinations lors des réponses aux requêtes. Contrairement à des sources moins fiables comme les forums, Wikidata est considérée comme une référence solide pour enrichir les connaissances des modèles d'intelligence artificielle.