Cette page introduit les bases de données orientées colonnes, comme ClickHouse, conçues pour analyser des flux d'événements horodatés (timeseries) à grande échelle, que ce soit pour des analyses historiques ou en temps réel. Leur principal avantage réside dans une compression et un traitement optimisés grâce à la structure en colonnes, contrairement aux bases relationnelles classiques (OLTP) qui privilégient les transactions et la cohérence. Les colonnes permettent des lectures séquentielles efficaces, une meilleure parallélisation et une compression adaptée aux gros volumes de données.
L'auteur compare ce modèle aux bases OLTP, soulignant que les bases orientées colonnes (comme celles utilisées pour la télémétrie ou l'observabilité) excelling en débit d'écriture et en scalabilité, mais au prix de transactions moins atomiques et de modifications plus lourdes. Contrairement aux systèmes comme Prometheus, qui gèrent mal la diversité des labels, les solutions modernes s'appuient sur des technologies éprouvées pour se concentrer sur la couche applicative. Le texte annonce ClickHouse comme solution dans un prochain article.
Cet article explique comment gérer et afficher des données massives dans une application Symfony en utilisant MongoDB. L'auteur, Andreas Braun, se base sur un dataset allemand de prix de carburant, qui change fréquemment et varie selon les villes. Le dataset comprend 78 Go de données de prix et près de 10 Go de données de stations, avec des fichiers organisés par année, mois et jour. L'article décrit comment inspecter les données, les importer dans MongoDB, et concevoir un schéma efficace pour travailler avec ce volume de données. La première partie se concentre sur l'inspection des données et la conception du schéma, tandis que la deuxième partie abordera la création d'une application Symfony pour afficher ces données.
Apache Iceberg est un format de table aux caractéristiques très intéressantes : support des transactions ACID, évolution des schémas de données, time travel / rollback, etc.
Une très bonne introduction à ces deux termes
Tout est dans le titre
L'article date un peu... L'auteur réalise un comparatif entre plusieurs solutions logicielles pour le nettoyage des données - il retient Dataiku DSS.
Tout est dans le titre
À quoi servent les données ? Quelles sont les données pertinentes ? ... et quelques questions expliquées dans cet article
Tout est dans le titre
Tout est dans le titre