Aller au contenu principal

Questions Fréquemment Posées

ODP (Open Data Platform) est une solution Big Data open-source qui offre un ensemble d'outils pour stocker, analyser et visualiser les big data. Elle vise à simplifier la gestion des données en utilisant des technologies big data basées sur l'écosystème Apache Hadoop.

CLEMLAB est une entreprise créée pour distribuer et promouvoir ODP. Elle permet aux utilisateurs d'accéder facilement à des technologies big data évolutives et 100% open-source.

  • 1. Téléchargez ODP depuis les dépôts officiels
  • 2. Configurez les paramètres requis (système, stockage, réseau).
  • 3. Installez Apache Ambari sur les nœuds où vous souhaitez installer ODP.
  • 4. Installez les composants nécessaires, Hadoop, Spark, Ranger via l'interface utilisateur ou l'API REST d'Ambari.
  • 5. Démarrez les services et vérifiez l'état des composants.

ODP suit un cycle de publication semestriel. Chaque nouvelle version apporte des améliorations de performance, des corrections de bugs et de nouvelles fonctionnalités basées sur les retours de la communauté.

Oui, ODP est 100% open source. Son code est librement disponible et peut être utilisé, modifié et redistribué selon les termes de la licence Apache 2.0.

Pour contribuer à la distribution Big Data Open Source, vous pouvez :

  • Soumettre des problèmes ou des propositions via GitHub.
  • Partager des retours ou des idées sur les forums communautaires.
  • Soumettre des problèmes ou des propositions via GitHub.
  • Partager des retours ou des idées sur les forums communautaires.
  • Créer des pull requests pour améliorer le code ou la documentation.

Le code source des composants ODP est disponible sur GitHub. Vous pouvez y accéder à l'adresse suivante : https://github.com/clemlabprojects/hive-odp-release.

ODP fournit des composants Big Data basés sur l'écosystème Apache Hadoop tels que :

  • Hadoop pour le stockage distribué
  • Spark pour le traitement rapide des données.
  • Kafka pour le streaming en temps réel.
  • Hive pour les requêtes SQL sur de grands ensembles de données.
  • Nifi pour l'automatisation des flux de données.
  • Flink pour le traitement de flux.
  • Ambari pour la gestion de cluster.
  • Atlas pour la gouvernance des données.
  • Ozone pour le stockage d'objets évolutif.

Oui, ODP prend en charge la création d'un datalake house ouvert en combinant les capacités de stockage de données de Hadoop avec les capacités de traitement de données de Spark et les capacités de gestion de données de Hive. Cela permet une gestion et une analyse efficaces et flexibles de grandes quantités de données. ODP 1.2.40 est compilé avec Iceberg dans Spark, Kafka et Flink. ODP 1.2 est livré avec Apache Hive 3.1.3, mais Hive n'est pas encore compatible avec Iceberg.