Ilyes Khedhiri | Bayesian Database – Application Big Data

Bayesian Database – Application Big Data

Contexte & objectifs

Les bases de données traditionnelles (Oracle, SQL Server, DB2) offrent de l’ACID et un accès concurrent, mais sont lentes pour le traitement de très gros volumes non structurés.
Hadoop, grâce au sharding et à HDFS/MapReduce, distribue le calcul sur plusieurs nœuds pour traiter massivement des données.
L’objectif étant développer un prototype de « Bayesian Database » capable de collecter et d’analyser les données d’entreprise en combinant Hadoop avec des méthodes de Machine Learning bayésien.

Stack technique

Langages & framework Web : JavaScript, React, HTML/CSS, Flask (Python)
Base de données & Big Data : PostgreSQL, Hadoop (HDFS/MapReduce), Hive (ou Cassandra)
Machine Learning & Bayésien : Scikit-Learn (Lasso & Ridge), NetworkX (réseaux bayésiens), Spark MLlib

Réalisation

Architecture distribuée – Ingestion et sharding des données via HDFS
Moteur bayésien – Modélisation et inférence de réseaux bayésiens avec NetworkX
Méthodes de régression – Implémentation de Lasso et Ridge pour extraire la structure des relations statistiques
Indépendance conditionnelle – Exécution de procédures SQL pour tester les dépendances entre variables
Visualisation interactive – Interface NetworkX intégrée au frontend React pour afficher et manipuler graphiquement les relations

Points forts

Scalabilité : Traitement distribué de To de données
Bayésien & régularisation : Combinaison de modèles probabilistes et de régression pénalisée
Visualisation : Exploration interactive des réseaux via NetworkX

Points faibles

La suite d’un projet : Nécessité d’appréhender et d’adapter une architecture complexe pour poursuivre le développement.

Auteur: Ilyes Khedhiri , Jesus Lucas , Shuaijun Guan