Optimisation des réseaux de neurones sur graphes pour la détection de communautés à grande échelle

Conception et mise en œuvre de pipelines évolutifs de détection de communautés basés sur des GNN, utilisant les architectures GCN et GraphSAGE avec des stratégies d’entraînement en lot complet (full-batch), d’échantillonnage de voisins et de partitionnement de graphe.
Réalisation d’expériences approfondies sur les ensembles de données SBM (1K, 10K), CORA et Reddit, démontrant que l’échantillonnage de voisins et le partitionnement de graphe permettent l’entraînement sur de grands graphes lorsque les méthodes en lot complet échouent en raison de contraintes mémoire.
Atteinte d’une précision allant jusqu’à 90 % sur SBM (10K nœuds) avec le partitionnement de graphe tout en réduisant l’empreinte mémoire, et activation d’un entraînement évolutif sur Reddit où les méthodes en lot complet entraînaient des erreurs de mémoire insuffisante.
Analyse des compromis entre précision, temps d’entraînement et utilisation de la mémoire, en proposant des lignes directrices pratiques pour le déploiement évolutif de GNN dans des réseaux sociaux de grande taille en contexte réel.
Diapositives de présentation Cliquez ici
Proposition de projet Cliquez ici
Rapport de projet Cliquez ici
Code et dépôt GitHub : Cliquez ici