approches ensemblistes pour la classification multi-labeld de données à grandes echelles
Le probléme de la Classification Multi-Label est largement rencontré dans de nombreuses applications du monde réel, suscitant une attention considérable par la communauté du Machine Learning et du Data Mining au cours des dernières décennies. Ce paradigme de classification permet d’associer simultanément plusieurs labels à une instance. Bien que de nombreuses recherches et expérimentations aient été menées pour développer des méthodes d'apprentissage Multi-Label, plusieurs défis scientifiques ont émergé, notamment le déséquilibre des classes, les dépendances entre les labels et la grande dimensionnalité de l'espace de sortie. Pour remédier à ces défis, l’approche Ensemble a été développée, démontrant ainsi sa grande efficacité dans divers domaines d'application. Malgré les avancées notables réalisées par l'approche Ensemble dans le domaine de la Classification Multi-Label, aucune méthode ensembliste n'a pu prouver sa supériorité par rapport aux autres pour résoudre la majorité des problèmes spécifiques liés au domaine. En effet, la performance de chaque méthode dépend de plusieurs facteurs critiques, notamment les caractéristiques complexes des données multi-label utilisées, les forces et faiblesses des classifieurs testés, ainsi que la mise à l'échelle de certaines données. L'étude de recherche menée dans cette thèse s’articule autour de deux nouvelles approches ensemblistes: ConfBoost et DisEMLC. L’objectif visé par ces deux approches est de développer des systèmes robustes et généralisables, capables de relever les défis surmentionnés, tout en assurant la scalabilité des DML. L’approche ConfBoost constitue un méta-modèle qui combine plusieurs Classifieurs Ensemble Multi-Label complémentaires et hétérogènes, tels que ECC, EPS, RAKEL, RFPCT. Cette approche repose sur un paradigme de Stacking pondéré, utilisant une pondération des labels couplée à des seuils ajustés. Des expériences approfondies menées sur des ensembles de données Multi-Label de référence ont mis en évidence l'efficacité et le potentiel de ConfBoost en tant que méthode avancée pour les tâches de Classification Multi-Label. En revanche, DisEMLC est une approche distribuée qui utilise une architecture MapReduce. Elle partage avec ConfBoost les mêmes classifieurs ensembles, intégrés au niveau des Mappers, et applique un mécanisme de pondération de labels couplé à des seuils ajustés après la phase de Réduction. En tirant parti de l'informatique distribuée parallèle et des méthodologies de classification innovantes, notre système vise à surmonter les problèmes d'évolutivité fréquemment rencontrés dans les tâches de CML. Ainsi, dans un environnement séquentiel, l’approche ConfBoost offre des gains en précision et permet une géstion plus efficace des différents défis posés par le domaine, mais elle est limitée par sa scalabilité et son temps d'exécution. En revanche, dans un environnement distribué, l’approche DisEMLC prend toute sa portée. Elle devient plus évolutive, plus efficace, et mieux adaptée aux grands ensembles de données Multi-Label, grâce à la parallélisation des calculs et à la bonne gestion des ressources.