Thème :
PADIC: a Parallel Arabic DIalect Corpus
Présentation :
PADIC is a Parallel Arabic DIalect Corpus we built from scratch,then we conducted experiments on cross dialect Arabic machine translation. PADIC is composed of dialects from both the Maghreb and the Middle-East. Each dialect has been aligned with Modern Standard Arabic (MSA).
PADIC has been built from scratch because the lack of dialect resources. In fact, Arabic dialects in Arab world in general are used in daily life conversations but they are not written. At the best of our knowledge, PADIC, up to now, is the largest corpus in the community working on dialects and especially those concerning Maghreb. PADIC is composed of 6400 sentences for each of the 5 concerned dialects and MSA. We used PADIC to conduct cross-lingual machine translation experiments between all the language pairs.
For translating to MSA we interpolated the corresponding Language Model(LM) with a large Arabic corpus based LM. We also studied the impact of language model smoothing techniques on the results of machine translation because this corpus, even it is the largest one, it still very small in comparison to those used for translation of natural languages
Thème :
Modélisation statistique de la langue Arabe
Présentation :
Ce travail de recherche a été effectué dans le cadre de ma thèse de doctorat. Il s'intéresse au traitement automatique de la langue Arabe. Dans ce travail de recherche, d'abord un outil a été conçu pour la construction de corpus de l'Arabe; cet outil permet de recueillir automatiquement une liste de sites, extrait leur contenu et le normalise. Le corpus ainsi constitué peut être utilisé dans diverses applications de TAL et plus particulièrement dans le calcul de modèles statistiques. Par la suite des expérimentations ont été menées en terme de modélisation statistique et qui ont eu pour objectif de trouver comment modéliser le mieux la langue Arabe . Le manque de données nous a conduit à entreprendre d'autres solutions sans pour cela augmenté la taille du corpus. Nous avons procédé à une segmentation des mots du corpus afin d'augmenter sa viabilité statistique. une meilleure performance en terme de perplexité normalisée fut constatée. Finalement, une étude comparative des modèles statistiques de l'Arabe et ceux d'autres langues à savoir le Français, l'Anglais, le Grec, le Portugais et le Finnois ont été entreprises.