Le darija n'est pas simplement "de l'arabe parlé". C'est une langue à part entière, avec sa propre grammaire, sa propre phonologie et un lexique qui mélange de manière créative des racines arabes, berbères, françaises, espagnoles et même portugaises — héritage des siècles d'histoire cosmopolite du Maroc. Cette richesse en fait un terrain d'étude linguistique captivant, mais aussi un défi technique redoutable pour les systèmes de traitement automatique du langage.
Le darija s'écrit rarement — et quand il s'écrit, les locuteurs utilisent tantôt l'alphabet arabe, tantôt les caractères latins, tantôt un mélange des deux, avec des conventions orthographiques qui varient d'une personne à l'autre. Un même mot peut s'écrire de cinq façons différentes selon le scripteur. Cette absence de standardisation écrite est un obstacle majeur à la constitution de jeux de données d'entraînement.
Le groupe IA4Société & Culture travaille sur plusieurs fronts : la collecte et l'annotation de corpus de darija écrit et oral, la définition de conventions orthographiques de référence (sans imposer une normalisation artificielle qui trahirait la nature vivante de la langue), et le développement de modèles de traitement automatique adaptés à ces spécificités.