Le projet COLaF

Couverture linguistique

COLaF vise à couvrir la diversité linguistique de la France, en incluant le français standard, les langues régionales, les langues d’outre-mer par exemple les créoles), les langues d’immigration et la langue des signes française.

Afin de couvrir un spectre linguistique le plus large possible, tout en accumulant de grands corpus de données, les équipes porteuses concluent et cherchent à conclure des partenariats avec les institutions dont le champ d’action recoupe celui de COLaF. Ces partenariats se traduisent entre autres par la mise à disposition des compétences propres à ALMAnaCH et MULTISPEECH (par exemple, la reconnaissance de texte manuscrit, la création d’interfaces pour des corpus, l’entraînement de modèles de langue ou de traduction automatique).

Le choix des langues et des sources de données est fait en fonction des compétences et intérêts des équipes impliquées dans le programme, ainsi que des initiatives existantes. L’objectif est de fournir des jeux de données exploitables pour la recherche scientifique et, lorsque c’est possible, pour des applications commerciales, mais aussi de créer un réseau de production de données en France et dans la francophonie. Les exemples d’applications possibles sont nombreux, depuis les études linguistiques sur corpus jusqu’au développement d’outils d’aide à l’enseignement, en passant par des outils de traduction automatique pour des langues peu dotées.

Objectifs techniques et mise en oeuvre

Dans le cadre de COLaF, ALMAnaCH et MULTISPEECH, en plus des chercheurs permanents attachés et des thèses financées par le programme, se dotent d’une équipe permettant de mener à bien l’ensemble de ses objectifs, qu’il s’agisse de la mise en relation de partenaires, de l’acquisition de corpus ou de leur valorisation à travers de nouveaux outils. Chaque équipe porteuse comporte un responsable local du programme, chargé d’en suivre les avancées avec les permanents et d’assurer une communication entre les deux pôles parole (MULTISPEECH) et texte (ALMAnaCH). Tout au long du programme, des ingénieurs dédiés assurent les missions de collecte, de transformation et d’exploitation des corpus.

Pendant 4 ans, l’équipe de COLaF prévoit de mettre à disposition non seulement des corpus enrichis permettant une exploitation fine dans un contexte de traitement de la parole ou du texte, mais aussi un ensemble d’outils. Parmi ces outils, pour les langues régionales en particulier et selon les besoins des partenaires, nous souhaitons par exemple mettre à disposition des modèles d’annotation automatique (morphosyntaxe, lemmatisation, etc.), de traduction automatique, mais aussi des interfaces d’exploration de corpus.

Un exemple d’approche: les thèses prévues dans COLaF

Thèses en vue d’un meilleur outillage générique

Thèse 1 (MULTISPEECH): “Faciliter la communication en Langue des Signes grâce à la génération de gestes à partir de la parole”

Cette thèse a pour objectif de créer un modèle novateur capable de convertir la parole en gestes en Langue des Signes Française (LSF). En facilitant la communication entre les personnes sourdes et malentendantes et les personnes entendantes, ce modèle contribuera à une meilleure inclusion de tous dans la société.

En développant un tel modèle, cette recherche ouvrira de nouvelles perspectives pour une communication plus fluide et accessible entre les locuteurs de la Langue des Signes et les personnes entendantes. Elle permettra aux personnes sourdes et malentendantes de s’exprimer plus facilement et d’accéder à un plus large éventail d’opportunités sociales, éducatives et professionnelles.

Thèse 2 (ALMAnaCH): “Classification des langues dans les textes: vers une prise en compte des langues peu dotées à l’échelle”

Cette thèse explore la question de la classification linguistique fine dans le contexte de l’efficacité de l’inférence (de gros volumes de données doivent être traités) et de la précision.

Les trois principaux objectifs sont les suivants :

La capacité de détecter et de trier de manière plus précise les langues peu dotées à grande échelle, en mettant l’accent sur les langues régionales de France telles que l’Occitan, le Picard et les langues créoles parlées en France.
La capacité de détecter les variations entre les locuteurs, en se basant sur des critères géographiques, chronologiques ou sociologiques, afin d’aider à la formation de modèles qui prennent en compte la diversité des locuteurs au sein d’une même langue.
La capacité d’extraire d’autres marqueurs tels que le code-switching ou les données bilingues.

Cette recherche aura un impact significatif en permettant une meilleure détection et compréhension des langues peu dotées, ainsi qu’en améliorant la représentation des variations linguistiques au sein de ces langues. Elle contribuera également à valoriser et préserver le patrimoine linguistique et culturel des langues régionales de France et des locuteurs des créoles parlés en France à travers la détection de ces langues dans les vastes espaces documentaires du web.

Thèses orientées sur des langues régionales

Thèse 3 (MULTISPEECH): “Donner une voix aux langues peu dotées : Reconnaissance automatique de la parole pour les langues moins populaires”

L’objectif de cette thèse est de développer un système de reconnaissance de la parole spécialement adapté aux langues ou dialectes peu dotés en ressources linguistiques et technologiques. En rendant ces langues “rares” plus accessibles dans les technologies de traitement automatique de la parole, cette recherche contribuera à une meilleure représentativité linguistique et à une plus grande inclusion des locuteurs de ces langues dans le domaine numérique.

Ce système de reconnaissance de la parole adapté aux langues peu dotées peut être un outil précieux pour l’apprentissage de ces langues. En permettant aux apprenants de pratiquer leur expression orale et de recevoir un retour précis sur leur prononciation, ce système pourrait favoriser une meilleure maîtrise de la langue. Cela pourrait également faciliter l’élaboration de ressources pédagogiques interactives et ludiques, offrant ainsi de nouvelles opportunités d’apprentissage pour les locuteurs de ces langues moins populaires.

Thèse 4 (ALMAnaCH): “Renforcer l’accessibilité des langues régionales grâce à la traduction automatique et à la prise en compte de leurs variations”

Cette thèse aura pour objectif d’explorer l’application des méthodes de traduction automatique aux langues régionales et à leurs variations. En développant des outils de traduction automatique adaptés aux langues régionales et à leurs variations, cette thèse ouvrira de nouvelles perspectives pour l’accès à l’information et la communication dans ces langues moins représentées. Elle favorisera également la diffusion et la préservation de la richesse linguistique et culturelle des langues régionales de France, tout en renforçant leur visibilité dans le contexte numérique.

La conception de nouveaux modèles de traduction nécessitera de prendre en compte plusieurs dimensions qui représentent un défi : (i) la faible quantité de données parallèles disponibles, ce qui nécessitera d’utiliser et de concevoir des méthodes adaptées à des scénarios peu dotées, et (ii) les variations dialectale et graphique qui existent au sein d’une même langue (par exemple les variétés d’occitan, y compris les variétés anciennes), ce qui nécessitera d’entraîner des modèles robustes à ces variations.