À travers le projet COLaF (Corpus et Outils pour les Langues de France), Inria a pour objectif de contribuer au développement de corpus et d’outils libres pour le français et les autres langues de France, en étroite collaboration avec des partenaires académiques et institutionnels.
Le périmètre de COLaF inclut à la fois :
COLaF vise à couvrir la diversité du français et des langues de France :
Les travaux au sein du projet couvrent notamment l’acquisition et structuration de textes à partir de sources non textuelles (livres, enregistrements audio, etc.), la classification par langues et par variétés linguistiques de gros volumes de textes (en lien étroit avec le projet OSCAR), le développement de modèles d’annotation et de transformation (traduction, normalisation, synthèse vocale, génération de langue des signes) au service du développement de corpus et de l’exploitation des ressources nouvellement créées.
COLaF est un DEFI Inria porté par Benoît Sagot (responsable de l’équipe-projet ALMAnaCH) et Slim Ouni (responsable de l’équipe-projet MULTISPEECH).