COLaF

COLaF

Corpus et Outils pour les Langues de France

COLaF

À travers le projet COLaF (Corpus et Outils pour les Langues de France), Inria a pour objectif de contribuer au développement de corpus et d’outils libres pour le français et les autres langues de France, en étroite collaboration avec des partenaires académiques et institutionnels.

Le périmètre de COLaF inclut à la fois :

  • les données textuelles (ALMAnaCH, Centre Inria de Paris),
  • les données de parole et de langue des signes (MULTISPEECH, Centre Inria de l’Université de Lorraine).

COLaF vise à couvrir la diversité du français et des langues de France :

  • il a pour ambition de couvrir un échantillon aussi divers que possible: français de France et d’ailleurs, langues régionales, créoles à base française (y compris hors de France), langues autochtones, langues d’immigration, langue des signes française;
  • l’ensemble des axes de variation seront étudiés, au-delà de l’état standard de la langue, et notamment les langues de spécialité, la diachronie, les états non standard (réseaux sociaux, langue d’apprenants, etc.).

Les travaux au sein du projet couvrent notamment l’acquisition et structuration de textes à partir de sources non textuelles (livres, enregistrements audio, etc.), la classification par langues et par variétés linguistiques de gros volumes de textes (en lien étroit avec le projet OSCAR), le développement de modèles d’annotation et de transformation (traduction, normalisation, synthèse vocale, génération de langue des signes) au service du développement de corpus et de l’exploitation des ressources nouvellement créées.

COLaF est un DEFI Inria porté par Benoît Sagot (responsable de l’équipe-projet ALMAnaCH) et Slim Ouni (responsable de l’équipe-projet MULTISPEECH).

Equipe centrale

Avatar

ALMAnaCH

Texte

Avatar

Multispeech

Parole et Langues des signes

Institutions et laboratoires partenaires

Avatar

Agence régionale de la Langue Picarde

Picard

Avatar

Lo Congrès

Occitan

Membres

ALMAnaCH

Avatar

Benoît Sagot

Directeur de Recherches - Co-porteur du projet

Avatar

Thibault Clérice

Starting Research Position

Avatar

Rachel Bawden

Chercheuse

Avatar

Djamé Seddah

Maître de Conférence

Avatar

Rasul Dent

Doctorant

Avatar

Oriane Nédey

Ingénieure

Avatar

Juliette Janès

Ingénieure

Avatar

Laurent Romary

Directeur de Recherches

Multispeech

Avatar

Slim Ouni

Professeur des Universités - Co-porteur du projet

Avatar

Sam Bigeard

Ingénieur chef de projet

Avatar

Mostafa Sadeghi

Chercheur

Avatar

Emmanuel Vincent

Directeur de Recherches

Avatar

Vincent Colotte

Maître de conférence

Résultats

Données textuelles

Le schéma XML-TEI utilisé par COLAF-Text pour encoder ses documents est disponible sur github ici et en HTML ici.
Un jeu de données pour l'analyse de la mise en page de documents, Layout Analysis Dataset with SegmOnto (LADaS), est en construction et accessible ici.

Contact