COLAF
COLAF
A Propos
Financeurs
Partenaires
Equipe
Résultats
Publications
Sources bibliographiques
Ressources identifiées
Contact
Clair
Sombre
Automatique
Français
English
3
Preprocessing MediaPipe Joint Annotation for Sign Language SImilarity Analysis
This paper introduces a preprocessing pipeline for keypoints extracted using MediaPipe, aiming to improve pose annotation consistency in sign language datasets. We evaluate its effectiveness using a sign similarity task based on phonological features, without relying on gloss annotations. Similarity is measured using Dynamic Time Warping (DTW) across videos from sign language dictionaries. Although such similarity analyses can support various sign language processing applications - such as lexical search, clustering, and data enrichment - the main contribution of this work is to standardise pose features across heterogeneous sources, including different signers and backgrounds. Experiments on two dictionary datasets show that our pipeline significantly improves similarity measurements, with promising benefits for other sign language processing tasks.
Kehina Manseri
,
Sam Bigeard
,
Slim Ouni
sept. 16, 2025
PDF
Hal
COLaF : Corpus et Outils pour les Langues de France et variétés de français
This paper introduces a preprocessing pipeline for keypoints extracted using MediaPipe, aiming to improve pose annotation consistency in sign language datasets. We evaluate its effectiveness using a sign similarity task based on phonological features, without relying on gloss annotations. Similarity is measured using Dynamic Time Warping (DTW) across videos from sign language dictionaries. Although such similarity analyses can support various sign language processing applications - such as lexical search, clustering, and data enrichment - the main contribution of this work is to standardise pose features across heterogeneous sources, including different signers and backgrounds. Experiments on two dictionary datasets show that our pipeline significantly improves similarity measurements, with promising benefits for other sign language processing tasks.
Benoît Sagot
,
Slim Ouni
,
Sam Bigeard
,
Lucence Ing
,
Rasul Dent
,
Juliette Janès
,
Thibault Clérice
,
Rachel Bawden
,
Emmanuel Vincent
,
Oriane Nédey
,
Malek Yaich
,
Panagiotis Tsolakis
,
Vincent Colotte
,
Mostafa Sadeghi
juin 4, 2025
PDF
Hal
Retour d'expérience: Whisper pour les langues régionales
Notre objectif est de développer un système de reconnaissance automatique de la parole (ASR) de langues régionales. Pour cela, nous explorons la spécialisation ou l’adaptation de Whisper par affinage (fine-tuning). Dans cet article, nous présentons un retour d’expérience sur des travaux en cours dans deux langues : le basque et l’alsacien.
Sam Bigeard
,
Panagiotis Tsolakis
,
Emmanuel Vincent
,
Vincent Colotte
,
Pascale Erhart
,
Slim Ouni
nov. 17, 2024
PDF
Hal
The birth of French orthography. A computational analysis of French spelling systems in diachrony
Le XVIIe siècle est crucial pour la langue française, car il voit la création d’une norme orthographique stricte qui perdure en grande partie jusqu’à nos jours. Malgré son importance, l’histoire des systèmes orthographiques reste toutefois une zone négligée en linguistique pour deux raisons. D’une part, l’orthographe est constituée de microchangements qui nécessitent une approche quantitative, et d’autre part, aucun corpus n’est disponible en raison des interventions des éditeurs dans presque tous les textes déjà accessibles. Dans cet article, nous proposons donc un nouveau corpus permettant une telle étude, ainsi que les outils d’extraction et d’analyse nécessaires à notre recherche. En comparant le texte extrait par OCR avec une version alignée automatiquement sur l’orthographe contemporaine du français, nous extrayons les zones de variantes, nous catégorisons ces variantes et nous étudions leur fréquence afin d’analyser le changement (ortho)graphique au cours du XVIIe siècle.
Simon Gabay
,
Thibault Clérice
sept. 21, 2024
PDF
Hal
Molyé: A Corpus-based Approach to Language Contact in Colonial France
Whether or not several Creole languages which developed during the early modern period can be considered genetic descendants of European languages has been the subject of intense debate. This is in large part due to the absence of evidence of intermediate forms. This work introduces a new open corpus, the Molyé corpus, which combines stereotypical representations of three kinds of language variation in Europe with early attestations of French-based Creole languages across a period of 400 years. It is intended to facilitate future research on the continuity between contact situations in Europe and Creolophone (former) colonies.
Rasul Dent
,
Juliette Janès
,
Thibault Clérice
,
Pedro Ortiz Suarez
,
Benoît Sagot
août 8, 2024
PDF
arXiv