Votre recherche
Résultats 3 ressources
-
Ce poster explore les défis de l'annotation syntaxique pour l'alsacien, une langue peu dotée, en comparant deux approches novatrices. D'un côté, nous examinons l'utilisation des grands modèles de langue (LLMs) génératifs, tels que ChatGPT ou Mistral, qui promettent une couverture linguistique large mais potentiellement superficielle. De l'autre, nous étudions des modèles plus légers de type encodeur, entraînés spécifiquement sur des langues proches de l'alsacien. Notre analyse met en lumière les forces et les faiblesses de chaque méthode, en examinant leur efficacité et leur capacité à saisir les subtilités de la syntaxe alsacienne. L'objectif est de déterminer si la "wunderbàr" technologie des LLMs écrase la concurrence, ou si les modèles plus modestes, nourris à la "choucroute neuronale" des langues voisines, peuvent rivaliser pour dompter la grammaire alsacienne. Cette recherche vise ainsi à ouvrir de nouvelles perspectives pour l'annotation syntaxique des langues peu dotées et à contribuer au développement d'outils linguistiques plus performants pour l'alsacien. Préparez-vous à assister à un combat épique entre modèles d'IA pour conquérir la syntaxe alsacienne !
-
Parallel corpora are still scarce for most of the world's language pairs. The situation is by no means different for regional languages of France. In addition, adequate web interfaces facilitate and encourage the use of parallel corpora by target users, such as language learners and teachers, as well as linguists. In this paper, we describe ParCoLab, a parallel corpus and a web platform for querying the corpus. From its onset, ParCoLab has been geared towards lower-resource languages, with an initial corpus in Serbian, along with French and English (later Spanish). We focus here on the extension of ParCoLab with a parallel corpus for four regional languages of France: Alsatian, Corsican, Occitan and Poitevin-Saintongeais. In particular, we detail criteria for choosing texts and issues related to their collection. The new parallel corpus contains more than 20k tokens per regional language.
Explorer
Langue
- Alsacien
- Corse (1)
-
Multilingue
(1)
- Langues COLaF (1)
- Occitan (1)
- Poitevin-Saintongeais (1)