Votre recherche
Résultats 3 ressources
-
Bien que le dagur et l’alsacien représentent deux familles de langues typologiquement éloignées, ils partagent plusieurs similitudes : les deux langues sont en danger, n’ont pas de système orthographique unifié, et ont peu de corpus numériques disponibles. Compte tenu de ces défis, l’objectif principal de cet article est de comparer le bruit dans les corpus de ces deux langues et son impact sur l’annotation et l’étiquetage des parties du discours (POS). Nous discutons d’abord des stratégies qui peuvent être utilisées pour réduire le bruit dû aux incohérences orthographiques observées lors de la collecte des corpus, en utilisant le dagur comme exemple. Nous observons ensuite que les distributions des trigrammes POS dans les corpus manuellement annotés de dagur et d’alsacien sont similaires à celles des langues typologiquement apparentées dans UD v2.12, ce qui justifie l’expérimentation d’approches de transfert zéro-shot pour l’étiquetage morphosyntaxique. Nous évaluons quelques stratégies simples de réduction du bruit pour l’étiquetage morphosyntaxique en utilisant l’exemple des dialectes alsaciens et en nous basant sur leur proximité avec l’allemand standard. Les résultats obtenus confirment le rôle important de la proximité linguistique dans l’étiquetage morphosyntaxique et l’efficacité de la méthode de transformation des données que nous proposons. Cependant, ils invitent également à une interprétation plus poussée des capacités des modèles multilingues.
-
Ce poster explore les défis de l'annotation syntaxique pour l'alsacien, une langue peu dotée, en comparant deux approches novatrices. D'un côté, nous examinons l'utilisation des grands modèles de langue (LLMs) génératifs, tels que ChatGPT ou Mistral, qui promettent une couverture linguistique large mais potentiellement superficielle. De l'autre, nous étudions des modèles plus légers de type encodeur, entraînés spécifiquement sur des langues proches de l'alsacien. Notre analyse met en lumière les forces et les faiblesses de chaque méthode, en examinant leur efficacité et leur capacité à saisir les subtilités de la syntaxe alsacienne. L'objectif est de déterminer si la "wunderbàr" technologie des LLMs écrase la concurrence, ou si les modèles plus modestes, nourris à la "choucroute neuronale" des langues voisines, peuvent rivaliser pour dompter la grammaire alsacienne. Cette recherche vise ainsi à ouvrir de nouvelles perspectives pour l'annotation syntaxique des langues peu dotées et à contribuer au développement d'outils linguistiques plus performants pour l'alsacien. Préparez-vous à assister à un combat épique entre modèles d'IA pour conquérir la syntaxe alsacienne !
-
This article describes the creation of corpora with part-of-speech annotations for three regional languages of France: Alsatian, Occitan and Picard. These manual annotations were performed in the context of the RESTAURE project, whose goal is to develop resources and tools for these under-resourced French regional languages. The article presents the tagsets used in the annotation process as well as the resulting annotated corpora.
Explorer
Corpus
-
Texte
(1)
-
Annotated
(1)
- Morphology (1)
-
Annotated
(1)
Langue
- Alsacien (2)
-
Multilingue
(1)
- Langues COLaF (1)