Bibliographie complète
Managing Noise in Part-of-Speech Tagging for Extremely Low-Resource Languages: Comparing Strategies for Corpus Collection and Annotation in Dagur and Alsatian
Type de ressource
Journal Article
Auteurs/contributeurs
- Bernhard, Delphine (Author)
- Dolińska, Joanna (Author)
Title
Managing Noise in Part-of-Speech Tagging for Extremely Low-Resource Languages: Comparing Strategies for Corpus Collection and Annotation in Dagur and Alsatian
Abstract
Bien que le dagur et l’alsacien représentent deux familles de langues typologiquement éloignées, ils partagent plusieurs similitudes : les deux langues sont en danger, n’ont pas de système orthographique unifié, et ont peu de corpus numériques disponibles. Compte tenu de ces défis, l’objectif principal de cet article est de comparer le bruit dans les corpus de ces deux langues et son impact sur l’annotation et l’étiquetage des parties du discours (POS). Nous discutons d’abord des stratégies qui peuvent être utilisées pour réduire le bruit dû aux incohérences orthographiques observées lors de la collecte des corpus, en utilisant le dagur comme exemple. Nous observons ensuite que les distributions des trigrammes POS dans les corpus manuellement annotés de dagur et d’alsacien sont similaires à celles des langues typologiquement apparentées dans UD v2.12, ce qui justifie l’expérimentation d’approches de transfert zéro-shot pour l’étiquetage morphosyntaxique. Nous évaluons quelques stratégies simples de réduction du bruit pour l’étiquetage morphosyntaxique en utilisant l’exemple des dialectes alsaciens et en nous basant sur leur proximité avec l’allemand standard. Les résultats obtenus confirment le rôle important de la proximité linguistique dans l’étiquetage morphosyntaxique et l’efficacité de la méthode de transformation des données que nous proposons. Cependant, ils invitent également à une interprétation plus poussée des capacités des modèles multilingues.
Publication
Corpus
Issue
26
Date
2025/01/15
Language
fr
DOI
ISSN
1638-9808
Short Title
Managing Noise in Part-of-Speech Tagging for Extremely Low-Resource Languages
Accessed
05/02/2025 10:30
Library Catalog
Rights
All rights reserved
Extra
Number: 26
Publisher: Bases, corpus et langage - UMR 6039
Référence
Bernhard, D., & Dolińska, J. (2025). Managing Noise in Part-of-Speech Tagging for Extremely Low-Resource Languages: Comparing Strategies for Corpus Collection and Annotation in Dagur and Alsatian. Corpus, 26. https://doi.org/10.4000/1364t
Langue
Lien vers cette notice