Bibliographie complète
Problèmes de tokénisation pour deux langues régionales de France, l'alsacien et le picard
Type de ressource
Conference Paper
Auteurs/contributeurs
- Bernhard, Delphine (Author)
- Todirascu, Amalia (Author)
- Martin, Fanny (Author)
- Erhart, Pascale (Author)
- Steiblé, Lucie (Author)
- Huck, Dominique (Author)
- Rey, Christophe (Author)
Title
Problèmes de tokénisation pour deux langues régionales de France, l'alsacien et le picard
Abstract
La tokénisation est une étape essentielle dans tout système de traitement automatique des langues, d’autant plus que de nombreux outils dépendent du découpage obtenu. La tâche est particulièrement ardue pour les textes qui ne respectent pas les conventions orthotypographiques ou les langues pour lesquelles ces conventions ne sont pas stabilisées. Nous nous intéressons ici aux cas de deux langues régionales de France, l’alsacien et le picard. Nous présentons les défis posés par ces deux langues, et proposons des critères de découpage implémentés dans des tokéniseurs.
Date
2017-06
Proceedings Title
DiLiTAL 2017
Place
Orléans, France
Pages
14-23
Series
Actes de l'atelier “ Diversité Linguistique et TAL ”
Accessed
25/07/2024 15:10
Library Catalog
HAL Archives Ouvertes
Référence
Bernhard, D., Todirascu, A., Martin, F., Erhart, P., Steiblé, L., Huck, D., & Rey, C. (2017). Problèmes de tokénisation pour deux langues régionales de France, l’alsacien et le picard. DiLiTAL 2017, 14–23. https://hal.science/hal-01539160
Tâche
Lien vers cette notice