Outiller l'occitan : nouvelles ressources et lemmatisation
Type de ressource
Conference Paper
Auteurs/contributeurs
- Miletić, Aleksandra (Author)
- Servan, Christophe (Editor)
- Vilnat, Anne (Editor)
Title
Outiller l'occitan : nouvelles ressources et lemmatisation
Abstract
Ce travail présente des contributions récentes à l'effort de doter l'occitan de ressources et outils pour le TAL. Plusieurs ressources existantes ont été modifiées ou adaptées, notamment un tokéniseur à base de règles, un lexique morphosyntaxique et un corpus arboré. Ces ressources ont été utilisées pour entraîner et évaluer des modèles neuronaux pour la lemmatisation. Dans le cadre de ces expériences, un nouveau corpus plus large (2 millions de tokens) provenant du Wikipédia a été annoté en parties du discours, lemmatisé et diffusé.
Date
2023-06
Proceedings Title
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs
Conference Name
JEP/TALN/RECITAL 2023
Place
Paris, France
Publisher
ATALA
Pages
217–231
Language
French
Short Title
Outiller l'occitan
Accessed
19/03/2024 14:07
Library Catalog
ACLWeb
Référence
Miletić, A. (2023). Outiller l’occitan : nouvelles ressources et lemmatisation. In C. Servan & A. Vilnat (Eds.), Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs (pp. 217–231). ATALA. https://aclanthology.org/2023.jeptalnrecital-long.17
Corpus
Langue
Lien vers cette notice