Votre recherche

Réinitialiser la recherche

Tâche

Tokenisation

Résultats 4 ressources

Résumés

Vergez-Couret, M., & Miletic, A. (2024). Tokenization for Occitan (Gascon and Lengadocian). Zenodo. https://doi.org/10.5281/zenodo.12515136

A python programme to tokenise texts in Occitan based on rules. To launch the programme, execute the following instruction: python3 tokenizer_occitan.py < input.txt > output.conllu The script takes as input a text file with a single sentence per line, starting by a sentence ID, followed by a tab character, followed by the sentence itself. The current version of the tool was developped during the projects DIVITAL (funded by the ANR) and CorCoDial (funded by the Academy of Finland).

Consulter sur zenodo.org
Miletić, A. (2023). Outiller l’occitan : nouvelles ressources et lemmatisation. In C. Servan & A. Vilnat (Eds.), Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs (pp. 217–231). ATALA. https://aclanthology.org/2023.jeptalnrecital-long.17

Ce travail présente des contributions récentes à l'effort de doter l'occitan de ressources et outils pour le TAL. Plusieurs ressources existantes ont été modifiées ou adaptées, notamment un tokéniseur à base de règles, un lexique morphosyntaxique et un corpus arboré. Ces ressources ont été utilisées pour entraîner et évaluer des modèles neuronaux pour la lemmatisation. Dans le cadre de ces expériences, un nouveau corpus plus large (2 millions de tokens) provenant du Wikipédia a été annoté en parties du discours, lemmatisé et diffusé.

Consulter le document
Amalia, T. (2018). Tokeniser for Picard (Version version 1.0). Zenodo. https://doi.org/10.5281/zenodo.1493642

This software is developed for the tokenisation of Picard texts, e.g. splitting sentences into words and ponctuation signs. The tokeniser handles ambiguous separators such as dash, apostrophe, dot. The software is developed in Perl 5.22.1. The installation and the running issues are explained in the script file.

Consulter sur zenodo.org
Bernhard, D., Todirascu, A., Martin, F., Erhart, P., Steiblé, L., Huck, D., & Rey, C. (2017). Problèmes de tokénisation pour deux langues régionales de France, l’alsacien et le picard. DiLiTAL 2017, 14–23. https://hal.science/hal-01539160

La tokénisation est une étape essentielle dans tout système de traitement automatique des langues, d’autant plus que de nombreux outils dépendent du découpage obtenu. La tâche est particulièrement ardue pour les textes qui ne respectent pas les conventions orthotypographiques ou les langues pour lesquelles ces conventions ne sont pas stabilisées. Nous nous intéressons ici aux cas de deux langues régionales de France, l’alsacien et le picard. Nous présentons les défis posés par ces deux langues, et proposons des critères de découpage implémentés dans des tokéniseurs.

Consulter le document

Flux web personnalisé

Dernière mise à jour depuis la base de données : 23/06/2025 15:08 (UTC)

Votre recherche

Résultats 4 ressources

Explorer

Corpus

Langue

Tâche