Votre recherche
Résultats 7 ressources
-
This software is developed for the tokenisation of Picard texts, e.g. splitting sentences into words and ponctuation signs. The tokeniser handles ambiguous separators such as dash, apostrophe, dot. The software is developed in Perl 5.22.1. The installation and the running issues are explained in the script file.
-
La tokénisation est une étape essentielle dans tout système de traitement automatique des langues, d’autant plus que de nombreux outils dépendent du découpage obtenu. La tâche est particulièrement ardue pour les textes qui ne respectent pas les conventions orthotypographiques ou les langues pour lesquelles ces conventions ne sont pas stabilisées. Nous nous intéressons ici aux cas de deux langues régionales de France, l’alsacien et le picard. Nous présentons les défis posés par ces deux langues, et proposons des critères de découpage implémentés dans des tokéniseurs.
-
Le picard apparaît comme une langue très proche du français, et les effets de la proximité des langues sur leur enseignement devraient s’observer, dans son cas, de façon plus sensible que dans le cas, par exemple, de l’enseignement du russe à des tchécophones. Néanmoins, l’examen des trois manuels de picard existants, ainsi que les opinions exprimées par les picardophones eux-mêmes comme par les instances ministérielles, peuvent faire craindre que la très grande proximité du picard au français annihile la possibilité même de son enseignement, par un effet d’évaporation de son objet en tant que langue. Pourtant, dans une conception de l’enseignement des langues comme transmission d’une compétence de communication, le picard peut retrouver sa place en tant que pôle secondaire coorganisateur de la diglossie au sein de l’espace discursif régional. Cette approche implique néanmoins un travail de (re)création d’un référentiel normatif picard, destiné à le rendre visible aux yeux des locuteurs/apprenants, et donc apte à organiser cet espace discursif comme diglossie.