Votre recherche
Résultats 8 ressources
-
This corpus contains a collection of texts in the Alsatian dialects which were manually annotated with parts-of-speech, lemmas, translations into French and location entities. The corpus was produced in the context of the RESTAURE project, funded by the French ANR. The current version of the corpus contains 21 documents and 12,907 syntactic words. The annotation process is detailed in the following article: http://hal.archives-ouvertes.fr/hal-01704806 Information about version 3 Version 3 corrects some minor errors in the CONLL-U files: wrong token indexes after multiword tokens and missing _ in glosses. In addition, all files are concatenated into a single CONLL-U file. Information about version 2 Version 2 contains the same annotated documents as version 1, but some errors have been corrected and the annotated corpus is provided in the CoNLL-U format The untokenised and unannotated versions of the documents are found in the "txt" folder. The annotated versions of the documents are found in the "ud" folder (CoNLL-U format). In addition to the form, the lemma and the part-of-speech additional information is also provided: translation of the lemma into French (Gloss field) annotation of location names (NamedType field)
-
L’Alsace peut être qualifiée de province au même titre que la Bourgogne ou la Franche-Comté, par exemple ; il y aura peu de désaccord à propos d’une telle dénomination. Mais quand il s’agit de définir la situation linguistique de l’Alsace, des difficultés nombreuses surgissent qui sont liées au fait qu’il ne s’agit pas seulement de repérer des langues en usage par rapport à une classification des langues fondée sur des critères scientifiques mais qu’il s’agit aussi de les situer les unes par ...
-
La tokénisation est une étape essentielle dans tout système de traitement automatique des langues, d’autant plus que de nombreux outils dépendent du découpage obtenu. La tâche est particulièrement ardue pour les textes qui ne respectent pas les conventions orthotypographiques ou les langues pour lesquelles ces conventions ne sont pas stabilisées. Nous nous intéressons ici aux cas de deux langues régionales de France, l’alsacien et le picard. Nous présentons les défis posés par ces deux langues, et proposons des critères de découpage implémentés dans des tokéniseurs.
Explorer
Corpus
-
Texte
(2)
-
Annotated
(1)
- Morphology (1)
-
Annotated
(1)
Tâche
- Tokenisation (1)
Type de papier
- Classification des langues (1)
- Projet (2)