Votre recherche
Résultats 17 ressources
-
Part-Of-Speech (POS) tagging, including tokenization and sentence splitting, is the first step in all Natural Language Processing chain. It usually requires substantial efforts to annotate corpora and produce lexicons. However, when these language resources are missing like in Occitan, rather than concentrate the effort in creating them, methods are settled to adapt existing rich-resourced languages tagger. For this to work, these methods exploit the etymologic proximity of the under-resourced language and a rich-resourced language. In this article, we focus on Occitan, which shares similarities with several romance languages including French and Castillan. The method consists in running existing morpho-syntactic tools, here Tree Tagger, on Occitan texts with first a translation of the frequent words in a rich-resourced language. We performed two distinct experimentations, one exploiting similarities between Occitan and French and the second exploiting similarities between Occitan and Castillan. This method only requires the listing of the 300 most frequent words (based on corpus) to construct two bilingual lexicons (Occitan/French and Occitan/Castillan). Our results are better than those obtained with the Apertium tagger using a larger lexicon.
-
A python programme to tokenise texts in Occitan based on rules. To launch the programme, execute the following instruction: python3 tokenizer_occitan.py < input.txt > output.conllu The script takes as input a text file with a single sentence per line, starting by a sentence ID, followed by a tab character, followed by the sentence itself. The current version of the tool was developped during the projects DIVITAL (funded by the ANR) and CorCoDial (funded by the Academy of Finland).
-
Dans cette étude, nous nous intéressons à la question de l'analyse morphosyntaxique de l'occitan. Nous utilisons Talismane, un logiciel par apprentissage supervisé, nécessitant des données annotées pour l'entraînement et optionnellement un lexique. Nous montrons dans cet article, qu'en l'absence de données annotées suffisantes pour l'occitan, il est possible d'obtenir de bons résultats (92%) en utilisant les données d'une langue étymologiquement proche, le catalan. Nous avons utilisé le corpus Ancora (500 000 formes) et un lexique occitan languedocien (250 000 entrées). Utiliser un corpus catalan de taille importante permet une amélioration de +3% par rapport au résultat obtenu avec le seul corpus d'entraînement occitan disponible à ce jour de 2800 formes. Abstract. Pos-tagging the Lengadocian dialect of Occitan: a little Lengadocian befriends a big Catalan. In this study, we examine the question of Occitan POS-tagging. We use Talismane, a supervised machine learning NLP tool, requiring annotated data for training and optionally a lexicon. We show that, with insufficient data for Occitan, it is possible to obtain good results (92%) by using data from an etymologically close language, in this case Catalan. We used the Catalan Ancora corpus (500,000 tokens) and an Occitan Languedocien lexicon (250,000 entries). Using the larger Catalan corpus improved results by +3% with respect to the result obtained using the only Occitan training corpus available to date (2,800 tokens). Mots-clés : traitement automatique des langues peu dotées, occitan, analyse morphosyntaxique
-
Dieser Artikel stellt Überlegungen zu den Herausforderungen der Dokumentation von Minderheitensprachen im digitalen Raum an, ausgehend von den Arbeiten, die im Rahmen des DIVITAL-Projekts durchgeführt wurden. Die ersten Arbeiten des Projekts betrafen die Sammlung von Korpora und ihre Dokumentation durch feinkörnige Metadaten. Diese Arbeiten haben zwei große Herausforderungen aufgezeigt: (i) die Identifizierung der Sprachen und ihrer Varianten im Rahmen der Normen für die Kodierung von Sprachnamen und (ii) die Schaffung neuer Ressourcen in Verbindung mit der aktuellen Praxis dieser Sprachen.
-
Cet article propose une réflexion sur les défis de la documentation des langues minorisées dans l’espace numérique à partir des travaux réalisés dans le cadre du projet DIVITAL. Les premiers travaux du projet ont concerné la collecte de corpus et leur documentation par des métadonnées à grain fin. Ces travaux ont mis en évidence deux défis majeurs : (i) l’identification des langues et de leurs variantes, dans le cadre des normes de codification des noms de langues, et (ii) la création de nouvelles ressources en lien avec les pratiques actuelles de ces langues. , This article looks at the challenges of documenting minority languages in the digital environment, based on work carried out as part of the DIVITAL project. The project’s initial work involved collecting corpora and documenting them using fine-grained metadata. This work has highlighted two major challenges: (i) the identification of languages and their variants, within the framework of standards for the codification of language names, and (ii) the creation of new resources linked to the current practices of these languages. , Dieser Artikel stellt Überlegungen zu den Herausforderungen der Dokumentation von Minderheitensprachen im digitalen Raum an, ausgehend von den Arbeiten, die im Rahmen des DIVITAL-Projekts durchgeführt wurden. Die ersten Arbeiten des Projekts betrafen die Sammlung von Korpora und ihre Dokumentation durch feinkörnige Metadaten. Diese Arbeiten haben zwei große Herausforderungen aufgezeigt: (i) die Identifizierung der Sprachen und ihrer Varianten im Rahmen der Normen für die Kodierung von Sprachnamen und (ii) die Schaffung neuer Ressourcen in Verbindung mit der aktuellen Praxis dieser Sprachen.
-
Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.
-
Loflòc (Lexic obert flechit occitan - Lexique ouvert fléchi occitan) est un lexique informatisé de formes fléchies en occitan. Il a été réalisé dans le cadre du projet ANR RESTAURE (Bernard et Vergez-Couret, 2016) en collaboration avec Lo Congrès Permanent de la Lenga Occitana . La création d'un lexique informatisé pour l'occitan s'intègre dans un projet plus global de création de ressources linguistiques informatisées (pour une langue qui dispose de peu de ressources à l'heure actuelle). Ces ressources, qu’elles soient lexicales comme LoFlòc, ou textuelles comme BaTelÒc (Bras et Thomas 2011, Bras et Vergez Couret 2016), sont conçues en suivant un double objectif : d'une part la préservation et la diffusion du patrimoine linguistique et d'autre part la création de ressources pour le développement d'outils de traitement automatique des langues (par exemple des outils pour la recherche et l’extraction d'information, la traduction automatique...). La création de ces ressources se fait en harmonie avec la Feuille de route pour le développement du numérique occitan (Lo Congrès, 2014 ; Dazéas, 2015, Séguier et Mercadier, 2016). Les objectifs qui ont présidé à la création de Loflòc sont les suivants : •Doter l'occitan d'un lexique structuré de formes fléchies adapté aux besoins du TAL (Traitement Automatique des Langues) pour être intégré à des applications comme un lemmatiseur ou un analyseur morphosyntaxique (Vergez-Couret et Urieli, 2015) ; •Intégrer le lexique dans une interface de consultation ; •Utiliser un jeu d'étiquettes morphosyntaxiques (tagset) standard ; •Accueillir par étapes toute la variation (dialectale, intra-dialectale, graphique). Les variations, qu'elles soient dialectales, intradialectales ou graphiques, sont présentes dans les productions en occitan, anciennes et actuelles. Les outils automatiques, tout comme les locuteurs (néo-locuteurs, apprenants…), sont confrontés à toutes ces variations. Afin de bâtir des outils les plus robustes possibles, il faut savoir décrire et représenter cette variation dans les lexiques. En outre, dans les outils de consultation et d'interrogation du lexique, l'utilisateur pourra découvrir et mieux appréhender toute la variation possible. Pour constituer ce lexique, nous commençons par intégrer des ressources existantes au format numérique, à les enrichir avec des informations grammaticales lorsque ces dernières sont incomplètes ou inadaptées et à compléter les paradigmes flexionnels (genre et nombre…). Les premières ressources intégrées à Loflòc pour le languedocien sont le Dictionnaire Occitan-Français Languedocien de Laux (2001), Dictionnaire Français-Occitan Languedocien de Laux (2005) ainsi que les données de l'application vèrb'Òc, conjugueur édité par Lo Congrès (Sauzet et Ubaud, 1995 ; Sauzet, 2016). En effet, ceux-ci ayant été normalisés au format XML (norme TEI P5) par le Congrès, il a été possible d’en extraire automatiquement les lemmes, leurs flexions et les informations grammaticales nécessaires. En ce qui concerne la structure et le choix des standards pour Loflòc, nous nous inspirons des lexiques français tels que Morphalou (Romary, et al, 2004) et GlaFF (Sajous, et al., 2013). Nous avons adopté les étiquettes du standard Eagles/Multext/Grace (Rajman et al., 1997) que nous avons gardées en anglais tout en les adaptant aux spécificités de l'occitan. Cela facilitera la comparaison de notre lexique aux lexiques des langues proches qui ont également adopté des jeux d'étiquettes semblables et comparables (français, catalan). Nous présenterons dans la communication le lexique, sa structure, son contenu, ainsi que les différents types d’application qui ne peuvent être développées sans un lexique de ce type (analyseurs morpho-syntaxiques, analyseurs syntaxiques, traducteurs automatiques, outils de recherche d’information, outils d’aide à la rédaction de textes ou sms, correcteurs orthographiques, etc.). Bibliographie : Bernhard, D., et Vergez-Couret, M. (2016). Le projet RESTAURE. In Les technologies pour les langues régionales de France, 82 90. Condé-sur-Noireau: DGLFLF. Bras, M., Thomas, J. (2011). « Batelòc : cap a una basa informatisada de tèxtes occitans », in A. Rieger & D. Sumien (eds). Occitània convidada d’Euregio. Lièja 1981 - Aquisgran 2008 : Bilanç e amiras. Actes du Neuvième Congrès International de l’Association Internationale d’Études Occitanes, Aix-la-Chapelle, 24-31 août 2008, Aachen, Shaker. Bras, M. & Vergez-Couret, M. (2016). « BaTelÒc: A text base for the Occitan language. », in Vera Ferreira and Peter Bouda (eds.) Language Documentation and Conservation in Europe, Honolulu: University of Hawai'i Press, pp. 133-149. Dazéas, B. (2015). Feuille de route pour le développement numérique occitan. In Actes de la Traitement Automatique des Langues Régionales de France et d’Europe, Caen. Laux C. (2001). Dictionnaire occitan-français : languedocien, avec la collab. de Serge Granier, Puylaurens, IEO, Section du Tarn. Laux C. (2005). Dictionnaire Français-Occitan. Castres : IEO del Tarn. Lo Congrès (2014). Diagnostic e huelha de rota tau desvolopament numeric de la lenga occitana 2015-2019, rapòrt finau deu projècte. Media.kom, elhuyar. http://locongres.org/images/docs/huelha_rota_numeric_occitan_oc.pdf. Rajman M. (1997). Format de description lexicale pour le français – Partie 2 : description morphosyntaxique, technical report GRACE, http://www.limsi.fr/grace/. Romary L., Salmon-Alt S., Francopoulo G. (2004). Standards going concrete : from LMF to Morphalou. Workshop on Electronic Dictionaries, Coling 2004, Geneva, Switzerland. Sajous, F., Hathout, N., Calderone, B. (2013). 'GLÀFF, un Gros Lexique À tout Faire du Français'. Actes de la conférence Traitement Automatique des Langues Naturelles (TALN 2013). Sauzet, P., Ubaud, J. (1995). Le verbe occitan. Lo vèrb occitan. Aix-en-Provence : Édisud. Sauzet, P. (2016). Conjugaison occitane. IEO edicions. Séguier, A., et Mercadier, G. (2016). Le numérique au service de la transmission de la langue occitane : situation et perspectives de développement ». In Les technologies pour les langues régionales de France, 82 90. Condé-sur-Noireau: DGLFLF. Vergez-Couret, M., et Urieli, A. (2015). Analyse morphosyntaxique de l’occitan languedocien : l’amitié entre un petit languedocien et un gros catalan. In Actes du Workshop Traitement Automatique des Langues Régionales de France et d’Europe, Caen.
-
We investigate the effect of integrating lexicon information to an extremely low-resource language when annotated data is scarce for morpho-syntactic analysis. Obtaining such data and linguistic resources for these languages are usually constrained by a lack of human and financial resources making this task particularly challenging. In this paper, we describe the collection and leverage of a bilingual lexicon for Poitevin-Saintongeais, a regional language of France, to create augmented data through a neighbor-based distributional method. We assess this lexicon-driven approach in improving POS tagging while using different lexicon and augmented data sizes. To evaluate this strategy, we compare two distinct paradigms: neural networks, which typically require extensive data, and a conventional probabilistic approach, in which a lexicon is instrumental in its performance. Our findings reveal that the lexicon is a valuable asset for all models, but in particular for neural, demonstrating an enhanced generalization across diverse classes without requiring an extensive lexicon size.
-
Metadata are key components of language resources and facilitate their exploitation and re-use. Their creation is a labour intensive process and requires a modeling step, which identifies resource-specific information as well as standards and controlled vocabularies that can be reused. In this article, we focus on metadata for documenting text bases for regional languages of France characterised by several levels of variation (space, time, usage, social status), based on a survey of existing metadata schema. Moreover, we implement our metadata model as a database structure for the Heurist data management system, which combines both the ease of use of spreadsheets and the ability to model complex relationships between entities of relational databases. The Heurist template is made freely available and was used to describe metadata for text bases in Alsatian and Poitevin-Santongeais. We also propose tools to automatically generate XML metadata headers files from the database.
-
This paper presents Loflòc (Lexic obèrt flechit Occitan – Open Inflected Lexicon of Occitan), a morphological lexicon for Occitan. Even though the lexicon no longer occupies the same place in the NLP pipeline since the advent of large language models, it remains a crucial resource for low-resourced languages. Occitan is a Romance language spoken in the south of France and in parts of Italy and Spain. It is not recognized as an official language in France and no standard variety is shared across the area. To the best of our knowledge, Loflòc is the first publicly available lexicon for Occitan. It contains 650 thousand entries for 57 thousand lemmas. Each entry is accompanied by the corresponding Universal Dependencies Part-of-Speech tag. We show that the lexicon has solid coverage on the existing freely available corpora of Occitan in four major dialects. Coverage gaps on multi-dialect corpora are overwhelmingly driven by dialectal variation, which affects both open and closed classes. Based on this analysis we propose directions for future improvements.
-
Parallel corpora are still scarce for most of the world's language pairs. The situation is by no means different for regional languages of France. In addition, adequate web interfaces facilitate and encourage the use of parallel corpora by target users, such as language learners and teachers, as well as linguists. In this paper, we describe ParCoLab, a parallel corpus and a web platform for querying the corpus. From its onset, ParCoLab has been geared towards lower-resource languages, with an initial corpus in Serbian, along with French and English (later Spanish). We focus here on the extension of ParCoLab with a parallel corpus for four regional languages of France: Alsatian, Corsican, Occitan and Poitevin-Saintongeais. In particular, we detail criteria for choosing texts and issues related to their collection. The new parallel corpus contains more than 20k tokens per regional language.
-
This article describes the creation of corpora with part-of-speech annotations for three regional languages of France: Alsatian, Occitan and Picard. These manual annotations were performed in the context of the RESTAURE project, whose goal is to develop resources and tools for these under-resourced French regional languages. The article presents the tagsets used in the annotation process as well as the resulting annotated corpora.
-
This paper outlines the ongoing effort of creating the first treebank for Occitan, a low-ressourced regional language spoken mainly in the south of France. We briefly present the global context of the project and report on its current status. We adopt the Universal Dependencies framework for this project. Our methodology is based on two main principles. Firstly, in order to guarantee the annotation quality, we use the agile annotation approach. Secondly, we rely on pre-processing using existing tools (taggers and parsers) to facilitate the work of human annotators, mainly through a delexicalized cross-lingual parsing approach. We present the results available at this point (annotation guidelines and a sub-corpus annotated with PoS tags and lemmas) and give the timeline for the rest of the work.
Explorer
Corpus
-
Texte
(5)
-
Annotated
(3)
- Morphology (2)
- Parallel (1)
-
Annotated
(3)
Langue
- Alsacien (4)
- Corse (2)
-
Multilingue
(3)
- Langues COLaF (3)
- Occitan (11)
- Picard (2)
- Poitevin-Saintongeais (3)
Tâche
Type de papier
- Etat de l'art (1)
- Prise de position (1)
- Projet (2)