Rechercher
Bibliographie complète 142 ressources
-
This paper outlines the ongoing effort of creating the first treebank for Occitan, a low-ressourced regional language spoken mainly in the south of France. We briefly present the global context of the project and report on its current status. We adopt the Universal Dependencies framework for this project. Our methodology is based on two main principles. Firstly, in order to guarantee the annotation quality, we use the agile annotation approach. Secondly, we rely on pre-processing using existing tools (taggers and parsers) to facilitate the work of human annotators, mainly through a delexicalized cross-lingual parsing approach. We present the results available at this point (annotation guidelines and a sub-corpus annotated with PoS tags and lemmas) and give the timeline for the rest of the work.
-
Loflòc (Lexic obert flechit occitan - Lexique ouvert fléchi occitan) est un lexique informatisé de formes fléchies en occitan. Il a été réalisé dans le cadre du projet ANR RESTAURE (Bernard et Vergez-Couret, 2016) en collaboration avec Lo Congrès Permanent de la Lenga Occitana . La création d'un lexique informatisé pour l'occitan s'intègre dans un projet plus global de création de ressources linguistiques informatisées (pour une langue qui dispose de peu de ressources à l'heure actuelle). Ces ressources, qu’elles soient lexicales comme LoFlòc, ou textuelles comme BaTelÒc (Bras et Thomas 2011, Bras et Vergez Couret 2016), sont conçues en suivant un double objectif : d'une part la préservation et la diffusion du patrimoine linguistique et d'autre part la création de ressources pour le développement d'outils de traitement automatique des langues (par exemple des outils pour la recherche et l’extraction d'information, la traduction automatique...). La création de ces ressources se fait en harmonie avec la Feuille de route pour le développement du numérique occitan (Lo Congrès, 2014 ; Dazéas, 2015, Séguier et Mercadier, 2016). Les objectifs qui ont présidé à la création de Loflòc sont les suivants : •Doter l'occitan d'un lexique structuré de formes fléchies adapté aux besoins du TAL (Traitement Automatique des Langues) pour être intégré à des applications comme un lemmatiseur ou un analyseur morphosyntaxique (Vergez-Couret et Urieli, 2015) ; •Intégrer le lexique dans une interface de consultation ; •Utiliser un jeu d'étiquettes morphosyntaxiques (tagset) standard ; •Accueillir par étapes toute la variation (dialectale, intra-dialectale, graphique). Les variations, qu'elles soient dialectales, intradialectales ou graphiques, sont présentes dans les productions en occitan, anciennes et actuelles. Les outils automatiques, tout comme les locuteurs (néo-locuteurs, apprenants…), sont confrontés à toutes ces variations. Afin de bâtir des outils les plus robustes possibles, il faut savoir décrire et représenter cette variation dans les lexiques. En outre, dans les outils de consultation et d'interrogation du lexique, l'utilisateur pourra découvrir et mieux appréhender toute la variation possible. Pour constituer ce lexique, nous commençons par intégrer des ressources existantes au format numérique, à les enrichir avec des informations grammaticales lorsque ces dernières sont incomplètes ou inadaptées et à compléter les paradigmes flexionnels (genre et nombre…). Les premières ressources intégrées à Loflòc pour le languedocien sont le Dictionnaire Occitan-Français Languedocien de Laux (2001), Dictionnaire Français-Occitan Languedocien de Laux (2005) ainsi que les données de l'application vèrb'Òc, conjugueur édité par Lo Congrès (Sauzet et Ubaud, 1995 ; Sauzet, 2016). En effet, ceux-ci ayant été normalisés au format XML (norme TEI P5) par le Congrès, il a été possible d’en extraire automatiquement les lemmes, leurs flexions et les informations grammaticales nécessaires. En ce qui concerne la structure et le choix des standards pour Loflòc, nous nous inspirons des lexiques français tels que Morphalou (Romary, et al, 2004) et GlaFF (Sajous, et al., 2013). Nous avons adopté les étiquettes du standard Eagles/Multext/Grace (Rajman et al., 1997) que nous avons gardées en anglais tout en les adaptant aux spécificités de l'occitan. Cela facilitera la comparaison de notre lexique aux lexiques des langues proches qui ont également adopté des jeux d'étiquettes semblables et comparables (français, catalan). Nous présenterons dans la communication le lexique, sa structure, son contenu, ainsi que les différents types d’application qui ne peuvent être développées sans un lexique de ce type (analyseurs morpho-syntaxiques, analyseurs syntaxiques, traducteurs automatiques, outils de recherche d’information, outils d’aide à la rédaction de textes ou sms, correcteurs orthographiques, etc.). Bibliographie : Bernhard, D., et Vergez-Couret, M. (2016). Le projet RESTAURE. In Les technologies pour les langues régionales de France, 82 90. Condé-sur-Noireau: DGLFLF. Bras, M., Thomas, J. (2011). « Batelòc : cap a una basa informatisada de tèxtes occitans », in A. Rieger & D. Sumien (eds). Occitània convidada d’Euregio. Lièja 1981 - Aquisgran 2008 : Bilanç e amiras. Actes du Neuvième Congrès International de l’Association Internationale d’Études Occitanes, Aix-la-Chapelle, 24-31 août 2008, Aachen, Shaker. Bras, M. & Vergez-Couret, M. (2016). « BaTelÒc: A text base for the Occitan language. », in Vera Ferreira and Peter Bouda (eds.) Language Documentation and Conservation in Europe, Honolulu: University of Hawai'i Press, pp. 133-149. Dazéas, B. (2015). Feuille de route pour le développement numérique occitan. In Actes de la Traitement Automatique des Langues Régionales de France et d’Europe, Caen. Laux C. (2001). Dictionnaire occitan-français : languedocien, avec la collab. de Serge Granier, Puylaurens, IEO, Section du Tarn. Laux C. (2005). Dictionnaire Français-Occitan. Castres : IEO del Tarn. Lo Congrès (2014). Diagnostic e huelha de rota tau desvolopament numeric de la lenga occitana 2015-2019, rapòrt finau deu projècte. Media.kom, elhuyar. http://locongres.org/images/docs/huelha_rota_numeric_occitan_oc.pdf. Rajman M. (1997). Format de description lexicale pour le français – Partie 2 : description morphosyntaxique, technical report GRACE, http://www.limsi.fr/grace/. Romary L., Salmon-Alt S., Francopoulo G. (2004). Standards going concrete : from LMF to Morphalou. Workshop on Electronic Dictionaries, Coling 2004, Geneva, Switzerland. Sajous, F., Hathout, N., Calderone, B. (2013). 'GLÀFF, un Gros Lexique À tout Faire du Français'. Actes de la conférence Traitement Automatique des Langues Naturelles (TALN 2013). Sauzet, P., Ubaud, J. (1995). Le verbe occitan. Lo vèrb occitan. Aix-en-Provence : Édisud. Sauzet, P. (2016). Conjugaison occitane. IEO edicions. Séguier, A., et Mercadier, G. (2016). Le numérique au service de la transmission de la langue occitane : situation et perspectives de développement ». In Les technologies pour les langues régionales de France, 82 90. Condé-sur-Noireau: DGLFLF. Vergez-Couret, M., et Urieli, A. (2015). Analyse morphosyntaxique de l’occitan languedocien : l’amitié entre un petit languedocien et un gros catalan. In Actes du Workshop Traitement Automatique des Langues Régionales de France et d’Europe, Caen.
-
Les codes graphiques utilisés pour écrire l’occitan ont fait l’objet d’études ponctuelles mais n’ont jamais représenté jusqu’ici le fil directeur pour étudier l’histoire de la langue dans toute son étendue, sans doute en raison du cloisonnement qui existe et persiste aujourd’hui encore entre philologues médiévistes d’un côté et linguistes et dialectologues de l’autre qui donnent souvent l’impression de travailler sur deux objets distincts, là où il n’y a qu’une seule et même langue. L’élaboration graphique originale qui caractérise l’occitan au Moyen Âge et son délabrement spectaculaire au XVIe siècle sont les deux facettes d’une même histoire, celle de la langue occitane soumise à des contraintes sociales et politiques internes ou externes en perpétuelle évolution. Dans cet article, j’effectuerai quelques zooms sur certains points importants concernant l’histoire graphique de l’occitan pour montrer que l’étude des systèmes graphiques peut se doubler d’une analyse sociolinguistique qui permet de dessiner en creux une histoire sociale de la langue. À tous les moments de cette histoire, les choix graphiques opérés collectivement ou individuellement sont le reflet du prestige plus ou moins grand que la langue occitane occupe dans la société française ou des représentations qui y sont liées.
-
This pocket dictionary contains more than 5000 French words and 7000 Occitan words, corresponding to the basic vocabulary or the Occitan language and covering the basic requirements of the language use in a contemporary context. Variant selection is based on the central and conservative dialects of the language (lengadocian) ensuring the widest intelligibility and standardicity. As the asymmetry between the number of French and Occitan entries suggests, although the dictionary sticks to regular lemmatization principles, it remains open to lexical variation. This book both allows making a coherent use of the language and coping with its variation in real use.
-
Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.
-
At a time when the quantity of - more or less freely - available data is increasing significantly, thanks to digital corpora, editions or libraries, the development of data mining tools or deep learning methods allows researchers to build a corpus of study tailored for their research, to enrich their data and to exploit them.Open optical character recognition (OCR) tools can be adapted to old prints, incunabula or even manuscripts, with usable results, allowing the rapid creation of textual corpora. The alternation of training and correction phases makes it possible to improve the quality of the results by rapidly accumulating raw text data. These can then be structured, for example in XML/TEI, and enriched.The enrichment of the texts with graphic or linguistic annotations can also be automated. These processes, known to linguists and functional for modern languages, present difficulties for languages such as Medieval Occitan, due in part to the absence of big enough lemmatized corpora. Suggestions for the creation of tools adapted to the considerable spelling variation of ancient languages will be presented, as well as experiments for the lemmatization of Medieval and Premodern Occitan.These techniques open the way for many exploitations. The much desired increase in the amount of available quality texts and data makes it possible to improve digital philology methods, if everyone takes the trouble to make their data freely available online and reusable.By exposing different technical solutions and some micro-analyses as examples, this paper aims to show part of what digital philology can offer to researchers in the Occitan domain, while recalling the ethical issues on which such practices are based.
-
We present AcTo, a network of integrated projects for the development of language resources and tools for Medieval Occitan. This abstract illustrates the resources in the network, as well as the first steps towards their integration, aiming towards the harmonisation and interoperability of NLP and lexical resources for the annotation of digital editions.
-
This software is developed for the tokenisation of Picard texts, e.g. splitting sentences into words and ponctuation signs. The tokeniser handles ambiguous separators such as dash, apostrophe, dot. The software is developed in Perl 5.22.1. The installation and the running issues are explained in the script file.
-
Most recent approaches to bilingual dictionary induction find a linear alignment between the word vector spaces of two languages. We show that projecting the two languages onto a third, latent space, rather than directly onto each other, while equivalent in terms of expressivity, makes it easier to learn approximate alignments. Our modified approach also allows for supporting languages to be included in the alignment process, to obtain an even better performance in low resource settings.
-
Cette intervention traitera de la numérisation de l’occitan, du TAL (Traitement Automatisé des Langues) de l'occitan, et de l’outillage informatique de la langue. Elle présentera les étapes classiques de la chaine de traitement automatique d'une langue. Elle fera un état des lieux des avancées pour l'occitan et ouvrira des perspectives en termes d'applications pour le public occitanophone.
-
This article describes the creation of corpora with part-of-speech annotations for three regional languages of France: Alsatian, Occitan and Picard. These manual annotations were performed in the context of the RESTAURE project, whose goal is to develop resources and tools for these under-resourced French regional languages. The article presents the tagsets used in the annotation process as well as the resulting annotated corpora.
-
La tokénisation est une étape essentielle dans tout système de traitement automatique des langues, d’autant plus que de nombreux outils dépendent du découpage obtenu. La tâche est particulièrement ardue pour les textes qui ne respectent pas les conventions orthotypographiques ou les langues pour lesquelles ces conventions ne sont pas stabilisées. Nous nous intéressons ici aux cas de deux langues régionales de France, l’alsacien et le picard. Nous présentons les défis posés par ces deux langues, et proposons des critères de découpage implémentés dans des tokéniseurs.
Explorer
Langue
- Alsacien (8)
- Breton (6)
- Corse (3)
- Créoles (3)
- Français (4)
- Guyane (1)
-
Multilingue
(11)
- Langues COLaF (5)
- Occitan (33)
- Picard (7)
- Poitevin-Saintongeais (1)
Tâche
Type de papier
- Classification des langues (9)
- Etat de l'art (2)
- Inventaire (2)
- Normalisation (3)
- Papiers COLaF (1)
- Prise de position (10)
- Projet (5)