Votre recherche
Résultats 33 ressources
-
Les codes graphiques utilisés pour écrire l’occitan ont fait l’objet d’études ponctuelles mais n’ont jamais représenté jusqu’ici le fil directeur pour étudier l’histoire de la langue dans toute son étendue, sans doute en raison du cloisonnement qui existe et persiste aujourd’hui encore entre philologues médiévistes d’un côté et linguistes et dialectologues de l’autre qui donnent souvent l’impression de travailler sur deux objets distincts, là où il n’y a qu’une seule et même langue. L’élaboration graphique originale qui caractérise l’occitan au Moyen Âge et son délabrement spectaculaire au XVIe siècle sont les deux facettes d’une même histoire, celle de la langue occitane soumise à des contraintes sociales et politiques internes ou externes en perpétuelle évolution. Dans cet article, j’effectuerai quelques zooms sur certains points importants concernant l’histoire graphique de l’occitan pour montrer que l’étude des systèmes graphiques peut se doubler d’une analyse sociolinguistique qui permet de dessiner en creux une histoire sociale de la langue. À tous les moments de cette histoire, les choix graphiques opérés collectivement ou individuellement sont le reflet du prestige plus ou moins grand que la langue occitane occupe dans la société française ou des représentations qui y sont liées.
-
This pocket dictionary contains more than 5000 French words and 7000 Occitan words, corresponding to the basic vocabulary or the Occitan language and covering the basic requirements of the language use in a contemporary context. Variant selection is based on the central and conservative dialects of the language (lengadocian) ensuring the widest intelligibility and standardicity. As the asymmetry between the number of French and Occitan entries suggests, although the dictionary sticks to regular lemmatization principles, it remains open to lexical variation. This book both allows making a coherent use of the language and coping with its variation in real use.
-
Cet article présente un retour d'expérience sur la transformation de corpus annotés pour l'alsacien et l'occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l'accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l'annotation.
-
At a time when the quantity of - more or less freely - available data is increasing significantly, thanks to digital corpora, editions or libraries, the development of data mining tools or deep learning methods allows researchers to build a corpus of study tailored for their research, to enrich their data and to exploit them.Open optical character recognition (OCR) tools can be adapted to old prints, incunabula or even manuscripts, with usable results, allowing the rapid creation of textual corpora. The alternation of training and correction phases makes it possible to improve the quality of the results by rapidly accumulating raw text data. These can then be structured, for example in XML/TEI, and enriched.The enrichment of the texts with graphic or linguistic annotations can also be automated. These processes, known to linguists and functional for modern languages, present difficulties for languages such as Medieval Occitan, due in part to the absence of big enough lemmatized corpora. Suggestions for the creation of tools adapted to the considerable spelling variation of ancient languages will be presented, as well as experiments for the lemmatization of Medieval and Premodern Occitan.These techniques open the way for many exploitations. The much desired increase in the amount of available quality texts and data makes it possible to improve digital philology methods, if everyone takes the trouble to make their data freely available online and reusable.By exposing different technical solutions and some micro-analyses as examples, this paper aims to show part of what digital philology can offer to researchers in the Occitan domain, while recalling the ethical issues on which such practices are based.
-
We present AcTo, a network of integrated projects for the development of language resources and tools for Medieval Occitan. This abstract illustrates the resources in the network, as well as the first steps towards their integration, aiming towards the harmonisation and interoperability of NLP and lexical resources for the annotation of digital editions.
-
Cette intervention traitera de la numérisation de l’occitan, du TAL (Traitement Automatisé des Langues) de l'occitan, et de l’outillage informatique de la langue. Elle présentera les étapes classiques de la chaine de traitement automatique d'une langue. Elle fera un état des lieux des avancées pour l'occitan et ouvrira des perspectives en termes d'applications pour le public occitanophone.
-
We describe the use of an open-source shallow-transfer machine translation engine, Apertium, and existing open-source linguistic data to build a bidirectional machine translation system for a new pair of 'small' languages, Catalan (6 million speakers) and the Aranese variety (5000 speakers) of Occitan (about 1 million speakers), and discuss its possible uses and their effects on the linguistic normalization of the smaller language.
-
Essai d'un glossaire occitanien, pour servir à l'intelligence des poésies des troubadours. -- 1819 -- livre
Explorer
Corpus
-
Texte
(7)
-
Annotated
(3)
- Morphology (3)
- Web (1)
-
Annotated
(3)
Tâche
Type de papier
- Classification des langues (1)
- Projet (3)