Rechercher
Bibliographie complète 142 ressources
-
This paper presents the current status of OPUS, a growing language resource of parallel corpora and related tools. The focus in OPUS is to provide freely available data sets in various formats together with basic annotation to be useful for applications in computational linguistics, translation studies and cross-linguistic corpus studies. In this paper, we report about new data sets and their features, additional annotation tools and models provided from the website and essential interfaces and on-line services included in the project.
-
The Module MorphoSyntaxique (abbreviated MMS) is a computer tool especially designed for syntactic and morpho-syntactic analysis of Occitan dialects. It is part of the Thesaurus Occitan multimedia database (of which a general presentation can be found in these proceedings in another article by Guylaine Brun-Trigaud). Following the THESOC's general guidelines (i.e. localised and oral data only), this module contains both oral texts (including ethnotexts) and single sentences, such as answers to morphosyntactic questionnaires. The "oral data" criteria can be somewhat flexed: even if this module was originally conceived for oral data processing, its part-of-speech tagger and syntactic parser are still able to process written texts so far as they are written in a familiar or popular style, close to oral register. The locations where all these texts and sentences have been harvested are stored in the database, thus enabling on the long term a comparison between different dialects on a morphosyntactical or syntactical basis, thus opening new perspectives for dialectology.
-
L'extraction et la valorisation de données biographiques contenues dans les dépêches de presse est un processus complexe. Pour l'appréhender correctement, une définition complète, précise et fonctionnelle de cette information est nécessaire. Or, la difficulté que l'on rencontre lors de l'analyse préalable de la tâche d'extraction réside dans l'absence d'une telle définition. Nous proposons ici des conventions dans le but d'en développer une. Le principal concept utilisé pour son expression est la structuration de l'information sous forme de triplets sujet, relation, objet. Le début de définition ainsi construit est exploité lors de l'étape d'extraction d'informations par transducteurs à états finis. Il permet également de suggérer une solution d'implémentation pour l'organisation des données extraites en base de connaissances.
-
We describe the use of an open-source shallow-transfer machine translation engine, Apertium, and existing open-source linguistic data to build a bidirectional machine translation system for a new pair of 'small' languages, Catalan (6 million speakers) and the Aranese variety (5000 speakers) of Occitan (about 1 million speakers), and discuss its possible uses and their effects on the linguistic normalization of the smaller language.
-
Cet article propose une étude micro-sociolinguistique fondée sur un corpus, largement polyphonique, de conversations entre Corses et Sardes immigrés en Corse. À travers des échanges langagiers où l’analyse, qui croise les regards de deux auteurs (corse et sarde respectivement) décèle et évalue diversement les effets du continuum dialectal et des ruptures linguistiques, se révèle toute une batterie de stratégies, sollicitées ou subies. Compte tenu de la très grande proximité – génétique – des variétés en présence, on a peut-être là un modèle de la manière dont fonctionne, à plus grande échelle, la diffusion spatiale et temporelle du changement linguistique. Le sous-titre, « Prendre les langues au vol », renvoie à l’auto-analyse que fait, de sa propre stratégie, l’une des informatrices.
-
Le picard apparaît comme une langue très proche du français, et les effets de la proximité des langues sur leur enseignement devraient s’observer, dans son cas, de façon plus sensible que dans le cas, par exemple, de l’enseignement du russe à des tchécophones. Néanmoins, l’examen des trois manuels de picard existants, ainsi que les opinions exprimées par les picardophones eux-mêmes comme par les instances ministérielles, peuvent faire craindre que la très grande proximité du picard au français annihile la possibilité même de son enseignement, par un effet d’évaporation de son objet en tant que langue. Pourtant, dans une conception de l’enseignement des langues comme transmission d’une compétence de communication, le picard peut retrouver sa place en tant que pôle secondaire coorganisateur de la diglossie au sein de l’espace discursif régional. Cette approche implique néanmoins un travail de (re)création d’un référentiel normatif picard, destiné à le rendre visible aux yeux des locuteurs/apprenants, et donc apte à organiser cet espace discursif comme diglossie.
-
571 pages ; 24 cm
-
\textbar En vue de la signature de la Charte européenne des langues régionales ou minoritaires, proposition d'une liste de langues susceptibles d'être inscrites comme bénéficiaires de la Charte. Le rapport présente une liste de 75 langues parlées par des ressortissants français sur le territoire de la République.
Explorer
Langue
- Alsacien (8)
- Breton (6)
- Corse (3)
- Créoles (3)
- Français (4)
- Guyane (1)
-
Multilingue
(11)
- Langues COLaF (5)
- Occitan (33)
- Picard (7)
- Poitevin-Saintongeais (1)
Tâche
Type de papier
- Classification des langues (9)
- Etat de l'art (2)
- Inventaire (2)
- Normalisation (3)
- Papiers COLaF (1)
- Prise de position (10)
- Projet (5)