Rechercher
Bibliographie complète 142 ressources
-
La Guyane est la seule région au monde où se côtoient des langues créoles à base française1 et des langues créoles à base anglaise. Parmi les créoles à base lexicale française présents en Guyane, on compte le créole guyanais, divers créoles des petites Antilles (guadeloupéen, martiniquais, sainte-lucien), et le créole haïtien. Parmi les créoles à base lexicale anglaise, on trouve l’aluku, le ndyuka et le pamaka (appelés aussi nenge(e)), le saamaka (créole anglo-portugais), le sranan tongo (la langue véhiculaire du Suriname voisin) ainsi que le créole anglais du Guyana ou Guyanese Creole. Bien que les légères différences structurelles qui existent au sein des créoles d’une même base lexicale soient souvent brandies par les locuteurs pour marquer leur appartenance à un groupe (aluku, ndyuka, etc.), ou leur origine régionale (martiniquais, guyanais, etc.), l’intercompréhension en Guyane est presque totale au sein des locuteurs de créoles français, ainsi qu’au sein de ceux de créoles anglais (à l’exception peut-être du saamaka, dont la mixité anglo-portugaise limite l’intercompréhension avec les autres créoles anglais). Depuis une trentaine d’années, les études sur les langues créoles font reculer les préjugés qui les réduisent au rang de langues simples, sans grammaire, avec peu de vocabulaire, même si ces idées persistent encore, parfois même au sein des populations créolophones. Aujourd’hui, on considère que ces langues sont un formidable « laboratoire » d’analyse de la facult
-
Genèse du projet Les États généraux du multilinguisme en Outre-mer, qui se sont tenus à Cayenne en décembre 2011, ont permis d’amorcer des projets concernant le plurilinguisme guyanais. Leurs recommandations ont insisté sur l’urgence d’équiper les langues de Guyane pour qu’elles puissent assumer un rôle plus actif dans la vie publique et dans les institutions guyanaises, notamment à l’école. C’est une attente aujourd’hui forte car les langues de Guyane continuent de jouer un rôle important dans la vie quotidienne et dans l’imaginaire social des Guyanais. Elles sont essentielles pour transmettre les connaissances relatives aux modes de vie et pour construire les représentations identitaires. Un des obstacles à leur intégration dans le système éducatif a toujours résidé dans l’absence de matériel de référence tels que des grammaires et des dictionnaires qui soient facilement exploitables par les enseignants. Pour combler ce manque, des linguistes et autres spécialistes de quatre langues (nenge(e), kali’na, teko, créole guyanais) ont mis en place le projet participatif « Dictionnaires et lexiques bilingues. Langues de Guyane », avec le soutien de la direction des Affaires culturelles de Guyane, du rectorat de Guyane et de l’Institut de recherche pour le développement de Cayenne. Objectif du projet Ce projet a pour objectif la création de bases de données lexicographiques permettant d’élaborer des dictionnaires bilingues et outils pédagogiques, comme des lexiques thématiques, pou
-
With the support of the DGLFLF, ELDA conducted an inventory of existing language resources for the regional languages of France. The main aim of this inventory was to assess the exploitability of the identified resources within technologies. A total of 2,299 Language Resources were identified. As a second step, a deeper analysis of a set of three language groups (Breton, Occitan, overseas languages) was carried out along with a focus of their exploitability within three technologies: automatic translation, voice recognition/synthesis and spell checkers. The survey was followed by the organisation of the TLRF2015 Conference which aimed to present the state of the art in the field of the Technologies for Regional Languages of France. The next step will be to activate the network of specialists built up during the TLRF conference and to begin the organisation of a second TLRF conference. Meanwhile, the French Ministry of Culture continues its actions related to linguistic diversity and technology, in particular through a project with Wikimedia France related to contributions to Wikipedia in regional languages, the upcoming new version of the “Corpus de la Parole” and the reinforcement of the DGLFLF's Observatory of Linguistic Practices.
-
We present a new major release of the OpenSubtitles collection of parallel corpora. The release is compiled from a large database of movie and TV subtitles and includes a total of 1689 bitexts spanning 2.6 billion sentences across 60 languages. The release also incorporates a number of enhancements in the preprocessing and alignment of the subtitles, such as the automatic correction of OCR errors and the use of meta-data to estimate the quality of each subtitle and score subtitle pairs.
-
Dans cette étude, nous nous intéressons à la question de l'analyse morphosyntaxique de l'occitan. Nous utilisons Talismane, un logiciel par apprentissage supervisé, nécessitant des données annotées pour l'entraînement et optionnellement un lexique. Nous montrons dans cet article, qu'en l'absence de données annotées suffisantes pour l'occitan, il est possible d'obtenir de bons résultats (92%) en utilisant les données d'une langue étymologiquement proche, le catalan. Nous avons utilisé le corpus Ancora (500 000 formes) et un lexique occitan languedocien (250 000 entrées). Utiliser un corpus catalan de taille importante permet une amélioration de +3% par rapport au résultat obtenu avec le seul corpus d'entraînement occitan disponible à ce jour de 2800 formes. Abstract. Pos-tagging the Lengadocian dialect of Occitan: a little Lengadocian befriends a big Catalan. In this study, we examine the question of Occitan POS-tagging. We use Talismane, a supervised machine learning NLP tool, requiring annotated data for training and optionally a lexicon. We show that, with insufficient data for Occitan, it is possible to obtain good results (92%) by using data from an etymologically close language, in this case Catalan. We used the Catalan Ancora corpus (500,000 tokens) and an Occitan Languedocien lexicon (250,000 entries). Using the larger Catalan corpus improved results by +3% with respect to the result obtained using the only Occitan training corpus available to date (2,800 tokens). Mots-clés : traitement automatique des langues peu dotées, occitan, analyse morphosyntaxique
-
Sur Internet Livres, informations Consultation du catalogue des sept institutions ou bibliothèques (Bibliothèque de l’Alliance israélite universelle ; Bibliothèque Medem - Maison de la culture yiddish ; Bibliothèque du Séminaire israélite de France ; Akadem - le campus numérique juif ; Bibliothèque Michèle Kahn ; Médiathèque du Musée d’art et d’histoire du Judaïsme, Institut Européen des Musiques Juives - Médiathèque Henriette Halphen) ; téléchargement d’un certain nombre de livres numérisés ; écoute de documents audiovisuels : Rachel (Réseau européen des bibliothèques judaica et hebraica) : www.rachelnet.net/ Téléchargement de livres numérisés ; en particulier, accès à plus de 800 Yizker-bikher (livres du souvenir) ; écoute d’archives audio (interviews d’écrivains et autres acteurs de la vie culturelle yiddish) : Steven Spielberg Digital Yiddish Library ; http://www.yiddishbookcenter.org/books/search Informations sur la vie académique en relation avec le yiddish (séminaires, colloques, etc.) : http://yiddish-sources.com The YIVO Institute for Jewish Research (Institut de recherche juive, New York) : http://www.yivoinstitute.org « az me zukht, gefint men » (Qui cherche, trouve), relie à différents sites, notamment à des catalogues de livres rares numérisés : https://sites.google.com/site/onlineyiddishresources/ Yiddish Research Bibliography and Guide - YIVO/CJH Summer 2014 : https://www.nypl.org/sites/default/files/Yiddish Presse Index to Yiddish Periodicals : http://yidd
-
: Too few scholars are dedicated to Occitan studies. There are a lot of reasons for such a situation, among which the social and political status of the language is not the least. Occitan studies also are affected by a split in the research attitudes and conceptions. Specifically, there is no regular continuity between works describing dialectal varieties and works contributing to corpus planning, even when the former ones don't undervalue the language status and the latter ones don't ignore dialect complexity. We shall not try here to analyse the reasons for this difficult cooperation. We only want make it clear, on the basis of a few examples, that the orthographic codification of Occitan not only has a practical relevance (allowing to write, use and teach the language), but also is a valuable scientific and descriptive tool . In order to do so, we shall first explain the principles of the so-called "classical" Occitan orthography and we shall then indicate how lemmatizing on the basis of this notation strongly helps organize, from inside the language, the huge wealth of lexical and morphological data included in Thesaurus Occitan (THESOC, cf. Dalbera 1998 and for an online sample : http://thesaurus.unice.fr/).
-
Part-Of-Speech (POS) tagging, including tokenization and sentence splitting, is the first step in all Natural Language Processing chain. It usually requires substantial efforts to annotate corpora and produce lexicons. However, when these language resources are missing like in Occitan, rather than concentrate the effort in creating them, methods are settled to adapt existing rich-resourced languages tagger. For this to work, these methods exploit the etymologic proximity of the under-resourced language and a rich-resourced language. In this article, we focus on Occitan, which shares similarities with several romance languages including French and Castillan. The method consists in running existing morpho-syntactic tools, here Tree Tagger, on Occitan texts with first a translation of the frequent words in a rich-resourced language. We performed two distinct experimentations, one exploiting similarities between Occitan and French and the second exploiting similarities between Occitan and Castillan. This method only requires the listing of the 300 most frequent words (based on corpus) to construct two bilingual lexicons (Occitan/French and Occitan/Castillan). Our results are better than those obtained with the Apertium tagger using a larger lexicon.
Explorer
Langue
- Alsacien (8)
- Breton (6)
- Corse (3)
- Créoles (3)
- Français (4)
- Guyane (1)
-
Multilingue
(11)
- Langues COLaF (5)
- Occitan (33)
- Picard (7)
- Poitevin-Saintongeais (1)
Tâche
Type de papier
- Classification des langues (9)
- Etat de l'art (2)
- Inventaire (2)
- Normalisation (3)
- Papiers COLaF (1)
- Prise de position (10)
- Projet (5)