Langue | Titre | Autorat | Type | Sous-type | Année | Format | Taille | URI | Commentaire |
---|
Langue | Titre | Autorat | Type | Sous-type | Année | Format | Taille | URI | Commentaire |
---|---|---|---|---|---|---|---|---|---|
Alémanique – Bas Alsacien | Annotated Corpus for the Alsatian Dialects | Bernhard et al. | Corpus | UD | 2023 | Numérique - CONNL-U | - 21 documents ~ 12k tokens | https://zenodo.org/records/10132307 | annotation de textes en alsacien: forme+pos+lemme+gloss + noms de lieux Pas de split train/dev/test. Pas d'indication géographique des textes. |
Breton | OSCAR Breton: oscar-22.01+manual_20230120 | Loïc Grobol et Mélanie Jouitteau | Corpus | Web crawl | 2023 | Numérique - Text | https://sharedocs.huma-num.fr/wl/?id=b9HJXjq5hB6CNZctp2ENFNx2v9m0Ch9j | "A text corpus extracted from OSCAR and checked by @Mélanie Jouitteau to ensure that it only contains actual Breton. [...] So far it has not been made officially public and has no associated publication so we (Mélanie and @Loïc Grobol) would appreciate if you could reach out to us when you use it!" | |
Breton | ARBRES-Kenstur | Loïc Grobol et Mélanie Jouitteau | Corpus | 2023 | Numérique - Text | 5190 parallel phrases | https://huggingface.co/datasets/lgrobol/ARBRES-Kenstur | Corpus de phrases en breton traduites en français via des gloses sur le projet linguistique ARBRES | |
Breton | Corpus de phrases bilingues alignées | Corpus | https://www.fr.brezhoneg.bzh/212-donnees-libres-de-droits.htm | ||||||
Breton | Meurgorf | Lexique | https://www.fr.brezhoneg.bzh/43-apertium-en-savoir-plus.htm | ||||||
Breton | Wikisource Breton (Wikimammen) | Corpus | https://br.wikisource.org/wiki/Rummad:Levrio%C3%B9 | ||||||
Corse | Langues et Cité 22: le corse, u corsu | 2012 | https://www.culture.gouv.fr/Thematiques/Langue-francaise-et-langues-de-France/Agir-pour-les-langues/Observer-les-pratiques-linguistiques/Langues-et-cite/Langues-et-cite-n-22-le-corse-u-corsu | Tous les articles sont traduits | |||||
Corse | Banque de données langue corse | Corpus | https://bdlc.univ-corse.fr/bdlc/corse.php | ||||||
Créole Bushinenge njuka | Kreyòl-MT | Nate R. Robinson et al. | Corpus | Mixte | |||||
Créole Bushinenge njuka | MADLAD-400 | Kudugunta et al. | Corpus | Webcrawl | |||||
Créole Guadeloupéen | Dictionnaire créole français avec un lexique français créole et un abrégé de grammaire | Lexique | 2012 | Papier | |||||
Créole Guadeloupéen | Le Déterville, Dictionnaire français – créole | Lexique | 2009 | Papier | |||||
Créole Guyanais | Kreyòl-MT | Nate R. Robinson et al. | Corpus | ||||||
Créole Guyanais | Dictionnaires et lexiques bilingues. Langues de Guyane | Lexique | -2020 | Numérique | https://corporan.huma-num.fr/Lexiques/ | ||||
Créole Haïtien | MADLAD-400 | Kudugunta et al. | Corpus | Web | https://huggingface.co/datasets/allenai/MADLAD-400 | ||||
Créole Haïtien | BANK DONE MIT-AYITI (MIT-Haiti Corpus) | Corpus | |||||||
Créole Louisianais | Kokodri | Oliver Mayeux | Corpus | Historique | https://kokodri.org/about | ||||
Créole Mauricien | Kreyòl-MT | Nate R. Robinson et al. | Corpus | Mixte | https://github.com/JHU-CLSP/Kreyol-MT | ||||
Créole Mauricien | KreolMorisienMT | Raj Dabre et Aneerav Sukhoo | Corpus | https://huggingface.co/datasets/prajdabre/KreolMorisienMT | |||||
Créole Mauricien | Corpus de textes anciens en créole mauricien | Guillaume Fon Sing | Corpus | Historique | |||||
Créole Mauricien | Lalit | Lexique | |||||||
Créole Mauricien | Mauritius National Assembly Hansard | Site web | Gouvernement | 2009-présent | https://mauritiusassembly.govmu.org/mauritiusassembly/index.php/hansard/ | L'Assemblée nationale de Maurice utilise une combination d'anglais, français et créole mauricien | |||
Créole Mauricien | L'express | Journal | https://lexpress.mu/ | ||||||
Créole Réunionnais | Corpus de créole réunionnais (Créolica) | Pierre Cellier | Corpus | ||||||
Créole Réunionnais | https://www.temoignages.re/ | Site web | Journal | ||||||
Créole Réunionnais | Kreyòl-MT | Nate R. Robinson et al. | Corpus | Mixte | |||||
Créole Réunionnais | MADLAD-400 | Sneha Kudugunta et al. | Corpus | Webcrawl | |||||
Créole Seychellois | Kreyòl-MT | Nate R. Robinson et al. | Corpus | Mixte | |||||
Créole Seychellois | MADLAD-400 | Kudugunta et al. | Corpus | Webcrawl | |||||
Créole Seychellois | Seychelles National Assembly Verbatim | Site web | Gouvernement | ||||||
Créole Seychellois | Seychelles Nation | Site web | Journal | ||||||
Francique | Le platt lorrain de Poche | Jean-Louis Kieffer | Lexique | Expressions | 2012 | ||||
Francique | Parapl | Revue | http://www.gaugriis.com/publications/paraple/ | Revue litt. trilingue | |||||
Francique | Dictionnaire francoprovençal-français, français-franco-provençal | STITCH Dominic | Lexique | ||||||
Francique | Littérature francique | Liste | https://fr.wikipedia.org/wiki/Litt%C3%A9rature_en_francique_lorrain | ||||||
Français | Annodis - Annotation Discursives | Didier Bourigault | Corpus | Mixte | 2012 | Numérique - TEI | - 126 articles ~ 700k mots | http://redac.univ-tlse2.fr/corpus/annodis/ | Ensemble diversifié de textes en français structuré en TEIP5 et "annotations rhétoriques" Textes issus de l'Est Républicain, de Wikipédia, Actes du Congrés Mondial de Linguistique Française 2008 et Rapports de l'Institut Français de Relations Internationales |
Français | Accueil UBS | Jean Yves Antoine | Corpus | Audio | 2013 | Numérique - Audio + XML | - 40 dialogues - 10000 mots - 1h d'enregistrement | https://www.ortolang.fr/market/corpora/sldr000890/v1 | Corpus de dialogue entre appelant et standard d'université. Fichiers audio à demander + Transcription disponible en XML |
Français | AMPLOR | Jean Christophe Blanchard, Kevin Echampard | Corpus | Historique | 2016 | Numérique - TEI | - 500 actes | https://www.ortolang.fr/market/corpora/amplor/v2 | Corpus de 500 actes du 14eme siècle structuré en TEI. |
Français | ALIPE Acquisition de la Liaison et Interactions Parents Enfants | Damien Chabanal et al. | Corpus | Audio | 2017 | Numérique - Audio + HTML/TEI | - 15H de dialogue | https://www.ortolang.fr/market/corpora/alipe-000853/v1.1 | Interactions parents enfants annotées de 15h avec 3 enfants différents. Transcriptions annotées en TEI |
Français | CEFC Corpus d'Etude pour le Français Contemporain | Jeanne Marie Debaisieux et al. | Corpus | Mixte | 2011 | Numérique-Annotations linguistiques | - 6M mots | https://www.ortolang.fr/market/corpora/cefc-orfeo/v1.5 | Corpus d'annotations linguistiques issus de tweets, journaux, frantext, scientext, annodis. Corpus d'entraînement gold disponible ici: https://www.ortolang.fr/market/corpora/cefc-gold/v1 |
Français | CCFPP 2000 Corpus de Français Parlé Parisien | Sonia Branca-Rosoff et al. | Corpus | Audio | 2012 | Numérique - HTML | - 60 entretiens - 70h d'enregistrement | https://www.ortolang.fr/market/corpora/cfpp2000/v1 | Corpus d'entretiens de 60 personnes différentes transcrit avec Transcriber et structuré en HTML. |
Français | CLAPI Corpus de Langues Parlées en Interaction | Veronique Traverso et al. | Corpus | Audio | 2010 | Numérique - Audio + TEI | - 45h d'entretien | https://www.ortolang.fr/market/corpora/clapi/v1 | Corpus d'enregistrements d'interactions "naturelles". |
Français | CoLaJE | Christophe Parisse et al. | Corpus | Audio | 2012 | Numérique - Audio + TEI | https://www.ortolang.fr/market/corpora/colaje/10 | Corpus d'enregistrements d'enfants de 0 à 7 ans pour "reconstituer l'émergence et le développement de la communciation langagière". Transcriptions avec informations supplémentaires (geste). | |
Français | CoMeRe - Communication médiée par les réseaux | Thierry Chanier | Corpus | Web | 2014 | Numérique - TEI | https://www.ortolang.fr/market/corpora/comere/v3.3 | Corpus TEI de sms, tweets, email, chat | |
Français | Corpus 14 | Agnès Steuckart et al. | Corpus | Lettres | 2019 | Numérique - TEI | - 1793 textes | https://www.ortolang.fr/market/corpora/corpus14/v2 | Corpus TEI de lettres issues de la correspondance de 37 personnes pendant la Première Guerre Mondiale. Documents dits "écrits peu lettrés" mis à disposition par des archives départementales. |
Français | ANCOR | Jean Yves Antoine et al. | Corpus | Audio | 2014 | Numérique - TEI | - 500 000 mots | https://www.ortolang.fr/market/corpora/ortolang-000903/v3 | Corpus de parole spontanée transcrites en TEI |
Français | Corpus d'articles de linguistiques issus de la revue "Sciences Humaines" | Evelyne Jacquey et al. | Corpus | Journal | 2009 | Numérique - TEI | -125 articles | https://www.ortolang.fr/market/corpora/scienceshumaines/v1 | Articles Sciences Humaines encodés en TEI |
Français | Corpus de Français Parlé à Bruxelles (CFPB) | Anne Dister, Emmanuelle Labeau et al. | Corpus | Audio | 2018 | Numérique - Audio et HTML | - 19h | http://cfpp2000.univ-paris3.fr/cfpb.html | Corpus d'entretiens de locuteurs belges transcris et disponibles en HTML. |
Français | French Treebank | Abeillé A, Clément et Toussenel | Corpus | Journal | 2001 | Numérique - XML, CoNLL, PTB, Tiger | - 664500 tokens | http://ftb.linguist.univ-paris-diderot.fr/#tag | Ressource lexicale et syntaxique annotée manuellement, 20 000 phrases issues du Monde (1990-1993) |
Français | EMA écrits scolaires | Catherine Boré et al. | Corpus | Scolaire | 2017 | Numérique-PDF et txt | https://www.ortolang.fr/market/corpora/ema-ecrits-scolaires-1/v4 | Textes de CP à CM1 transcrits | |
Français | GIEC | Camille Biros et al. | Corpus | Gouvernement | 2021 | Numérique - txt | -800 000 mots | https://www.ortolang.fr/market/corpora/corpus-giec/v1 | Rapports du GIEC |
Français | Corpus journalistique de l'Est Républicain | Bertrand Gaiffe et al. | Corpus | Journal | 2013 | Numérique - TEI | https://www.ortolang.fr/market/corpora/est_republicain/v4 | Articles de l'Est Républicain de 1999 à 2003 et 2006 à 2011 encodé en XML TEI | |
Français | RepTask-Parole-Interpretee | Loic Liégois et al. | Corpus | Audio | 2016 | Numérique - Audio et TEI | - 5000 mots | https://www.ortolang.fr/market/corpora/corpus-reptaskparoleinterpretee/v1?path=%2FRepTask-Parole-Interpretee_Global | Corpus de conversations semi spontannées à thème libre transcrits et encodés en TEI |
Français | TALN | Ludovic Tanguy et al. | Corpus | Scientifique | 2020 | Numérique -PDF et XML | -5,8M de mots | https://www.ortolang.fr/market/corpora/corpus-taln/v1 | Articles des conférences TALN et RECITAL de 1997 à 2019 encodés en TEI |
Français | Renom | Denis Maurel et al. | Corpus | Littéraire | 2014 | Numérique - XML TEI | - 8 livres | https://tln.lifat.univ-tours.fr/version-francaise/ressources/corpus-renom | 8 livres de Rabelais encodés en XML TEI |
Français | Democrat | Frédéric Landragin | Corpus | Mixte | 2020 | Numérique - XML TEI | -700k mots | https://www.ortolang.fr/market/corpora/democrat/v1.1 | Corpus multigenre et diachronique textuel encodé en XML TEI |
Français | Dictionnaire électronique de Chrétien de Troyes | Pierre Kunstmann et al. | Corpus | Littéraire | 2010 | Numérique - XML TEI | - 5 livres | https://www.ortolang.fr/market/corpora/dect/v1 | 5 textes de Chrétien de Troyes (Erec, Ligès, Lancelot, Chevalier à la Charrette, Yvain, Perceval) en XML TEI (disponible sur FranText et BFM) |
Français | DISCOSS | Simona Anastasio | Corpus | Audio | 2014 | Numérique - Audio et Word | https://www.ortolang.fr/market/corpora/disc-oraux-semi-spontanes/v1 | corpus de discours oraux semi spontanés de 40 apprenants adulte du français lv20 (anglophones et italophones) transcrits. | |
Français | E-CALM | Claude Ponton et al. | Corpus | Scolaire | 2020 | Numérique-TEI | https://www.ortolang.fr/market/corpora/e-calm/v1 | Corpus de transcriptions d'écrits d'élèves et étudiants (CP à Université). | |
Français | ESLO Enquête sociolinguistique à Orléans | Laboratoire Ligérien de Linguistique | Corpus | Audio | 1968-2020 | Numérique - Audio et TEI/TXM | -700h | https://www.ortolang.fr/market/corpora/eslo/v1 | Interviews et enregistrements variés (conversations téléphoniques, réunions publiques, transactions commerciales, repas de familles...) transcrits et encodés en TEI (parfois) |
Français | French news corpus | David Graff | Corpus | Journal | 1995 | Numérique -SGML | -100M de mots | https://catalog.ldc.upenn.edu/LDC95T11 | Corpus de dépêche AFP en SGML. Une petite partie provient du monde et est encodée en TEI |
Français | Rapports français sur l'intégration (1991-2012) | Naomi Truan et Léa Renard | Corpus | Gouvernement | 1991-2012 | Numérique -PDF | -18 rapports | https://www.ortolang.fr/market/corpora/rapports-francais-sur-lintegration/v1 | Corpus de rapports du haut conseil à l'intégration entre 1991 et 2012 en format pdf |
Français | GEOPO | Lydia Mai Ho Dac | Corpus | Gouvernement | 2007 | NUmérique -XML | -270k mots | http://redac.univ-tlse2.fr/corpus/geopo.html | Corpus de 32 textes longs, articles expositifs (informatifs et argumentatifs) sur la géopolitique |
Français | Interviews d'Alphonse Daudet dans la presse parisienne (1883-1897) | Gabrielle Melison Hirchwald | Corpus | Journal | 2011 | Numérique - TEI | -200k mots | https://www.ortolang.fr/market/corpora/interviewsdaudet/v2 | Corpus TEI d'une série d'entretiens donnée par Alphonse Daudet entre 1883 et 1897 |
Français | Littéracie Avancée | Fanny RINCK et al. | Corpus | Scolaire | 2015 | Numérique - TEI | https://www.ortolang.fr/market/corpora/litteracieavancee/v1 | Corpus d'écrits d'étudiant d'université (mémoire-fiches de lectures-lettre de motivation et comptes rendus) transcrits et encodés en TEI | |
Français | Loup Garou annotations | Bernard Bel et al. | Corpus | Web | 2014 | Numérique - Audio et Textgrid | https://www.ortolang.fr/market/corpora/ortolang-000908 | Discussions pendant une partie de loup garous transcrites | |
Français | Modal - modèles de l'annotation de la modalité à l'oral | Laboratoire Ligérien de Linguistique | Corpus | Audio | 2017 | Numérique - Audio et TEI | - 20k mots | https://www.ortolang.fr/market/corpora/modal/v1 | Corpus de dialogues italiens, anglais et français annotés en TEI |
Français | Modélisation Contrastive et Computationnelle des Chaînes de Coréférence | Frédéric Landragin et al. | Corpus | Littéraire | 2014 | Numérique - TEI | - 8 textes - 20k mots | https://www.ortolang.fr/market/corpora/mc4/v1 | Corpus de 8 textes encodés en TEI du 12eme au 20eme siècle |
Français | Multicultural Paris French | Françoise Gadet et al. | Corpus | Audio | 2017 | Numérique - Audio et Docx/Textgrid | - 106 enregistrements - 1M de mots | https://www.ortolang.fr/market/corpora/mpf/v4.1 | Corpus de discussion recueilli en région parisienne depuis 2010 auprès de populations jeunes connaissant des contacts multiculturels réguliers. Avec transcription et nombreuses métadonnées sur les locuteurs |
Français | OEF | Craig Baker et al. | Corpus | Littéraire | 2021 | Numérique - TEI | -40k mots | https://www.ortolang.fr/market/corpora/oef/v1 | Corpus TEI de manuscrits d'Ovide de 1320 à 1480 encodé TEI XML |
Français | OrthoCorpus | Frédérique Brin-Henry et al. | Corpus | Académique | 2020 | Numérique - TEI | -1069 articles | https://www.ortolang.fr/market/corpora/orthocorpus/v2 | Corpus d'articles d'orthophonie encodé en XML TEI |
Français | ParCoGliJe | Dejan Stosic et al. | Corpus | Littéraire | 2018 | Numérique - TEI | -1,6M mots | https://www.ortolang.fr/market/corpora/stosic/v2 | Corpus bilingue français-anglais de 8 classiques de littérature jeunesse encodés en TEI |
Français | Débats parlementaires sur l'Europe à l'Assemblée nationale (2002-2012) | Naomi Truan, Laurent Romary | Corpus | Gouvernement | 2016 | Numérique - TEI | - 1,3M mots | https://www.ortolang.fr/market/corpora/fr-parl/v1.1 | |
Français | PayeTonCorpus | Cognition, Langue, Langages, Ergonomie, UMR5263 CLLE | Corpus | Web | 2021 | Numérique - TEI | - 3000 posts -200k mots | https://www.ortolang.fr/market/corpora/payetoncorpus/v1 | Corpus de témoignages d'actes sexistes issus de Tumblr |
Français | Phonologie du Français Contemporain | Marie Hélène Côté et al. | Corpus | Audio | 2009 | Numérique - Audio et Textgrid | https://www.ortolang.fr/market/corpora/pfc/v1 | Base de données sur le français oral contemporain avec transcription | |
Français | PLPNat Corpus de Production Langagières Précoces en Situation Naturelle | Dominique Bassano et al. | Corpus | Audio | 2005 | Numérique - Audio et txt | - 80 enregistrements | https://www.ortolang.fr/market/corpora/plpnat/v1 | Corpus d'enregistrements d'enfants de 1 à 4 ans transcrits. |
Français | Presidentielle 2017 | Julien Longhi et al. | Corpus | Web | 2017 | Numérique - TEI | -45k tweets | https://www.ortolang.fr/market/corpora/corpus-presidentielle2017/v1 | Corpus de tweets produits dans le cadre des élections présidentielles français de 2017, encodés TEI |
Français | Recherches sur le français parlé | Christophe Benzitoun et al. | Corpus | Académique | 2017 | Numérique - TEI | - 18 numéros | https://www.ortolang.fr/market/corpora/recherches-francais-parle/v1 | Numéros de la revue recherches sur le français parlé de 1977 à 2004 encodés en TEI |
Français | TCOF Traitement de Corpus Oraux Français | Virginie André et al. | Corpus | Audio | 2024 | Numérique - Audio et Transcriber | -1,5M de mots -146h | https://www.ortolang.fr/market/corpora/recherches-francais-parle/v1 | |
Français | TermITH | Evelyne Jacquey et al. | Corpus | Académique | 2011 | Numérique - TEI | 300M mots | https://www.ortolang.fr/market/corpora/termith/v1 | Articles scientifiques en SHS encodés en TEI |
Français | Texto4science | Philippe Langlais et al. | Corpus | Web | 2012 | Numérique - XML | http://rali.iro.umontreal.ca/rali/?q=fr/texto4science | Encodage XML de textos canadiens-français | |
Français | WikipediaFR2008 | Corpus | Web | 2008 | Numérique -HTML | 700k articles | http://redac.univ-tlse2.fr/corpus/wikipedia.html | Dump d'articles Wikipedia encodés | |
Français | Résolutions du conseil de sécurité de l'ONU 1946-2015 | Gaetan Moreau | Corpus | Gouvernement | 2019 | Numérique -XML | 4M mots | https://www.ortolang.fr/market/corpora/csonu/v1 | |
Français | Gallica | Bibliothèque nationale de France | Site web | Historique | https://gallica.bnf.fr | ||||
Gallo | Moutier de pouchette Galo-Françaez, Françaez-Galo Dictionnaire de poche Gallo-Français, Français Gallo | DERIANO Patrik | Lexique | 2010 | Papier | ||||
Occitan | Corpus textuel occitan (BaTelÒc) | Corpus | https://locongres.org/fr/applications/corpus-textuel | ||||||
Occitan | Mod pour un jeu vidéo, possible de réaligner | Danís Chapduèlh | Corpus | https://github.com/TristanGahus1/VauSerena/tree/master | |||||
Occitan | Occitania !! Forum | Site web | Forum | 2007-2012 | Numérique | - 292 participants ~20k posts ~1M tokens | https://occitania.forumactif.com/forum | ||
Occitan | Jornalet - Quotidian occitan d'informacions | Ferriòl Macip, Jòrdi Ràfols et Alan Roch | Site web | Journal | -2024 | Numérique | http://www.jornalet.com/ | Utilisation de la norme "Alibèrt-CLO" | |
Occitan | Corpus NLLB (No Language Left Behind) | Corpus | 2022 | Numérique | - 58M phrases Oc - 9M pour Oc-FR | https://opus.nlpl.eu/NLLB/corpus/version/NLLB | 1 langue régionale représentée: Occitan | ||
Occitan | Paraulas en Òc | Aura Séguier | Site web | Catalogue | -2024 | Numérique | ~3000 paroles | https://www.paraulas.net/ | Plateforme de promotion de la culture occitane, principalement la scène musicale. Catalogue de paroles de chansons en occitan avec interface de recherche avancée (tag de langue mais pas plus précis que "occitan") |
Occitan | OcWikiDisc: a Corpus of Wikipedia Talk Pages in Occitan | Aleksandra Miletić et Yves Scherrer | Corpus | Forum | 2022 | Numérique | - 522 participants ~11K messages ~1M tokens | https://zenodo.org/records/7079580 | |
Occitan | Lo blòg deu forum Occitània !! | Site web | Blog | -2011 | Numérique | 11 posts | https://forumoccitania.wordpress.com/ | Contient de nombreux liens vers d'autres blogs et sites webs notamment politiques | |
Occitan | Trésor de la langue d'Oc - Bibliothèque virtuelle de la Tour Magne | Jean Véronis | Site web | Bibliothèque numérique | Numérique - PDFs océrisés | 300k pages | https://www.cieldoc.com/ | Livres de littérature, traductions, essais, discours, biographies, dictionnaires... | |
Occitan | Internet Archive Books | Site web | Catalogue | 1583-1993 | Scan | 54 livres | https://archive.org/details/books?tab=collection&and%5B%5D=language%3A%22Occitan%22 | Livres scannés rédigés principalement en occitan, principalement de la littérature | |
Occitan | Wikisource | Site web | Catalogue | Numérique - HTML | 167 textes | https://wikisource.org/wiki/Main_Page/Occitan | Différentes périodes (pre-1500: classique, baroque) (post-1500: Renaissance, période moderne) | ||
Occitan | Wikipèdia | Site web | Encyclopédie | -2024 | Numérique - HTML | - 89 433 articles - 114 participants actifs | https://oc.wikipedia.org/wiki/Acu%C3%A8lh | ||
Occitan | Occitanica, le portail collectif de la langue et de la culture occitanes - Mediatèca | Site web | Catalogue | Scan | 3620 documents en occitan | https://occitanica.eu/mediateca | |||
Occitan | Occitanica - La Maleta | Site web | Ressources pédagogiques | Numérique | - 45 fiches professeur - 13 images annotées - 18 fiches personnalités | https://maleta.occitanica.eu/ | - "Talhièrs": Fiches pédagogiques à destination des professeurs d'occitan, rédigées en occitan et accompagnées de documents annexes à télécharger. - "Vocabulari": Imagier et abécédaire sans images - "Retraches": Fiches pour découvrir quelques personnalités occitanes | ||
Occitan | OC Revista | Périodique | Revue | -1924 | Numérique | http://www.ocrevista.com/spip.php?rubrique3 | Quelques numéros de 2022 à 2013 disponibles sur le site de la revue en PDF. Également les numéros de 1924 à 1934 disponibles sur Occitanica: https://occitanica.eu/items/show/20953 | ||
Occitan | QED Corpus (QCRI Educational Domain) | Ahmed Abdelali, Paco Guzman et Hassan Sajjad | Corpus | Subtitles, education | 2014 | Numérique - Text (various) | - 14K phrases Oc -351 phrases FR-OC | https://opus.nlpl.eu/QED/fr&oc/v2.0a/QED | Problèmes de LID (téléchargé le corpus FR-OC): une partie ressemble à FR-OC, mais d'autres contiennent du turc (?) (src+tgt) |
Occitan | Weblate-Translations | Mohamed Aymane Farhi | Corpus | Logiciel | Numérique - Text - Tabular | 26K pairs EN-OC | https://huggingface.co/datasets/ayymen/Weblate-Translations | Traductions issues de Weblate (CAT tool libre pour les projets versionnés) | |
Occitan | CCMatrix | Holger Schwenk et al. | Corpus | Web crawl | 2019 | Numérique - Text | - 6.6M phrases OC - 1.2M OC-FR | https://opus.nlpl.eu/CCMatrix/oc&fr/v1/CCMatrix | Used as source for the NLLB corpus |
Occitan | XLEnt | Ahmed El-Kishky et al. | Lexique | Entités nommées | 2021 | Numérique - Text | - 5.M pairs OC - 102K pairs OC-FR | https://opus.nlpl.eu/XLEnt/oc&fr/v1.2/XLEnt | Paires d'entités nommées extraites automatiquement de CCAligned, CCMatrix et WikiMatrix |
Occitan | Corpus Wikimedia | Corpus | Encyclopédie | 2023 | Numérique - Text | - 114K phrases OC - 90K OC-FR | https://opus.nlpl.eu/wikimedia/oc&fr/v20230407/wikimedia | Wikipedia translations with additional sentence alignment processing | |
Occitan | Corpus KDE4 | Corpus | Logiciel | Numérique - Text | - 2.9M phrases OC - 49K OC-FR | https://opus.nlpl.eu/KDE4/oc&fr/v2/KDE4 | |||
Occitan | Corpus Tatoeba | Corpus | 2023 | Numérique - Text | - 3K phrases OC - 807 OC-FR | https://opus.nlpl.eu/Tatoeba/oc&fr/v2023-04-12/Tatoeba | |||
Occitan | Corpus GNOME | Corpus | Logiciel | Numérique - Text | - 2.9M phrases OC - 77 OC-FR | https://opus.nlpl.eu/GNOME/oc&fr/v1/GNOME | |||
Occitan | Corpus TED2020 | Corpus | Education | 2020 | Numérique - Text | - 2.3K phrases OC - 33 phrases OC-FR | https://opus.nlpl.eu/TED2020/oc&fr/v1/TED2020 | ||
Occitan | Corpus Ubuntu | Corpus | Logiciel | 2014 | Numérique - Text | - 6.2K phrases OC-FR | https://opus.nlpl.eu/Ubuntu/oc&fr/v14.10/Ubuntu | ||
Occitan | Corpus WikiMatrix | Corpus | Encyclopédie | 2019 | Numérique - Text | - 432K phrases OC - 124K OC-FR | https://opus.nlpl.eu/WikiMatrix/en&oc/v1/WikiMatrix | ||
Occitan | Web Inventory of Transcribed & Translated (WIT) Ted Talks (ted_talks_iwslt) | Corpus | Education | 2014, 2015, 2016 | Numérique - Text | 2 phrases OC | https://huggingface.co/datasets/ted_talks_iwslt | ||
Occitan | Familha - Un forum pour les familles qui vivent en occitan | Site web | Forum | 2010 | Numérique - HTML | - 31 posts - 4 utilisateurs | https://familha.kanak.fr/forum | Les dates des posts ne montrent pas l'année (a priori autour de 2010) | |
Occitan | Calandreta.org | Site web | Education | -2024 | Numérique - HTML | http://calandreta.org/ | Site bilingue occitan-français | ||
Occitan | Bilinguisme Occitan | Site web | Education | 2018-2021 | Numérique | https://www.bilinguisme-occitan.org/ | Site de conseils aux parents pour éduquer ses enfants de manière bilingue occitan-français. Certaines pages du site sont traduites en occitan (français en premier, traduction en rouge en dessous). Liens vers des ressources dans diverses variantes d'occitan, notamment des livres sur Calaméo et leur version audio | ||
Occitan | La criiisi | Franc Fadard | Site web | Blog | 2010 | Numérique | 12 posts | https://lacriiisi.wordpress.com/ | Principalement des mini-BD (strips), blog collaboratif |
Occitan | Servici de l'emplec | Site web | Professionnel | 2018-2024 | Numérique | 20 d'offres | https://www.emplec.com/ | Offres d'emploi en lien avec la langue occitane. Service de l'IEO (Toulouse). Les offres anciennes sont conservées. Parfois en occitan, parfois en français, parfois un mix des deux. | |
Occitan | Partit Occitan | Site web | Politique | -2024 | Numérique - HTML | http://partitoccitan.org/?lang=oc | Site vitrine du parti occitan. Quelques articles type blog, principalement en occitan avec quelques exceptions et quelques pages bilingues | ||
Occitan | oci_wikipedia_2021 | Corpus | Encyclopédie | 2021 | Numérique | - 224K phrases - 3.8M mots | https://corpora.uni-leipzig.de/fr?corpusId=oci_wikipedia_2021 | Corpus de phrases issues de la version Wikipedia en occitan. Autres versions disponibles: 2007, 2014, 2016 | |
Occitan | oci_web_2020 | Corpus | 2020 | Numérique | 10K phrases | https://wortschatz.uni-leipzig.de/en/download/Occitan%20(post%201500) | "Used text material was taken from randomly chosen Web sites" | ||
Occitan | oci_community_2023 | Corpus | 2023 | Numérique | - 200K phrases | https://wortschatz.uni-leipzig.de/en/download/Occitan%20(post%201500) | Corpus collecté à partir de l'outil https://curl.corpora.uni-leipzig.de/ qui permet de traiter des sites à partir de leur URL de manière collaborative (crowdsourcing). La liste des sites web source du corpus sont indiquées et comprennent en majorité des pages Wikipedia. | ||
Occitan | Tolosa Treebank | Aleksandra Miletić et al. | Corpus | UD | 2024 | Numérique - CoNNL-U | - 26K tokens - 1.5K phrases | https://zenodo.org/records/10569962 | Corpus annoté selon les guidelines UD dans le format CoNNL-U. splits train/dev/test et aussi par dialecte: Gascon, languedocien, provençal et limousin. |
Occitan | Gallica | Site web | Catalogue | Numérique - Scans | - 2158 documents | https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=false&collapsing=true&version=1.2&query=(dc.language%20all%20%22oci%22)&suggest=10&keywords=&ticket=ST-3373-D-DXgyspW6rZfWPHoZfDrGg8mpI-diaz02 | |||
Occitan | HALvest-Raw | Francis Kulumba et al. | Corpus | Scientifique | 01/04/24 | Numérique - Text | - 26 documents - max 285k tokens | https://huggingface.co/datasets/Madjakul/HALvest-R | verified ~5 documents manually: mostly in occitan (but sometimes some parts in French/English). Metadata include the domain/subdomain of each paper as well as publication year. |
Occitan | ReSeTOX NLLB-200_TWL occitan | NLLB ? Javier García Gilabert (UPC) ? | Lexique | Toxique | 2023 | Numérique - Text | 225 mots | https://github.com/mt-upc/ReSeTOX/blob/main/NLLB-200_TWL/oci_Latn_twl.txt | List of toxic words in occitan (could be useful for data filtering) |
Occitan | SoftwaresOccitanTranslations corpus | Aure Séguier | Corpus | IT | 2023 | Numérique - Text | 685-2438 phrases | https://zenodo.org/records/8411351 | traductions de logiciels open source ; inter-variétés (+annotation graphie) et extra-occitan (ex. oc-variété vers français) |
Occitan | ReVoc Corpus | Lo Congrès | Corpus | 2024 | Numérique | - 23k phrases GASC -15k phrases LANG - autres 2-179 phrases par variété | https://zenodo.org/records/11566430 | annotation variété + âge, date, genre | |
Occitan | Occitan Corpus from Lo Congrès news | Aure Séguier | Corpus | News | 2023 | Numérique - Text | - AUV 17 phrases - LANG 2700 phrases | https://zenodo.org/records/8411197 | annotation variété (graphie classique), toutes les traductions vers le français. perte de la référence du document original (url/titre/auteur... |
Occitan | Lo Congrès websites Corpus | Aure Séguier | Corpus | Web | 2024 | Numérique - Text | https://zenodo.org/records/12192029 | Corpus compilé automatiquement à partir de tous les sites web de Lo Congrès. 10 variétés d'occitan alignées avec français/anglais | |
Occitan | ieu maitot | Site web | Blog | -2015 | Numérique - HTML | https://ieumaitot.wordpress.com/ | blog personnel | ||
Occitan | Einucent's Weblog | Site web | Blog | 2008-2013 | Numérique - HTML | nombreux articles | https://einucent.wordpress.com/ | articles plutôt monolingues (soit français soit occitan) | |
Occitan | Òrb, shord, mut | Site web | Blog | 2008-2012 | Numérique - HTML | https://omidelafotografia.wordpress.com/ | Blog personnel de l'administrateur du forum Occitania (l'Òmi), gascon de Sud-Gironde, mais je ne suis pas sûre que les articles soient vraiment écrits en gascon | ||
Occitan | Blòg forra-tot & mestissatge occitan-comtés | Site web | Blog | 2008-2010 | Numérique - HTML | http://fc-oc.blogspot.com/ | autrice originaire de Franche-Comté, a appris l'occitan languedocien à Montpellier depuis 2006 (<5 ans) | ||
Occitan | La cabro e lo lop | Site web | Blog | 2008-2011 | Numérique - HTML | ~120 articles | http://lacabraelolop.canalblog.com/ | ||
Occitan | La marrida vida | Site web | Blog | 2008-2010 | Numérique - HTML | 45 articles | http://mertyl.blogspot.com/ | L'auteur indique être situé à Millau dans l'Aveyron. | |
Occitan-Aranais | Diccionari der aranés | Institut d'Estudis Aranesi - Acadèmia aranesa dera lengua occitana | Lexique | Dictionnaire | 2019 | Numérique - HTML | - 10k entrées - 13k définitions - 430 exemples d'usage - 770 synonymes | https://www.diccionari.cat/diccionari-der-aranes | Dictionnaire occitan aranais monolingue + bilingue aranais-catalan |
Occitan-Aranais | Blog - Libertat ! Val d'Aran | Site web | Blog | 2009-2012 | Numérique - HTML | ~100 articles | https://libertataran.wordpress.com/page/5/ | blog de la section Val d'Aran du parti socialiste-indépendantiste-révolutionnaire Libertat. Mix d'articles en français, occitan ou mix, parfois traductions (occitan puis français ou le contraire) | |
Occitan-Gascon | Gasconha.com - Notre région, c'est la Gascogne ! | Tederic Merger | Site web | Blog | -2024 | Numérique - HTML | https://gasconha.com/ | Noms de lieux et traduction dans 2 variétés occitanes (je n'ai pas trouvé la légende cependant mais potentiellement deux variantes de gascon) ainsi qu'articles mêlant français et occitan | |
Occitan-Gascon | Reclams | Périodique | Revue | 1897-2024 | Papier + PDF + HTML | ~80 pages par numéro | https://www.reclams.org/oc/ | Site bilingue (choix de la langue "occitan" ou "français"). 20 articles disponibles gratuitement en ligne (avec traduction pour certains sinon uniquement en occitan). Gallica et Occitanica ont des archives scannées des numéros entre 1897 et 1951: https://occitanica.eu/items/show/2019 | |
Occitan-Gascon | Aran ath dia | Périodique | Revue | 2005-2009 | Numérique - PDF non éditable | 32 pages par document | https://ddd.uab.cat/record/166850 | Archives d'une revue mensuelle du Val d'Aran | |
Occitan-Gascon | CAN - Comitat d'accion nihilista | Site web | Humour | Numérique - HTML | http://can.oc.free.fr/ | Site traitant de sujets politiques a priori de manière humoristique (ex. transformer son PC fixe en PC portable, distribution de préservatifs garantis sans OGM, secteur pro-OGM, pétition pour la remise en activité des volcans d'Auvergne...) | |||
Occitan-Gascon | A Huèc ! Las paginas d'informacion de Livertat seccion Gasconha-Nòrd | Site web | Blog | 2009-2010 | Numérique - HTML | 100aine de posts | https://ahuec.wordpress.com/ | Blog politique (section locale du mouvement Libertat !). A priori, le mouvement/association Libertat a été interdit depuis, le site libertat.org n'est plus accessible mais quelques archives disponibles avec beaucoup de posts de blog politiques en occitan: https://web.archive.org/web/20170901064020/http://libertat.org/ (2017) - https://web.archive.org/web/20131224204953/http://www.libertat.org/ (2013) | |
Occitan-Gascon | Libertat bearn | Site web | Blog | 2009-2015 | Numérique - HTML | 100aine de posts | https://libertatbearn.wordpress.com/ | Blog politique (section locale du mouvement Libertat !). A priori, le mouvement/association Libertat a été interdit depuis, le site libertat.org n'est plus accessible mais quelques archives disponibles avec beaucoup de posts de blog politiques en occitan: https://web.archive.org/web/20170901064020/http://libertat.org/ (2017) - https://web.archive.org/web/20131224204953/http://www.libertat.org/ (2013) | |
Occitan-Gascon | Blog - A Huèc - Las paginas d'informacion de Libertat seccion Gasconha-Nòrd | Site web | Blog | 2009-2012 | Numérique - HTML | ~130 articles | https://ahuec.wordpress.com/ | blog de la section Bordeaux/Gascogne-Nord du parti socialiste-indépendantiste-révolutionnaire Libertat. Mix d'articles en français, occitan ou mix, parfois traductions (occitan puis français ou le contraire) | |
Occitan-Gascon | Blog - Libertat ! Béarn | Site web | Blog | 2009-2015 | Numérique - HTML | ~220 articles | https://libertatbearn.wordpress.com/ | blog de la section Béarn du parti socialiste-indépendantiste-révolutionnaire Libertat. Mix d'articles en français, occitan ou mix, parfois traductions (occitan puis français ou le contraire) | |
Occitan-Gascon | eth gat-esquiro | Site web | Blog | 2008 | Numérique - HTML | 19 articles | http://gat-esquiro.blogspot.com/ | ||
Occitan-Languedocien | Recèptas del País e d'endacòm mai | Site web | Recettes de cuisine | 2015 | Numérique - HTML | 65 recettes | http://francescunhaus.free.fr/ | Pseudo de l'auteur: "Papanon" | |
Occitan-Languedocien | Lo Grelh Roergàs | Site web | Numérique | https://sites.google.com/view/grelhroergas/acu%C3%A8lh | Site de l'association, bilingue occitan français (en général par colonnes). Présentation de l'association et ressources, notamment un dictionnaire de l'occitan languedocien et des vidéos | ||||
Occitan-Languedocien | Lo Diccionari General Occitan de Cantalausa Edicion aumentada en occitan e en francés per Miquèl JOFFRE | Cantalausa, Michel Joffre | Lexique | Dictionnaire | 2023 | Numérique - HTML | https://dgo.grelhroergas.com/index.html | Principalement en occitan, avec parfois des définitions ou traductions en français. | |
Occitan-Languedocien | Loflòc: A Morphological Lexicon for Occitan using Universal Dependencies | Marianne Vergez-Couret et al. | Lexique | 2024 | Numérique - TSV | 680 205 entrées | https://zenodo.org/records/10838802 | Lexique morphologique (forme-lemme-POS), languedocien uniquement | |
Occitan-Languedocien | Vieux chants quercinois recueillis et notés vers 1900 | Abbé François-Maurice Lacoste | Livre | Chansons | 2021 et 2023 | Papier | 4 tomes | https://www.libraria-occitana.org/produit/vieux-chants-quercynois-recueillis-et-notes-vers-1900-tomes-1-2/ | Recueils de chants quercinois |
Occitan-Limousin | Rapieta | Site web | Blog | -2024 | Numérique | https://rapieta.wordpress.com/ | |||
Occitan-Limousin | Cours d'occitan | Jean-Pierre Reydy | Site web | Blog | 2009-2014 | Numérique - .doc | http://jpreydy.canalblog.com/ | Cours d'occitan au format .DOC: textes avec aide/traductions et exercices. Annotations en "nontronnais" car les étudiants du cours d'origine étaient de cette localité (Lussas-et-Nontronneau) | |
Occitan-Limousin | Chanson Limousine | Jean Delage | Site web | Chansons | 2007-2020 | 500+ ? | http://www.chanson-limousine.net/ | Plateforme de chansons limousines en occitan: paroles (occitan + français) + partitions + audio + video. Egalement des contes et fables et leur traduction en français. Plusieurs sites reliés (ex. chanson-occitane.net), probablement des recoupements. | |
Occitan-Limousin | Union Occitana Camila Chabaneu - Assemblées générales | Site web | Compte-rendus | 2008-2018 | Numérique - HTML et PDF | 3 documents - 11 pages | http://www.union-occitane-cch.net/assembleesgenerales.htm | Comptes-rendus d'assemblées générales dont 3 sont en rédigés occitan | |
Occitan-Limousin | Oc si lo voletz | Site web | Chansons et littérature | -2023 | Numérique | 50-100 documents traduits | http://al.deliquet.free.fr/Occitan/Limousin.htm | Ressources en limousin + traductions + version audio | |
Occitan-Limousin | Arri! Biais de dire... Lexics Oc / Fr | Lexique | Numérique - PDF non éditable | 6 petits lexiques | http://arrilemosin.free.fr/ | Vie des enfants, fêtes de fin d'année, bal traditionnel, vocabulaire basique + tourisme (aussi depuis l'italien et l'espagnol) | |||
Occitan-Provençal | La lenga nostra. Projeccion sus l'avenidor. Langage & société | Patric Choffrut | Document | Article de revue | 1979 | Scan | 4 pages | https://www.persee.fr/doc/lsoc_0181-4095_1979_sup_9_1_1192 | |
Occitan-Provençal | Aquò d'Aquí | Philippe Langevin et Michel Neumuller | Site web | Presse | -2024 | Numérique + papier | https://www.aquodaqui.info/ | mensuel bilingue d'information occitane. Introduction des articles en français mais le contenu en occitan (variétés du PACA) avec choix de l'orthographe: mistralienne ou classique. Egalement un catalogue PDF. Le site est bilingue (français en italique) | |
Occitan-Provençal | L'Astrado Prouvençalo | Périodique | Revue | Papier ? | 100 pages | https://www.astrado-prouvencalo.com/ | Revue littéraire annuelle | ||
Occitan-Provençal | 100 chansons de Provence | Site web | Chansons | Numérique - PDF / MP3 | 100 chansons ? | https://www.100chansonsdeprovence.com/ | Connexion requise pour accéder aux chansons. Paroles en PDF (graphie mistralienne + classique + traduction en français) + mp3 chant/instrumental | ||
Occitan-Provençal | Lo diari | Site web | Magazine | -2024 | Numérique - HTML | https://lodiari.com/ | Magazine culturel bimestriel papier et en ligne (littérature, musique, technologies, sports, arts...). Egalement des podcasts. | ||
Occitan-Provençal | Diciounàri | Bertrand de la Tour d'Auvergne | Lexique | 2019 ? | Numérique - PDF natif | 1158 pages | http://lengo.hb-prov.fr/dico/lengo.pdf | Dictionnaire bilingue occitan (provençal mistralien)->français, avec des exemples. Utiliser GROBID pour le parser ? | |
Occitan-Provençal | Grammatico | Bertrand de la Tour d'Auvergne | Grammaire | 2019 ? | Numérique - PDF natif | 55 pages | http://lengo.hb-prov.fr/dico/founetico.pdf | Descriptions du fonctionnement grammatical de l'occitan provençal (graphie mistralienne), incluant quelques traductions d'exemples en français (italique) | |
Occitan-Provençal | Fourmulo | Bertrand de la Tour d'Auvergne | Lexique | Expressions | 2019 ? | Numérique - PDF natif | 3 pages | http://lengo.hb-prov.fr/dico/fourmoulo.pdf | Expressions courantes en occitan provençal mistralien et leurs traductions en français |
Occitan-Provençal | Noum geougrafi | Bertrand de la Tour d'Auvergne | Lexique | Lieux | 2019 ? | Numérique - PDF natif | 26 pages | http://lengo.hb-prov.fr/dico/noum_geougrafi.pdf | Traduction en occitan de lieux géographiques (en français + parfois en langue native) |
Occitan-Provençal | Noum de persouno | Bertrand de la Tour d'Auvergne | Lexique | Prénoms | 2019 ? | Numérique - PDF natif | 10 pages | http://lengo.hb-prov.fr/dico/noum_persouno.pdf | Traduction de prénoms en occitan provençal mistralien |
Picard | Dictionnaire fondamental français/picard | Alain DAWSON et Liudmila SMIRNOVA | Lexique | ||||||
Picard | Je parle picard | Alain Dawson et Pierre Guilgot | Manuel | Education | 2012 | Numérique - PDF natif | 114 pages | https://languepicarde.fr/wp-content/uploads/2017/08/JeParlePicard_Agencepourlepicard_Dawson-Guilgot.pdf | Méthode de picard pour les primaires et secondaires. Contient notamment des petits textes traduits dans plusieurs variantes de picard + français |
Yiddish | Dictionnaire yiddish-français | Niborsk et al. | Lexique | 2011 | http://www.verterbukh.org/vb?page=wotd&tsu=fr | ||||
Yiddish | Yidlid | Corpus | Chansons | http://yidlid.org/ |