CopyCSVJSONPrint
Table
LangueTitreAutoratTypeSous-typeAnnéeFormatTailleURICommentaire
Langue
Titre
Autorat
Type
Sous-type
Année
Format
Taille
URI
Commentaire
Alémanique – Bas AlsacienAnnotated Corpus for the Alsatian DialectsBernhard et al.CorpusUD2023Numérique - CONNL-U- 21 documents ~ 12k tokenshttps://zenodo.org/records/10132307annotation de textes en alsacien: forme+pos+lemme+gloss + noms de lieux Pas de split train/dev/test. Pas d'indication géographique des textes.
BretonOSCAR Breton: oscar-22.01+manual_20230120 Loïc Grobol et Mélanie JouitteauCorpusWeb crawl2023Numérique - Texthttps://sharedocs.huma-num.fr/wl/?id=b9HJXjq5hB6CNZctp2ENFNx2v9m0Ch9j"A text corpus extracted from OSCAR and checked by @Mélanie Jouitteau to ensure that it only contains actual Breton. [...] So far it has not been made officially public and has no associated publication so we (Mélanie and @Loïc Grobol) would appreciate if you could reach out to us when you use it!"
BretonARBRES-KensturLoïc Grobol et Mélanie JouitteauCorpus2023Numérique - Text5190 parallel phraseshttps://huggingface.co/datasets/lgrobol/ARBRES-KensturCorpus de phrases en breton traduites en français via des gloses sur le projet linguistique ARBRES
BretonCorpus de phrases bilingues alignéesCorpushttps://www.fr.brezhoneg.bzh/212-donnees-libres-de-droits.htm
BretonMeurgorfLexiquehttps://www.fr.brezhoneg.bzh/43-apertium-en-savoir-plus.htm
BretonWikisource Breton (Wikimammen)Corpushttps://br.wikisource.org/wiki/Rummad:Levrio%C3%B9
CorseLangues et Cité 22: le corse, u corsuPDF2012https://www.culture.gouv.fr/Thematiques/Langue-francaise-et-langues-de-France/Agir-pour-les-langues/Observer-les-pratiques-linguistiques/Langues-et-cite/Langues-et-cite-n-22-le-corse-u-corsuTous les articles sont traduits
CorseBanque de données langue corseCorpushttps://bdlc.univ-corse.fr/bdlc/corse.php
Créole Bushinenge njukaKreyòl-MTNate R. Robinson et al.CorpusMixte
Créole Bushinenge njukaMADLAD-400Kudugunta et al.CorpusWebcrawl
Créole GuadeloupéenDictionnaire créole français avec un lexique français créole et un abrégé de grammaireLexique2012Papier
Créole GuadeloupéenLe Déterville, Dictionnaire français – créoleLexique2009Papier
Créole GuyanaisKreyòl-MTNate R. Robinson et al.Corpus
Créole GuyanaisDictionnaires et lexiques bilingues. Langues de GuyaneLexique-2020Numériquehttps://corporan.huma-num.fr/Lexiques/
Créole HaïtienMADLAD-400Kudugunta et al.CorpusWebhttps://huggingface.co/datasets/allenai/MADLAD-400
Créole HaïtienBANK DONE MIT-AYITI (MIT-Haiti Corpus)Corpus
Créole LouisianaisKokodriOliver MayeuxCorpusHistoriquehttps://kokodri.org/about
Créole MauricienKreyòl-MTNate R. Robinson et al.CorpusMixtehttps://github.com/JHU-CLSP/Kreyol-MT
Créole MauricienKreolMorisienMTRaj Dabre et Aneerav SukhooCorpushttps://huggingface.co/datasets/prajdabre/KreolMorisienMT
Créole MauricienCorpus de textes anciens en créole mauricienGuillaume Fon SingCorpusHistorique
Créole MauricienLalit Lexique
Créole MauricienMauritius National Assembly HansardSite webGouvernement2009-présenthttps://mauritiusassembly.govmu.org/mauritiusassembly/index.php/hansard/L'Assemblée nationale de Maurice utilise une combination d'anglais, français et créole mauricien
Créole MauricienL'expressJournalhttps://lexpress.mu/
Créole RéunionnaisCorpus de créole réunionnais (Créolica)Pierre CellierCorpus
Créole Réunionnaishttps://www.temoignages.re/Site webJournal
Créole RéunionnaisKreyòl-MTNate R. Robinson et al.CorpusMixte
Créole RéunionnaisMADLAD-400Sneha Kudugunta et al.CorpusWebcrawl
Créole SeychelloisKreyòl-MTNate R. Robinson et al.CorpusMixte
Créole SeychelloisMADLAD-400Kudugunta et al.CorpusWebcrawl
Créole SeychelloisSeychelles National Assembly VerbatimSite webGouvernement
Créole SeychelloisSeychelles NationSite webJournal
FranciqueLe platt lorrain de Poche Jean-Louis Kieffer LexiqueExpressions2012
FranciqueParaplRevuehttp://www.gaugriis.com/publications/paraple/Revue litt. trilingue
FranciqueDictionnaire francoprovençal-français, français-franco-provençalSTITCH DominicLexique
FranciqueLittérature franciqueListehttps://fr.wikipedia.org/wiki/Litt%C3%A9rature_en_francique_lorrain
FrançaisAnnodis - Annotation DiscursivesDidier BourigaultCorpusMixte2012Numérique - TEI- 126 articles ~ 700k motshttp://redac.univ-tlse2.fr/corpus/annodis/Ensemble diversifié de textes en français structuré en TEIP5 et "annotations rhétoriques" Textes issus de l'Est Républicain, de Wikipédia, Actes du Congrés Mondial de Linguistique Française 2008 et Rapports de l'Institut Français de Relations Internationales
FrançaisAccueil UBSJean Yves AntoineCorpusAudio2013Numérique - Audio + XML- 40 dialogues - 10000 mots - 1h d'enregistrementhttps://www.ortolang.fr/market/corpora/sldr000890/v1Corpus de dialogue entre appelant et standard d'université. Fichiers audio à demander + Transcription disponible en XML
FrançaisAMPLORJean Christophe Blanchard, Kevin EchampardCorpusHistorique2016Numérique - TEI- 500 acteshttps://www.ortolang.fr/market/corpora/amplor/v2Corpus de 500 actes du 14eme siècle structuré en TEI.
FrançaisALIPE Acquisition de la Liaison et Interactions Parents EnfantsDamien Chabanal et al.CorpusAudio2017Numérique - Audio + HTML/TEI- 15H de dialoguehttps://www.ortolang.fr/market/corpora/alipe-000853/v1.1Interactions parents enfants annotées de 15h avec 3 enfants différents. Transcriptions annotées en TEI
FrançaisCEFC Corpus d'Etude pour le Français ContemporainJeanne Marie Debaisieux et al.CorpusMixte2011Numérique-Annotations linguistiques- 6M motshttps://www.ortolang.fr/market/corpora/cefc-orfeo/v1.5Corpus d'annotations linguistiques issus de tweets, journaux, frantext, scientext, annodis. Corpus d'entraînement gold disponible ici: https://www.ortolang.fr/market/corpora/cefc-gold/v1
FrançaisCCFPP 2000 Corpus de Français Parlé ParisienSonia Branca-Rosoff et al.CorpusAudio2012Numérique - HTML- 60 entretiens - 70h d'enregistrementhttps://www.ortolang.fr/market/corpora/cfpp2000/v1Corpus d'entretiens de 60 personnes différentes transcrit avec Transcriber et structuré en HTML.
FrançaisCLAPI Corpus de Langues Parlées en InteractionVeronique Traverso et al.CorpusAudio2010Numérique - Audio + TEI- 45h d'entretienhttps://www.ortolang.fr/market/corpora/clapi/v1Corpus d'enregistrements d'interactions "naturelles".
FrançaisCoLaJEChristophe Parisse et al.CorpusAudio2012Numérique - Audio + TEIhttps://www.ortolang.fr/market/corpora/colaje/10Corpus d'enregistrements d'enfants de 0 à 7 ans pour "reconstituer l'émergence et le développement de la communciation langagière". Transcriptions avec informations supplémentaires (geste).
FrançaisCoMeRe - Communication médiée par les réseauxThierry ChanierCorpusWeb2014Numérique - TEIhttps://www.ortolang.fr/market/corpora/comere/v3.3Corpus TEI de sms, tweets, email, chat
FrançaisCorpus 14Agnès Steuckart et al.CorpusLettres2019Numérique - TEI- 1793 texteshttps://www.ortolang.fr/market/corpora/corpus14/v2Corpus TEI de lettres issues de la correspondance de 37 personnes pendant la Première Guerre Mondiale. Documents dits "écrits peu lettrés" mis à disposition par des archives départementales.
FrançaisANCORJean Yves Antoine et al.CorpusAudio2014Numérique - TEI- 500 000 motshttps://www.ortolang.fr/market/corpora/ortolang-000903/v3Corpus de parole spontanée transcrites en TEI
FrançaisCorpus d'articles de linguistiques issus de la revue "Sciences Humaines"Evelyne Jacquey et al.CorpusJournal2009Numérique - TEI-125 articleshttps://www.ortolang.fr/market/corpora/scienceshumaines/v1Articles Sciences Humaines encodés en TEI
FrançaisCorpus de Français Parlé à Bruxelles (CFPB)Anne Dister, Emmanuelle Labeau et al.CorpusAudio2018Numérique - Audio et HTML- 19hhttp://cfpp2000.univ-paris3.fr/cfpb.htmlCorpus d'entretiens de locuteurs belges transcris et disponibles en HTML.
FrançaisFrench TreebankAbeillé A, Clément et ToussenelCorpusJournal2001Numérique - XML, CoNLL, PTB, Tiger- 664500 tokenshttp://ftb.linguist.univ-paris-diderot.fr/#tagRessource lexicale et syntaxique annotée manuellement, 20 000 phrases issues du Monde (1990-1993)
FrançaisEMA écrits scolairesCatherine Boré et al.CorpusScolaire2017Numérique-PDF et txthttps://www.ortolang.fr/market/corpora/ema-ecrits-scolaires-1/v4Textes de CP à CM1 transcrits
FrançaisGIECCamille Biros et al.CorpusGouvernement2021Numérique - txt-800 000 motshttps://www.ortolang.fr/market/corpora/corpus-giec/v1Rapports du GIEC
FrançaisCorpus journalistique de l'Est RépublicainBertrand Gaiffe et al.CorpusJournal2013Numérique - TEIhttps://www.ortolang.fr/market/corpora/est_republicain/v4Articles de l'Est Républicain de 1999 à 2003 et 2006 à 2011 encodé en XML TEI
FrançaisRepTask-Parole-InterpreteeLoic Liégois et al.CorpusAudio2016Numérique - Audio et TEI- 5000 motshttps://www.ortolang.fr/market/corpora/corpus-reptaskparoleinterpretee/v1?path=%2FRepTask-Parole-Interpretee_GlobalCorpus de conversations semi spontannées à thème libre transcrits et encodés en TEI
FrançaisTALNLudovic Tanguy et al.CorpusScientifique2020Numérique -PDF et XML-5,8M de motshttps://www.ortolang.fr/market/corpora/corpus-taln/v1Articles des conférences TALN et RECITAL de 1997 à 2019 encodés en TEI
FrançaisRenomDenis Maurel et al.CorpusLittéraire2014Numérique - XML TEI- 8 livres https://tln.lifat.univ-tours.fr/version-francaise/ressources/corpus-renom8 livres de Rabelais encodés en XML TEI
FrançaisDemocratFrédéric LandraginCorpusMixte2020Numérique - XML TEI-700k motshttps://www.ortolang.fr/market/corpora/democrat/v1.1Corpus multigenre et diachronique textuel encodé en XML TEI
FrançaisDictionnaire électronique de Chrétien de TroyesPierre Kunstmann et al.CorpusLittéraire2010Numérique - XML TEI- 5 livreshttps://www.ortolang.fr/market/corpora/dect/v15 textes de Chrétien de Troyes (Erec, Ligès, Lancelot, Chevalier à la Charrette, Yvain, Perceval) en XML TEI (disponible sur FranText et BFM)
FrançaisDISCOSSSimona Anastasio CorpusAudio2014Numérique - Audio et Wordhttps://www.ortolang.fr/market/corpora/disc-oraux-semi-spontanes/v1corpus de discours oraux semi spontanés de 40 apprenants adulte du français lv20 (anglophones et italophones) transcrits.
FrançaisE-CALMClaude Ponton et al.CorpusScolaire2020Numérique-TEIhttps://www.ortolang.fr/market/corpora/e-calm/v1Corpus de transcriptions d'écrits d'élèves et étudiants (CP à Université).
FrançaisESLO Enquête sociolinguistique à OrléansLaboratoire Ligérien de LinguistiqueCorpusAudio1968-2020Numérique - Audio et TEI/TXM-700hhttps://www.ortolang.fr/market/corpora/eslo/v1Interviews et enregistrements variés (conversations téléphoniques, réunions publiques, transactions commerciales, repas de familles...) transcrits et encodés en TEI (parfois)
FrançaisFrench news corpusDavid GraffCorpusJournal1995Numérique -SGML-100M de motshttps://catalog.ldc.upenn.edu/LDC95T11Corpus de dépêche AFP en SGML. Une petite partie provient du monde et est encodée en TEI
FrançaisRapports français sur l'intégration (1991-2012)Naomi Truan et Léa RenardCorpusGouvernement1991-2012Numérique -PDF-18 rapportshttps://www.ortolang.fr/market/corpora/rapports-francais-sur-lintegration/v1Corpus de rapports du haut conseil à l'intégration entre 1991 et 2012 en format pdf
FrançaisGEOPOLydia Mai Ho DacCorpusGouvernement2007NUmérique -XML-270k motshttp://redac.univ-tlse2.fr/corpus/geopo.htmlCorpus de 32 textes longs, articles expositifs (informatifs et argumentatifs) sur la géopolitique
FrançaisInterviews d'Alphonse Daudet dans la presse parisienne (1883-1897)Gabrielle Melison HirchwaldCorpusJournal2011Numérique - TEI-200k motshttps://www.ortolang.fr/market/corpora/interviewsdaudet/v2Corpus TEI d'une série d'entretiens donnée par Alphonse Daudet entre 1883 et 1897
FrançaisLittéracie AvancéeFanny RINCK et al.CorpusScolaire2015Numérique - TEIhttps://www.ortolang.fr/market/corpora/litteracieavancee/v1Corpus d'écrits d'étudiant d'université (mémoire-fiches de lectures-lettre de motivation et comptes rendus) transcrits et encodés en TEI
FrançaisLoup Garou annotationsBernard Bel et al.CorpusWeb2014Numérique - Audio et Textgridhttps://www.ortolang.fr/market/corpora/ortolang-000908Discussions pendant une partie de loup garous transcrites
FrançaisModal - modèles de l'annotation de la modalité à l'oralLaboratoire Ligérien de LinguistiqueCorpusAudio2017Numérique - Audio et TEI- 20k motshttps://www.ortolang.fr/market/corpora/modal/v1Corpus de dialogues italiens, anglais et français annotés en TEI
FrançaisModélisation Contrastive et Computationnelle des Chaînes de CoréférenceFrédéric Landragin et al.CorpusLittéraire2014Numérique - TEI- 8 textes - 20k motshttps://www.ortolang.fr/market/corpora/mc4/v1Corpus de 8 textes encodés en TEI du 12eme au 20eme siècle
FrançaisMulticultural Paris FrenchFrançoise Gadet et al.CorpusAudio2017Numérique - Audio et Docx/Textgrid- 106 enregistrements - 1M de motshttps://www.ortolang.fr/market/corpora/mpf/v4.1Corpus de discussion recueilli en région parisienne depuis 2010 auprès de populations jeunes connaissant des contacts multiculturels réguliers. Avec transcription et nombreuses métadonnées sur les locuteurs
FrançaisOEFCraig Baker et al.CorpusLittéraire2021Numérique - TEI-40k motshttps://www.ortolang.fr/market/corpora/oef/v1Corpus TEI de manuscrits d'Ovide de 1320 à 1480 encodé TEI XML
FrançaisOrthoCorpusFrédérique Brin-Henry et al.CorpusAcadémique2020Numérique - TEI-1069 articleshttps://www.ortolang.fr/market/corpora/orthocorpus/v2Corpus d'articles d'orthophonie encodé en XML TEI
FrançaisParCoGliJeDejan Stosic et al.CorpusLittéraire2018Numérique - TEI-1,6M motshttps://www.ortolang.fr/market/corpora/stosic/v2Corpus bilingue français-anglais de 8 classiques de littérature jeunesse encodés en TEI
FrançaisDébats parlementaires sur l'Europe à l'Assemblée nationale (2002-2012)Naomi Truan, Laurent RomaryCorpusGouvernement2016Numérique - TEI- 1,3M motshttps://www.ortolang.fr/market/corpora/fr-parl/v1.1
FrançaisPayeTonCorpusCognition, Langue, Langages, Ergonomie, UMR5263 CLLECorpusWeb2021Numérique - TEI- 3000 posts -200k motshttps://www.ortolang.fr/market/corpora/payetoncorpus/v1Corpus de témoignages d'actes sexistes issus de Tumblr
FrançaisPhonologie du Français ContemporainMarie Hélène Côté et al.CorpusAudio2009Numérique - Audio et Textgridhttps://www.ortolang.fr/market/corpora/pfc/v1Base de données sur le français oral contemporain avec transcription
FrançaisPLPNat Corpus de Production Langagières Précoces en Situation NaturelleDominique Bassano et al.CorpusAudio2005Numérique - Audio et txt- 80 enregistrementshttps://www.ortolang.fr/market/corpora/plpnat/v1Corpus d'enregistrements d'enfants de 1 à 4 ans transcrits.
FrançaisPresidentielle 2017Julien Longhi et al.CorpusWeb2017Numérique - TEI-45k tweetshttps://www.ortolang.fr/market/corpora/corpus-presidentielle2017/v1Corpus de tweets produits dans le cadre des élections présidentielles français de 2017, encodés TEI
FrançaisRecherches sur le français parléChristophe Benzitoun et al.CorpusAcadémique2017Numérique - TEI- 18 numéroshttps://www.ortolang.fr/market/corpora/recherches-francais-parle/v1Numéros de la revue recherches sur le français parlé de 1977 à 2004 encodés en TEI
FrançaisTCOF Traitement de Corpus Oraux FrançaisVirginie André et al.CorpusAudio2024Numérique - Audio et Transcriber-1,5M de mots -146hhttps://www.ortolang.fr/market/corpora/recherches-francais-parle/v1
FrançaisTermITHEvelyne Jacquey et al.CorpusAcadémique2011Numérique - TEI300M motshttps://www.ortolang.fr/market/corpora/termith/v1Articles scientifiques en SHS encodés en TEI
FrançaisTexto4sciencePhilippe Langlais et al.CorpusWeb2012Numérique - XMLhttp://rali.iro.umontreal.ca/rali/?q=fr/texto4scienceEncodage XML de textos canadiens-français
FrançaisWikipediaFR2008CorpusWeb2008Numérique -HTML700k articleshttp://redac.univ-tlse2.fr/corpus/wikipedia.htmlDump d'articles Wikipedia encodés
FrançaisRésolutions du conseil de sécurité de l'ONU 1946-2015Gaetan MoreauCorpusGouvernement2019Numérique -XML4M motshttps://www.ortolang.fr/market/corpora/csonu/v1
FrançaisGallicaBibliothèque nationale de FranceSite webHistoriquehttps://gallica.bnf.fr
GalloMoutier de pouchette Galo-Françaez, Françaez-Galo Dictionnaire de poche Gallo-Français, Français GalloDERIANO Patrik Lexique2010Papier
OccitanCorpus textuel occitan (BaTelÒc)Corpushttps://locongres.org/fr/applications/corpus-textuel
OccitanMod pour un jeu vidéo, possible de réalignerDanís Chapduèlh Corpushttps://github.com/TristanGahus1/VauSerena/tree/master
OccitanOccitania !! ForumSite webForum2007-2012Numérique- 292 participants ~20k posts ~1M tokenshttps://occitania.forumactif.com/forum
OccitanJornalet - Quotidian occitan d'informacionsFerriòl Macip, Jòrdi Ràfols et Alan RochSite webJournal-2024Numériquehttp://www.jornalet.com/ Utilisation de la norme "Alibèrt-CLO"
OccitanCorpus NLLB (No Language Left Behind)Corpus2022Numérique- 58M phrases Oc - 9M pour Oc-FRhttps://opus.nlpl.eu/NLLB/corpus/version/NLLB1 langue régionale représentée: Occitan
OccitanParaulas en ÒcAura SéguierSite webCatalogue-2024Numérique~3000 paroleshttps://www.paraulas.net/Plateforme de promotion de la culture occitane, principalement la scène musicale. Catalogue de paroles de chansons en occitan avec interface de recherche avancée (tag de langue mais pas plus précis que "occitan")
OccitanOcWikiDisc: a Corpus of Wikipedia Talk Pages in OccitanAleksandra Miletić et Yves ScherrerCorpusForum2022Numérique- 522 participants ~11K messages ~1M tokenshttps://zenodo.org/records/7079580
OccitanLo blòg deu forum Occitània !!Site webBlog-2011Numérique11 postshttps://forumoccitania.wordpress.com/Contient de nombreux liens vers d'autres blogs et sites webs notamment politiques
OccitanTrésor de la langue d'Oc - Bibliothèque virtuelle de la Tour MagneJean VéronisSite webBibliothèque numériqueNumérique - PDFs océrisés300k pageshttps://www.cieldoc.com/Livres de littérature, traductions, essais, discours, biographies, dictionnaires...
OccitanInternet Archive BooksSite webCatalogue1583-1993Scan54 livreshttps://archive.org/details/books?tab=collection&and%5B%5D=language%3A%22Occitan%22Livres scannés rédigés principalement en occitan, principalement de la littérature
OccitanWikisourceSite webCatalogueNumérique - HTML167 texteshttps://wikisource.org/wiki/Main_Page/OccitanDifférentes périodes (pre-1500: classique, baroque) (post-1500: Renaissance, période moderne)
OccitanWikipèdiaSite webEncyclopédie-2024Numérique - HTML- 89 433 articles - 114 participants actifshttps://oc.wikipedia.org/wiki/Acu%C3%A8lh
OccitanOccitanica, le portail collectif de la langue et de la culture occitanes - MediatècaSite webCatalogueScan3620 documents en occitanhttps://occitanica.eu/mediateca
OccitanOccitanica - La MaletaSite webRessources pédagogiquesNumérique- 45 fiches professeur - 13 images annotées - 18 fiches personnalitéshttps://maleta.occitanica.eu/- "Talhièrs": Fiches pédagogiques à destination des professeurs d'occitan, rédigées en occitan et accompagnées de documents annexes à télécharger. - "Vocabulari": Imagier et abécédaire sans images - "Retraches": Fiches pour découvrir quelques personnalités occitanes
OccitanOC RevistaPériodiqueRevue-1924Numériquehttp://www.ocrevista.com/spip.php?rubrique3Quelques numéros de 2022 à 2013 disponibles sur le site de la revue en PDF. Également les numéros de 1924 à 1934 disponibles sur Occitanica: https://occitanica.eu/items/show/20953
OccitanQED Corpus (QCRI Educational Domain)Ahmed Abdelali, Paco Guzman et Hassan SajjadCorpusSubtitles, education2014Numérique - Text (various)- 14K phrases Oc -351 phrases FR-OChttps://opus.nlpl.eu/QED/fr&oc/v2.0a/QEDProblèmes de LID (téléchargé le corpus FR-OC): une partie ressemble à FR-OC, mais d'autres contiennent du turc (?) (src+tgt)
OccitanWeblate-TranslationsMohamed Aymane FarhiCorpusLogicielNumérique - Text - Tabular26K pairs EN-OChttps://huggingface.co/datasets/ayymen/Weblate-TranslationsTraductions issues de Weblate (CAT tool libre pour les projets versionnés)
OccitanCCMatrixHolger Schwenk et al.CorpusWeb crawl2019Numérique - Text- 6.6M phrases OC - 1.2M OC-FRhttps://opus.nlpl.eu/CCMatrix/oc&fr/v1/CCMatrixUsed as source for the NLLB corpus
OccitanXLEntAhmed El-Kishky et al.LexiqueEntités nommées2021Numérique - Text- 5.M pairs OC - 102K pairs OC-FRhttps://opus.nlpl.eu/XLEnt/oc&fr/v1.2/XLEntPaires d'entités nommées extraites automatiquement de CCAligned, CCMatrix et WikiMatrix
OccitanCorpus WikimediaCorpusEncyclopédie2023Numérique - Text- 114K phrases OC - 90K OC-FRhttps://opus.nlpl.eu/wikimedia/oc&fr/v20230407/wikimediaWikipedia translations with additional sentence alignment processing
OccitanCorpus KDE4CorpusLogicielNumérique - Text- 2.9M phrases OC - 49K OC-FRhttps://opus.nlpl.eu/KDE4/oc&fr/v2/KDE4
OccitanCorpus TatoebaCorpus2023Numérique - Text- 3K phrases OC - 807 OC-FRhttps://opus.nlpl.eu/Tatoeba/oc&fr/v2023-04-12/Tatoeba
OccitanCorpus GNOMECorpusLogicielNumérique - Text- 2.9M phrases OC - 77 OC-FRhttps://opus.nlpl.eu/GNOME/oc&fr/v1/GNOME
OccitanCorpus TED2020CorpusEducation2020Numérique - Text- 2.3K phrases OC - 33 phrases OC-FRhttps://opus.nlpl.eu/TED2020/oc&fr/v1/TED2020
OccitanCorpus UbuntuCorpusLogiciel2014Numérique - Text- 6.2K phrases OC-FRhttps://opus.nlpl.eu/Ubuntu/oc&fr/v14.10/Ubuntu
OccitanCorpus WikiMatrixCorpusEncyclopédie2019Numérique - Text- 432K phrases OC - 124K OC-FRhttps://opus.nlpl.eu/WikiMatrix/en&oc/v1/WikiMatrix
OccitanWeb Inventory of Transcribed & Translated (WIT) Ted Talks (ted_talks_iwslt)CorpusEducation2014, 2015, 2016Numérique - Text2 phrases OChttps://huggingface.co/datasets/ted_talks_iwslt
OccitanFamilha - Un forum pour les familles qui vivent en occitanSite webForum2010Numérique - HTML- 31 posts - 4 utilisateurshttps://familha.kanak.fr/forumLes dates des posts ne montrent pas l'année (a priori autour de 2010)
OccitanCalandreta.orgSite webEducation-2024Numérique - HTMLhttp://calandreta.org/Site bilingue occitan-français
OccitanBilinguisme OccitanSite webEducation2018-2021Numériquehttps://www.bilinguisme-occitan.org/Site de conseils aux parents pour éduquer ses enfants de manière bilingue occitan-français. Certaines pages du site sont traduites en occitan (français en premier, traduction en rouge en dessous). Liens vers des ressources dans diverses variantes d'occitan, notamment des livres sur Calaméo et leur version audio
OccitanLa criiisiFranc FadardSite webBlog2010Numérique12 postshttps://lacriiisi.wordpress.com/Principalement des mini-BD (strips), blog collaboratif
OccitanServici de l'emplecSite webProfessionnel2018-2024Numérique20 d'offreshttps://www.emplec.com/Offres d'emploi en lien avec la langue occitane. Service de l'IEO (Toulouse). Les offres anciennes sont conservées. Parfois en occitan, parfois en français, parfois un mix des deux.
OccitanPartit OccitanSite webPolitique-2024Numérique - HTMLhttp://partitoccitan.org/?lang=ocSite vitrine du parti occitan. Quelques articles type blog, principalement en occitan avec quelques exceptions et quelques pages bilingues
Occitanoci_wikipedia_2021CorpusEncyclopédie2021Numérique- 224K phrases - 3.8M motshttps://corpora.uni-leipzig.de/fr?corpusId=oci_wikipedia_2021Corpus de phrases issues de la version Wikipedia en occitan. Autres versions disponibles: 2007, 2014, 2016
Occitanoci_web_2020Corpus2020Numérique10K phraseshttps://wortschatz.uni-leipzig.de/en/download/Occitan%20(post%201500)"Used text material was taken from randomly chosen Web sites"
Occitanoci_community_2023Corpus2023Numérique- 200K phraseshttps://wortschatz.uni-leipzig.de/en/download/Occitan%20(post%201500)Corpus collecté à partir de l'outil https://curl.corpora.uni-leipzig.de/ qui permet de traiter des sites à partir de leur URL de manière collaborative (crowdsourcing). La liste des sites web source du corpus sont indiquées et comprennent en majorité des pages Wikipedia.
OccitanTolosa TreebankAleksandra Miletić et al.CorpusUD2024Numérique - CoNNL-U- 26K tokens - 1.5K phraseshttps://zenodo.org/records/10569962Corpus annoté selon les guidelines UD dans le format CoNNL-U. splits train/dev/test et aussi par dialecte: Gascon, languedocien, provençal et limousin.
OccitanGallicaSite webCatalogueNumérique - Scans- 2158 documentshttps://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&exactSearch=false&collapsing=true&version=1.2&query=(dc.language%20all%20%22oci%22)&suggest=10&keywords=&ticket=ST-3373-D-DXgyspW6rZfWPHoZfDrGg8mpI-diaz02
OccitanHALvest-RawFrancis Kulumba et al.CorpusScientifique01/04/24Numérique - Text- 26 documents - max 285k tokenshttps://huggingface.co/datasets/Madjakul/HALvest-Rverified ~5 documents manually: mostly in occitan (but sometimes some parts in French/English). Metadata include the domain/subdomain of each paper as well as publication year.
OccitanReSeTOX NLLB-200_TWL occitanNLLB ? Javier García Gilabert (UPC) ?LexiqueToxique2023Numérique - Text225 motshttps://github.com/mt-upc/ReSeTOX/blob/main/NLLB-200_TWL/oci_Latn_twl.txtList of toxic words in occitan (could be useful for data filtering)
OccitanSoftwaresOccitanTranslations corpusAure SéguierCorpusIT2023Numérique - Text685-2438 phraseshttps://zenodo.org/records/8411351traductions de logiciels open source ; inter-variétés (+annotation graphie) et extra-occitan (ex. oc-variété vers français)
OccitanReVoc CorpusLo CongrèsCorpus2024Numérique- 23k phrases GASC -15k phrases LANG - autres 2-179 phrases par variétéhttps://zenodo.org/records/11566430annotation variété + âge, date, genre
OccitanOccitan Corpus from Lo Congrès newsAure SéguierCorpusNews2023Numérique - Text- AUV 17 phrases - LANG 2700 phraseshttps://zenodo.org/records/8411197annotation variété (graphie classique), toutes les traductions vers le français. perte de la référence du document original (url/titre/auteur...
OccitanLo Congrès websites CorpusAure SéguierCorpusWeb2024Numérique - Texthttps://zenodo.org/records/12192029Corpus compilé automatiquement à partir de tous les sites web de Lo Congrès. 10 variétés d'occitan alignées avec français/anglais
Occitanieu maitotSite webBlog-2015Numérique - HTMLhttps://ieumaitot.wordpress.com/blog personnel
OccitanEinucent's WeblogSite webBlog2008-2013Numérique - HTMLnombreux articleshttps://einucent.wordpress.com/articles plutôt monolingues (soit français soit occitan)
OccitanÒrb, shord, mutSite webBlog2008-2012Numérique - HTMLhttps://omidelafotografia.wordpress.com/Blog personnel de l'administrateur du forum Occitania (l'Òmi), gascon de Sud-Gironde, mais je ne suis pas sûre que les articles soient vraiment écrits en gascon
OccitanBlòg forra-tot & mestissatge occitan-comtésSite webBlog2008-2010Numérique - HTMLhttp://fc-oc.blogspot.com/autrice originaire de Franche-Comté, a appris l'occitan languedocien à Montpellier depuis 2006 (<5 ans)
OccitanLa cabro e lo lopSite webBlog2008-2011Numérique - HTML~120 articleshttp://lacabraelolop.canalblog.com/
OccitanLa marrida vidaSite webBlog2008-2010Numérique - HTML45 articleshttp://mertyl.blogspot.com/L'auteur indique être situé à Millau dans l'Aveyron.
Occitan-AranaisDiccionari der aranésInstitut d'Estudis Aranesi - Acadèmia aranesa dera lengua occitanaLexiqueDictionnaire2019Numérique - HTML- 10k entrées - 13k définitions - 430 exemples d'usage - 770 synonymeshttps://www.diccionari.cat/diccionari-der-aranesDictionnaire occitan aranais monolingue + bilingue aranais-catalan
Occitan-AranaisBlog - Libertat ! Val d'AranSite webBlog2009-2012Numérique - HTML~100 articleshttps://libertataran.wordpress.com/page/5/blog de la section Val d'Aran du parti socialiste-indépendantiste-révolutionnaire Libertat. Mix d'articles en français, occitan ou mix, parfois traductions (occitan puis français ou le contraire)
Occitan-GasconGasconha.com - Notre région, c'est la Gascogne !Tederic MergerSite webBlog-2024Numérique - HTMLhttps://gasconha.com/Noms de lieux et traduction dans 2 variétés occitanes (je n'ai pas trouvé la légende cependant mais potentiellement deux variantes de gascon) ainsi qu'articles mêlant français et occitan
Occitan-GasconReclamsPériodiqueRevue1897-2024Papier + PDF + HTML~80 pages par numérohttps://www.reclams.org/oc/Site bilingue (choix de la langue "occitan" ou "français"). 20 articles disponibles gratuitement en ligne (avec traduction pour certains sinon uniquement en occitan). Gallica et Occitanica ont des archives scannées des numéros entre 1897 et 1951: https://occitanica.eu/items/show/2019
Occitan-GasconAran ath diaPériodiqueRevue2005-2009Numérique - PDF non éditable32 pages par documenthttps://ddd.uab.cat/record/166850Archives d'une revue mensuelle du Val d'Aran
Occitan-GasconCAN - Comitat d'accion nihilistaSite webHumourNumérique - HTMLhttp://can.oc.free.fr/Site traitant de sujets politiques a priori de manière humoristique (ex. transformer son PC fixe en PC portable, distribution de préservatifs garantis sans OGM, secteur pro-OGM, pétition pour la remise en activité des volcans d'Auvergne...)
Occitan-GasconA Huèc ! Las paginas d'informacion de Livertat seccion Gasconha-NòrdSite webBlog2009-2010Numérique - HTML100aine de postshttps://ahuec.wordpress.com/Blog politique (section locale du mouvement Libertat !). A priori, le mouvement/association Libertat a été interdit depuis, le site libertat.org n'est plus accessible mais quelques archives disponibles avec beaucoup de posts de blog politiques en occitan: https://web.archive.org/web/20170901064020/http://libertat.org/ (2017) - https://web.archive.org/web/20131224204953/http://www.libertat.org/ (2013)
Occitan-GasconLibertat bearnSite webBlog2009-2015Numérique - HTML100aine de postshttps://libertatbearn.wordpress.com/Blog politique (section locale du mouvement Libertat !). A priori, le mouvement/association Libertat a été interdit depuis, le site libertat.org n'est plus accessible mais quelques archives disponibles avec beaucoup de posts de blog politiques en occitan: https://web.archive.org/web/20170901064020/http://libertat.org/ (2017) - https://web.archive.org/web/20131224204953/http://www.libertat.org/ (2013)
Occitan-GasconBlog - A Huèc - Las paginas d'informacion de Libertat seccion Gasconha-NòrdSite webBlog2009-2012Numérique - HTML~130 articleshttps://ahuec.wordpress.com/blog de la section Bordeaux/Gascogne-Nord du parti socialiste-indépendantiste-révolutionnaire Libertat. Mix d'articles en français, occitan ou mix, parfois traductions (occitan puis français ou le contraire)
Occitan-GasconBlog - Libertat ! BéarnSite webBlog2009-2015Numérique - HTML~220 articleshttps://libertatbearn.wordpress.com/blog de la section Béarn du parti socialiste-indépendantiste-révolutionnaire Libertat. Mix d'articles en français, occitan ou mix, parfois traductions (occitan puis français ou le contraire)
Occitan-Gasconeth gat-esquiroSite webBlog2008Numérique - HTML19 articleshttp://gat-esquiro.blogspot.com/
Occitan-LanguedocienRecèptas del País e d'endacòm maiSite webRecettes de cuisine2015Numérique - HTML65 recetteshttp://francescunhaus.free.fr/Pseudo de l'auteur: "Papanon"
Occitan-LanguedocienLo Grelh RoergàsSite webNumériquehttps://sites.google.com/view/grelhroergas/acu%C3%A8lhSite de l'association, bilingue occitan français (en général par colonnes). Présentation de l'association et ressources, notamment un dictionnaire de l'occitan languedocien et des vidéos
Occitan-LanguedocienLo Diccionari General Occitan de Cantalausa Edicion aumentada en occitan e en francés per Miquèl JOFFRECantalausa, Michel JoffreLexiqueDictionnaire2023Numérique - HTMLhttps://dgo.grelhroergas.com/index.htmlPrincipalement en occitan, avec parfois des définitions ou traductions en français.
Occitan-LanguedocienLoflòc: A Morphological Lexicon for Occitan using Universal DependenciesMarianne Vergez-Couret et al.Lexique2024Numérique - TSV680 205 entréeshttps://zenodo.org/records/10838802Lexique morphologique (forme-lemme-POS), languedocien uniquement
Occitan-LanguedocienVieux chants quercinois recueillis et notés vers 1900Abbé François-Maurice LacosteLivreChansons2021 et 2023Papier4 tomeshttps://www.libraria-occitana.org/produit/vieux-chants-quercynois-recueillis-et-notes-vers-1900-tomes-1-2/Recueils de chants quercinois
Occitan-LimousinRapietaSite webBlog-2024Numériquehttps://rapieta.wordpress.com/
Occitan-LimousinCours d'occitanJean-Pierre ReydySite webBlog2009-2014Numérique - .dochttp://jpreydy.canalblog.com/Cours d'occitan au format .DOC: textes avec aide/traductions et exercices. Annotations en "nontronnais" car les étudiants du cours d'origine étaient de cette localité (Lussas-et-Nontronneau)
Occitan-LimousinChanson LimousineJean DelageSite webChansons2007-2020500+ ?http://www.chanson-limousine.net/Plateforme de chansons limousines en occitan: paroles (occitan + français) + partitions + audio + video. Egalement des contes et fables et leur traduction en français. Plusieurs sites reliés (ex. chanson-occitane.net), probablement des recoupements.
Occitan-LimousinUnion Occitana Camila Chabaneu - Assemblées généralesSite webCompte-rendus2008-2018Numérique - HTML et PDF3 documents - 11 pageshttp://www.union-occitane-cch.net/assembleesgenerales.htmComptes-rendus d'assemblées générales dont 3 sont en rédigés occitan
Occitan-LimousinOc si lo voletzSite webChansons et littérature-2023Numérique50-100 documents traduitshttp://al.deliquet.free.fr/Occitan/Limousin.htmRessources en limousin + traductions + version audio
Occitan-LimousinArri! Biais de dire... Lexics Oc / FrLexiqueNumérique - PDF non éditable6 petits lexiqueshttp://arrilemosin.free.fr/Vie des enfants, fêtes de fin d'année, bal traditionnel, vocabulaire basique + tourisme (aussi depuis l'italien et l'espagnol)
Occitan-ProvençalLa lenga nostra. Projeccion sus l'avenidor. Langage & sociétéPatric ChoffrutDocumentArticle de revue1979Scan4 pageshttps://www.persee.fr/doc/lsoc_0181-4095_1979_sup_9_1_1192
Occitan-ProvençalAquò d'AquíPhilippe Langevin et Michel NeumullerSite web Presse-2024Numérique + papierhttps://www.aquodaqui.info/mensuel bilingue d'information occitane. Introduction des articles en français mais le contenu en occitan (variétés du PACA) avec choix de l'orthographe: mistralienne ou classique. Egalement un catalogue PDF. Le site est bilingue (français en italique)
Occitan-ProvençalL'Astrado ProuvençaloPériodiqueRevuePapier ?100 pageshttps://www.astrado-prouvencalo.com/Revue littéraire annuelle
Occitan-Provençal100 chansons de ProvenceSite webChansonsNumérique - PDF / MP3100 chansons ?https://www.100chansonsdeprovence.com/Connexion requise pour accéder aux chansons. Paroles en PDF (graphie mistralienne + classique + traduction en français) + mp3 chant/instrumental
Occitan-ProvençalLo diariSite webMagazine-2024Numérique - HTMLhttps://lodiari.com/Magazine culturel bimestriel papier et en ligne (littérature, musique, technologies, sports, arts...). Egalement des podcasts.
Occitan-ProvençalDiciounàriBertrand de la Tour d'AuvergneLexique2019 ?Numérique - PDF natif1158 pageshttp://lengo.hb-prov.fr/dico/lengo.pdfDictionnaire bilingue occitan (provençal mistralien)->français, avec des exemples. Utiliser GROBID pour le parser ?
Occitan-ProvençalGrammaticoBertrand de la Tour d'AuvergneGrammaire2019 ?Numérique - PDF natif55 pageshttp://lengo.hb-prov.fr/dico/founetico.pdfDescriptions du fonctionnement grammatical de l'occitan provençal (graphie mistralienne), incluant quelques traductions d'exemples en français (italique)
Occitan-ProvençalFourmuloBertrand de la Tour d'AuvergneLexiqueExpressions2019 ?Numérique - PDF natif3 pageshttp://lengo.hb-prov.fr/dico/fourmoulo.pdfExpressions courantes en occitan provençal mistralien et leurs traductions en français
Occitan-ProvençalNoum geougrafiBertrand de la Tour d'AuvergneLexiqueLieux2019 ?Numérique - PDF natif26 pageshttp://lengo.hb-prov.fr/dico/noum_geougrafi.pdfTraduction en occitan de lieux géographiques (en français + parfois en langue native)
Occitan-ProvençalNoum de persounoBertrand de la Tour d'AuvergneLexiquePrénoms2019 ?Numérique - PDF natif10 pageshttp://lengo.hb-prov.fr/dico/noum_persouno.pdfTraduction de prénoms en occitan provençal mistralien
PicardDictionnaire fondamental français/picardAlain DAWSON et Liudmila SMIRNOVALexique
PicardJe parle picardAlain Dawson et Pierre GuilgotManuelEducation2012Numérique - PDF natif114 pageshttps://languepicarde.fr/wp-content/uploads/2017/08/JeParlePicard_Agencepourlepicard_Dawson-Guilgot.pdfMéthode de picard pour les primaires et secondaires. Contient notamment des petits textes traduits dans plusieurs variantes de picard + français
YiddishDictionnaire yiddish-françaisNiborsk et al.Lexique2011http://www.verterbukh.org/vb?page=wotd&tsu=fr
YiddishYidlidCorpusChansonshttp://yidlid.org/
Showing 1 to 171 of 171 entries
Previous1Next