Outils pour utilisateurs

Outils du site


ressources:index

Ressources

Pour tout renseignement concernant les ressources du laboratoire, contacter Loïc Liégeois.

Données et corpus créés et diffusés par le CLILLAC-ARP

Cette section liste les ressources constituées et diffusées (au moins en partie) par des membres du CLILLAC-ARP. Sauf mention contraire, ces ressources sont diffusées sous licence libre.

Données EMPHILINE

Les données collectées, structurées et analysées par l’équipe du CLILLAC-ARP dans le cadre du projet ANR EMPHILINE (Emotion(s), cognition, comportement) sont disponibles sur l’espace Nakalona du projet. L’ensemble des données est en accès libre sous licence CC BY-NC-SA 3.0 : https://up7-anr_emphiline.nakalona.fr/about

Corpus transversal du projet Diderot-LONGDALE

Grâce à l’aide financière du consortium CORLI, le corpus transversal du projet Diderot-LONGDALE est en cours de structuration finale (relecture des transcriptions, conversion au format CHAT, alignement des transcriptions avec les fichiers audio). Une fois l’ensemble de ces traitements effectués, les données seront déposées sur la plateforme ORTOLANG.

Données et corpus extérieurs mis à disposition par le CLILLAC-ARP

Cette section liste les ressources qui ne sont pas diffusées en open-access et dont une licence d’utilisation a été financée par le CLILLAC-ARP. Sauf mention contraire, ces ressources sont sous licence de site “Laboratoire”, ce qui signifie qu’elles ne peuvent être accessibles qu’aux seuls membres du CLILLAC-ARP et ce à des fins de recherche uniquement.

American National Corpus

Première édition du ANC, disponible sous plusieurs formats (XML, texte brut, “stand-off”). Au total, le corpus compte environ 3 millions de mots pour la partie oral et 8 millions de mots pour la partie écrit. À noter qu’aujourd’hui une version mise à jour (près de 15 millions de mots) est distribuée sous licence libre sur le site de l’ANC.

British National Corpus

La version CD-ROM du BNC (World Edition, 2000) est disponible, sur demande, pour les membres du laboratoires (licence de site).

BYU Corpora

Le CLILLAC-ARP a financé l’achat d’une licence de site permettant aux membres du laboratoire d’accéder aux textes intégraux des corpus COCA (Corpus of Contemporary American English), COHA (Corpus of Historical American English) et GloWbE (Global Web-Based English). À noter que ces corpus sont interrogeables en ligne à cette adresse : http://corpus.byu.edu/

CELEX Lexical Database

La deuxième version de la base de données CELEX se compose de bases de données lexicales pour l’anglais, l’allemand et le néerlandais. La base de données CELEX est accessible à tout membre de l’université Paris Diderot (licence de site “université”).

MultiLingual Corpora for Cooperation

Les CD-ROM du corpus MLCC (MultiLingual Corpora for Cooperation - Polylingual Document Collection & Multilingual Parallel Corpus) sont disponibles sur demande.

Données et corpus extérieurs accessibles en open-access

Cette section liste un ensemble de ressources extérieures pouvant être utiles à la recherche et diffusées sous licence libre par leurs auteurs.

MCornell Movie-Dialogs Corpus

Ce corpus regroupe quelques 300.000 énoncés en anglais tirés de 617 scripts de films. Lien vers la ressource : https://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html

OPUS Corpus - The Open Parallel Corpus

La banque de corpus du projet OPUS regroupe un vaste ensemble de données textuelles libres récoltées sur internet. Ces textes ont la particularité d’être disponibles dans leur langue d’origine ainsi que dans au moins une langue de traduction. Il s’agit toujours de corpus parallèles et les origines des textes sont divers. On retrouve par exemple un vaste ensemble de textes du Parlement Européen (corpus EUROPARL), des textes littéraires (corpus Books) ou encore une grande collection de sous-titres de films (corpus OpenSubtitles). Lien vers la banque de corpus : http://opus.lingfil.uu.se/

Santa Barbara Corpus of Spoken American English

Le corpus de Santa Barbara regroupe la transcription de conversations spontanées informelles enregistrées dans plusieurs états des États-Unis. Les situations d’interaction sont variées et les locuteurs hétérogènes quant à leur âge, leur milieu social d’origine et leur lieu de naissance. Les transcriptions, alignées sur l’audio au niveau de l’unité intonative, sont disponibles au format Transcriber et CHAT (logiciel CLAN). Lien vers la ressource : http://www.linguistics.ucsb.edu/research/santa-barbara-corpus

ressources/index.txt · Dernière modification: 2017/04/27 14:32 par Loic Liegeois

Outils de la page