Pour tout renseignement concernant les ressources du laboratoire, contacter Loïc Liégeois.
Cette section liste les ressources constituées et diffusées (au moins en partie) par des membres du CLILLAC-ARP. Sauf mention contraire, ces ressources sont diffusées sous licence libre.
Les données collectées, structurées et analysées par l’équipe du CLILLAC-ARP dans le cadre du projet ANR EMPHILINE (Emotion(s), cognition, comportement) sont disponibles sur l’espace Nakalona du projet. L’ensemble des données est en accès libre sous licence CC BY-NC-SA 3.0 : https://up7-anr_emphiline.nakalona.fr/about
Grâce à l’aide financière du consortium CORLI, le corpus transversal du projet Diderot-LONGDALE est en cours de structuration finale (relecture des transcriptions, conversion au format CHAT, alignement des transcriptions avec les fichiers audio). Une fois l’ensemble de ces traitements effectués, les données seront déposées sur la plateforme ORTOLANG.
Cette section liste les ressources qui ne sont pas diffusées en open-access et dont une licence d’utilisation a été financée par le CLILLAC-ARP. Sauf mention contraire, ces ressources sont sous licence de site “Laboratoire”, ce qui signifie qu’elles ne peuvent être accessibles qu’aux seuls membres du CLILLAC-ARP et ce à des fins de recherche uniquement.
Première édition du ANC, disponible sous plusieurs formats (XML, texte brut, “stand-off”). Au total, le corpus compte environ 3 millions de mots pour la partie oral et 8 millions de mots pour la partie écrit. À noter qu’aujourd’hui une version mise à jour (près de 15 millions de mots) est distribuée sous licence libre sur le site de l’ANC.
La version CD-ROM du BNC (World Edition, 2000) est disponible, sur demande, pour les membres du laboratoires (licence de site).
Le CLILLAC-ARP a financé l’achat d’une licence de site permettant aux membres du laboratoire d’accéder aux textes intégraux des corpus COCA (Corpus of Contemporary American English), COHA (Corpus of Historical American English) et GloWbE (Global Web-Based English). À noter que ces corpus sont interrogeables en ligne à cette adresse : http://corpus.byu.edu/
La deuxième version de la base de données CELEX se compose de bases de données lexicales pour l’anglais, l’allemand et le néerlandais. La base de données CELEX est accessible à tout membre de l’université Paris Diderot (licence de site “université”).
Le corpus ISLE contient près de 20 minutes d’enregistrements de productions de 46 locuteurs d’un niveau intermédiaire d’apprentissage de l’anglais. Parmi ceux-ci, 23 sont des locuteurs natifs de l’allemand et 23 sont locuteurs natifs de l’italien. Chaque locuteur a été enregistré dans différents contextes : lecture de phrases simples, usage de paires minimales et réponses à des questions à choix multiples. La licence a été acquise auprès de l’ELDA (Agence pour l’Évaluation et la Distribution de Ressources Linguistiques). Le corpus est accessible à tout membre de l’université Paris Diderot (licence de site “université”).
Les CD-ROM du corpus MLCC (MultiLingual Corpora for Cooperation - Polylingual Document Collection & Multilingual Parallel Corpus) sont disponibles sur demande.
Cette section liste un ensemble de ressources extérieures pouvant être utiles à la recherche et diffusées sous licence libre par leurs auteurs.
Ce corpus regroupe quelques 300.000 énoncés en anglais tirés de 617 scripts de films. Lien vers la ressource : https://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
La banque de corpus du projet OPUS regroupe un vaste ensemble de données textuelles libres récoltées sur internet. Ces textes ont la particularité d’être disponibles dans leur langue d’origine ainsi que dans au moins une langue de traduction. Il s’agit toujours de corpus parallèles et les origines des textes sont divers. On retrouve par exemple un vaste ensemble de textes du Parlement Européen (corpus EUROPARL), des textes littéraires (corpus Books) ou encore une grande collection de sous-titres de films (corpus OpenSubtitles). Lien vers la banque de corpus : http://opus.lingfil.uu.se/
Le corpus de Santa Barbara regroupe la transcription de conversations spontanées informelles enregistrées dans plusieurs états des États-Unis. Les situations d’interaction sont variées et les locuteurs hétérogènes quant à leur âge, leur milieu social d’origine et leur lieu de naissance. Les transcriptions, alignées sur l’audio au niveau de l’unité intonative, sont disponibles au format Transcriber et CHAT (logiciel CLAN). Lien vers la ressource : http://www.linguistics.ucsb.edu/research/santa-barbara-corpus
Directrice : Pr Natalie Kübler
Centre de Linguistique Inter-langues,
de Lexicologie, de Linguistique Anglaise
et de Corpus-Atelier de Recherche sur la Parole
EA 3967
8 place Paul Ricœur
75013 Paris
Case courrier 7002
5 rue Thomas Mann
75205 Paris cedex 13