corpus interoperability and spoken diachronic databases : the NECTE-DECTE corpora
This two-day workshop presents some 50 years of sociolinguistic surveys of Geordie encapsulated in the NECTE and DECTE corpora. In the wake of Beal, Corrigan and Moisl 2007 selection of papers, the two corpora are discussed by linguists investigating syntactic, prosodic and phonetic features, questioning the connections between linguistic data, corpus annotation, linguistic research questions and technological queries.
Paris DIDEROT , Olympe de Gouges, 5 rue Thomas Mann, salle 153 , 3-4 June 2013
Day 1 (afternoon) presents the corpora and how they have been used so far. Day 2 (morning) discusses the formats, tools and potential suggestions for the synchronisation of textual/syntactic/phonetic/sound data and the possibilities to query both corpora at the same time.
The workshop is free but limited to 50 participants. Participants are advised to register individually to have free access to the corpus before hand and to download sample files from the NECTE website
DAY 1 DATA COLLECTION AND INITIAL EXPLOITATION OF THE CORPORA
Detail the data collection, and objectives of NECTE / DECTE
first hand experience on the data collection of the corpus / possible insights from field data and data collection
Working with the numbers of the phonetic transcriptions (explains how sociophonetic variation can be captured by numbers instead of the IPA symbols)
(this session details the algorithm used to convert the XML files into praat-like files to ensure interoperability of tools)
(demo of sample solutions of queries involving praat-like files)
(demo of the latest version of WinPitch software, which has a specific device for querying NECTE files)
TUESDAY 4 TH (DAY 2) CORPUS INTEROPERABILITY
Hermann Moisl (Newcastle) : How I aligned sound and texts and used the TEI to indicate all this
discussants : Nicolas Ballier, Philippe Martin, Christophe Parisse
(Things we found strange in the XML annotation, bug reports and suggestions to improve the XML annotation of the corpus)
round table : Philippe Martin, Christophe Parisse)
(plans for pedagogical exploitations of the DECTE corpus, applications)
argumentaire:
Le corpus NECTE-DECTE compile près de cinquante ans d’anglais d’anglais parlé à Newcastle (Geordie), entre enquêtes sociolinguistiques et sociophonétiques de terrains réalisés dans le cadre des projets Phonological Variation and Change . Ces deux jours se proposent de faire le point sur la numérisation des données phonétiques et syntaxiques, de leur mise au format XML et TEI et de l’exploitation de ces corpus, de la phonétique à la syntaxe. De l’exploitation en concordancier des données textuelles d’un corpus annoté en partie du discours à l’analyse de données phonétiques (transcription serrées), ce corpus est un cas d’étude intéressant de sauvegarde de patrimoine scientifique , d’annotations multiniveaux et de diachronie. Sur la base d’un protocole comparable, le corpus NECTE a été prolongé par DECTE, fournissant à la communauté un corpus longitudinal original de plus de quarante heures d’enregistrements. L’alignement des données et le balisage toutes les 20 secondes des transcriptions sera l’enjeu d’une discussion visant à proposer de meilleures pratiques d’annotation des corpus oraux.
Avec le soutien de l’IRCOM , Consortium linguistique « Corpus Oraux et Multimodaux », groupe de travail sur l'interopérabilité
Directrice : Pr Natalie Kübler
Centre de Linguistique Inter-langues,
de Lexicologie, de Linguistique Anglaise
et de Corpus-Atelier de Recherche sur la Parole
EA 3967
8 place Paul Ricœur
75013 Paris
Case courrier 7002
5 rue Thomas Mann
75205 Paris cedex 13