Outils pour utilisateurs

Outils du site


colloques:necte_decte_interop_2013

Workshop on the DECTE and NECTE corpora

corpus interoperability and spoken diachronic databases : the NECTE-DECTE corpora

This two-day workshop presents some 50 years of sociolinguistic surveys of Geordie encapsulated in the NECTE and DECTE corpora. In the wake of Beal, Corrigan and Moisl 2007 selection of papers, the two corpora are discussed by linguists investigating syntactic, prosodic and phonetic features, questioning the connections between linguistic data, corpus annotation, linguistic research questions and technological queries.

Paris DIDEROT , Olympe de Gouges, 5 rue Thomas Mann, salle 153 , 3-4 June 2013

Day 1 (afternoon) presents the corpora and how they have been used so far. Day 2 (morning) discusses the formats, tools and potential suggestions for the synchronisation of textual/syntactic/phonetic/sound data and the possibilities to query both corpora at the same time.

The workshop is free but limited to 50 participants. Participants are advised to register individually to have free access to the corpus before hand and to download sample files from the NECTE website

DAY 1 DATA COLLECTION AND INITIAL EXPLOITATION OF THE CORPORA

  • 1400 N. Ballier (Paris Diderot): Introduction
  • 1405 K . CORRIGAN (Newcastle) : From NECTE to DECTE

Detail the data collection, and objectives of NECTE / DECTE

  • 1430 J. BEAL (Sheffield) : The Diachrony of the NECTE corpus

first hand experience on the data collection of the corpus / possible insights from field data and data collection

  • 1500 Herman MOISL (Newcastle): Doing sociophonetics by numbers

Working with the numbers of the phonetic transcriptions (explains how sociophonetic variation can be captured by numbers instead of the IPA symbols)

  • 1530-1535 Philippe MARTIN (Paris Diderot) : Associating the NECTE phonetic digits to IPA transcriptions using WinPitch
  • question time
  • coffee break
  • 1600-1630 Christophe PARISSE (Paris 10, MODYCO) : Converting the NECTE files into CLAN readable format

(this session details the algorithm used to convert the XML files into praat-like files to ensure interoperability of tools)

  • 1630-1645 questions
  • 1645-1700 Nicolas Ballier (Paris Diderot) : Using the NECTE corpus for the investigation of prosody and syntax

(demo of sample solutions of queries involving praat-like files)

  • 1700-1715 Philippe MARTIN (Paris Diderot) : Using WinPitch as a multifile concordancer for the NECTE corpus

(demo of the latest version of WinPitch software, which has a specific device for querying NECTE files)

  • questions
  • 1715-1745 Esther LE GREZAUSE (Paris Diderot/UW) : Analysing SO with a subset of the NECTE corpus
  • 1745 questions
  • 1800 end


TUESDAY 4 TH (DAY 2) CORPUS INTEROPERABILITY

  • XML session
  • 9 00- 930 Hermann Moisl (Newcastle) : Corpus alignment and TEI conventions

Hermann Moisl (Newcastle) : How I aligned sound and texts and used the TEI to indicate all this

discussants : Nicolas Ballier, Philippe Martin, Christophe Parisse (Things we found strange in the XML annotation, bug reports and suggestions to improve the XML annotation of the corpus)

  • 1030 coffee break
  • 11 00 ROUND TABLE: TEI, XML and time alignment of corpora

round table : Philippe Martin, Christophe Parisse)

  • Exploring spoken corpora with text grammar in mind : experimenting the DECTE corpus with Xaira
  • Nicolas Ballier : DECTE-NECTE FOR CORPUS PROSODY (a comparison with AIX-MARSEC)
  • Some XML recommendations for corpus prosody??
  • Conclusion : what’s a Spoken database ?
  • 11 45 K. CORRIGAN (Newcastle) : Next steps and future plans

(plans for pedagogical exploitations of the DECTE corpus, applications)

  • 1200 Concluding remarks

argumentaire:
Le corpus NECTE-DECTE compile près de cinquante ans d’anglais d’anglais parlé à Newcastle (Geordie), entre enquêtes sociolinguistiques et sociophonétiques de terrains réalisés dans le cadre des projets Phonological Variation and Change . Ces deux jours se proposent de faire le point sur la numérisation des données phonétiques et syntaxiques, de leur mise au format XML et TEI et de l’exploitation de ces corpus, de la phonétique à la syntaxe. De l’exploitation en concordancier des données textuelles d’un corpus annoté en partie du discours à l’analyse de données phonétiques (transcription serrées), ce corpus est un cas d’étude intéressant de sauvegarde de patrimoine scientifique , d’annotations multiniveaux et de diachronie. Sur la base d’un protocole comparable, le corpus NECTE a été prolongé par DECTE, fournissant à la communauté un corpus longitudinal original de plus de quarante heures d’enregistrements. L’alignement des données et le balisage toutes les 20 secondes des transcriptions sera l’enjeu d’une discussion visant à proposer de meilleures pratiques d’annotation des corpus oraux.

Avec le soutien de l’IRCOM , Consortium linguistique « Corpus Oraux et Multimodaux », groupe de travail sur l'interopérabilité

colloques/necte_decte_interop_2013.txt · Dernière modification: 2021/11/30 02:57 (modification externe)

Outils de la page