Aller au contenu principal

Soutenance de thèse Mamady NABE

Soutenance

Le 14 mars 2023

COSMO-Onset: un modèle Bayésien de perception de la parole, neuro-inspiré, combinant un traitement bottom-up de l'enveloppe du signal et des prédictions temporelles top-down pour la segmentation

Résumé de thèse :

Le traitement neurocognitif de la perception de la parole est classiquement conçu comme une hiérarchie de calculs - comprenant typiquement l'extraction de caractéristiques acoustiques ou multi-sensorielles, la catégorisation pré-lexicale, l'accès lexical, l'intégration prosodique et syntaxique, jusqu'aux étapes finales de compréhension. On considère de plus en plus que la communication neuronale au sein et entre ces différentes étapes est basée sur des processus de synchronisation et fonctionne grâce à des mécanismes de découpage et de sélection exploitant la dynamique oscillatoire neuronale à diverses fréquences.

Contrairement aux modèles classiques de perception de la parole tels que les modèles TRACE ou SHORTLIST, qui réalisent la segmentation uniquement par le décodage du contenu spectro-temporel de l'entrée de la parole, les recherches récentes en neurosciences sur la perception de la parole préconisent une séparation claire entre deux voies de traitement : une voie de décodage et une voie de contrôle temporel. Cette dernière proposition a donné lieu à plusieurs modèles neuro-computationnels qui, pour la segmentation, reposent uniquement sur le traitement de l'enveloppe acoustique permettant le suivi du rythme syllabique à partir du signal de parole. En ce sens, il s'agit de modèles de segmentation entièrement "bottom-up".

Cependant, plusieurs études ont montré qu'une perception fiable de la parole ne peut être obtenue uniquement par des processus "bottom-up". Par exemple, des preuves claires du rôle des prédictions temporelles "top-down" ont été fournies par Aubanel et Schwartz (2020). Leur étude a montré que les séquences vocales intégrées dans le bruit étaient mieux traitées et comprises par les auditeurs lorsqu'elles étaient présentées dans leur timing naturel et irrégulier que dans un timing rendu isochrone, sans changer leur contenu spectro-temporel. Le fort bénéfice en intelligibilité affiché par le timing syllabique naturel, tant en anglais qu'en français, a été interprété par les auteurs comme une preuve du rôle des prédictions temporelles descendantes pour l'analyse syllabique.

L'objectif de la présente thèse est d'aborder la question de la fusion des processus "bottom-up" et "top-down" pour la segmentation syllabique de la parole. Notre contribution est le modèle COSMO-Onset, un modèle hiérarchique bayésien de la perception de la parole, impliquant un module de segmentation de la parole avec un mécanisme descendant original pour la prédiction de l'apparition syllabique, impliquant des connaissances temporelles lexicales. Nous utilisons le modèle pour explorer les rôles respectifs du traitement "bottom-up" de l'enveloppe et des prédictions linguistiques "top-down", et comment ils peuvent être combinés efficacement pour la segmentation syllabique. Dans une première série d'expériences sur des stimuli synthétiques simplifiés, nous montrons que si la détection purement "bottom-up" du début de la parole est suffisante pour la reconnaissance des mots dans des conditions nominales, la prédiction "top-down" des événements syllabiques du début de la parole permet de surmonter des conditions défavorables difficiles, comme lorsque l'enveloppe acoustique est dégradée, ce qui conduit à des événements de début de parole parasites ou manquants dans le signal sensoriel. Sur une deuxième série d'expériences sur des stimuli de parole réels provenant de l'expérience d'Aubanel et Schwartz (2020), nous montrons que le modèle COSMO-Onset rend compte avec succès des rôles complémentaires de l'isochronie et du naturel dans la perception de la parole dans le bruit.

Composition du jury :
Noël NGUYEN - Aix-Marseille Université - Rapporteur
Frédéric BIMBOT - CNRS - Rapporteur
Okko RÄSANEN - Tampere Université - Examinateur
Itsaso OLASAGASTI - Université de Genève - Examinatrice
Laurent GIRIN - Grenoble-INP - Examinateur
Julien Diard - CNRS - Directeur de thèse
Jean-Luc Schwartz - CNRS - Co-directeur de thèse

Mots clés : Segmentation de la parole, Top-Down, Oscillations neuronales, Modélisation Bayésienne ,Aspects temporels de la parole

CNU de thèse : 27 - Informatique

Date

Le 14 mars 2023

Financement

UGA - IDEX ISP

01/11/2019 - 14/03/2023

Publié le 31 janvier 2023

Mis à jour le 25 août 2023