Stage : les disfluences verbales et marqueurs discursifs : impact sur le traitement automatique de la parole et améliorations liées

L’équipe R&D de la société LINAGORA développe en open-source des outils d’assistance intelligente pour entreprises, y compris l’assistant vocal LinTO et la bibliothèque d’outils associée, dont le focus est de mettre à disposition l’état de l’art en Reconnaissance Automatique de la Parole (RAP). La parole conversationnelle intéresse tout particulièrement LINAGORA, avec comme application cible le résumé automatique de réunion. Cette application met en scène la RAP ainsi que le Traitement Automatique du Langage Naturel (TALN).

Les systèmes modernes de tâches de TALN, tels la restitution de la ponctuation et la génération automatique de résumé, sont basés sur des modèles statistiques d’apprentissage automatique (Machine Learning) entraînés sur de grandes quantités de données textuelles, extraites la plupart du temps de sites web et de recueils numérisés. Or ces données ne sont pas représentatives des transcriptions de parole spontanée. De ce fait, les modèles de TALN  appris sur ces données ne sont pas adaptés à des applications comme le résumé automatique de réunion à partir de transcriptions de RAP brutes. D’autre part, un système de résumé automatique nécessite d’importants volumes de données pour atteindre des performances acceptables, et il serait trop long et coûteux de recueillir assez de données transcrites de paroles spontanées pour qu’un système de TALN basé sur du Machine Learning puisse généraliser correctement.

La motivation de ce stage s’appuie sur le constat que, si l’on met de côté les erreurs de transcription de la RAP (qui deviennent rares au fur et à mesure des progrès en RAP), deux des plus grandes différences entre la transcription de parole spontanée et le texte écrit est :

  • d’un côté, la présence de disfluences verbales, à savoir les hésitations (« euh… », « hmm »), les répétitions, et les faux départs,
  • d’un autre côté, la présence de marqueurs discursifs (« eh bien », « alors », « donc »…), qui sont souvent employés pour réguler le flux de parole.

Non seulement les disfluences et les marqueurs discursifs peuvent être importants pour les tâches en aval nécessitant une compréhension du langage (comme la segmentation discursive), mais ils sont présents dans tout corpus utilisé pour former de nouveaux modèles de RAP et devront donc être pris en compte lors de la création d’une vérité terrain. Dans ce qui suit, pour des raisons de simplicité, nous parlons de « disfluences » pour désigner à la fois les disfluences et les marqueurs discursifs, bien qu’il soit de manière générale utile de différencier les deux.

Il n’existe pas ou très peu de bases de données annotant les disfluences au sein de discours. Or, les modèles« Whisper » d’OpenAI, à l’état de l’art en RAP et appris de manière semi-supervisée sur un très grand volume de vidéos sous-titrées, présentent la particularité d’omettre les disfluences, dans certaines conditions qu’il reste à déterminer. Ils font par ailleurs preuve d’une étonnante robustesse dans plusieurs langues, dont l’anglais et le français.

Partant de ce constat, le premier objectif du stage sera de constituer une base de données avec annotation des disfluences dans des transcriptions de parole. La constitution de cette base se fera de manière automatique à partir d’un programme, élaboré par le stagiaire, qui consiste à appliquer les modèles Whisper aux bases de données vocales disponibles à LINAGORA, et à exploiter les alignements de ses transcriptions (incomplètes en termes de disfluences) avec la vérité terrain.

À partir de cette base de donnée, le second objectif sera d’entraîner un modèle « deep learning » de TALN permettant de détecter et supprimer les disfluences dans les transcriptions textuelles. Selon l’avancement du stage, il sera aussi possible d’entraîner un modèle permettant de rajouter des disfluences dans un texte, dont la principale utilité est d’augmenter les bases de données d’entraînement des modèles TALN pour qu’ils soient adaptés au langage parlé.

Le modèle de détection/suppression des disfluences sera utilisé pour améliorer les performances des systèmes de TALN appliqués à la parole. En plus de vérifier et mesurer cette amélioration de performances en TALN, le stagiaire pourra utiliser ce modèle pour analyser l’impact des disfluences sur les systèmes de RAP. En particulier, une des utilités d’un tel modèle est d’améliorer l’estimation des performances des systèmes de RAP, pour comparer les systèmes qui transcrivent les disfluences et ceux qui les omettent.

Encadrement du stage


Le stagiaire sera encadré par Jérôme Louradour et Julie Hunter de LINAGORA.

Compétences clés recherchées :

  • Étudiants de M2 ou d’école d’ingénieur en dernière année, en informatique, avec des compétences en machine learning
  • De l’expérience en deep learning serait un plus
  • De l’expérience en traitement de la parole et/ou du texte serait un plus

Références :

  • « La parole spontanée : transcription et traitement », Thierry Bazillon, Vincent Jousse, Frédéric Béchet, Yannick Estève, Georges Linarès, Daniel Luzzati
  • « Auto-interruptions et disfluences en français parlé dans quatre corpus du CID », Bertille Pallaud, Stéphane Rauzy et Philippe Blache
  • « Analyse et détection automatique de disfluences dans la parole spontanée conversationnelle », Camille Dutrey
  • (Whisper) « Robust speech recognition via large-scale weak supervision », Alec  Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey et Ilya Sutskever

Type de contrat : stage

Durée du contrat : 5-6 mois

Gratification : à définir selon l’expérience du candidat

Niveau d’études requis : étudiants M2

Expérience : non

Lieu de travail : LINAGORA GSO TOULOUSE

Pour postuler

Adresser CV + lettre de motivation :

Jérôme Louradour

Julie Hunter

Jean-Pierre Lorre

Internship : ingénieur: ML applications C code generation

The scope of this internship is the real-time implementation of off-line trained machine learning algorithms on avionics embedded platforms. The workflow for developing such algorithms consists essentially of two parts: the design and the deployment. The design phase comprises the machine learning model configuration and training. The result of this phase is the inference model, which will be the input for the deployment phase. The deployment phase consists in coding the inference model in an adequate programming language and porting the code on the target hardware. We focus on the deployment phase.

Avionics systems are subject to certification, meaning that the development must be done following some standards such as the DO178-C [1] and the current draft AS6983 [2]. The two latter standards impose strong guarantees on the quality of the code and expect the designer to 1) ensure traceability between the requirements and the (source) code; 2) compute the Worst Case Execution Time, that is, assess the maximal number of cycles required to execute a sequential program, and 3) run intensive testing to verify the compliance of the implementation to the requirements. 

Missions:

To answer these initial questions we developed ACETONE [3], a framework capable of automatically generating a functionally equivalent and time-predictable C code from feed-forward neural networks. The current version is only for single-core, with no deep learning accelerators and no parallelization.

The objective is of the internship is to improve ACETONE while preserving a behaviour equivalent to the specification. More precisely the student will work on the extension of ACETONE in order to:

  • Optimize the routines employed in the neural network’s functions, primarily  matrices computations
  • Explore the usage of intrinsic functions, in particular for vectorization and parallelization
  • Add support to other types of layers (functions) that can be found in neural networks.

Technical requirements

Embedded systems or related areaLanguages : C and PythonSome knowledge in machine learning

Profile : Étudiant(e) Master 2 ou dernière année d’école d’ingénieur en microélectronique (conception numérique)

Cross-functional skills

Good level of english is required

Type de contrat : stage

Durée du contrat : 6 mois

Salaire : 600 €/mois

Niveau d’études requis : Bac+5

Expérience : non

Lieu de travail : ONERA (Toulouse)

Quotité du travail : 100%

Supervision :
Iryna De Albuquerque (ONERA), Adrien Gauffriau  (Airbus),  Claire Pagetti (ONERA) and Thomas Carle (IRIT)

Pour postuler

Adresser CV + lettre de motivation :

Iryna De Albuquerque

Claire Pagetti

Thomas Carle


Stage ingénieur : développement d’une plateforme d’injection de fautes pour les accélérateurs matériels de réseaux de neurones.

Le nombre croissant d’applications critiques pour la sécurité intégrant des réseaux de neurones profonds (DNN) dans le domaine automobile pose de nouveaux défis en matière de sécurité, notamment en ce qui concerne leur mise en œuvre (c’est-à-dire la détection et l’atténuation des pannes aléatoires matérielles). Dans le domaine automobile, la norme ISO 26262 résume les propriétés de sécurité telles que l’absence de point de défaillance unique.

Pour relever ce défi, le service central de sûreté de fonctionnement, basé à Toulouse, en charge de la sécurité fonctionnelle des composants matériels et logiciels NXP propose un stage de master de six mois portant sur l’évaluation de la robustesse de l’accélérateur matériel de DNN de NXP par injection de fautes . 

Le stage sera coordonné avec le laboratoire ONERA et le stagiaire aura accès aux outils NXP.

Missions

L’objectif principal du stage est de concevoir un cadre d’évaluation de la robustesse des accélérateurs DNN basé sur l’injection de fautes pour les produits NXP dédiés aux applications critiques pour la sûreté de fonctionnement.

Ce cadre s’inspirera d’une plate-forme d’injection de fautes existante basée sur l’intégration de saboteurs dans la conception RTL initiale d’un accélérateur de réseaux de neurones. Le/La stagiaire devra concevoir une extension de cette plate-forme adaptée aux accélérateurs DNN complexes et reconfigurables .

  • Le premier objectif est de concevoir l’extension à l’aide des langages de programmation VHDL/Verilog, de l’implémenter sur la carte FPGA Xilinx Virtex Ultrascale et de la valider sur un cas d’utilisation LeNet5 simple.
  • Le deuxième objectif est d’explorer les capacités du framework Scala Chisel à implémenter un framework générique et extensible permettant la génération automatique de la plateforme d’injection de fautes, l’exécution de la campagne d’injection de fautes et le post-traitement des résultats des injections.

Vous êtes : Étudiant(e) Master 2 ou dernière année d’école d’ingénieur en microélectronique (conception numérique)

Compétences techniques et connaissances

  • Bonne connaissance des systèmes sur puce Langages de description du matériel : VHDL, Verilog ou SystemVerilog
  •  Des notions en tests et en vérification sont un plus
  • Connaissance des outils de synthèse pour FPGA (ex Xilinx Vivado,…)
  • Langage Python, C
  • La connaissance de Scala ou d’un langage de programmation fonctionnel est un plus

Compétences transverses

Un bon niveau d’anglais est requis. Travail dans une équipe internationale multi-sites

Type de contrat : stage

Durée du contrat : 6 mois

Salaire : 600 €/mois

Niveau d’études requis : Bac+5

Expérience : non

Lieu de travail : NXP Semiconductors, Toulouse

Quotité du travail : 100%

Supervision :
Iban Guinebert (ONERA/NXP)
Andres BARRILADO (NXP)
Kevin Delmas (ONERA)
Claire Pagetti (ONERA)

Pour postuler

Adresser CV + lettre de motivation :

Iban Guinbert et
Kevin Delmas


Application process

To apply, please send your CV, cover letter and transcripts (marks) of the last 2 years to joris.guerin@ird.fr, kevin.delmas@onera.fr and jeremie.guiochet@laas.fr


close

Ne manquez rien !

Inscrivez-vous pour recevoir l'actualité d'ANITI chaque mois.

Nous n’envoyons pas de messages indésirables !

Call for ANITI 2.0 chairs

X
fr_FRFrench