Titelaufnahme
Titelaufnahme
- TitelReal-time automatic emotion recognition from speech
- Verfasser
- Gutachter
- Erschienen
- SpracheEnglisch
- DokumenttypDissertation
- Schlagwörter
- URN
Zugriffsbeschränkung
- Das Dokument ist frei verfügbar
Links
- Social MediaShare
- Nachweis
- IIIF
Dateien
Klassifikation
Zusammenfassung
In den vergangenen Jahren ist in der Mensch-Maschine-Kommunikation die Notwendigkeit, auf den emotionalen Zustand des Nutzers einzugehen, allgemein anerkannt worden. Um diesen automatisch zu erkennen, ist besonders Sprache in den Fokus gerückt. Bisher ging es dabei hauptsächlich um akademische und wenig anwendungsbezogene Untersuchungen, die auf im voraus aufgenommenen Datenbanken mit emotionaler Sprache beruhen. Die Anforderungen hierbei unterscheiden sich jedoch von denen der Online-Analyse, insbesondere sind im letzteren Fall die Bedingungen schwieriger und weniger vorhersagbar.
Diese Dissertation beschäftigt sich mit der automatischen Erkennung von Emotionen aus Sprache in Echtzeit anhand akustischer Merkmale. Dazu wurden zunächst Experimente auf bestehenden Datenbanken mit emotionaler Sprache durchgeführt, um geeignete Methoden zur Segmentierung, Merkmalsextraktion und Klassifikation des Sprachsignals zu finden. Geeignet heißt hierbei, dass die Methoden möglichst schnell und möglichst korrekt arbeiten. Um weitgehend allgemeingültige Ergebnisse zu erhalten, wurden die Experimente auf drei Datenbanken mit sehr unterschiedlichen Sprach- und Emotionstypen durchgeführt, nämlich der Berlin Datenbank mit Emotionaler Sprache, dem FAU Aibo Emotionscorpus und dem SmartKom Mobile Corpus, die sowohl gelesene als auch spontane Sprache sowie gespielte und natürliche Emotionen enthalten. Die bei diesen Experimenten gewonnenen Erkenntnisse wurden dazu verwendet, eine umfassende Sammlung von Werkzeugen und Programmen zur Online- und Offline-Emotionserkennung, genannt EmoVoice, zu implementieren.
Anhand von verschiedenen prototypischen Anwendungen und drei Benutzerstudien wurde die praktische Nutzbarkeit von EmoVoice, insbesondere auch durch externe Softwareentwickler, bewiesen. Weiterhin wurden vier Offline-Studien zur multimodalen Emotionserkennung durchgeführt, die akustische Merkmale mit Kontextinformation (Geschlecht), Biosignalen, Wortinformation und Mimik verbinden, da multimodale Erkennungsansätze eine höhere Erkennungsgenauigkeit versprechen.
Abstract
Recently, the importance of reacting to the emotional state of a user has been generally accepted in the field of human-computer interaction and especially speech has received increased focus as a modality from which to automatically deduct information on emotion. So far, mainly academic and not very application-oriented offline studies based on previously recorded and annotated databases with emotional speech were conducted. However, demands of online analysis differ from that of offline analysis, in particular, conditions are more challenging and less predictable.
Therefore, in this thesis, real-time automatic emotion recognition from acoustic features of speech was investigated. First, offline experiments were conducted to find suitable audio segmentation, feature extraction and classification algorithms. Suitable means in this context that they should be fast and at the same time give as correct results as possible. To be more general, results were obtained from three databases of different speech and emotion types, the Berlin Database of Emotional Speech, the FAU Aibo Emotion Corpus and the SmartKom Mobile Corpus, which include read and spontaneous speech as well as acted and spontaneous emotions. Results lead to the implementation of a collection of offline as well as online emotion recognition tools called EmoVoice.
This thesis also demonstrates the applicability of the framework and its usability for external software developers with the help of several applications and three user studies. Furthermore, four offline studies of multimodal emotion recognition combining acoustic information with context information (gender), bio signals, words and facial expressions are described, since an improved accuracy can be expected from multimodal analysis.
Inhalt
Statistik
- Das PDF-Dokument wurde 5 mal heruntergeladen.