DEGEM News – BERLIN – Forschungskolloquium über Emotionserkennung in Sprache und akustische Szenenklassifikation bei Cochlea-Implantaten

Von: Steffens, Jochen via ak discourse
Datum: Fri, 14 Jun 2019
Betreff: [ak-discourse] Forschungskolloquium über Emotionserkennung in Sprache und akustische Szenenklassifikation bei Cochlea-Implantaten

Liebe Kollegen und Studierende, liebe Interessenten an Veranstaltungen am Fachgebiet Audiokommunikation,

einmal mehr möchte ich Sie zu unserem Forschungskolloquium am kommenden Dienstag, 18.6., um 16.15Uhr im Raum E-N 324 einladen. Diesmal haben wir wieder zwei vorgestellte Masterarbeiten für Sie im Programm:

16:15Uhr: Speech Emotion Recognition Using Convolutional Neural Networks (Gustav Santo Tomas)

16:50Uhr: Evaluation der akustischen Szenenklassifikation bei Cochlea-Implantaten (Clarissa Beate Staudt)

Kurzzusammenfassungen über die beiden Vorträge finden Sie, wie immer, am Ende dieser E-Mail.

Herzliche Grüße und Ihnen allen ein sonniges Wochenende

Jochen Steffens

***

PD Dr. Jochen Steffens
Wissenschaftlicher Mitarbeiter
Fachgebiet Audiokommunikation (Sekr. EN-8)

Technische Universität Berlin
Einsteinufer 17c
10587 Berlin

Büro: +49 30 314 29161

–

Speech Emotion Recognition Using Convolutional Neural Networks (Gustav Santo Tomas)

Speech emotion recognition is an upcoming subfield of automatic speech recognition that shares multiple similarities with mood recognition in music signals. Audio signals containing human speech are used as input to classification algorithms trained to recognize emotions in the form of audio features. This thesis outlines a study in which a data set of speech signals containing semantically neutral recordings of professional actors portraying eight different emotions by altering their voice is tested. Low-level descriptors (LLDs) were extracted as static subfeatures from the speech signals and classified with support vector machines (SVMs) and convolutional neural networks (CNNs). Furthermore, mel-spectrograms were extracted and fed into a CNN as 3D image vectors for classification. The resulting accuracies from both the SVMs and CNNs for LLDs proved to be better than human raters from a previous study, with the CNN classifyer achieving the highest accuracy. The CNN for mel-spectrograms failed to achieve similar results, which is explained by lack of computational resources in the experiment setup.

Evaluation der akustischen Szenenklassifikation bei Cochlea-Implantaten (Clarissa Beate Staudt)

Cochlea-Implantate dienen Menschen als Hörprothese, um akustische Reize verarbeiten zu können. Mit fortschreitender Entwicklung der Technik rückt die Musikerkennung zunehmend in den Fokus der Signalverarbeitungsstrategien. Diese Arbeit fokussiert sich daher darauf, wie akkurat Musik mit dem gegenwärtigen Stand der Technik detektiert werden kann und welche Faktoren Einfluss hierauf nehmen. Die SCAN-Automatik der Firma Cochlear detektiert mittels einer automatischen Situationserkennung unter anderem Musik. In verschiedenen Testszenarien wurden die Musikerkennungsrate und -zeit der SCAN-Automatik ermittelt und getestet, welche Faktoren signifikanten Einfluss darauf nehmen. Allgemein scheinen einzelne Genres von der Automatik besser erkannt zu werden als andere. Es zeigt sich, dass vor allem der Lautstärkepegel der Musik Einfluss auf die Musikerkennungsrate nimmt, nicht hingegen auf die Musikerkennungszeit. Störgeräusche haben zu einen gewissen Grad Einfluss auf Musikerkennungsrate und -zeit. Die Richtung, aus der die Störgeräusche abgespielt werden, zeigt hingegen allgemein keinen Zusammenhang zur Musikerkennungsrate oder -zeit auf. Zum weiteren Verständnis der Erkennungsmöglichkeiten von Musik wird mit einem an der TU Berlin entworfenen Audio Content Analyse Algorithmus zur Musikdiskrimination getestet, welche Trennschärfe zwischen zwei akustischen Gruppen erreicht werden kann. Die Ergebnisse dazu liegen zwischen 69-99%.