[ 7. Oktober 2018 ]

DEGEM News – NEWS – Einladung zum Forschungskolloquium

Von: Steffens, Jochen
Datum: Fri, 5 Oct 2018
Betreff: [ak-discourse] Einladung zum Forschungskolloquium

Liebe Kollegen und Studierende, liebe Interessenten an Veranstaltungen am Fachgebiet Audiokommunikation,

einmal mehr möchte ich Sie zu unserem Forschungskolloquium am kommenden Dienstag, 9.10., um 16.15Uhr im Raum E-N 324 einladen. Im Rahmen dieses Termins werden zwei Masterarbeiten vorgestellt. Zunächst wird Fabian Seipel seine Masterarbeit zu Music Instrument Identification using Convolutional Neural Networks vorstellen. Im Anschluss daran wird Jan-Joschka Wohlgemuth seine Arbeit zu Perceptually Motivated Design of Inexpensive Spherical Microphone Arrays for 3D Sound Field Capture präsentieren. Beide Vorträge werden in deutscher Sprache gehalten, und Kurzzusammenfassung darüber finden Sie, wie immer, am Ende dieser E-Mail.

Wir freuen uns sehr auf Ihr Kommen.

Herzliche Grüße und Ihnen allen ein schönes Wochenende

Jochen Steffens

***

Dr. Jochen Steffens

Wissenschaftlicher Mitarbeiter

Fachgebiet Audiokommunikation (Sekr. EN-8)

Technische Universität Berlin
Einsteinufer 17c
10587 Berlin
Büro: +49 30 314 29161

Music Instrument Identification using Convolutional Neural Networks (Fabian Seipel)

Automatische Instrumentenerkennung in Form von Algorithmen kann dazu beitragen weiterführende Audioanalysesysteme, beispielsweise zur Musikempfehlung oder Genreerkennung zu verbessern, und dient darüber hinaus als Grundlage für Methoden zur Quellentrennung, automatischen Musiknotation oder zum Labeln von Audiodaten für Machine Learning Prozesse. Die vorliegende Masterarbeit präsentiert ein solches Instrumentenerkennungssystem für polyphone, klassische Musikdaten auf Basis von sogenannnten Convolutional Neural Networks (CNN). Dazu gehört ebenfalls eine Vorverarbeitungsmethode basierend auf spektraler Subtraktion um Übersprechen auf Mehrspurmusikaufnahmen zunächst zu reduzieren, um diese somit für den Machine Learning Prozess vorzubereiten. Nach der Trainingsphase des CNN ist das berechnete Modell in der Lage, die Instrumentenzusammensetzung für ein beliebiges Stück klassischer Musik pro Frame zu prädizieren. Darüber hinaus wird auch der Einfluss der Framegröße auf die Klassifikationsergebnisse untersucht.

Perceptually Motivated Design of Inexpensive Spherical Microphone Arrays for 3D Sound Field Capture (Jan-Joschka Wohlgemuth)

In this thesis we discuss practical solutions to the problem of non-parametric single point 3-dimensional sound field capture with inexpensive spherical microphone arrays. We explore
implications of utilizing cost efficient MEMS transducers and evaluate signal processing techniques that aim at reducing perceptually negative physical effects. We designed, constructed and tested a second order open spherical array utilizing 12 MEMS and 1 electret transducer. We chose a dual radius design to extend the operational frequency bandwidth of the array. The use of both electret and MEMS transducers enables us to trade-off between noise performance and array cost. We propose an extension to a radial filter design from the existing work to improve the matching of underlying transducer model and reality. Furthermore, we implemented a bandwidth extension method from the literature to cope with spatial aliasing and transducer self-noise. The thesis documents a listening experiment in which participants compared a dynamic binaural reproduction of a sound scene generated using the prototyped array with a dynamic binaural reproduction of the scene generated using a commercially available array. Subjects gave the proposed array better or equal ratings than the commercially available array regarding 10 perceptual qualities. We generated different sound scene representations with the developed array using different signal processing approaches. The proposed radial filter design method yielded significantly improved ratings. The bandwidth extension method lead to insignificantly better noise performance ratings but to worse ratings in all other categories.