Zhengyang Li
M.Sc.
Institut fĂŒr Nachrichtentechnik
Technische UniversitÀt Braunschweig
SchleinitzstraĂe 22 (Raum311)
38106 Braunschweig
zhengyang.li(at)tu-bs.de
Tel.: +49 (0) 531 391 - 2443
Fax: +49 (0) 531 391 - 8218
I am in an Internship from August 1st, 2024 to November 15th, 2024 in the USA. I cannot supervise new student theses during this period. You can contact other colleagues for topics. If you are interested in audiovisual speech recognition or multi-modal deep learning, and want to start your thesis at the end of 2024, you can also drop me an email :)
Supervised Theses (Bachelor-, Master-, and Project-Thesis)
07. Shanhong Yin, Improving Noise Robustness of Audiovisual Speech Recognition by PixMix-Style Augmentation, 01/12/23-01/06/24
06. Moritz Möller, Few-Shot Training to Learn a Prompt Codebook for Contrastive Language-Image Pre-trained Models in Semantic Segmentation, 16/07/23-16/01/24, joint supervision with Björn Möller and Timo Bartels
05. Domenik Jaspers, Automatic Speech Recognition for German Children Speech: Domain Generalization and Adaptation for Hybrid and End-to-End Approaches, 17/07/23-17/01/24
04. Patrick Blumenberg, Cross-Language Transfer Learning for Audiovisual Speech Recognition, 30/08/23-30/11/23, paper cooperated with Amazon AGI, to be presented at Interspeech2024
03. Thomas Graave, Cross-Language Transfer Learning for Audiovisual Speech Recognition, 01/02/23-01/08/23, paper cooperated with Amazon Alexa, presented at ASRU2023
02. Krishnan Jothi Ramalingam, A Comparison of Fully and Weakly Supervised Learning for Entity Recognition, 12/12/22-06/06/23, external master thesis supervised joinly with Mercedes-Benz
01. Chenwei Liang, Distill-AV-HuBERT: Audiovisual Representation Learning by Distillation Methods, 01/08/23-01/02/23, paper presented at Interspeech2023
Art der studentischen Arbeit: Masterarbeit
Betreuer: Zhengyang Li
Abteilung: Signalverarbeitung und Machine Learning
Möchtest du kĂŒnstliche Intelligenz zur Verbesserung unseres Lebens nutzen? Bist du daran interessiert, maschinelles Lernen sowohl auf Videosignale als auch auf Audiosignale anzuwenden? Dann könnte audiovisuelle Spracherkennung ein interessantes Thema fĂŒr dich sein!
Das Institut fĂŒr Kommunikationstechnik arbeitet jetzt zusammen mit Fraunhofer und anderen Partnern im SPEAKER Projekt, in dem TUBS das Modul fĂŒr die audiovisuelle Spracherkennung entwickelt. Unser Ziel ist es, die visuelle Information (Lippe oder Gesicht) als ErgĂ€nzung zu nutzen, um eine robuste Spracherkennung in akustisch problematischen Umgebungen zu ermöglichen. AuĂerdem werden die passende Fusion Methoden fĂŒr die Audio- und Videostreams gesucht.
In diesem Projekt können viele Bachelor- und Master-Arbeiten durchgefĂŒhrt werden. Wenn du Lust hast auf dem Gebiet der audiovisuellen Spracherkennung zu arbeiten, schreibe mir ein E-Mail oder melde dich bei mir (Zhengyang, R311). Wir finden das passende Thema fĂŒr dich je nach deine Interesse, entweder in der Forschung oder in den praktische Anwendungen.
Voraussetzung:
-Idealerweise Softwarekenntnisse in Skriptsprachen wie Python und einen sicheren Umgang mit Linux, Bashskripten.
-Ein erfolgreicher Besuch der Vorlesungen Mustererkennung und Sprachdiagnose wĂ€re wĂŒnschenswert.
Zeit (raum) | Lebenslauf |
---|---|
Geboren 1993 in Yuncheng, China | |
Ausbildung | |
2018-2021 | Masterstudium der Informations-Systemtechnik an der TU Braunschweig |
2011-2015 | Bachelorstudium der Optoelektronische Informationswissenschaft und -technik an der Huazhong UniversitĂ€t fĂŒr Wissenschaft und Technologie, China |
Berufspraxis | |
seit 05/21 | Wissenschaftlicher Mitarbeiter am IfN |
12/18-02/21 | Studentische Hilfskraft an der TU Braunschweig |