Zhengyang Li
M.Sc.
Institut für Nachrichtentechnik
Technische Universität Braunschweig
Schleinitzstraße 22 (Raum302)
38106 Braunschweig
zhengyang.li(at)tu-bs.de
Tel.: +49 (0) 531 391 - 2443
Fax: +49 (0) 531 391 - 8218
ALL IN MULTI-MODAL LARGE LANGUAGE MODEL IN 2025! JOIN ME IN THIS JOURNEY!
Supervised Theses (Bachelor-, Master-, and Project-Thesis)
09. Fabian Bettels, Large World Model for Video Generation With Temporal Prediction of Image Tokens, 01/04/24-01/10/24, Joint supervision with Malte Stelzer
08. Pascal Reichert, An Efficient and Noise-Robust Audiovisual Encoder, 15/03/24-15/09/24
07. Shanhong Yin, Improving Noise Robustness of Audiovisual Speech Recognition by PixMix-Style Augmentation, 01/12/23-01/06/24
06. Moritz Möller, Few-Shot Training to Learn a Prompt Codebook for Contrastive Language-Image Pre-trained Models in Semantic Segmentation, 16/07/23-16/01/24, joint supervision with Björn Möller and Timo Bartels
05. Domenik Jaspers, Automatic Speech Recognition for German Children Speech: Domain Generalization and Adaptation for Hybrid and End-to-End Approaches, 17/07/23-17/01/24
04. Patrick Blumenberg, Cross-Language Transfer Learning for Audiovisual Speech Recognition, 30/08/23-30/11/23, paper cooperated with Amazon AGI, to be presented at Interspeech2024
03. Thomas Graave, Cross-Language Transfer Learning for Audiovisual Speech Recognition, 01/02/23-01/08/23, paper cooperated with Amazon Alexa, presented at ASRU2023
02. Krishnan Jothi Ramalingam, A Comparison of Fully and Weakly Supervised Learning for Entity Recognition, 12/12/22-06/06/23, external master thesis supervised joinly with Mercedes-Benz
01. Chenwei Liang, Distill-AV-HuBERT: Audiovisual Representation Learning by Distillation Methods, 01/08/23-01/02/23, paper presented at Interspeech2023
Art der studentischen Arbeit: Masterarbeit
Betreuer: Zhengyang Li
Abteilung: Signalverarbeitung und Machine Learning
Möchtest du künstliche Intelligenz zur Verbesserung unseres Lebens nutzen? Bist du daran interessiert, maschinelles Lernen sowohl auf Videosignale als auch auf Audiosignale anzuwenden? Dann könnte audiovisuelle Spracherkennung ein interessantes Thema für dich sein!
Das Institut für Kommunikationstechnik arbeitet jetzt zusammen mit Fraunhofer und anderen Partnern im SPEAKER Projekt, in dem TUBS das Modul für die audiovisuelle Spracherkennung entwickelt. Unser Ziel ist es, die visuelle Information (Lippe oder Gesicht) als Ergänzung zu nutzen, um eine robuste Spracherkennung in akustisch problematischen Umgebungen zu ermöglichen. Außerdem werden die passende Fusion Methoden für die Audio- und Videostreams gesucht.
In diesem Projekt können viele Bachelor- und Master-Arbeiten durchgeführt werden. Wenn du Lust hast auf dem Gebiet der audiovisuellen Spracherkennung zu arbeiten, schreibe mir ein E-Mail oder melde dich bei mir (Zhengyang, R311). Wir finden das passende Thema für dich je nach deine Interesse, entweder in der Forschung oder in den praktische Anwendungen.
Voraussetzung:
-Idealerweise Softwarekenntnisse in Skriptsprachen wie Python und einen sicheren Umgang mit Linux, Bashskripten.
-Ein erfolgreicher Besuch der Vorlesungen Mustererkennung und Sprachdiagnose wäre wünschenswert.
Zeit (raum) | Lebenslauf |
---|---|
Geboren 1993 in Yuncheng, China | |
Ausbildung | |
2018-2021 | Masterstudium der Informations-Systemtechnik an der TU Braunschweig |
2011-2015 | Bachelorstudium der Optoelektronische Informationswissenschaft und -technik an der Huazhong Universität für Wissenschaft und Technologie, China |
Berufspraxis | |
seit 05/21 | Wissenschaftlicher Mitarbeiter am IfN |
08/24-11/24 | Applied Scientist Intern at Amazon, Pittsburgh, PA, USA |
12/18-02/21 | Studentische Hilfskraft an der TU Braunschweig |