Zhengyang Li, M.Sc.

Visitenkarte

Zhengyang Li

M.Sc.
Institut für Nachrichtentechnik
Technische Universität Braunschweig
Schleinitzstraße 22 (Raum 302)
38106 Braunschweig

zhengyang.li(at)tu-bs.de
Tel.: +49 (0) 531 391 - 2443
Fax: +49 (0) 531 391 - 8218

Publications: Google Scholar

ALL IN MULTI-MODAL LARGE LANGUAGE MODEL IN 2025! JOIN ME IN THIS JOURNEY!

Supervised Theses (Bachelor-, Master-, and Project-Thesis)

09. Fabian Bettels, Large World Model for Video Generation With Temporal Prediction of Image Tokens, 01/04/24-01/10/24, Joint supervision with Malte Stelzer

08. Pascal Reichert, An Efficient and Noise-Robust Audiovisual Encoder, 15/03/24-15/09/24, paper accepted at Interspeech2025

07. Shanhong Yin, Improving Noise Robustness of Audiovisual Speech Recognition by PixMix-Style Augmentation, 01/12/23-01/06/24

06. Moritz Möller, Few-Shot Training to Learn a Prompt Codebook for Contrastive Language-Image Pre-trained Models in Semantic Segmentation, 16/07/23-16/01/24, joint supervision with Björn Möller and Timo Bartels

05. Domenik Jaspers, Automatic Speech Recognition for German Children Speech: Domain Generalization and Adaptation for Hybrid and End-to-End Approaches, 17/07/23-17/01/24

04. Patrick Blumenberg, Cross-Language Transfer Learning for Audiovisual Speech Recognition, 30/08/23-30/11/23, paper cooperated with Amazon AGI, presented at Interspeech2024

03. Thomas Graave, Cross-Language Transfer Learning for Audiovisual Speech Recognition, 01/02/23-01/08/23, paper cooperated with Amazon Alexa, presented at ASRU2023

02. Krishnan Jothi Ramalingam, A Comparison of Fully and Weakly Supervised Learning for Entity Recognition, 12/12/22-06/06/23, external master thesis supervised joinly with Mercedes-Benz

01. Chenwei Liang, Distill-AV-HuBERT: Audiovisual Representation Learning by Distillation Methods, 01/08/23-01/02/23, paper presented at Interspeech2023

Forschungsgebiete

End-to-End Automatische Spracherkennung
Audiovisuelle Spracherkennung
Multi-modal Large Language Models

Offene studentische Arbeiten

End-to-End audiovisuelle Spracherkennung

Art der studentischen Arbeit: Masterarbeit

Betreuer: Zhengyang Li

Abteilung: Signalverarbeitung und Machine Learning

Möchtest du künstliche Intelligenz zur Verbesserung unseres Lebens nutzen? Bist du daran interessiert, maschinelles Lernen sowohl auf Videosignale als auch auf Audiosignale anzuwenden? Dann könnte audiovisuelle Spracherkennung ein interessantes Thema für dich sein!

Das Institut für Kommunikationstechnik arbeitet jetzt zusammen mit Fraunhofer und anderen Partnern im SPEAKER Projekt, in dem TUBS das Modul für die audiovisuelle Spracherkennung entwickelt. Unser Ziel ist es, die visuelle Information (Lippe oder Gesicht) als Ergänzung zu nutzen, um eine robuste Spracherkennung in akustisch problematischen Umgebungen zu ermöglichen. Außerdem werden die passende Fusion Methoden für die Audio- und Videostreams gesucht.

In diesem Projekt können viele Bachelor- und Master-Arbeiten durchgeführt werden. Wenn du Lust hast auf dem Gebiet der audiovisuellen Spracherkennung zu arbeiten, schreibe mir ein E-Mail oder melde dich bei mir (Zhengyang, R311). Wir finden das passende Thema für dich je nach deine Interesse, entweder in der Forschung oder in den praktische Anwendungen.

Voraussetzung:
-Idealerweise Softwarekenntnisse in Skriptsprachen wie Python und einen sicheren Umgang mit Linux, Bashskripten.
-Ein erfolgreicher Besuch der Vorlesungen Mustererkennung und Sprachdiagnose wäre wünschenswert.

Lebenslauf

Zeit (raum)	Lebenslauf
Geboren 1993 in Yuncheng, China
Ausbildung
2018-2021	Masterstudium der Informations-Systemtechnik an der TU Braunschweig
2011-2015	Bachelorstudium der Optoelektronische Informationswissenschaft und -technik an der Huazhong Universität für Wissenschaft und Technologie, China
Berufspraxis
seit 05/21	Wissenschaftlicher Mitarbeiter am IfN
08/24-11/24	Applied Scientist Intern at Amazon, Pittsburgh, PA, USA
12/18-02/21	Studentische Hilfskraft an der TU Braunschweig

Zhengyang Li, M.Sc.

Visitenkarte

Forschungsgebiete

Offene studentische Arbeiten

End-to-End audiovisuelle Spracherkennung

Lebenslauf

Für alle

Für Studierende

Interne Tools

Kontakt