Gruppenfoto im Arzneipflanzengarten, Juli 2022. Hintere Reihe, v.l.n.r.: Lennart Kinzel, André Asanoski, Katharina Beier, Jannis Wowra, Thomas-Martin Dutschmann. Vordere Reihe, v.l.n.r.: Dr. Nabiollah Mobaraki, Marc Hoffstedt, Marvin Stark, Prof. Dr. Knut Baumann.
Im Zuge der präklinischen Arzneistoffentwicklung fallen heutzutage riesige Datenmengen an, die nicht mehr manuell ausgewertet werden können. Beispiele sind die Struktur- und Aktivitätsdaten eines Hochdurchsatz-Screenings zur Wirkstofffindung, die Vielzahl an biologischen und toxikologischen Daten, die während der Wirkstoffoptimierung anfallen oder die Daten, die durch Bioanalytik und Wirkstoffanalytik entstehen. Um Informationen aus den Datenmengen extrahieren zu können, müssen Muster in den Daten erkannt werden, beispielsweise strukturelle Unterschiede zwischen biologisch aktiven und inaktiven Molekülen. Analytische Daten werden vielfach mit dem Wirkstoffgehalt oder der Wirkstoffqualität ins Verhältnis gesetzt. Diese Datenauswertung zur Informationsgewinnung wird mit Techniken des Maschinellen Lernens ermöglicht. Dazu ist es erforderlich, dass die chemischen Strukturdaten effizient verwaltet und verarbeitet werden können, um sie mit den dazugehörigen biologischen Daten in Beziehung zu setzen. Ziel der Analyse ist es, Gesetzmäßigkeiten zwischen chemischer Struktur und Bioaktivität zu erkennen, um neue Moleküle mit verbesserten Eigenschaften zielgerichtet entwerfen zu können. Die Chemoinformatik beschäftigt sich mit diesen Fragestellungen und stellt unser Hauptforschungsgebiet dar.
Kodieren chemischer Moleküle. Maschinelles Lernen mit chemischen Strukturen weist einige Besonderheiten auf. Die chemische Strukturinformation muss zunächst in numerische Moleküleigenschaften transformiert werden, um damit mathematische Modelle erstellen zu können. Dazu werden Techniken der mathematischen Graphentheorie oder auch der Geometrie angewendet. Liegt eine numerische Molekülbeschreibung vor, so kann sie zum Virtuellen Screening, zur Visualisierung chemischer Bibliotheken, zur Analyse quantitativer Struktur-Aktivitäts-Beziehungen oder zur Vorhersage der biologischen Zielstruktur genutzt werden.
Abbildung: Ligand- und strukturbasierte Pharmakophormodelle für die Kinase CDK2 (Bild: Dissertation F. Kölling)
Erstellen und validieren chemoinformatischer Modelle. Zum Erstellen chemoinformatischer Modelle nutzen wir sämtliche Techniken des Maschinellen Lernens. Wichtigster Punkt ist dabei der Input in Form der numerischen Molekülbeschreibung. Ist die Molekülbeschreibung ungeeignet, werden gute Modelle unmöglich. Da die mathematischen Modelle, die aus dem Maschinellen Lernen resultieren, größtenteils aus sehr komplexen, hochdimensionalen chemischen Daten erstellt werden, besteht die Gefahr von Zufallskorrelationen und Überoptimierung (Engl.: overfitting). Um derartige Artefakte ausschließen zu können, beschäftigen wir uns mit der rigorosen Überprüfung, d.h. Validierung, der erstellen Modelle.
Auswertung analytischer und bioanalytischer Daten. (Bio-)analytische Daten zeigen ebenfalls Eigenschaften, die spezialisierte Techniken der Datenauswertung erfordern. Schwingungsspektroskopische Daten (IR-, NIR-, Raman-Spektroskopie) enthalten vielfach Spikes, Streulicht oder Basisliniendrift. Für eine erfolgreiche Datenauswertung müssen diese Störsignale entfernt werden. Techniken der Dimensionsreduktion (Hauptkomponentenanalyse) oder der Auswahl der wichtigsten Spektralbereiche spielen ebenso eine große Rolle. Auch die reproduzierbare, objektive Auswertung moderner mikroskopischer Verfahren erfolgt mit Computerunterstützung. So sind beispielsweise zur Exozytoseerkennung eine Vielzahl von Schritten nötig, um diese Aufgabe der Mustererkennung zu lösen.
Abbildung: Intensitätsprofile fluoreszenzmarkierter Insulingranula. Die simultane Verfolgung sämtlicher Intensitätsprofile einer Zelle über die Zeit ist zur Exozytoseerkennung nötig. (Bild: Dissertation M. Matz)