Leitung: Alice C. McHardy
Mitarbeiter: Philipp C. Münch und René Mreches
Standort: Helmholtz-Zentrum für Infektionsforschung GmbH, Braunschweig
Kurzbeschreibung des Projekts:
Die Arbeitsgruppe “Bioinformatik der Infektionsforschung” um Alice C. McHardy erforscht mit computergestützten Techniken das menschliche Mikrobiom, virale und bakterielle Pathogene sowie menschliche Zelllinien anhand von großen biologischen und epidemiologischen Datensätzen:
Durch die Analyse von Metagenom-, Populationsgenom- und Einzelzellgenomdaten erzeugen wir experimentell überprüfbare Hypothesen, wie z.B. welche Gene bzw. welche Veränderungen an Proteinen mit dem Auftreten einer Krankheit assoziiert sind. Im Focus stehen auch die Ursachen, warum Pathogene den Immunschutz umgehen können, sowie für Antibiotikaresistenzen.
In den letzten Jahren haben sich tiefe neuronale Netze zu einem zentralen und bemerkenswert effektiven Modellierungswerkzeug für Klassifikationsaufgaben wie Bild- und Spracherkennung entwickelt und übertreffen klassische maschinelle Lernansätze und zum Teil sogar Menschen. Im Bereich der Texterkennung sind diese Netzwerke sogar in der Lage, selbständig grammatikalische und semantische Strukturen und Gesetzmäßigkeiten zu erlernen, was diese Netzwerke besonders interessant für die Anwendung auf biologische Datensätze macht, da hier solche Regelmäßigkeiten oft nur schwer zu entschlüsseln sind.
In diesem Projekt untersucht die Gruppe um Prof. McHardy daher die Möglichkeit, ob diese Netzwerke auch verwendet werden können, semantische Strukturen auf Genomensequenzen zu finden:
Wir wenden diese Netzwerke auf CRISPR-Regionen und den damit verbundenen Genomen sowie deren CRISPR-Targets an, um dann mittels Visualisierung des Parameterraumes des trainierten Netzwerks Einblicke in strukturelle Eigenschaften dieser Regionen zu erhalten. Wir entwickeln und untersuchen diese Netzwerke auf die Möglichkeit noch unbekannte strukturelle Eigenschaften des CRISPR-Systems zu finden.
Wir verfolgen bei unserem Projekt folgende Ziele:
-
Unser erstes Ziel ist es, einen Katalog aller CRISPR-Strukturen zu erstellen, die sich in einer großen Sammlung von Metagenomen identifizieren lassen.
-
Mit diesen Daten und zusammen mit bereits identifizierten CRISPR-Loci aus kompletten Genomen wollen wir neuronale Netze trainieren, welche von uns speziell für die Modellierung von genomischen Sequenzen entwickelt und optimiert werden.
-
Wir untersuchen den Parameterraum der Netzwerke (die gelernten Gewichte der künstlichen Neuronen) auf bisher unbekannte strukturelle Eigenschaften des CRISPR-Systems.
Das trainierte Modell wird auch zur Validierung vermeintlicher CRISPR-Loci, die den Großteil der aktuellen CRISPR-Datenbanken ausmachen, und zur Verfeinerung der CRISPR-Subtypklassifikation verwendet.