Leitung: Alice C. McHardy
Mitarbeit: NN
Standort: Helmholtz-Zentrum für Infektionsforschung GmbH, Braunschweig
Kurzbeschreibung des Projekts:
Die Arbeitsgruppe “Bioinformatik der Infektionsforschung” erforscht mit computergestützten Techniken das menschliche Mikrobiom, virale und bakterielle Pathogene sowie menschliche Zelllinien anhand von großen biologischen und epidemiologischen Datensätzen. Durch die Analyse von Metagenom-, Populationsgenom- und Einzelzellgenomdaten erzeugen wir experimentell überprüfbare Hypothesen, wie z.B. welche Gene bzw. welche Veränderungen an Proteinen mit dem Auftreten einer Krankheit assoziiert sind. Im Focus stehen auch die Ursachen, warum Pathogene den Immunschutz umgehen können, sowie für Antibiotikaresistenzen.
In den letzten Jahren haben sich tiefe Neuronale Netze zu einem zentralen und bemerkenswert effektiven Modellierungswerkzeug für Klassifikationsaufgaben wie Sprach- und Bilderkennung sowie für die Textklassifikation entwickelt und übertreffen klassische maschinelle Lernansätze und sogar Menschen in der Video- und Bilderkennung. Allerdings werden Neuronale Netze noch immer kaum bei genetischen Datensätzen angewandt und getestet.
In diesem Projekt stellen wir den Einsatz von Neuronalen Netzen zur Modellierung von CRISPR-Regionen und den damit verbundenen Genomen sowie deren Targets vor. Durch die Visualisierung der verborgenen Zustände des trainierten Netzwerks erhalten wir Einblicke in strukturelle Eigenschaften, die von CRISPR-Loci und den damit verbundenen Genom- und Zielsequenzen geteilt werden. Die Methode ist sogar in der Lage, noch unbekannte strukturelle Eigenschaften des CRISPR-Systems zu bestimmen. Wir verfolgen bei unserem Projekt folgende Ziele:
• Unser erstes Ziel ist es, einen Katalog aller CRISPR-Strukturen zu erstellen, die sich in einer großen Sammlung von Metagenomen identifizieren lassen.
• Mit diesen Daten und zusammen mit 2.509 bereits identifizierten CRISPR-Loci aus kompletten Genomen wollen wir Neuronale Netze einsetzen, um versteckte Strukturen aufzudecken.
• Das trainierte Modell wird auch zur Validierung vermeintlicher CRISPR-Loci, die den Großteil der aktuellen CRISPR-Datenbanken ausmachen, und zur Verfeinerung der CRISPR-Subtypklassifikation verwendet.