"Gerade die Spacer, die nichts mit Viren zu tun haben, sind spannend und interessant"

Ein besonderes Kennzeichen von Schwerpunktprogrammen (SPP) der Deutschen Forschungsgemeinschaft (DFG) ist ihre Interdisziplinarität. Im Fall vom SPP 2141 „Weitaus mehr als nur Verteidigung: die vielen verschiedenen Funktionen des CRISPR-Cas Systems“ bedeutet das, dass hier nicht nur Biologen mitarbeiten, sondern u. a. auch Chemiker, Mathematiker und Computer-Wissenschaftler. Heute lassen wir einen Mathematiker zu Wort kommen: Dr. Franz Baumdicker versucht den Funktionen von CRISPR-Cas mit stochastischen Methoden auf den Grund zu gehen.

Wie kommt man als Mathematiker zur Mikrobiologie?

Ich sehe gar nicht so sehr in der Mikrobiologie meine Verknüpfung, sondern eher in der Evolution. Viele statistische Methoden gehen auf Fragen zurück, die aus der Evolution kommen. Und viele Fragen zur Evolution können mit Statistik beantwortet werden. Es gibt das berühmte Beispiel mit Mendel und den Erbsen, aber auch der bedeutende Statistiker Ronald Fisher hat Fragen, die durch die Genetik aufgekommen sind, als Inspiration genutzt und daraus neue Methoden entwickelt.

Ich habe Mathematik mit Nebenfach Bioinformatik studiert. Bioinformatik gab es zu dem Zeitpunkt allerdings noch nicht als Nebenfach in Freiburg. Das heißt, ich musste selbst zusammenstellen, welche Veranstaltungen dazu sinnvoll sind. Und darüber bin ich dann mit Biologen in Kontakt gekommen und habe mit Genomdaten gearbeitet. Dann hatte ich das große Glück, dass Prof. Peter Pfaffelhuber nach Freiburg kam und ich dadurch zur mathematischen Populationsgenetik gekommen bin, also die Beschreibung der Evolution von Populationen mit mathematischen Methoden. Diese Kombination hat sich dann für mich als sehr fruchtbar erwiesen: Wir wissen aus den Daten, was in Bakterien anders ist als in klassischen Modellsystemen der Populationsgenetik. Also eher diploide Organismen, Tiere und Pflanzen. Und dafür haben wir dann neue mathematische Modelle entwickelt. So bin ich in diese Nische reingerutscht.

Das spannende ist, dass man diese grundlegenden biologischen Fragen in der Mathematik erst präzisieren muss und stark vereinfacht auf ein simples Modell im Vergleich zu dem, was in Wahrheit passiert. Dann kann man diese Modelle mathematisch analysieren, um danach zu sagen: Diese Muster passen zu unserem einfachen Modell, aber dieses andere Muster z. B. passt nicht. Und anhand dieser Unterschiede von Genomdaten und Modellvorhersage lernt man dann noch einmal besonders viel.

Ist Bioinformatik also viel Mustererkennung? Wie muss man sich das vorstellen?

Ich arbeite an der Schnittstelle zwischen Mathematik, Bioinformatik und Biologie. Dabei geht es auch immer um Mustererkennung, also z. B. die Verteilung von Mustern theoretisch herauszufinden. Die Bioinformatik ist natürlich noch etwas näher an den Daten dran. Wir versuchen, gerade auch in meinem Projekt, eher auf die stochastischen Aspekte einzugehen. Wenn Du Dir ein Muster im Genom anschaust: Wie sieht das im Mittel aus? Wie sind die Unterschiede, wenn ich zwei zufällige Bakterien aus einer Population nehme und so weiter.

Bei der DNA-Sequenzierung von Lebewesen entstehen Unmengen von Daten: Wie kann die Bioinformatik helfen, damit fertig zu werden?

Das sind wirklich Unmengen: Jedes bakterielle Genom ist eine Sequenz aus „A“, „T“, „C“ und „G“, den Basen und „wiegt“ nur ungefähr 2 bis 10 MB auf der Festplatte, Das klingt erstmal nicht so viel, aber wenn man jetzt mehrere Tausend von diesen Genomen sequenziert hat, etwa in Mikrobiom-Studien, wo man eine ganze Community analysiert, dann sind das so viele Daten, dass das von Hand nicht mehr zu leisten ist. Inzwischen sind wir so weit, dass man automatisierte Tools drüber laufen lassen kann, die z. B. die Gene finden und die auch CRISPR finden und noch viel mehr. Als Mathematiker würde ich allerdings auch sagen, dass es eine gewisse Tendenz gibt, zuviel von diesen Daten zu generieren.

Zuviel Daten?

„zuviel“ trifft es nicht ganz. Es ist so, dass man als Mathematiker oft erst später ins Spiel kommt: Die Daten sind schon generiert und daraus haben sich Fragen und Thesen ergeben. Um diese Fragen zu beantworten, braucht man aber leider oft etwas andere Daten. Das heißt, oft schicken wir Mathematiker die Leute wieder zurück ins Labor. Dadurch, dass die Daten so günstig zu generieren sind, gibt es Unmengen an Daten. Das ist einerseits toll, weil man dadurch ganz viele neue Einblicke gewinnt, die man vorher nicht hatte. Beispiel: Die Diversität innerhalb einer Bakterienspezies ist viel größer, als man ursprünglich dachte. Das hat man nur herausgefunden, weil die Sequenzierung so günstig wurde und man sich z. B. vornehmen konnte, einfach mal 40 verschiedene Prochlorococcus Stämme auszuwerten. Solche Studien sind super. Andererseits ist es aber oft sinnvoll, sich zuerst die konkrete Frage zu überlegen und dann erst zu überlegen, welche Daten dafür erhoben werden müssen. Das ist aber schwer, denn oft läuft es genau anders herum: Man produziert zuerst die Daten, schaut sich die Daten an und sieht: Oh, das könnte eine interessante Frage sein. Das ist ein ganz spannendes Feld und ich hoffe, dass mathematische Methoden helfen können, Fragen zu beantworten wie: Wie viele Proben muss ich eigentlich sequenzieren? Welche Daten sollte ich mir anschauen? Das ist natürlich besonders interessant mit Blick auf große Studien in denen z. B. 100.000 Genome sequenziert werden.

Welche Rolle hat die Bioinformatik bei der Entdeckung von CRISPR-Cas gespielt? Der Name „Spacer“ drückt ja aus, dass man diese Sequenzen für reine Platzhalter gehalten hat.

Deswegen ist der Name wirklich sehr unglücklich. Was man zuerst gesehen hat, ist dieses sich wiederholende Muster der Repeats und deswegen heißen die Sequenzen dazwischen „Spacer“. Diese Spacer selbst enthalten die ganze Information, die z. B. auf Viren hinweisen. Auch das wurde durch Abgleiche mit viralen Genomsequenzen festgestellt. Die Mehrzahl der Spacer stammt aus Viren, es gibt aber auch eine sehr große Klasse, bei der wir keine Hits haben, das heißt, es gibt in den Datenbanken keine Referenzsequenz, so dass wir sagen könnten, diese Spacer-Sequenz kommt daher oder daher. Gerade in der Gruppe von SPP-Kollege Uri Gophna schauen sie sich ja auch an, wie oft nicht ein Virus, sondern eine Sequenz von einem nahen Verwandten oder von einem Bakterium aus einer anderen Population zu finden ist. Es gibt auch Beispiele, bei denen die Spacer auf Plasmide verweisen, also auf DNA-Segmente, die zwischen Bakterien ausgetauscht werden können. Und CRISPR funktioniert auch dagegen. Man findet aber nie die Erkenntnis: „Das sind alles virale Sequenzen“. In der Biologie gibt es immer die Ausnahme. In dem Fall wären das Spacer, die auf das eigene Genom oder auf das Genom von nahe verwandten Species verweisen. Das sind Dinge, die ich mir ansehe, darum soll es ja auch im Schwerpunkt gehen. Gerade die Spacer, die nichts mit Viren zu tun haben, sind besonders spannend und interessant.

Dass die Spacer zu einem gewissen Teil aus Viren stammen, wurde mit Hilfe von Computer-Analysen durch einen simplen Abgleich von Sequenzen herausgefunden. Aber Deine Arbeit geht weit über so einfache Vergleiche hinaus. Kannst Du das bitte mal beschreiben?

Ich versuche zu modellieren, wie sich die Spacer selbst über die Zeit verändern. Beispiel: Wir haben ein Sample aus einer Population mit zehn Genomen, und die haben unterschiedliche Spacer-Arrays, dann ist es oft so, dass manche der Spacer gleich sind in verschiedenen Individuen und manche sind unterschiedlich. Durch den speziellen Mechanismus von CRISPR wissen wir aber, dass die Sequenzen, die näher am Leader-End sind, näher an der heutigen Zeit gewonnen werden mussten. Die Reihenfolge, also die zeitliche Abfolge, in der die Spacer in das Genom integriert wurden, ist da konserviert – zumindest in dem mathematischen Modell, das wir annehmen. In der Biologie ist es dann natürlich wieder so, dass es dazu auch Ausnahmen gibt. Durch diese Reihenfolge hat man eine Information, die man benutzen kann, um unabhängig voneinander zu schätzen, wie oft die Spacer wieder verloren und wie oft sie gewonnen wurden im Genom. Da der Zeitpunkt, wann diese Spacer gewonnen wurden, eher davon abhängt, was in der Umwelt von dem Bakterium geschieht, also zum Beispiel, wie sich die Virenpopulationen entwickelt haben, ist es plausibel zu sagen, dass es keine konstante Rate gibt, mit der Spacer gewonnen werden. Die Verluste der Spacer sind im Prinzip nur vom Bakterium selbst abhängig, weil eben irgendein Fehler passiert, z. B. bei der Reproduktion. Und dadurch ist diese Verlustrate eher konstant. Durch die Reihenfolge kann ich diese Parameter unabhängig voneinander schätzen, normalerweise könnte man nur schätzen, wie hoch die Verlustrate im Vergleich zur Neugewinnung ist.

In Deinem Projekt untersuchst Du, wann und unter welchen Bedingungen bestimmte Spacer im Genom von Bakterien entstanden sind. Ist das so eine Art „Genom-Archäologie“? Kann man also über die Entdeckung von Mustern in die Vergangenheit schauen?

Ich würde nicht den Begriff „Archäologie“ benutzen, denn wir arbeiten nicht mit fossilen Sequenzen. In einer gewissen Weise ist diese Reihenfolge aber eine zeitliche Abfolge, man kann ein bisschen in die Vergangenheit schauen und man kann anzestrale Zustände rekonstruieren, das ist ein Teil meines Projektes. Man kann aber auch etwas darüber aussagen, ob ein Spacer-Verlust gut oder schlecht ist für ein Bakterium. Wenn ein Bakterium einen Spacer braucht, um sich gegen eine Virenpopulation zu wehren und es verliert den, dann wird es wahrscheinlich nicht überleben. Und deshalb kann man daraus eventuell erkennen, welche Spacer heute noch gebraucht werden. Welche sind in allen Individuen da, welche sind nur in manchen vorhanden und wie sieht der Verlauf aus. Wenn ich diese Informationen habe, kann man abschätzen, ob bestimmte Spacer wichtig sind für die Bakterien. Das könnte wiederum helfen, das heutige System besser zu verstehen. Es geht also nicht nur um die Vergangenheit, sondern um den Zustand heute und die Selektionskräfte, die da wirken.

Es gibt das bekannte Zitat „Nothing in biology makes sense except in the light of evolution“. Jedes biologische System hat sich in den aktuellen Zustand evolviert. Wenn man diesen evolutionären Prozess besser versteht, dann kann man auch besser verstehen, wie das System heutzutage funktioniert und wie es sich verändern wird in Zukunft. Das sind die Fragen, denen wir nachgehen.

Welche Daten nutzt Du für Deine Arbeit?

Viele von den Daten sind aus öffentlichen Datenbanken, angedacht sind aber auch Projekte mit Daten aus dem Schwerpunkt, die noch nicht veröffentlicht sind. Ich bin aber eher an der Analysemethode interessiert, welche Daten dafür genau benutzt werden, ist letztlich nicht so wichtig. Mein Ziel ist, dass neue Methoden von vielen verschiedenen Gruppen mit ihren eigenen Daten benutzt werden können.

Im SPP gibt es ja noch andere Gruppen die auch an den Daten interessiert sind. Die verschiedenen Bioinformatik-Projekte im Schwerpunktprogramm ergänzen sich da auch sehr gut. Es gibt die Gruppe um Rolf Backofen und Omer Alkhnbashi, Björn Voß in Stuttgart und die Gruppe um Alice McHardy. Dabei kommen sowohl klassische Algorithmen mit Methoden der Bioinformatik, die sehr nah an den Daten arbeiten zum Einsatz, aber auch neuronale Netze und maschinelles Lernen. Ich konzentriere mich auf mathematische bzw. stochastische Modelle. Das heißt, ich habe normalerweise ein zugrunde liegendes, biologisch inspiriertes Modell als Basis und versuche damit die Daten zu erklären. Das heißt, ich stecke das Modell schon in die Algorithmen rein. Beim Machine-Learning versucht man, dass der Algorithmus das selbst erkennt. Dann ist es auch viel wichtiger, sich die Datengrundlage genau anzusehen. Das ist natürlich spannend, ob wir dabei auf die gleichen Ergebnisse kommen, inwiefern sich das gegenseitig ergänzt. Es ist wirklich interessant, diese Mischung im Schwerpunkt zu haben.

Könnten sich aus Deiner Arbeit bestimmte Anwendungen ergeben oder geht es vor allem um das bessere Verständnis des Phänomens CRISPR-Cas?

Eigentlich sind wir eher an der Grundlagenforschung interessiert. Das kann natürlich trotzdem dazu führen, dass man potentielle Anwendungen besser versteht. Ein gutes Beispiel ist vielleicht der CRISPR-Cas Gene Drive: Dabei versucht man ein CRISPR-System so zu gestalten, dass es sich bevorzugt in die Nachkommen vererbt. Die Motivation dafür ist, dass man zum Beispiel eine Mosquito-Population so modifizieren könnte, dass sie besonders schnell immun gegen Malaria wird. Das ist prinzipiell ein evolutionärer Prozess. Das heißt, da kann man mit populationsgenetischen Methoden versuchen vorherzusagen, wie wahrscheinlich der Gene Drive erfolgreich ist oder sich eine Resistenz dagegen entwickelt. Solche Arbeiten gibt es schon und dabei konnte man sehen, dass es sehr wahrscheinlich ist, dass sich Resistenzen entwickeln. Die genetische Modifikation von ganzen Populationen ist an sich natürlich ein größeres Risiko, da es zu unumkehrbaren Auswirkungen kommen kann. Dementsprechend muss man sehr, sehr vorsichtig sein, ob man das überhaupt anwenden will. Soweit ich das überblicken kann, ist die wissenschaftliche Community da sehr vorsichtig und sich einig: Bevor Gene Drive irgendwo angewendet wird, sollte man das noch viel, viel besser verstehen. Und die Art von mathematischen Modellen, die ich mir anschaue, kann auf solche Risiken und Dynamiken hinweisen.

Die Fragen stellte Susanne Günther.

Links:

„Gerade die Spacer, die nichts mit Viren zu tun haben, sind spannend und interessant“