Davongekommen: Neuer Algorithmus erlaubt Nutzung von DNA-Datenspeichern

Ein Forschungsteam schafft die Basis für DNA-Datenspeicher. Codes auf Basis von Fraktalen ermöglichen die Nutzung von DNA zur Langzeitspeicherung.
Ein neuer Algorithmus erlaubt die Erzeugung von DNA-Wörtern, die das Speichern von digitalen Informationen in DNA ermöglichen. Das Verfahren aus der Marburger Informatik berücksichtigt etliche Besonderheiten des Speichermediums: Wenn Informationen in DNA kodiert werden, dürfen zum Beispiel keine Kombinationen entstehen, die bei der Erzeugung oder weiteren Nutzung der DNA zur Langzeitspeicherung stören.
Die beteiligten Wissenschaftlerinnen und Wissenschaftler berichten in der Fachzeitschrift „Nucleic Acids Research“ über ihre Ergebnisse. Die Masse digitaler Daten steigt enorm, doch die gängigen Speichermedien überdauern nur verhältnismäßig kurz, in der Regel nur wenige Jahre. Das Forschungsprojekt „MOSLA“ nimmt die Erbsubstanz DNA als molekularen Speicher zur Langzeit-Archivierung in den Blick.
„Wir beschreiben in unserer Studie einen neuartigen Ansatz, der die Konstruktion von Wörterbüchern für DNA-Speicher ermöglicht, wobei er benutzerdefinierte Einschränkungen einhält“, erläuterte der Informatiker Prof. Dr. Dominik Heider von der Philipps-Universität, der die Forschungsarbeit leitete. „In DNA-Speichern werden die digitale Informationen zunächst in eine DNA-Sequenz übersetzt“, erklärte Heiders Mitarbeiterin Dr. Hannah Franziska Löchel.
Die Erstautorin des Fachaufsatzes ergänzte die weiteren Verfahrensschritte: Im nächsten Schritt wird die DNA gemäß dieser Vorlage synthetisiert, also chemisch hergestellt. „Die Buchstabenfolge der DNA kann jederzeit mit Sequenzierern ausgelesen werden, um die gespeicherten Informationen abzurufen.“
Die Konstruktion der DNA unterliegt jedoch einigen Beschränkungen. Das betrifft beispielsweise die Zusammensetzung der DNA-Sequenz, dem sogenannten „GC-Gehalt“. Werden diese Beschränkungen nicht eingehalten, so kann es zur Bildung von Schleifen, Spiralen oder zufälligen Verschlingungen kommen, die ein gleichmäßiges Ablesen der DNA-Sequenz verhindern.
„Eine weitere wichtige Einschränkung, die die Forschung jedoch bislang übersehen hat, sind unerwünschte Motive, die für die Synthese, Sequenzierung und Speicherung von DNA-Sequenzen relevant sind“, legte Heider dar. Dabei handelt es sich um kurze Sequenzabschnitte auf der DNA, an denen zum Beispiel Enzyme ansetzen, die das Erbmolekül schneiden, es vervielfältigen oder die darin enthaltenen Informationen ablesen.
Das Team um Heider fand einen neuartigen Ansatz, um DNA-Wörter zu erzeugen, die den genannten Bedingungen gehorchen. „Unser Modell berechnet alle möglichen Code-Wörter einer bestimmten Länge und schließt diejenigen Wörter aus, die nicht den gegebenen Beschränkungen entsprechen“, führte Löchel aus. „Das neue Modell basiert auf Fraktalen, das sind selbstähnliche Muster, die sich häufig in der Natur finden lassen.“
Um die Leistungsfähigkeit der Methode zu überprüfen, verglich die Forschungsgruppe ihren Ansatz mit anderen Algorithmen auf dem aktuellen Stand der Technik. „Andere Ansätze erfüllen nicht alle Bedingungen, die unser Verfahren berücksichtigt, obwohl sie für die Informationsspeicherung in DNA wichtig sind“, hob die Informatikerin hervor. Die Wörterbücher, die mit dem Marburger Modell erstellt werden, lassen sich somit als Grundlage für beliebige DNA-Speichercodes verwenden.
„Soweit wir wissen, ist dies der erste Algorithmus, der DNA-Wörter konstruiert, die nicht nur die in der wissenschaftlichen Literatur beschriebenen Beschränkungen einhalten, sondern auch beliebige unerwünschte Motive ausschließen“, fasste Heider zusammen. Heider leitet die Arbeitsgruppe „Data Science in der Biomedizin“ an der Philipps-Universität. Er ist Sprecher des Forschungsprojekts „MOSLA“, das durch das hessische Förderprogramm „LOEWE“ finanziert wird.

* pm: Philipps-Universität Marburg

Kommentare sind abgeschaltet.