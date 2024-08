"DNA ist der Code des Lebens. Warum sollte man sie nicht wie eine Sprache behandeln?" Das fragte sich Anna Poetsch vom biotechnologischen Zentrum (BIOTEC) der TU Dresden. Also hat sie mit ihrer Forschungsgruppe ein großes Sprachmodell (Large Language Model) mit DNA-Daten gefüttert, auf dass die KI dabei helfe, die verborgenen Bedeutungen der DNA zu entschlüsseln.

"DNA hat viele Funktionen, die über die Protein-Kodierung hinausgehen", erklärt Anna Poetsch. "Einige Sequenzen regulieren Gene, andere dienen strukturellen Zwecken, die meisten Sequenzen erfüllen mehrere Funktionen gleichzeitig. Derzeit verstehen wir die Bedeutung des größten Teils der DNA nicht. Für die Bereiche außerhalb von Genen scheinen wir erst an der Oberfläche gekratzt zu haben. Hier können KI und Large Language Models helfen."

Die Gruppe zeigte in ihrer veröffentlichten Studie, dass ihr "GROVER" genanntes Werkzeug nicht nur auf eine vorherige Sequenz folgende DNA-Sequenzen präzise vorhersagen kann, sondern auch verwendet werden kann, um Informationen biologischer Bedeutung aus Kontext zu extrahieren. So kann man zum Beispiel den Start von Genen oder Proteinbindungsstellen auf der DNA identifizieren. GROVER lerne auch Prozesse, die allgemein als "epigenetisch" gelten, also solche, die auf der DNA stattfinden und bisher nicht als kodiert betrachtet werden.