News

Ihre Auswahl

forschen / 15.07.2020
Janggu macht Deep Learning zum Kinderspiel

Dr. Altuna Akalin (li) und Dr. Wolfgang Kopp (Foto: Felix Petermann)
Dr. Altuna Akalin (li) und Dr. Wolfgang Kopp (Foto: Felix Petermann)

 Forscher*innen des MDC haben eine neues Softwareanwendung entwickelt, mit der sich Deep Learning für Genomik-Studien optimal und einfach nutzen lässt: Janggu stellen die Forschenden nun erstmals im Journal Nature Communications vor.

Stellen Sie sich folgendes Szenario vor: Um das Abendessen zubereiten zu können, müssen Sie erst die Küche passend für das jeweilige Rezept umbauen. Die Vorbereitung würde deutlich mehr Zeit in Anspruch nehmen als das eigentliche Kochen. Bislang brauchten Bioinformatiker*innen für die Analyse genomischer Daten ähnlich lange. Bevor sie überhaupt mit ihrer Analyse beginnen konnten, investierten sie zunächst viel Zeit in die Formatierung und Aufbereitung riesiger Datensätze, die in Deep-Learning-Modelle integriert werden.

Um diesen Prozess zu straffen, haben Forschende des Max-Delbrück-Centrums für Molekulare Medizin in der Helmholtz-Gemeinschaft (MDC) eine universelle Programmiersoftware entwickelt, das eine Vielzahl genomischer Daten in das für die Analyse durch Deep-Learning-Modelle erforderliche Format konvertiert. „Bislang nahmen die technischen Aspekte viel Zeit in Anspruch – Zeit, die dann für die biologischen Fragestellungen fehlt, die wir beantworten wollen“, sagt Dr. Wolfgang Kopp, Wissenschaftler in der Forschungsgruppe „Bioinformatics and Omics Data Science“ am Berliner Institut für Medizinische Systembiologie (BIMSB) des MDC und Erstautor der Studie. „Janggu soll einen Teil dieses technischen Aufwands tilgen. Das Softwarepaket möchten wir so vielen Menschen wie möglich zugänglich machen.“

Ein besonderer Name für eine universelle Lösung

Janggu ist nach einer traditionellen koreanischen Trommel benannt, deren Form an eine auf der Seite liegende Sanduhr erinnert. Die beiden großen Teile der Sanduhr stehen für die Bereiche, auf die sich Janggu konzentriert: die Aufbereitung genomischer Daten sowie die Ergebnisvisualisierung und Modellauswertung. Das schmale Verbindungsstück in der Mitte stellt einen Platzhalter für ein beliebiges Deep-Learning-Modell dar.

Deep-Learning-Modelle beinhalten Algorithmen, die riesige Datenmengen verarbeiten und dabei wichtige Merkmale oder Muster erkennen. Obwohl Deep Learning eine sehr leistungsfähige Methode ist, kommt sie in der Genomik bislang nur eingeschränkt zum Einsatz. Die meisten veröffentlichten Modelle sind auf bestimmte Datentypen angewiesen und können nur eine spezifische Frage beantworten. Um Daten auszutauschen oder hinzuzufügen, muss man oft wieder bei null anfangen – ein immenser Programmieraufwand.

Janggu konvertiert verschiedene Genomik-Datentypen in ein universelles Format. So können die Daten in jedes Modell – ob Deep Learning oder maschinelles Lernen – eingebunden werden, das die gängige Programmiersprache Python verwendet. „Das Besondere an unserem Ansatz ist, dass man für ein Deep-Learning-Problem jeden genomischen Datensatz verwenden kann – wir können mit jedem Format arbeiten. Die Möglichkeiten sind endlos“, sagt Dr. Altuna Akalin, Leiter der Forschungsgruppe „Bioinformatics and Omics Data Science“.

Trennung als Schlüsselaspekt

Akalins Forschungsgruppe hat aber noch eine andere Aufgabe: Das Team entwickelt neue Softwareanwendungen für Maschinelles Lernen und will diese bei Forschungsfragen in der Biologie und Medizin einsetzen. Bei ihren eigenen Forschungsprojekten waren die Wissenschaftler*innen oft frustriert, dass die Formatierung der Daten so viel Zeit in Anspruch nimmt. Sie erkannten, dass ein Teil des Problems darin bestand, dass für jedes Deep-Learning-Modell eine Aufbereitung der Daten nötig war. Durch die Trennung von Datenextraktion und -formatierung von der Analyse lassen sich Datenabschnitte viel einfacher austauschen, kombinieren und wiederverwenden. Das ist etwa so, als hätte man alle Küchenutensilien und Zutaten bereits zur Hand, um ein neues Rezept auszuprobieren.

„Die Schwierigkeit bestand darin, das richtige Gleichgewicht zwischen Flexibilität und Benutzerfreundlichkeit zu finden“, sagt Kopp. „Bei zu viel Flexibilität hätten die Benutzerinnen und Benutzer zu viele Optionen, was sie überfordern würde und es wäre schwierig, überhaupt einen Anfang zu finden.“

Kopp hat mehrere Tutorials sowie Beispieldatensätze und Fallstudien vorbereitet, die Benutzer*innen im Umgang mit Janggu unterstützen sollen. Die Veröffentlichung in Nature Communications zeigt, wie anpassungsfähig Janggu ist – im Umgang mit sehr großen Datenmengen, bei der Kombination von Datenströmen und bei der Beantwortung verschiedener Fragestellungen, z. B. bei der Vorhersage von Bindungsstellen aus DNA-Sequenzen, der Chromatin-Zugänglichkeit und der Klassifizierung und Regression.

Unbegrenzte Anwendungsmöglichkeiten

Die Vorzüge von Janggu zeigen sich vor allem in der Datenaufbereitung. Dennoch wollten die Forschenden eine Komplettlösung für Deep Learning anbieten. Janggu ermöglicht auch eine Ergebnisvisualisierung nach der Deep-Learning-Analyse und wertet aus, was das Modell gelernt hat. Bemerkenswert ist, dass das Team eine „übergeordnete Sequenzkodierung“ in das Programm integriert hat, die es erlaubt, Zusammenhänge zwischen benachbarten Nukleotiden zu erfassen. So konnte die Genauigkeit einiger Analysen erhöht werden. Janggu macht Deep Learning einfacher und benutzerfreundlicher und trägt dazu bei, verschiedenste biologische Fragestellungen zu beantworten.

„Eine der interessantesten Anwendungen ist die Prognose der Auswirkung von Mutationen auf die Genregulation“, sagt Akalin. „Das ist wirklich spannend, weil wir so einzelne Genome besser verstehen können. Wir sind beispielsweise in der Lage, genetische Varianten aufzuspüren, die die Genregulation beeinflussen und wir können regulatorische Mutationen in Tumoren interpretieren.“

Text: Laura Petersen

Quelle: https://www.mdc-berlin.de/de/news/press/janggu-deep-learning

Alle News im Überblick

News Buch Berlin

Die Bucher Akademie der Gesundheit ist "Bester Arbeitgeber"

Die Akademie der Gesundheit ist beim Regionalwettbewerb “Beste Arbeitgeber in Berlin-Brandenburg 2024” von Great Place to Work® als besonders guter Arbeitgeber ausgezeichnet worden.

weiter ...

Campus Berlin-Buch ist Fahrradfreundlicher Arbeitgeber: Mit dem Zertifikat in „Gold“ ausgezeichnet

Mit neuer Infrastruktur und vielfältigen Aktionen fördert der Wissenschafts- und Biotechcampus nachhaltige und gesunde Mobilität. Er ist einer von fünf Berliner Arbeitgebern, die vom ADFC mit Gold aus...

weiter ...

Happy Birthday Gläsernes Labor!

25 Jahre Gläsernes Labor auf dem biomedizinischen Campus Berlin-Buch: Anlass für eine große Konferenz für Lehrkräfte und eine Feier mit den Wegbegleiter:innen am 19. April 2024

weiter ...

Termine Buch Berlin

03.05.2024, 18:00
LITERATURCAFÉ: „Berliner Luft“ – Lieder aus dem alten Berlin

mit Sigrid Grajek und Stefanie Rediske (Piano), veranstaltet vom Kulturkreis Phoenix Karow

weitere Informationen

06.05.2024, 09:00
Realtime PCR und digital PCR Kurs

Der RealTime PCR und Digital PCR Kurs richtet sich an erfahrene PCR Anwender*innen und an Einsteiger*innen. Wichtige PCR Grundlagen werden erörtert, bevor die RealTime PCR besprochen und Genexpression...

weitere Informationen

11.05.2024, 10:00 / Ludwig-Hoffmann-Quartier
Führung durchs Ludwig Hoffman Quartier

Manfred Pinkwart erzählt die Geschichte vom Lazarett, Hospital und Krankenhaus bis hin zum heutigen Wohnpark

weitere Informationen

Sponsoren der Website: