Förderjahr 2020 / Project Call #15 / ProjektID: 5171 / Projekt: OpenBioLink
Link Prediction: Die künstliche Intelligenz schafft neue Verbindungen
Fortschritte im Bereich des Deep Learning und der Vector Space Embedding-Modelle haben die Entwicklung einer ganzen Reihe neuartiger Methoden zum Lernen und Vorhersagen von Verbindungen zwischen Entitäten in Wissensbasen ermöglicht. Im 'Link Prediction' Task wird eine künstliche Intelligenz darauf trainiert, bestehende Daten zu analysieren, Muster zu erkennen und bisher noch nicht erkannte neue Verbindungen zwischen Entitäten vorherzusagen. Beispielsweise wurde kürzlich gezeigt, dass ein Modell, das auf Abstracts von Artikeln aus dem Bereich der Materialwissenschaften trainiert wurde, Verbindungen zwischen Materialien und ihren funktionalen Anwendungen mehrere Jahre vor ihrer Entdeckung vorhersagen kann (Nature; Tshitoyan et al. 2019).
Link Prediction in der Biomedizin: Welches Medikament könnte diese Krankheit heilen?
Da viele grundlegende biomedizinische Fragestellungen als Link-Prediction-Probleme formuliert werden können, gibt es ein wachsendes Interesse an der Anwendung von auf maschinellem Lernen basierenden Link-Prediction-Algorithmen in der Domäne der Biomedizin. Aufgrund ihrer Vielseitigkeit können sie für die wissenschaftliche Hypothesengenerierung in einer Vielzahl von Anwendungsbereichen eingesetzt werden, wie z.B. bei der Auswahl von Wirkstoffkandidaten, beim Repurposing von Medikamenten, bei der Ableitung von Gen-Krankheits-Assoziationen oder bei funktionalen Annotationen von Genen.
Mehrere Gruppen haben in den letzten zwei Jahrzehnten offen verfügbare, domänenübergreifende biomedizinische Wissensbasen veröffentlicht. Unsere Gruppe war zum Beispiel an frühen Arbeiten zur Erstellung von "Linked Data"-Darstellungen biomedizinischer Daten beteiligt, die zur Schaffung von Ressourcen wie Linked Open Drug Data (Samwald et al. 2011) und Bio2RDF (Dumontier et al. 2014) führten. Ein neueres Beispiel ist Hetionet (Himmelstein et al. 2017), das aus über 47.000 Knoten von 11 Typen und über 2 Millionen Beziehungen von 24 Typen aus 29 öffentlich verfügbaren biomedizinischen Datenquellen besteht.
Die erste größere Arbeit zur auf maschinellem Lernen basierender Link-Vorhersage im biomedizinischen Bereich wurde von (Alshahrani et al. 2017) veröffentlicht, die eine modifizierte Version des word2vec-inspirierten DeepWalk-Algorithmus auf einem groß angelegten biomedizinischen Graphen evaluierte. Seitdem folgten mehrere weitergehende Analysen. Im Bereich der homogenen Graphen führten beispielsweise (Crichton et al. 2018) und (Yue et al. 2019) mehrere Evaluationen zu verschiedenen Grapheneinbettungsmethoden für die Linkvorhersage durch, wobei sie unterschiedliche Datensätze einschlossen und verschiedene Train-Testset-Splitting-Techniken verglichen.
Das größte Versuchlabor für Link Prediction in der Biomedizin: OpenBioLink
Unsere eigene Gruppe entwickelt diese Arbeit weiter und erstellt einen großen biomedizinischen Wissensgraphen und ein Evaluationsframework für biomedizinische Linkvorhersage namens OpenBioLink (Breit et al. 2020).
In dem von netidee geförderten OpenBioLink-Projekt werden wir grundlegende Fragen zu unserem Verständnis von Link-Prediction-Algorithmen adressieren: Wie sollten Wissensgraphen strukturiert sein, um möglichst valide und aufschlussreiche Vorhersagen zu liefern? Wie kann man den informativste und realistischste Evaluationsframework schaffen? Wie können Vorhersagen von Graph-ML-Algorithmen erklärbar gemacht werden, um Verständnis und Vertrauen in die getroffenen Vorhersagen zu stärken?
Das Ziel des OpenBioLink-Projekts ist es, diese grundlegenden Fragestellungen durch die Schaffung der ersten standardisierten, groß angelegten biomedizinischen Link-Vorhersage-Benchmarking-Ressource und eines globalen, partizipativen Community-Prozesses zu beantworten.
Halten Sie an dieser Stelle Ausschau nach Updates zu OpenBioLink! Und wenn Sie ein Entwickler sind, machen Sie sich bereit: Die OpenBioLink 2021 Challenge wird später in diesem Jahr eröffnet, und ein Preisgeld von 1000 € wartet auf die Gruppe, die das beste KI-Modell für Link-Vorhersage auf OpenBioLink erstellen kann!