Vernetzung zur Integration biologischer Daten
Forschungsbericht (importiert) 2009 - MPI für Pflanzenzüchtungsforschung
Datenintegration in der Biologie
Neue Technologien ermöglichen die Erzeugung von molekularbiologischen Daten in einem Maßstab, der völlig neue Herausforderungen für die Auswertung mit sich bringt. Ein entscheidender Schritt waren die Genomprojekte mit Modellorganismen, aber inzwischen ist die Sequenzierung von jedem individuellen Genom mit geringem Aufwand möglich geworden [1]. Die Bioinformatik und deren Methoden zur Auswertung dieser Daten hat zunehmend an Bedeutung gewonnen. Für viele Aufgaben ist dabei allerdings die Datenintegration das entscheidende Hemmnis und damit die Frage, wie die zunehmend preiswert und schnell erzeugten Daten verfügbar gemacht werden, sodass sie von zahlreichen Wissenschaftlern für Auswertungen verwendet werden können [2]. Dabei stellen sich in der Biologie durch die Vielzahl sehr unterschiedlicher Datentypen, die verarbeitet werden müssen, spezifische Fragen.
Das Hinzufügen von Informationen zur Genomsequenz wird als Genomannotation bezeichnet [3]. Hierbei werden funktionstragende Bereiche markiert, beispielsweise proteinkodierende Leseraster. Erst hierdurch werden die im Genom kodierten Proteine erkennbar. Hinweise auf die Funktion dieser Proteine können einerseits durch Vergleich mit bekannten, charakterisierten Proteinen erhalten werden, andererseits aus weiteren Daten, beispielsweise aus Messungen der Genaktivität (Expressionsanalysen) oder der Bindung an andere Proteine [4]. Es müssen also Sequenzdaten aus mehreren Genomen, Proteindatenbanken, Expressionsdaten und Proteininteraktionsdaten verknüpft werden. Dazu kommen noch eine Reihe von Eigenschaften, die mit bioinformatischen Mitteln aus der Sequenz vorhergesagt werden können, beispielsweise Bereiche eines Proteins, die in Zellmembranen liegen, oder Sortierungsignale, die anzeigen, dass ein Protein dafür bestimmt sein könnte, aus der Zelle ausgeschleust zu werden.
Die Bioinformatikanwendungen, die solche Vorhersagen ermöglichen, sowie die Datenbanken sind meist im Internet erreichbar. Damit können durch Abfragen einer ganzen Reihe von Webseiten alle Informationen zusammengetragen werden. In einer Zeit, wo Hunderte Genomsequenzen erzeugt werden, ist ein solches Vorgehen allerdings nicht nur mühselig, sondern nicht praktikabel. Das Auffinden, Abfragen und Verknüpfen von Bioinformatikanwendungen und Datenbanken muss also automatisiert möglich werden [5].
Webservices ermöglichen Interoperabilität
Die Technologie, die diese Automatisierung ermöglicht, ist im World Wide Web bereits etabliert. Webservices ermöglichen die Verbindung von Datenbankabfragen und Operationen zwischen verteilten Rechnern. In mehreren internationalen Projekten wurde die Anwendung in der Bioinformatik erprobt. Unsere Forschungsgruppe beteiligt sich am internationalen Biomoby-Projekt, das zu dem Ergebnis kam, dass den etablierten Webservice-Standards eine entscheidende Zutat fehlt: Eine maschineninterpretierbare Beschreibung der Datentypen, die Eingabe und Ausgabe eines Webservice sind, sowie eine zentrale Registratur aller Webservices [6]. Letztere muss Abfragen beantworten können wie „Welche Webservices können mit einem Genbezeichner aus Arabidopsis thaliana aufgerufen werden und liefern Bilddaten“. Die Beschreibung der Datentypen erfolgt in einer Ontologie, sodass aufgelöst werden kann, welche spezifischen Datentypen (z.B. JPEG, PNG, GIF mit Imagemap, kommentiertes TIFF) Bilddaten enthalten.
Aggregatoren und Workflows
Durch solche Interoperabilität werden zwei wichtige Anwendungen ermöglicht. Aggregatoren sind Computerprogramme, die mehrere Datenquellen gleichzeitig abfragen und die Ergebnisse vereinen können. Eine solche Anwendung, JABBA [7], wurde am MPIPZ für Gene aus der Ackerschmalwand, Arabidopsis thaliana, entwickelt, welches die erste Pflanze war, deren Genom vollständig sequenziert wurde. Für ein Gen stellt JABBA beispielsweise Sequenzen, Funktionsbeschreibungen, Referenzen und Bilder dar, welche aus verschiedenen internationalen Datenbanken abgefragt werden. Das Besondere: Sobald eine neue Datenbank einen passenden Biomoby Webservice anbietet, wird dieser automatisch von JABBA mit abgefragt.
Die zweite Anwendung sind Workflows, in denen Datenbankabfragen und Bioinformatikanwendungen zu Analysen verknüpft und automatisiert ausgeführt werden können. Taverna, ein Programm zum Erstellen und Ausführen bioinformatischer Workflows, wurde durch das MyGrid-Projekt implementiert [8]. Dieses fragt die Biomoby-Registratur ab und bietet entsprechende Webservices an, die per Drag-and-drop zu Workflows kombiniert werden können. Biomoby erleichtert das Erstellen von Workflows, indem nur Webservices angeboten werden, für die der Eingabedatentyp zum Ausgabedatentyp des vorherigen Schrittes passt [9].
Solche Workflows können auch ein Beitrag zur Reproduzierbarkeit von Bioinformatikanalysen sein. Das MyGrid-Projekt hat mit myexperiment.org eine Webplattform geschaffen, in der Workflows abgelegt, dokumentiert und gemeinsam genutzt werden können [10].
Immer mehr Bioinformatikressourcen sind durch Webservices selbst erreichbar. Dies bietet eine effiziente Zugangsmöglichkeit, um automatisiert auf diese Dienste zuzugreifen. Dadurch lassen sich deutlich einfacher komplexe Anwendungen implementieren, die auf verschiedene verteilte Ressourcen zugreifen müssen. Allerdings löst dies nicht das eigentliche Problem der biologischen Datenintegration, nämlich wie verschiedene Datentypen sinnvoll miteinander verbunden werden können. Aber Standards für den Zugang zu Daten und Bioinformatikanwendungen vereinfachen die Erforschung integrativer Analysen.