Das Karriereportal für Wissenschaft & Forschung von In Kooperation mit DIE ZEIT Forschung und Lehre

Daten sammeln und deuten

Von Guido Kirsten

Verfahren wie das Hochdurchsatzscreening bringen dem Chemiker immer größere Datenmengen. Methoden wie Data Mining mit der Open-Source-Software Knime verwandeln die Datenflut in nützliche Informationen und geben Einblicke in Zusammenhänge, die beim sequenziellen Experimentieren kaum zugänglich sind.

Daten sammeln und deuten
Methoden, die Daten auswerten, (Data Mining) sind als einzelne Software oder als Teil größerer Pakete verfügbar. Es fehlte jedoch bisher eine einheitliche Plattform, von der aus der Nutzer die Programme unter einer gemeinsamen Oberfläche ansteuern kann. Diese Lücke schließt der Konstanz-Information-Miner, kurz Knime von Knime.com (Abbildung 1).1) Das Programm verwaltet Arbeitsabläufe der Datenverarbeitung und enthält klassische Regressionsebenso wie moderne Data-Mining-Methoden (siehe Kasten).

Visualisieren und mehr

Etliche Diagrammtypen - manche im Programm vorhanden, andere als Download-Erweiterung erhältlich - veranschaulichen die gesammelten Daten. Ein besonders mächtiges Hilfsmittel bei der visuellen Datenanalyse ist das Kennzeichnen von Daten (Hiliting): Selektiert der Nutzer Einträge in einer Tabelle, hebt er gleichzeitig die entsprechenden Punkte in geöffneten anderen Tabellen und Diagrammen hervor. So lassen sich die Vorhersagekraft verschiedener Modelle vergleichen und Ausreißer identifizieren. In der Grundversion unterstützt Knime keine Datenformate aus der Chemoinformatik. Da das Programm auf dem Softwareentwicklungswerkzeug Eclipse basiert, lassen sich aber fehlende Funktionalitäten als Plug ins installieren. Knime. com bietet auf der Webseite dafür Erweiterungen. Dazu gehören die Chemtypes-Erweiterung, die gängige Molekülformate unterstützt, und die R-Erweiterung, die Knime mit der Statistiksoftware R verbindet [Nachr. Chem. 2010, 58, 453].2)

Über Knime

  • Das Open-Source-Workflowsystem Knime wertet Hochdurchsatzscreenings und kinetische Messdaten aus.
  • Knime enthält klassische Regressionsmethoden, Verfahren der Muster erkennnung, weitere Data-Mining-Techniken und Knoten zur Zeitreihenanalyse.
  • Erweiterungen für Knime bieten der Vertreiber und andere Softwarehersteller. Geübte Anwender können eigene Erweiterungen erstellen.

Die Funktionen erweitern

Auch Hersteller kommerziell vertriebener Softwarepakete bieten Knime-Erweiterungen: etwa Biosolveit, Chemical Computing Group, Chemaxon, Schrödinger, Symyx und Tripos (Abbildung 2). Meistens bestehen die Erweiterungen aus einem Satz von Knoten, der die hauseigenen Softwarepakete einbindet. Einige Erweiterungen verfügen über Grundfunktionen, um Moleküle darzustellen oder neue Datentypen zu unterstützen. Sie erleichtern es dem Chemiker, kommerzielle Softwarepakete miteinander unter der Knime-Oberfläche zu kombinieren. So verwendet ein Nutzer, der die Pakete nur gelegentlich braucht, die für ihn interessanten Funktionen unter einer einheitlichen Benutzeroberfläche. Allerdings konvertiert Knime die Moleküle für ein anderes Programm nicht automatisch. Benötigt ein Knoten die Moleküle in einem anderen Format, muss der Nutzer einen entsprechenden Konverterknoten in den Arbeitsablauf (Workflow) einbauen. Für den Profi bietet dies den Vorteil, dass keine Daten unbemerkt verloren gehen, beispielsweise die Partialladungen bei der Konvertierung von Mol2- in SD-Format. Zusammen mit den in Knime enthaltenen Knoten bieten die Erweiterungen nahezu alle Funktionen, die das Wirkstoffdesign und verwandte Forschungsgebiete benötigen.

Daten sammeln und deuten

Eigene Knoten entwickeln

Für den in Javaprogrammierung geschulten Chemiker ist Knime in der Entwicklerversion erhältlich. Hilfreich ist dabei ein Node Wizard, der beim Programmieren der Knoten assistiert und dem Programmierer einen Großteil der Tipparbeit abnimmt. Außerdem sind die Quelltexte und die Dokumentation der Java-Funktionen einsehbar. Dies vereinfacht es, eigene Knoten zu entwickeln. Komplexere chemische Probleme sind in Java jedoch nur aufwendig zu lösen. Hier bietet es sich an, auf SVL zurückzugreifen. Auf dieser Sprache beruht das Molecular Operating Environment (MOE), das Lösungen sowohl für die Bio- und Chemoinformatik als auch die medizinische Chemie anbietet [Nachr. Chem. 2008, 56, 662].3) SVL umfasst chemiespezifische Befehle, mit denen sich sowohl mathematische als auch chemische Probleme lösen lassen. Die MOE-Erweiterungen für Knime enthalten ein Hilfsprogramm, das aus SVL-Scripten Knime-Knoten kompiliert. Viele Scripte sind daher in Knime weiter verwendbar, ohne dass sie neu zu implementieren sind.

Workflow und Dokumentation

Mit Knime erstellte Arbeitsabläufe sind mühelos zu erweitern: Da Knime nicht zeilen-, sondern tabellenbasiert arbeitet, muss ein geänderter Workflow nicht zwingend wieder von Beginn an ausgeführt werden. Die Ausführung lässt sich hinter dem letzten nicht veränderten Knoten starten. Dies spart vor allem in der Konstruktionsphase Zeit. Ist ein Workflow dann implementiert, lässt er sich mit verschiedenen Datensätzen automatisiert ausführen. Mehrere zu einem Meta-Node zusammengefasste Knoten machen dabei komplexe Abläufe übersichtlicher. Knime bearbeitet experimentell gewonnene Daten nicht nur, sondern dokumentiert sie auch: In den ersten Knime-Versionen war es nur Insidern möglich, Berichte zu erstellen. Das Reporting Tool ändert dies grundlegend. Diese Erweiterung ergänzt Knime um Knoten, die Daten an eine Erweiterung senden, die Berichte erstellt. Das Reporting Tool basiert auf der Open-Source-Software Birt.4) Anfänger werden sich damit etwas schwer tun, da die Logik nicht immer intuitiv ist. Die erklärenden Filme auf der Knime-Webseite helfen aber über die Anfangsschwierigkeiten hinweg. Der Nutzer erstellt so schon nach kurzer Zeit ansprechend gestaltete Berichte. Diejenigen, die tiefer einsteigen möchten, greifen auf die Birt-Sekundärliteratur zurück. Mit etwas Übung lassen sich damit schnell professionelle Ergebnisse erzielen.

Hilft Akademia und Industrie

Neben der frei verfügbaren Version bietet Knime.com professionelle Lösungen und Varianten an: Cluster Execution erlaubt die Ausführung von Workflows auf Clusterrechnern. Die Server- und Reporting-Varianten machen Arbeitsabläufe bzw. Berichtvorlagen zentral auf einem Server speicherbar und auf Terminalrechnern ladbar. Mit der Server-Variante lassen sich zudem die Workflows ferngesteuert auf dem Server ausführen. Damit erfüllt Knime die wichtigsten Anforderungen, welche die Industrie an eine Softwareplattform stellt. Braucht ein Nutzer Hilfe, findet er auf der Webseite tech.knime.org Foren, um Probleme mit anderen Nutzern und den Entwicklern zu diskutieren. Es gibt zudem Forenseiten, die sich mit speziellen Erweiterungen befassen. Anwendern, die ein Problem haben, das sie aufgrund der Vertraulichkeit der Daten oder des Umfangs nicht in einem Forum diskutieren möchten, bietet Knime. com Unterstützung an. Die Vielzahl der Anbieter, die Erweiterungen entwickeln und verbessern, machen Knime zu einem universellen Werkzeug, das sich hinter kommerziellen Wettbewerbern wie Pipeline Pilot nicht zu verstecken braucht.


Über den Autor
Guido Kirsten ist promovierter Chemiker und bei der Chemical Computing Group in Köln mit Computational-Drug-Design beschäftigt. Hier arbeitet er an QSAR-, Simulations- und Data-Mining-Methoden.
Email: guido@dr-kirsten.de


Literatur und Internet:
1) M. R. Berthold, N. Cebron, F. Dill, T. R. Gabriel, T. Kotter, et al., Knime: The Konstanz Information Miner», Springer, 2007.
2) R Development Core Team, R: A language and environment for statistical computing». R Foundation for Statistical Computing, Vienna, Austria, 2005.
3)MOE (The Molecular Operating Environment) Version 2009.10».
4)Birt Project Description and Scope» (zugegriffen am 14. Juni).


Aus Nachrichten aus der Chemie» :: November 2010

Ausgewählte Artikel
Ausgewählte Stellenangebote