Das Karriereportal für Wissenschaft & Forschung von In Kooperation mit DIE ZEIT Forschung und Lehre

Was ist eigentlich Knowledge Discovery? - Methoden der Datenanalyse in einer Bibliothek

von ANSGAR SCHERP

Um bislang unbekannte Zusammenhänge aus umfangreichen Datenbeständen zu erkennen, braucht es entsprechende Analysen und Methoden.

Was ist eigentlich Knowledge Discovery? - Methoden der Datenanalyse in einer Bibliothek© seraph - photocase.deKnowledge Discovery untersucht Strukturen und Zusammenhänge großer Datenmengen
Die Professur Knowledge Discovery beschäftigt sich mit der inhaltsgetriebenen Erkennung und Auffindung von digitalen Objekten, wie beispielsweise von semi-strukturierten Daten im Web, Dokumenten, Profilen oder Communities, und mit der Erkennung und Analyse der Beziehungen zwischen diesen. Das Profil meiner Abteilung an der ZBW - Leibniz-Informationszentrum Wirtschaft und gleichzeitig der Arbeitsgruppe an der Universität zu Kiel umfasst den Entwurf innovativer Methoden und Algorithmen und deren Anwendung auf umfangreiche Daten- und Dokumentenkorpora unterschiedlicher Herkunft und Qualität.

Die Professur ist also mit einer Doppelrolle versehen, die es mir erlaubt, sehr eng mit Kolleginnen und Kollegen aus anderen Disziplinen in der ZBW zusammenzuarbeiten. So arbeite ich zum Beispiel mit Experten für die Sacherschließung der ZBW eng zusammen, um (semi-)automatisierte Verfahren zur Erschließung wissenschaftlicher Dokumente und Dokumententeile zu entwickeln und einzusetzen. Dazu werden beispielsweise Methoden des maschinellen Lernens angewendet, kontrollierte Vokabulare wie zum Beispiel der hauseigene Standard-Thesaurus Wirtschaft (STW) zur Erkennung von Entitäten genutzt und eigene Ansätze zur multimodalen Inhaltsanalyse, basierend auf Methoden des Data Mining und Algorithmen der Bildverarbeitung, entwickelt.

Inhaltliche Ausrichtung

Die Professur ist technisch ausgerichtet und hat viele Anknüpfungspunkte in den Bibliothekswissenschaften, die sich über das Semantic Web ergeben. Das liegt daran, dass Bibliotheken starke Adaptoren semantischer Technologien sind, insbesondere leichtgewichtiger vernetzter, offener Daten (engl. Linked Open Data). Die ZBW gilt hier als Vorreiter in Deutschland und ist Mitorganisator der mittlerweile international sehr sichtbaren Tagung Semantic Web in Bibliotheken (SWIB).

Die Professur ist an der Universität zu Kiel in der Wirtschaftsinformatik verankert, hat aber auch starken Bezug zur Medieninformatik sowie zu aktuellen Trends wie Web Science, Digital Humanities und Science 2.0, da die Methoden sowohl auf mediale als auch auf textuelle Inhalte unterschiedlicher Domänen angewendet werden können. Anfragen aus Forschung und Industrie kommen daher von Medizinern bis hin zu Wirtschaftsprüfern.

Interdisziplinäre Zusammenarbeit

Meine Tätigkeit erlaubt mir interessante Analysen auf den Daten der ZBW durchzuführen und Methoden zu entwickeln, die in Anwendungen wie beispielsweise eine (semi-)automatische Inhaltserschließung elektronischer Volltexte mittels des STW oder zur automatischen Nachnormierung von Autoren-Schlagworten eingesetzt werden. Dabei kommt zugute, dass die ZBW die führende Einrichtung in der Literaturversorgung der Wirtschaftswissenschaften ist. So verfügt das Rechercheportal für die Wirtschaftswissenschaften EconBiz über neun Millionen Titeldaten wissenschaftlicher Publikationen. Es stellt damit einen zentralen Einstiegspunkt für alle Arten wirtschaftswissenschaftlicher Fachinformationen dar und bieten den direkten Zugang zu den Volltexten.

Von den neun Millionen Titeldaten sind etwa 4,6 Millionen Publikationen von Katalogisiererinnen der ZBW im Gemeinsamen Bibliotheksverbund (GBV) formal erschlossen oder mit zusätzlichen Informationen angereichert worden, so dass diese für Analysezwecke genutzt werden können. Mehr als eine Million Publikationen sind als Open Access verfügbar und erlauben (unter Berücksichtigung der rechtlichen Rahmenbedingungen) die Anwendung von Text-Miningverfahren im großen Stil. Eine weitere Perle sind 1,6 Millionen Publikationen mit einer intellektuellen Sacherschließung, das heißt, die eine manuelle Annotation mittels des hauseigenen Thesaurus STW erhalten haben.


Über den Autor
Ansgar Scherp ist Professor für Knowledge Discovery an der ZBW - Leibniz-Informationszentrum Wirtschaft und dem Institut für Informatik an der Universität zu Kiel. In dieser Rolle bringt er seine Erfahrung aus den Bereichen der Medienanalyse, Data Mining und Semantic Web ein.

Aus Forschung & Lehre :: November 2014

Ausgewählte Stellenangebote