Datenanalyse
Die Entwicklung und Anwendung von Datenanalyse- und Explorationsmethoden ist typischerweise eng mit der Anwendungsdomäne verbunden, in der die Daten erzeugt und verwendet werden. In Heidelberg findet dies in einem stark interdisziplinären Umfeld statt, in dem Forschungsgruppen unterschiedlicher Disziplinen – von den Naturwissenschaften wie Medizin, Biologie und Physik bis hin zu den Sozial- und Geisteswissenschaften – mit Mitgliedern unserer Forschungsgruppen zusammenarbeiten. Der Fokus dieser Kooperationen für die Gruppe Datenanalyse liegt vor allem in den Bereichen der visuellen Datenanalyse und der Textanalyse.
Analyse und Exploration von Textdaten
Es wird geschätzt, dass 80% der Daten in Unternehmen in Form von Textdaten vorliegen, hauptsächlich als PDF-Dateien, Word-Dokumente, Webseiten oder reine Textdateien. Solche unstrukturierte Daten werden oft von strukturierten Daten begleitet, z.B. Spreadsheets, Tabellen in Datenbanken oder numerische Daten in Datenverwaltungssystemen, was zu komplizierten und latenten Verknüpfungen zwischen heterogenen Daten führt. Angesichts der Komplexität und Heterogenität solch unstrukturierter Daten ist es ein nicht triviales Problem, Informationen aus diesen „Data Lakes“ zu extrahieren, die den Bedürfnisse von NutzerInnen und Anwendungen genügen und Ergebnisse umfassend und auf verständliche Weise präsentieren. Um diesen Herausforderungen zu begegnen, entwickeln wir neuartige Ansätze, die von fortgeschrittenen Information Retrieval Methoden bis hin zu Informationsextraktions- und Verknüpfungsansätzen reichen. Diese Methoden unterstützen verschiedene Formen der Textanalyse wie die Erkennung von zeitlich veränderlichen Themen in Dokumenten, das Clustering und die Klassifikation von Texten bis hin zu neuen Methoden der Textzusammenfassung und Generierung von Texten. Entsprechende Forschungs- und Entwicklungsaktivitäten, die typischerweise in interdisziplinären Projekten durchgeführt werden, verwenden hierbei sowohl traditionelle maschinelle Lernverfahren als auch neuartige Ansätze, die im in den Bereichen Deep Learning und Natural Language Processing angesiedelt sind.
Datenmanagement
Umfangreiche Workflows zur Datenanalyse sind in der Regel auf effiziente und skalierbare Infrastrukturen für das Datenmanagement angewiesen. In unserer Forschung und Entwicklung verwenden wir hierzu zumeist hybride Systeminfrastrukturen, die klassische relationale Datenbankmanagementsysteme für strukturierte Daten mit Systemen kombinieren, die einen effizienten Zugriff auf unstrukturierte Daten, insbesondere Textdaten, erlauben. Dazu gehören Systeme für Graphdaten (z. B. zur Verwaltung von Netzwerken) sowie Systeme zur Verwaltung und Abfrage großer Textkorpora. Darüber hinaus werden neuartige Ansätze für das Information Retrieval und Datenexploration realisiert, beispielsweise für den Aufbau und die Visualisierung dynamischer Informationsnetzwerke. Eine besondere Herausforderung ist die Echtzeitverarbeitung von Textdatenströmen, die beispielsweise aus Social-Media-Postings oder Online-Nachrichtenbeiträgen resultieren. In solchen Situationen sind effiziente NLP-Techniken der Schlüssel für nachgelagerte Methoden der Textanalyse wie z.B. die Erkennung von Themen oder Trends in Texten.
Visuelle Datenanalyse
Die Wissensgewinnung aus großen und komplexen Daten steht vor verschiedenen Herausforderungen, die integrierte Ansätze erfordern. Zum einen müssen die Daten transformiert und auf ihre „wesentliche Struktur“ in Bezug auf eine (variierende) Forschungsfrage reduziert werden. Zum anderen muss diese Struktur für Schlussfolgerungen erschlossen werden. Da das menschliche Sehvermögen der Wahrnehmungskanal mit der größten Bandbreite ist, sind visuelle Repräsentation und interaktive Exploration die primären Methoden der Datenanalyse geworden. Die Visualisierungsforschung befasst sich mit dieser Datentransformation und (Re-)Präsentation und ist heute in drei Teildisziplinen untergliedert: Die Informationsvisualisierung konzentriert sich auf die Analyse von diskreten Daten, was typischerweise zu diskreten visuellen Darstellungen wie beispielsweise Graphen führt. Die wissenschaftliche Visualisierung hingegen konzentriert sich auf kontinuierliche Daten und führt typischerweise zu kontinuierlichen Darstellungen wie Stromlinien eines Strömungsfeldes. Die visuelle Analytik wiederum befasst sich mit Interaktion und Human-in-the-Loop-Auszeichnungen, die für die Analyse von „Big Data“ besonders nützlich sind. In all diesen Bereichen betreiben wir Grundlagenforschung - oft in einem interdisziplinären Kontext - und legen dabei stets den Schwerpunkt auf die Anwendung der erzielten Verfahren und Konzepte. In letzter Zeit haben wir unser Forschungsinteresse auf die Analyse kontinuierlicher Daten in höheren Dimensionen, auf die Analyse wissenschaftlicher Rechentechniken, die zur Simulation von Daten verwendet werden, und auf das Verständnis mathematischer Strukturen ausgedehnt.
Forschungsgruppenleiter:innen
Institut für Informatik
Data Science, Textanalyse, Natural Language Processing, Netzwerkanalyse, Datenmanagement
Interdisziplinäres Zentrum für wissenschaftliches Rechnen (IWR)
Geometrie, Visualisierung, Digital Humanities
Interdisziplinäres Zentrum für wissenschaftliches Rechnen (IWR)
Visual Data Science, Visualisierung, Merkmalsextraktion, Dynamische Systeme