Data Mining ist der Prozess der nicht-trivialen Entdeckung von
impliziter, vorher unbekannter und potenziell nützlicher Information.
Damit ist Data Mining ein Kernelement der Wissensentdeckung (Knowledge
Discovery), die mit der Integration, Reinigung und Auswahl der
relevanten Daten beginnt. Sie beinhaltet die Präsentation des
entdeckten Wissens in einer Form, die nicht nur für den
Data-Mining-Analysten verständlich ist, sondern auch für den
Domänenexperten, der aus den Mining-Resultaten Handlungsempfehlungen
ableiten soll. Zu den erfolgreichen Anwendungen des Data Mining zählen
die Analyse von Gen-Mustern, das Graphen-Mining im Finanzwesen oder
auch die Analyse von Kundenverhalten im Marketing.
Das Institut für Wirtschaftsinformatik entwickelt und erforscht ein
breites Spektrum von Data-Mining-Anwendungen mit Schwerpunkten auf
Web-Applikationen in Bildung, B2C-Handel und Wissensmanagement.
Insbesondere entwickeln und analysieren wir Mining-Methoden und
-Werkzeuge für die explorative Analyse von Verhaltensdaten. Ein anderer
Fokus ist der Übergang von der (derzeit noch dominanten)
zeitpunktgebundenen Datenanalyse, die implizit eine Stationarität der
beschriebenen Domänen voraussetzt, zur Analyse der Dynamik solcher
Daten (die i.d.R. zu komplex sind, um mit Standardverfahren zur
Zeitreihenanalyse untersucht zu werden).
Web Mining bezeichnet die Anwendung traditioneller
Data-Mining-Techniken auf Web-Ressourcen sowie die Weiterentwicklung
dieser Techniken zur Berücksichtigung der spezifischen Strukturen von
Webdaten. Die analysierten Web-Ressourcen beinhalten (1) die
eigentlichen Webseiten, (2) die diese Seiten verbindenden Hyperlinks
sowie (3) die Wege, die Online-Nutzer durch das Web nehmen. Web Usage
Mining ist die Ableitung nützlichen Wissens aus diesen Inputdaten. Dies
erfordert zum einen ein Verständnis und eine formale Modellierung des
Verhaltens in der untersuchten Domäne, zum anderen eine Abbildung der
Inputdaten in diese Modelle. Methoden und Techniken des Semantic Web
liefern hier interessante Impulse, des Weiteren steht die Entwicklung
von Visualisierungen als wichtigem Design-Element nutzerorientierter
Mining-Systeme im Vordergrund unserer Bemühungen.
Nutzerverhalten und Datenverfügbarkeit ändern sich im Laufe der
Zeit. Daher ist die Dynamik einer Domäne eine wichtige Frage in jeder
Mining-Analyse und in jeder Präsentation von Mining-Resultaten für den
Domänen-Experten. Bei Aktualisierungen erscheint es ausreichend, auch
die bisher entdeckten Muster zu aktualisieren. Die Datensammlung über
eine längere Zeitdauer schafft eine andere Situation. Die Daten
erfahren hierbei nur eine Art von Änderung: Einfügungen, da
ausschließlich Daten hinzugefügt werden. Die Verteilung der Entitäten
im Datensatz kann sich aufgrund externer und/oder interner Faktoren
ändern. Aufgrund dieser Änderungen können sich auch die in den Daten
entdeckten Muster über die Zeit ändern (Muster-Evolution). Es gibt zwei
Arten von Muster-Änderung: Änderungen im Inhalt eines Musters, also in
der Beziehung in den Daten, die dieses Muster reflektiert, und
Änderungen in den statistischen Maßen eines Musters. Beide Arten von
Änderungen können einen starken Einfluss auf den Entscheidungsprozess
haben und sollten daher überwacht werden. Die Muster-Überwachung
benötigt zunächst ein Datenmodell, welches explizit eine zeitliche
Komponente beinhaltet, die ein spezifisches Muster auf die
entsprechende Zeit-Einheit abbildet. Eine zweite Frage ist die Auswahl
der zu überwachenden Muster. Selbst bei kleineren Datenmengen ist die
Zahl der entdeckten Muster häufig sehr groß. In diesen Fällen muss der
Analyst eine handhabbare Untermenge der Muster auswählen. Unsere
Forschung konzentriert sich derzeit auf die formale Beschreibung von
Musterevolution und -Überwachung, die Entwicklung effizienter
Algorithmen für diese Aufgaben sowie die Implementierung geeigneter
Werkzeuge.
Enge Verbindungen gibt es zu den Forschungsschwerpunkten
"Wissensmanagement" und "Datenschutz und Sicherheit". Insbesondere
Fragen des Wissensmanagements sind relevant, da die Webnutzung in der
Regel den Zugriff auf Informationen und somit den Aufbau von Wissen
impliziert.
Beteiligte Personen
Dipl.-Kfm. Steffan Baron
Prof. Dr. Bettina Berendt
Prof. Oliver Günther, Ph.D.
Dipl.-Wi.-Ing. Maximilian Teltzrow
Ausgewählte Publikationen
Baron, S., Spiliopoulou, M., Günther, O.: Efficient Monitoring of
Patterns in Data Mining Environments. In Proc. Seventh East-European
Conference on Advance in Databases and Information Systems (ADBIS
2003), Dresden, Germany. Springer 2003
Berendt, B.: Using site semantics to analyze, visualize, and support
navigation. Data Mining and Knowledge Discovery, 6, 37-59, 2002
Berendt, B., Brenstein, E.: Visualizing Individual Differences in Web
Navigation: STRATDYN, a Tool for Analyzing Navigation Patterns.
Behavior Research Methods, Instruments, & Computers, 33, 243-257,
2001
Berendt, B., Spiliopoulou, M.: Analyzing navigation behaviour in web
sites integrating multiple information systems. The VLDB Journal, 9,
56-75, 2000
Spiliopoulou, M., Pohle, C., Teltzrow, M.: Modelling Web Site Usage
with Sequences of Goal-Oriented Tasks, In Proc. Multikonferenz
Wirtschaftsinformatik, in: E-Commerce - Netze, Märkte, Technologien,
Physica-Verlag, Heidelberg, 2002.
|
|