Database Research Group

WSI – Database Systems Research Group

Data Integration and Lineage



Die Integration heterogener Datenquellen stellt eine große Herausforderung dar, die auch auf absehbare Zeit Gegenstand von Forschungsarbeiten bleiben wird. Zudem gilt es bei solchen Anwendungen, die Herkunft der Daten (data lineage) nicht aus den Augen zu verlieren, um die Glaubwürdigkeit der Daten oder auch rechtliche Aspekte zu gewährleisten.

In dieser Vorlesung sollen die Unterstützung der Interoperabilität zwischen heterogenen Datenquellen und die Bereitstellung homogener Sichten auf heterogene, verteilte Datenbestände betrachtet werden. Zudem betrachten wir Methoden, die Datenherkunft in solchen Szenarien zu berechnen oder zu speichern.

Themen, die in der Vorlesung genauer besprochen werden sind z.B.:

  • Arten der Integration und Architektur entsprechender integrierender Informationssysteme.
  • Anfragebearbeitung in integrierten Informationssystemen.
  • Überbrückung schematischer Unterschiede in den integrierten Datenquellen (schema mapping und schema matching)
  • Duplikaterkennung und Datenfusion zur Integration der eigentlichen Daten.
  • Arten der Datenherkunft und deren Berechnung.

Prüfung / Nachprüfung

Die mündlichen Prüfungen finden am Montag, den 21. Februar 2011 in Raum B315, Sand 13 statt. Zwecks Termin wenden Sie sich bitte an Frau Herschel.

Übungsaufgaben

  • Die Übung findet i.d.R. alle zwei Wochen statt (siehe Termine unten).
  • Die Übung besteht aus fünf Teilaufgaben, in denen Sie schrittweise ein integrierendes System für Filmdaten implementieren.
  • Sie dürfen und sollten die Aufgaben in Zweier-Gruppen bearbeiten.
  • Der Abgabetermin für die Gesamtlösung ist der 26.1.2011, an dem Sie Ihre Ergebnisse präsentieren. Zudem werden Teillösungen ausgewählter Gruppen zu den restlichen Terminen präsentiert und diskutiert.
  • Zur Bewertung der Übungsleistung werden sowohl die Inhalte als auch die Form der Präsentationen in Betracht gezogen.

Ergebnisse der Übung

Literatur

Leser, Naumann

Informationsintegration Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen , Dpunkt Verlag, 2006 , ISBN 3898644006

Dieses Buch deckt die meisten Inhalte dieser Vorlesung sehr gut ab (teilweise orientiert sich die Vorlesung direkt an ausgewählten Kapiteln).

Semesterwochenstunden / Leistungspunkte / Hörerkreis

  • 3 SWS Vorlesung + 1 SWS Übung zur Vorlesung
  • 6 LP
  • Studierende Hauptstudium Diplom Informatik, Bioinformatik und Lehramt Informatik
  • Studierende in Informatik Master-Studiengängen

Voraussetzungen

Modul Datenbanksysteme (Datenbanksysteme I) oder vgl. Vorkenntnisse


Slides
NrChapterDownload
1Einführungpdf
2Verteilung, Autonomie und Heterogenitätpdf
3Materialisierte und Virtuelle Integrationpdf
4Architekturenpdf
5Peer Data Management Systeme

Gastvorlesung Armin Roth (3.11.2010)

pdf
6Schema Mapping & Matchingpdf
7Global-as-View und Local-as-View

Gastvorlesung Armin Roth (6.12.2010)

pdf
8Duplikaterkennungpdf
9Varianten der Data Provenancepdf
10Berechnung von Why-Provenancepdf
11Datenherkunft fehlender Datenpdf
Additional material (code, data)