Database Research Group

WSI – Database Systems Research Group

Datenbanksysteme I


News
  • Oct 24, 2017 — Die Vorlesung DB1 fällt am Montag, den 30. Oktober 2017, aus. Aufgrund des Reformationstages am Dienstag, den 31. Oktober 2017, ist der nächste Termin für die Vorlesung DB1 daher Montag, der 6. November 2017.

    Erinnerung: Die erste Übung findet am Donnerstag, den 26. Oktober 2017, statt. — Torsten Grust


Im Forum zu DB I klären wir alle organisatorischen und inhaltlichen Fragen, die sich im Laufe des Semesters auftun werden. Bitte dort regelmäßig vorbei schauen und keine Scheu zu fragen.

Vorlesung

Die Vorlesung Datenbanksysteme I ist die klassische Einführung in das spannende Gebiet der Datenbanksysteme. Zentrales Thema sind die Relationalen Datenbanksysteme, in denen Daten in tabellarischer Form modelliert, gespeichert und angefragt werden. Dieser strikt tabellarische Blick auf Daten ist elegant, intuitiv aber dennoch formal und durch Datenbanksysteme effizient implementierbar, wirft aber auch interessante Fragen auf, denen wir uns in dieser Vorlesung widmen werden:

  • [ Datenbankbegriff ] Genau welche Services kann ein Datenbanksystem eigentlich bieten?

  • [ Datenmodellierung, ER-Modelle ] Wie bringt man Daten sinnvoll in tabellarische Form, auch wenn Daten zunächst in Form von Objekten, Bäumen, etc. vorliegen?

  • [ Relationales Modell, Normalformen ] Welche Charakteristika von Tabellen können wir ausnutzen, um Daten effizient und redundanzfrei speichern und wieder extrahieren zu können?

  • [ Relationale Algebra, SQL ] Welche Sprachen eignen sich für den Zugriff auf Massen von Tabellendaten?

Sowohl Vorlesung als auch Übung werden von Beispielen und Aufgaben begleitet, die wir mittels des relationalen Datenbanksystems PostgreSQL realisieren werden. PostgreSQL (in Version 9.x oder 10) ist für viele Plattformen (u.a. MS Windows, Linux, macOS) frei verfügbar.

Mit IBM Db2 Express-C und MySQL stehen weitere relationale Datenbanksysteme frei zur Verfügung.

Klausur und Benotung

Die 90-minütige Klausur zu dieser Vorlesung wird am Montag, den 5. Februar 2018, von 10:00–12:00 Uhr stattfinden. Details dazu geben wir im Laufe des Semesters bekannt.

An der Klausur dürfen alle Studierenden teilnehmen, die im Übungsbetrieb dieser Vorlesung mindestens 2/3 der Punkte erreicht haben. Für darüber hinaus erzielte Punkte gewähren wir einen Punktebonus in der Klausur.

Nur für Studierende der Bioinformatik: In dieser Vorlesung können ausnahmsweise auch nur 6 (anstatt regulär 9) ECTS erworben werden. Diese Studierenden steigen dann nach Weihnachten aus dem Vorlesungsbetrieb aus und schreiben am 5. Februar 2018 eine entsprechend angepasste Klausur.

Literatur

  • Ramakrishnan, Gehrke: Database Management Systems

    (3rd International Edition)

    McGraw-Hill, 2003

    ISBN 0-07-246563-8

    Part I dieses Buch deckt die Inhalte zu relationalen Datenbanksystemen gut ab. Part II widmet sich den Inhalten der Vorlesungen Datenbanksysteme II.

  • Kemper, Eickler: Datenbanksysteme

    (10. Auflage)

    De Gruyter Studium, 2015

    ISBN 3-11-044375-9

    Deutsches Standardlehrbuch, das auch Inhalte der Vorlesung Datenbanksysteme II bespricht. Eine hervorragende Quelle für weiterführende Referenzen.

PostgreSQL, Python und JSONiq

  • Das relationale Datenbanksystem PostgreSQL ist das Hauptwerkzeug in dieser Vorlesung und auch in den Übungen. Effizient, unkompliziert, standardkonform, erweiterbar und generally awesome. Hinweise zum Download und zur Installation von PostgreSQL. (Für User von Apples macOS bietet Postgres.app eine Installation innerhalb von Sekunden.) [ PostgreSQL Version 9.6 oder 10 ]

  • Gelegentlich werden wir in Vorlesung, Übung und Übungsblättern die Programmiersprache Python einsetzen, um einfache Skripte zur Verarbeitung von Tabellendaten zu entwerfen oder die Funktionsweise von Datenbanksystemen zu illustrieren. Frei verfügbar für alle gängigen Sytsteme und oft bereits vorinstalliert. [ Python Version 2.7 ]

  • Zu Beginn der Vorlesung werden wir JSON als Datenmodell und seine Sprache JSONiq thematisieren. Eine Implementation von JSONiq zum freien Download findet sich auf zorba.io.


Slides
NrChapterDownload
1Welcomepdf
2Data Models and Languages

v2 (letztes Update: 6. November 2017)

pdf
3Typed Data, Declarativity, Data Independence, Persistence

v2 (letztes Update: 6. November 2017)

pdf
4The Relational Data Modelpdf
5Constraintspdf
6A Diversion into SQLpdf
7Referential Integritypdf
8Database Designpdf
9Grouping and Aggregationpdf
Additional material (code, data)
NrFileDownload
1GenBank-Eintrag für Bakers' Yeast

Datenmodell Text

txt
2LEGO Set 5610

Datenmodell Text

txt
3Gesamtgewicht des LEGO Set 5610

Shell-Skript, basierend auf sed und awk (Datenmodell Text).

Usage (UNIX-Shell): weight-of-set5610.sh < set5610-1.txt

sh
4LEGO Set 5610

Datenmodell JSON

json
5USGS Earthquake Data

Datenmodell JSON

json
6Gesamtgewicht des LEGO Set 5610

(JSONiq-Query)

Usage (UNIX-Shell): zorba -r -i -f -q weight-of-set5610.jq

jq
7Stärke des schwersten Erdbebens auf der Nordhalbkugel

(JSONiq-Query)

Usage (UNIX-Shell): zorba -r -i -f -q worst-northern-quake-mag.jq

jq
8Stärke und Ort des schwersten Erdbebens auf der Nordhalbkugel

(JSONiq-Query)

File enthält drei Varianten der Query (zwei Varianten sind derzeit via (: ... :) auskommentiert).

Usage (UNIX-Shell): zorba -r -i -f -q worst-northern-quake-mag-place.jq

jq
9USGS Earthquake Data

Datenmodell Tabular (CSV)

csv
10Python-Modul DB1 (Python 2.7)

Einfache Query-Library (PyQL und relationale Algebra) für Python 2.7. Einbindung in Python-Code via

from DB1 import Table

py
11Python-Modul DB1v3 (Python 3)

Einfache Query-Library (PyQL und relationale Algebra) für Python 3. Einbindung in Python-Code via

from DB1v3 import Table

  • Update (13. November, 21:40 Uhr): dump(‹file›) vermeidet extra Newlines unter Windows
  • Update (7. November, 22:59 Uhr): Methode dump(‹file›) wird jetzt unterstützt
  • Update (27. Oktober, 10:30 Uhr): CSV-Files werden im Encoding utf8 gelesen
py
12Stärke und Ort des schwersten Erdbebens auf der Nordhalbkugel

(PyQL-Query, liest CSV-File earthquakes.csv)

Usage (UNIX-Shell): python worst-northern-quake-mag-place.py

py
13Tabelle contains (LEGO Sets)

Datenmodell Tabular (CSV)

csv
14Tabelle bricks (LEGO Bausteine)

Datenmodell Tabular (CSV)

csv
15Tabelle minifigs (LEGO Minifiguren)

Datenmodell Tabular (CSV)

csv
16Gewicht des LEGO Set 5610

(PyQL-Query)

Usage (UNIX-Shell): python weight-of-set5610.py

py
17Gewicht des LEGO Set 5610 (Optimierung #1)

(PyQL-Query)

Optimierung basiert auf Regeln (constraints) der LEGO Mini-World: eindeutige Identifier in Tabellen bricks und minifigs sowie Disjunktheit beider Tabellen.

Usage (UNIX-Shell): python weight-of-set5610-key.py

py
18Gewicht des LEGO Set 5610 (Optimierung #2)

(PyQL-Query)

Optimierung basiert auf Konstruktion einer temporären Datenstruktur (Dictionary/partielle Funktion quantity).

Usage (UNIX-Shell): python weight-of-set5610-temp.py

py
19Gewicht des LEGO Set 5610 (Data Independence #1)

(PyQL-Query)

Einführung einer temporären Liste pieces als Vereinigung von bricks und minifigs.

Usage (UNIX-Shell): python weight-of-set5610-pieces-list.py

py
20Gewicht des LEGO Set 5610 (Data Independence #2)

(PyQL-Query)

Basiert auf einer neuen persistenten Tabelle pieces.csv, die in der UNIX-Shell durch folgendes Kommando konstruiert werden kann:

cut -f1-6 bricks.csv | last +2 | cat minifigs.csv - > pieces.csv

Usage (UNIX-Shell): python weight-of-set5610-pieces-table.py

py
21SQL DML Statements (Tabelle calendar)

(SQL-Skript)

Demonstration der SQL DML Kommandos INSERT, UPDATE und DELETE.

Usage (UNIX-Shell): psql -f calendar.sql

sql
22SQL Foreign Data Wrapper

(SQL-Skript)

Demonstration des PostgreSQL Foreign Data Wrappers (CSV-File wird in den Zustand einer Relation gespiegelt, read-only: Änderungen im CSV-File werden vom RDBMS übernommen, INSERT/UPDATE/DELETE-Kommandos sind auf die Relation nicht anwendbar).

Achtung: Im SQL-Skript muss der (absolute) Pfad zum CSV-File angepasst werden.

Usage (UNIX-Shell): psql -f fdw.sql

sql
23Kopie (Schema und Zustand) einer Tabelle erstellen

(SQL-Skript)

Kopiert erst Schema und dann Zustand einer existierenden Tabelle, benötigt lediglich je ein DDL- und DML-Statement.

Usage (UNIX-Shell): psql -f insert-query.sql

sql
24SQL DDL Statements zur Deklaration von Constraints

(SQL-Skript)

Reichert Tabelle calendar mit einer Reihe von Constraints an, um die Abbildung der Kalender-Miniwelt in die Datenbank zu verfeinern.

Usage (UNIX-Shell): psql -f calendar-constraints.sql

sql
25Kandidaten- und Primärschlüssel

(SQL-Skript)

Deklariert und lädt die Tabellen der LEGO-Miniwelt und fügt Kandidaten- sowie Primärschlüssel hinzu. NB: Einige SQL-Statements führen zu (erwarteten) Fehlern, siehe Kommentare.

Achtung: Im SQL-Skript müssen die (absoluten) Pfade zu den CSV-Files angepasst werden.

Usage (UNIX-Shell): psql -f keys.sql

sql
26Die SQL FROM-Klausel

(SQL-Skript)

Demonstriert, dass die Nennung von Subqueries in der FROM-Klausel reihenfolgeunabhängig ist.

Usage (UNIX-Shell): psql -f calendar-attendees.sql

sql
27Row-Types und Row-Values in SQL

(SQL-Skript)

Demonstriert das Konzept der row types und row values in SQL.

Usage (UNIX-Shell): psql -f row-types.sql

sql
28(Überflüssiges) DISTINCT in SQL

(SQL-Skript)

Demonstriert, das für einige Queries die Nennung von DISTINCT überflüssig sein kann, da ohnehin keine Duplikate erzeugt werden. Das RDBMS erkennt die meisten dieser Situationen nicht selbsttätig.

Usage (UNIX-Shell): psql -f distinct-vs-keys.sql

sql
29SQL: Equi-Joins, θ-Joins

(SQL-Skript)

Demonstriert die Formulierung von Equi- und allgemeiner θ-Joins (Theta-Joins), auch zwischen mehreren Tabellen (hier: 3-Way Join).

Usage (UNIX-Shell): psql -f who-is-busy-at-what-times.sql

sql
30SQL: Kompositionalität (Subqueries)

(SQL-Skript)

Demonstriert den Einsatz von Subqueries (⟨query⟩) in der Berechnung von Ausdrücken.

Usage (UNIX-Shell): psql -f compositional.sql

sql