Zur Modulseite PDF generieren

#40791 / #1

WS 2016/17 - WS 2016/17

Englisch

The 800-pound Gorilla in the corner: Data Integration
The 800-pound Gorilla in the corner: Informationsintegration

6

Abedjan, Ziawasch

Benotet

Mündliche Prüfung

Englisch

Zugehörigkeit


Fakultät IV

Institut für Softwaretechnik und Theoretische Informatik

34352300 FG Big Data Management (Juniorprof.)

Keine Angabe

Kontakt


EN 7

Abedjan, Ziawasch

sekr@bigdama.tu-berlin.de

Lernergebnisse

“Data integration is the 800-pound gorilla in the corner, and everyone’s got it in spades,” sagt Turing Laureat Prof. Mike Stonebraker. Zweifelsohne wird die Konsolidierung von heterogenen und widersprüchlichen Datenquellen auch in der Ära von Big Data als eines der schwierigsten und zeitaufwendigsten Aufgaben eines Data Scientists angesehen. Herausforderungen sind hierbei der Umgang mit schmutzigen Daten, unterschiedliche Repräsentationen von gleicher Information und Unvollständigkeit von Datenquellen. In dieser Vorlesung werden wir die komplette Pipeline eines Informationsintegrationsarbeitsablaufs kennen lernen. Hierzu diskutieren wir relevante Informationsintegrationsarchitekturen und Algorithmen in Datenreinigung, Schematransformation und Datenfusion. Zusätzlich werden moderne Systeme und aktuelle Anwendungsbeispiele von Informationsintegration beleuchten.

Lehrinhalte

Wir folgen dem nachstehenden Themenkatalog: - Verteilung und Autonomie - Basiskonzepte von Datenintegration - String Matching - Schemaintegration - Global-as-View und Lokal-as-View Modellierung - Datenreinigung - Duplikatenerkennung - Informationsqualitaet - Hidden Web

Modulbestandteile

Pflichtbereich

Die folgenden Veranstaltungen sind für das Modul obligatorisch:

LehrveranstaltungenArtNummerTurnusSpracheSWS ISIS VVZ
Data IntegrationIV4523 L 08957WiSe/SoSeKeine Angabe4

Arbeitsaufwand und Leistungspunkte

Data Integration (IV):

AufwandbeschreibungMultiplikatorStundenGesamt
Ausarbeitung15.02.0h30.0h
Präsenz15.04.0h60.0h
Übungsaufgaben/Praxisteil (Fallbeispiel)15.02.0h30.0h
Vor- und Nachbearbeitung (inkl. Lesen der Primärliteratur und eigenem Vortrag)15.04.0h60.0h
180.0h(~6 LP)
Der Aufwand des Moduls summiert sich zu 180.0 Stunden. Damit umfasst das Modul 6 Leistungspunkte.

Beschreibung der Lehr- und Lernformen

Keine Angabe

Voraussetzungen für die Teilnahme / Prüfung

Wünschenswerte Voraussetzungen für die Teilnahme an den Lehrveranstaltungen:

Keine Angabe

Verpflichtende Voraussetzungen für die Modulprüfungsanmeldung:

Dieses Modul hat keine Prüfungsvoraussetzungen.

Abschluss des Moduls

Benotung

Benotet

Prüfungsform

Mündliche Prüfung

Sprache(n)

Englisch

Dauer/Umfang

Keine Angabe

Dauer des Moduls

Für Belegung und Abschluss des Moduls ist folgende Semesteranzahl veranschlagt:
1 Semester.

Dieses Modul kann in folgenden Semestern begonnen werden:
Winter- und Sommersemester.

Maximale teilnehmende Personen

Dieses Modul ist nicht auf eine Anzahl Studierender begrenzt.

Anmeldeformalitäten

Keine Angabe

Literaturhinweise, Skripte

Skript in Papierform

Verfügbarkeit:  nicht verfügbar

 

Skript in elektronischer Form

Verfügbarkeit:  nicht verfügbar

 

Literatur

Empfohlene Literatur
Principles of Data Integration. Anhai Doan, Alon Halevy, Zachary Ives. Morgan Kaufmann, 1st edition (2012), 520 pages Ulf Leser and Felix Naumann: Informationsintegration, dpunkt Verlag, 2006.

Zugeordnete Studiengänge


Diese Modulversion wird in folgenden Studiengängen verwendet:

Studiengang / StuPOStuPOsVerwendungenErste VerwendungLetzte Verwendung
Dieses Modul findet in keinem Studiengang Verwendung.

Studierende anderer Studiengänge können dieses Modul ohne Kapazitätsprüfung belegen.

Sonstiges

Keine Angabe