Zur Modulseite PDF generieren

#40791 / #1

WS 2016/17 - WS 2016/17

English

The 800-pound Gorilla in the corner: Data Integration
The 800-pound Gorilla in the corner: Informationsintegration

6

Abedjan, Ziawasch

Benotet

Mündliche Prüfung

English

Zugehörigkeit


Fakultät IV

Institut für Softwaretechnik und Theoretische Informatik

34352300 FG Big Data Management (Juniorprof.)

Keine Angabe

Kontakt


EN 7

Abedjan, Ziawasch

sekr@bigdama.tu-berlin.de

Lernergebnisse

“Data integration is the 800-pound gorilla in the corner, and everyone’s got it in spades,” according to Mike Stonebraker, MIT professor and Turing Award Laureate. The most challenging and time-consuming task of data scientists in the era of Big Data is to consolidate data from different sources, overcoming dirty data, heterogeneity in data representations, and incompleteness of data. In this course, we will surface the entire pipeline of an information integration workflow, by learning about existing integration architectures, algorithms in data cleansing, schema matching, and data fusion. Furthermore, we will discuss state-of-the-art systems and prominent use cases of information integration techniques.

Lehrinhalte

The course has the following main topics: - Distribution and autonomy - Foundations of data integration - String Matching - Schema matching/mapping - Global-as-View and Lokal-as-View modelling - Data cleansing - Duplicate detection - Data quality - Hidden Web

Modulbestandteile

Compulsory area

Die folgenden Veranstaltungen sind für das Modul obligatorisch:

LehrveranstaltungenArtNummerTurnusSpracheSWS ISIS VVZ
Data IntegrationIV4523 L 08957WiSe/SoSeKeine Angabe4

Arbeitsaufwand und Leistungspunkte

Data Integration (IV):

AufwandbeschreibungMultiplikatorStundenGesamt
Ausarbeitung15.02.0h30.0h
Präsenz15.04.0h60.0h
Übungsaufgaben/Praxisteil (Fallbeispiel)15.02.0h30.0h
Vor- und Nachbearbeitung (inkl. Lesen der Primärliteratur und eigenem Vortrag)15.04.0h60.0h
180.0h(~6 LP)
Der Aufwand des Moduls summiert sich zu 180.0 Stunden. Damit umfasst das Modul 6 Leistungspunkte.

Beschreibung der Lehr- und Lernformen

Vorlesung und Übung

Voraussetzungen für die Teilnahme / Prüfung

Wünschenswerte Voraussetzungen für die Teilnahme an den Lehrveranstaltungen:

Die Voraussetzungen sind das abgeschlossene Bachelorstudium und Grundkenntnisse im Bereich des Datenbankmanagements und Grundkenntnisse in mindestens einer modernen Programmier- oder Skriptsprache.

Verpflichtende Voraussetzungen für die Modulprüfungsanmeldung:

Dieses Modul hat keine Prüfungsvoraussetzungen.

Abschluss des Moduls

Benotung

Benotet

Prüfungsform

Oral exam

Sprache(n)

English

Dauer/Umfang

Keine Angabe

Dauer des Moduls

Für Belegung und Abschluss des Moduls ist folgende Semesteranzahl veranschlagt:
1 Semester.

Dieses Modul kann in folgenden Semestern begonnen werden:
Winter- und Sommersemester.

Maximale teilnehmende Personen

Dieses Modul ist nicht auf eine Anzahl Studierender begrenzt.

Anmeldeformalitäten

Alle Teilnehmer/innen müssen sich vor dem ersten Lehrveranstaltungstermin mit dem Anmeldetool auf den BigDaMa-Webseiten (http://www.bigdama.tu-berlin.de/) für dieses Modul bei BigDaMa anmelden. Beachten Sie bitte unbedingt alle Regelungen Ihres Studienganges! Die Anmeldung zur Prüfung erfolgt über ein elektronisches Prüfungsanmeldesystem.

Literaturhinweise, Skripte

Skript in Papierform

Verfügbarkeit:  nicht verfügbar

 

Skript in elektronischer Form

Verfügbarkeit:  nicht verfügbar

 

Literatur

Empfohlene Literatur
Principles of Data Integration. Anhai Doan, Alon Halevy, Zachary Ives. Morgan Kaufmann, 1st edition (2012), 520 pages Ulf Leser and Felix Naumann: Informationsintegration, dpunkt Verlag, 2006.

Zugeordnete Studiengänge


Diese Modulversion wird in folgenden Studiengängen verwendet:

Studiengang / StuPOStuPOsVerwendungenErste VerwendungLetzte Verwendung
Dieses Modul findet in keinem Studiengang Verwendung.

Studierende anderer Studiengänge können dieses Modul ohne Kapazitätsprüfung belegen.

Sonstiges

Keine Angabe