Zur Modulseite PDF generieren

#41213 / #2

Seit WiSe 2024/25

English, German

Data Integration: Algorithms and Systems

6

Abedjan, Ziawasch

Benotet

Mündliche Prüfung

English

Zugehörigkeit


Fakultät IV

Institut für Softwaretechnik und Theoretische Informatik

34353400 FG Data Integration and Data Preparation

Keine Angabe

Kontakt


TEL 11

Abedjan, Ziawasch

abedjan@tu-berlin.de

Lernergebnisse

“Data integration is the 800-pound gorilla in the corner, and everyone’s got it in spades,” according to Mike Stonebraker, MIT professor and Turing Award Laureate. The most challenging and time-consuming task of data scientists in the era of Big Data is to consolidate data from different sources, overcoming dirty data, heterogeneity in data representations, and incompleteness of data. In this course, we will surface the entire pipeline of an information integration workflow, by learning about existing integration architectures, algorithms in data cleansing, schema matching, and data fusion. Furthermore, we will discuss state-of-the-art systems and prominent use cases of information integration techniques.

Lehrinhalte

The course has the following main topics: -Distribution and autonomy -Foundations of data integration - Architectures (data warehouses, federated databases) -String Matching -Schema matching/mapping - Global-as-View and Lokal-as-View modelling -Data cleansing -Duplicate detection -Data quality -Data Profiing

Modulbestandteile

Compulsory area

Die folgenden Veranstaltungen sind für das Modul obligatorisch:

LehrveranstaltungenArtNummerTurnusSpracheSWS ISIS VVZ
Data Integration: Algorithms and SystemsTUTWiSeen1
Data Integration: Algorithms and SystemsVLWiSeen3

Arbeitsaufwand und Leistungspunkte

Data Integration: Algorithms and Systems (TUT):

AufwandbeschreibungMultiplikatorStundenGesamt
Attendance15.01.0h15.0h
Pre/post processing15.03.0h45.0h
60.0h(~2 LP)

Data Integration: Algorithms and Systems (VL):

AufwandbeschreibungMultiplikatorStundenGesamt
Attendance1.02.0h2.0h
Exam15.03.0h45.0h
Pre/post processing15.03.0h45.0h
92.0h(~4 LP)
Der Aufwand des Moduls summiert sich zu 152.0 Stunden. Damit umfasst das Modul 6 Leistungspunkte.

Beschreibung der Lehr- und Lernformen

Lecture and Labs

Voraussetzungen für die Teilnahme / Prüfung

Wünschenswerte Voraussetzungen für die Teilnahme an den Lehrveranstaltungen:

Having successfully attended database classes, such as ISDA at TU Berlin and basic courses on machine learning or data science.

Verpflichtende Voraussetzungen für die Modulprüfungsanmeldung:

Voraussetzung
Leistungsnachweis »[D2IP] Passing the exercise«

Abschluss des Moduls

Benotung

Benotet

Prüfungsform

Oral exam

Sprache(n)

English, German

Dauer/Umfang

20 Minuten

Dauer des Moduls

Für Belegung und Abschluss des Moduls ist folgende Semesteranzahl veranschlagt:
1 Semester.

Dieses Modul kann in folgenden Semestern begonnen werden:
Wintersemester.

Maximale teilnehmende Personen

Die maximale Teilnehmerzahl beträgt 60.

Anmeldeformalitäten

Registration modality will be announced on ISIS

Literaturhinweise, Skripte

Skript in Papierform

Verfügbarkeit:  nicht verfügbar

 

Skript in elektronischer Form

Verfügbarkeit:  nicht verfügbar

 

Literatur

Empfohlene Literatur
https://www.assets.dpunkt.de/openbooks/informationsintegration.pdf
https://www.sciencedirect.com/book/9780124160446/principles-of-data-integration

Zugeordnete Studiengänge


Diese Modulversion wird in folgenden Studiengängen verwendet:

Studiengang / StuPOStuPOsVerwendungenErste VerwendungLetzte Verwendung
Computer Engineering (M. Sc.)18WiSe 2024/25SoSe 2025
Computer Science (Informatik) (M. Sc.)110WiSe 2024/25SoSe 2025
Elektrotechnik (M. Sc.)16WiSe 2024/25SoSe 2025
Information Systems Management (Wirtschaftsinformatik) (M. Sc.)16WiSe 2024/25SoSe 2025
Wirtschaftsingenieurwesen (M. Sc.)12WiSe 2024/25SoSe 2025

Sonstiges

Keine Angabe