Zur Modulseite PDF generieren

#41112 / #1

Seit WiSe 2023/24

English

Data Integration and Large-scale Analysis

6

Böhm, Matthias

Benotet

Schriftliche Prüfung

English

Zugehörigkeit


Fakultät IV

Institut für Softwaretechnik und Theoretische Informatik

34352900 FG Big Data Engineering

Keine Angabe

Kontakt


Keine Angabe

Böhm, Matthias

matthias.boehm@tu-berlin.de

Keine Angabe

Lernergebnisse

Common data and system characteristics include heterogeneous data sources and formats, often in different representations and with data quality issues (which require integration and cleaning), as well as large data collections (which require distributed data storage and analysis). Accordingly, the goals of this module are to convey a basic understanding and practical applicability of O1 Major data integration architectures O2 Key techniques for data integration and cleaning O3 Methods for large-scale data storage and analysis

Lehrinhalte

This course covers major data integration architectures, key techniques for data integration and cleaning, as well as methods for large-scale, i.e., distributed, data storage and analysis. In detail, the module covers the following topics which also reflect the lecture calendar (with a separate 90-120min lecture per topic): A: Data Integration and Preparation 01 Introduction and Overview 02 Data Warehousing, ETL, and SQL/OLAP 03 Message-oriented Middleware, EAI, and Replication 04 Schema Matching and Mapping 05 Entity Linking and Deduplication 06 Data Cleaning and Data Fusion 07 Data Provenance (and Blockchain) B: Large-Scale Data Management and Analysis 08 Cloud Computing Fundamentals 09 Cloud Resource Management and Scheduling 10 Distributed Data Storage 11 Distributed, Data-Parallel Computation 12 Distributed Stream Processing 13 Distributed Machine Learning Systems The module contains both lectures and exercises/programming projects which are offered as separate courses in order to increase flexibility.

Modulbestandteile

Compulsory area

Die folgenden Veranstaltungen sind für das Modul obligatorisch:

LehrveranstaltungenArtNummerTurnusSpracheSWS ISIS VVZ
Data Integration and Large-scale AnalysisVL41112WiSeen3
Data Integration and Large-scale AnalysisUE41112WiSeen2

Arbeitsaufwand und Leistungspunkte

Data Integration and Large-scale Analysis (VL):

AufwandbeschreibungMultiplikatorStundenGesamt
Attendance Lectures15.03.0h45.0h
Pre/post-processing Lectures15.01.0h15.0h
Exam Preparation1.030.0h30.0h
90.0h(~3 LP)

Data Integration and Large-scale Analysis (UE):

AufwandbeschreibungMultiplikatorStundenGesamt
Attendance Discussion Rounds3.02.0h6.0h
Exercise Prototype Implementation1.084.0h84.0h
90.0h(~3 LP)
Der Aufwand des Moduls summiert sich zu 180.0 Stunden. Damit umfasst das Modul 6 Leistungspunkte.

Beschreibung der Lehr- und Lernformen

This module combines traditional lectures (on data integration and large-scale data engineering and analysis), supporting examples of open source systems, as well as practical exercises/projects on related topics. For the practical part, teams of 1-3 students can pick one of two alternatives: a) Contribution of a unique feature to an open-source data-centric ML system (from a list of project proposals), or b) Alternative exercise on large-scale data analysis pipelines using Apache Spark

Voraussetzungen für die Teilnahme / Prüfung

Wünschenswerte Voraussetzungen für die Teilnahme an den Lehrveranstaltungen:

Completed basic courses on applied machine learning, data management, and distributed systems

Verpflichtende Voraussetzungen für die Modulprüfungsanmeldung:

Voraussetzung
Leistungsnachweis »[DIA] Programming Project«

Abschluss des Moduls

Benotung

Benotet

Prüfungsform

Written exam

Sprache(n)

English

Dauer/Umfang

90

Dauer des Moduls

Für Belegung und Abschluss des Moduls ist folgende Semesteranzahl veranschlagt:
1 Semester.

Dieses Modul kann in folgenden Semestern begonnen werden:
Wintersemester.

Maximale teilnehmende Personen

Dieses Modul ist nicht auf eine Anzahl Studierender begrenzt.

Anmeldeformalitäten

Registration in ISIS and exercise/project selection within the first 4 weeks of the semester.

Literaturhinweise, Skripte

Skript in Papierform

Verfügbarkeit:  nicht verfügbar

 

Skript in elektronischer Form

Verfügbarkeit:  verfügbar
Zusätzliche Informationen:

 

Literatur

Empfohlene Literatur
Keine empfohlene Literatur angegeben

Zugeordnete Studiengänge


Diese Modulversion wird in folgenden Studiengängen verwendet:

Studiengang / StuPOStuPOsVerwendungenErste VerwendungLetzte Verwendung
Computer Engineering (M. Sc.)120WiSe 2023/24SoSe 2025
Computer Science (Informatik) (M. Sc.)124WiSe 2023/24SoSe 2025
Elektrotechnik (M. Sc.)112WiSe 2023/24SoSe 2025
Informatik (B. Sc.)14WiSe 2023/24SoSe 2025
Information Systems Management (Wirtschaftsinformatik) (M. Sc.)110WiSe 2023/24SoSe 2025
Technische Informatik (B. Sc.)14WiSe 2023/24SoSe 2025
Wirtschaftsinformatik (B. Sc.)28WiSe 2023/24SoSe 2025

Sonstiges

Keine Angabe