Zur Modulseite PDF generieren

#40311 / #8

WiSe 2023/24 - WiSe 2023/24

English

SDS Scalable Data Science

6

Markl, Volker

Benotet

Portfolioprüfung

English

Zugehörigkeit


Fakultät IV

Institut für Softwaretechnik und Theoretische Informatik

34351500 FG Datenbanksysteme und Informationsmanagement (DIMA)

Keine Angabe

Kontakt


EN 7

Soto, Juan

sekr@dima.tu-berlin.de

Lernergebnisse

Recent advances in technology have led to rapid growth of big data. This led to the need for cost efficient and scalable analysis algorithms. In this course concepts for scalable analysis of big data sets will be presented and applied using open source technologies. Participants of this module will gain an in-depth understanding of concepts and methods as well as practical experience in the area of scalable data science. The course is principally designed to impart: technical skills (50%), method skills (30%), system skills (10%), and social skills (10%).

Lehrinhalte

The module will focus on mainstream distributed processing platforms and paradigms and learn how to employ these to solve challenging big data problems using popular data mining methods. Students will learn how to implement and employ varying data mining algorithms, such as Naïve Bayes, K-Means Clustering, and PageRank on varying open-source systems (e.g., Apache Hadoop, Apache Flink).

Modulbestandteile

Compulsory area

Die folgenden Veranstaltungen sind für das Modul obligatorisch:

LehrveranstaltungenArtNummerTurnusSpracheSWS ISIS VVZ
Advanced Information Management 3 (AIM-3) - Scalable Data Science: Systems und Methods (SDSSM)IV0434 L 472SoSeKeine Angabe4

Arbeitsaufwand und Leistungspunkte

Advanced Information Management 3 (AIM-3) - Scalable Data Science: Systems und Methods (SDSSM) (IV):

AufwandbeschreibungMultiplikatorStundenGesamt
Exercises/Practice15.04.0h60.0h
Plenary sessions15.04.0h60.0h
Preparation & Consolidation (incl. literature studies)15.04.0h60.0h
180.0h(~6 LP)
Der Aufwand des Moduls summiert sich zu 180.0 Stunden. Damit umfasst das Modul 6 Leistungspunkte.

Beschreibung der Lehr- und Lernformen

This Integrated Course (Integrierte Veranstaltung, IV) consists of: (i) lectures on key concepts, (ii) practical theoretical & programming exercises, and (iii) student lead presentations (including literature search). Active participation and contributions to all parts of this course are essential.

Voraussetzungen für die Teilnahme / Prüfung

Wünschenswerte Voraussetzungen für die Teilnahme an den Lehrveranstaltungen:

Desirable prerequisite knowledge and skills include: (a) computer science topics addressed in TU Berlin modules in the Bachelor’s (e.g., Information Systems and Data Analysis database course or the equivalent), (b) excellent Java and SQL programming skills, (c) basic knowledge in linear algebra, numerical analysis, probability, and statistics, (d) already completed (or are currently enrolled in) a machine-learning course, (e) strong English language skills.

Verpflichtende Voraussetzungen für die Modulprüfungsanmeldung:

Dieses Modul hat keine Prüfungsvoraussetzungen.

Abschluss des Moduls

Benotung

Benotet

Prüfungsform

Portfolio examination

Art der Portfolioprüfung

100 Punkte insgesamt

Sprache(n)

English

Prüfungselemente

NamePunkteKategorieDauer/Umfang
(Deliverable assessment) Homework30schriftlich30 hours / 20 pages
(Deliverable assessment) In-class presentations20mündlich40 min. / about 35 slides
(Examination) Written test50schriftlich60 min

Notenschlüssel

Notenschlüssel »Notenschlüssel 2: Fak IV (2)«

Gesamtpunktzahl1.01.31.72.02.32.73.03.33.74.0
100.0pt95.0pt90.0pt85.0pt80.0pt75.0pt70.0pt65.0pt60.0pt55.0pt50.0pt

Prüfungsbeschreibung (Abschluss des Moduls)

The portfolio exam (worth 100 points) is comprised of three parts, namely: (i) written homework (30 points), (ii) in-class presentations (20 portfolio points), and (iii) a written exam (50 portfolio points). The final grade according to § 68 (2) AllgStuPO will be calculated with the faculty grading table 2. (Die Gesamtnote gemäß § 68 (2) AllgStuPO wird nach dem Notenschlüssel 2 der Fakultät IV ermittelt.)

Dauer des Moduls

Für Belegung und Abschluss des Moduls ist folgende Semesteranzahl veranschlagt:
1 Semester.

Dieses Modul kann in folgenden Semestern begonnen werden:
Sommersemester.

Maximale teilnehmende Personen

Die maximale Teilnehmerzahl beträgt 30.

Anmeldeformalitäten

Students are required to register for the course in the official TUB examination system within six weeks after commencement of the first lecture or when the first graded assignment is due, whichever happens to be first

Literaturhinweise, Skripte

Skript in Papierform

Verfügbarkeit:  nicht verfügbar

 

Skript in elektronischer Form

Verfügbarkeit:  verfügbar
Zusätzliche Informationen:

 

Literatur

Empfohlene Literatur
Hadoop: The Definitive Guide (4th Edition), Tom White, O’Reilly Media, 2015.
Mining of Massive Datasets (3rd Edition), J. Leskovec, A. Rajaraman, and J. Ullman, Cambridge 2019. http://mmds.org/.
Stream Processing with Apache Flink, Fabian Hueske and Vasiliki Kalavri, O’Reilly Press, 2019
Supplementary reading material may be assigned to complement course lectures.

Zugeordnete Studiengänge


Diese Modulversion wird in folgenden Studiengängen verwendet:

Studiengang / StuPOStuPOsVerwendungenErste VerwendungLetzte Verwendung
Dieses Modul findet in keinem Studiengang Verwendung.
This course targets Master’s students focused on Database Systems and Information Management in Computer Science (Major: System Engineering), Information Systems Management, Computer Engineering (Major: Information Systems & Software Engineering), and Industrial Engineering. In addition, this course is a compulsory elective for ICT Innovation (i.e. EIT Data Science) students. Master’s students in other academic programs may also enroll in this course subject to space availability. Wahlpflichtmodul im Masterstudiengang Informatik/Studienschwerpunkt System Engineering, Technische Informatik/Studienschwerpunkte Informationssysteme & Software Engineering und im Masterstudiengang Wirtschaftsingenieurswesen (Studiengang IuK). Wahlpflichtmodul ICT Innovation (z.B. EIT Data Science) Je nach Verfügbarleit der Plätze können auch Studierende anderer Fachrichtungen als Wahlpflicht das Modul belegen.

Sonstiges

No information