Navigation Zur Modulseite
xml-Export XML generieren
Anzeigesprache
Debug Infos

Advanced Information Management 3 - Scalable Data Analysis and Data Mining

6 LP

Deutsch

#40311 / #2

WS 2014/15 - SS 2015

Fakultät IV

EN 7

Institut für Softwaretechnik und Theoretische Informatik

34351500 FG Datenbanksysteme und Informationsmanagement

Markl, Volker

Kutsche, Ralf-Detlef

sekr@dima.cs.tu-berlin.de

Keine Angabe

POS-Nummer PORD-Nummer Modultitel
62950 27675 Advanced Information Management 3 - Scalable Data Analysis and Data Mining

Lernergebnisse

Recent advances in technology have led to rapid growth of big data. This led to the need for cost efficient and scalable analysis algorithms. In this course concepts for scalable analysis of big data sets will be presented and applied using open source technologies. Participants of this module will gain an in-depth understanding of concepts and methods as well as practical experience in the area of scalable data analysis and data mining. The course is principally designed to impart: technical skills 50% method skills 30% system skills 10% social skills10%

Lehrinhalte

The focus is of this module is to get familiar with different parallel processing platforms and paradigms and to understand their feasibility for different kinds of data mining problems. For that students will learn how to adapt popular data mining and standard machine learning algorithms such as: Naïve Bayes, K-Means clustering or PageRank to scalable processing paradigms. And subsequently gain practical experience in how to implement them on parallel processing platforms such as Apache Hadoop, Stratosphere and Apache Giraph.

Modulbestandteile

Pflichtteil:

Die folgenden Veranstaltungen sind für das Modul obligatorisch:

Lehrveranstaltungen Art Nummer Turnus Sprache SWS
Advanced Information Management 3 - Scalable Data Analytics and Data Mining IV 0434 L 472 SS Keine Angabe 4

Arbeitsaufwand und Leistungspunkte

Advanced Information Management 3 - Scalable Data Analytics and Data Mining (IV):

Aufwandbeschreibung Multiplikator Stunden Gesamt
Exercises / practice 15.0 2.0h 30.0h
Plenary sessions 15.0 4.0h 60.0h
Preparation & Consolidation (incl. literature studies) 15.0 2.0h 30.0h
Project Work 15.0 4.0h 60.0h
180.0h(~6 LP)
Der Aufwand des Moduls summiert sich zu 180.0 Stunden. Damit umfasst das Modul 6 Leistungspunkte.

Beschreibung der Lehr- und Lernformen

This „integrated course“(Integrierte Veranstaltung, IV) consists of lectures on key concepts and exercise sessions with smaller and larger exercises, particularly one complex task, to be fulfilled in team work. This includes elaborating one of the key topics with own literature work, giving a short presentation and developing an implementation. Active contribution to all parts of the course is essential, as there will be a final presentation of the complex exercise by all members of the course.

Voraussetzungen für die Teilnahme / Prüfung

Wünschenswerte Voraussetzungen für die Teilnahme an den Lehrveranstaltungen:

Prerequisites: The material covered in the basic modules MPGI 1-5 in the Bachelor Curriculum in Computer Sciences/ TU Berlin, MPGI5 (“Datenbanksysteme”) as well as good Java programming skills are required. A basic understanding of Probability and Statistics as well as Linear Algebra is helpful. The AIM-3 / SDADM course will be given in English language, thus fluency in English is required!

Verpflichtende Voraussetzungen für die Modulprüfungsanmeldung:

Keine Angabe

Abschluss des Moduls

Benotung:

benotet

Prüfungsform:

Portfolioprüfung

Sprache:

Deutsch

Art der Portfolioprüfung

Keine Angabe

Prüfungselemente

Name Kategorie Dauer/Umfang
oral feedback session 30 Keine Angabe
protocolled project work 50 Keine Angabe
written homework 20 Keine Angabe

Notenschlüssel

Kein Notenschlüssel angegeben

Prüfungsbeschreibung (Abschluss des Moduls)

Prüfungsform ist die Portfolioprüfung. Insgesamt können 100 Portfoliopunkte erreicht werden: - Schriftliche Ausarbeitung (Hausaufgabe) (20 Portfoliopunkte) - Protokollierte Praktische Leistung (Projektaufgabe) (50 Portfoliopunkte) - Mündliche Rücksprache (30 Portfoliopunkte) Die Gesamtnote gemäß § 47 (2) AllgStuPO wird nach dem Notenschlüssel 2 der Fakultät IV ermittelt. -- The exam will be done as a 'portfolio exam', consisting of three portfolio parts, and totaling for 100 portfolio points: - written homework (20 portfolio points) - protocolled practical project work (50 portfolio points) - oral feedback session (30 portfolio points) The final grade will be computed according to the grading table 2 of faculty IV, according to German law, § 47 (2) AllgStuPO TU Berlin.

Dauer des Moduls

Dieses Modul kann in einem Semester abgeschlossen werden.

Maximale teilnehmende Personen

Die maximale Teilnehmerzahl beträgt 30.

Anmeldeformalitäten

Students are required to register via the DIMA course registration tool before the start of the first lecture (http://www.dima.tu-berlin.de/). Within the first six weeks after commencement of the lecture, students will have to register for the course at QISPOS (university examination protocol tool) and ISIS (course organization tool) in addition to the registration at the DIMA course registration tool.

Literaturhinweise, Skripte

Skript in Papierform

Verfügbarkeit:  nicht verfügbar

Skript in elektronischer Form

Verfügbarkeit:  verfügbar
Zusätzliche Informationen:
http://www.dima.tu-berlin.de

Literatur

Empfohlene Literatur
Ian H. Witten, Eibe Frank: Data Mining: Practical Machine Learning Tools and Techniques.
Anand Rajaraman, Jeffrey David Ullman : Mining of Massive Datasets (Free Online: http://infolab.stanford.edu/~ullman/mmds/book.pdf)
Tom White: Hadoop: The Definitive Guide von Tom White

Zugeordnete Studiengänge

Zurzeit wird die Datenstruktur umgestellt. Aus technischen Gründen wird die Verwendung des Moduls während des Umstellungsprozesses in zwei Listen angezeigt.

Dieses Modul wird auf folgenden Modullisten verwendet:

open for the remaining diploma students in the mentioned areas.

Dieses Modul wird in folgenden Studiengängen verwendet:

    open for the remaining diploma students in the mentioned areas.

    Sonstiges

    Since 2014, this module is offered each summer and winter term. For each topic during this course additional research papers and reports will be used.