62527 Big data

2020/2021

El-teknologi og IT ([100])
Sundhedsteknologi: valgfag
IT Ballerup: valgfag
IT-elektronik:valgfag
Softwareteknologi:valgfag
ITØ:valgfag
Kursusinformation
Big Data
Dansk
5
Diplomingeniør
Kurset udbydes som enkeltfag
Efterår og Forår
Afholdes over 14 aftener.
Efterår 2020: mandage kl. 17-20.30.
Forår 2021: torsdage kl 17-20.30.
Campus Ballerup
Forelæsninger og projektarbejde
[Kurset følger ikke DTUs normale skemastruktur]
Aftales med underviser, Eksamen er i juni og januar uden for den normale eksamensperiode for 13-ugerskurser. Se cv.diplom.dtu.dk
Mundtlig eksamen og bedømmelse af opgave(r)
7-trins skala , ekstern censur
62T33
Du skal have kendskab til programmering, og ønske om at lære mere programmering. I kurset introduceres R/Python. Egen PC (med Mac, Windows eller Linux) medbringes. Afhængig af dine datas størrelse må du regne med at afsætte midler til lagring og behandling af disse.
Minimum 6 Maksimum: 15
John Aasted Sørensen , Ballerup Campus, Bygning Ballerup , jaas@dtu.dk
62 Institut for Ingeniørteknologi og -didaktik
http://www.cv.diplom.dtu.dk/Diplom...nelsen/Big-Data
I studieplanlæggeren
Dette kursus giver den studerende en mulighed for at lave eller forberede et projekt som kan deltage i DTUs studenterkonference om bæredygtighed, klimateknologi og miljø (GRØN DYST). Se mere på http://www.groendyst.dtu.dk
Overordnede kursusmål
Systematisk indsamling, oprensning, lagring og analyse af data, og rapportering og evnen til at reagere og handle på baggrund af dem - har potentialet til at transformere forretningen i mange virksomheder.

Klassiske discipliner som data mining og data warehousing baserer sig på fast definerede dataformater og databaseskemaer, som ikke rækker når datamængderne bliver meget omfattende, heterogene, inkonsistente og med varierende informationer.

Her skal man videre end de relationelle databaser rækker. Big Data lagres typisk distribueret og replikeret på et cluster af maskiner styret af Hadoop, i skyen eller på egne servere.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Forståelse for datasæt i multidimensionale rum
  • Forståelse for outliers og klassifikation
  • Anvende R/Python til databehandling og analyse
  • Anvende R/Python til visualisering
  • Anvende dataklassifikation og machine learning
  • Forstå data- og kommandostrukturen i et Big Data-miljø og konfigurere det
  • Anvende nødvendige administrationsværktøjer i et Unix-miljø
  • Anvende Map-Reduce-algoritmen og tilhørende værktøjer
Kursusindhold
Datasæt i multidimensionale rum, data outliers og data klassifikation; anvendelse af R/Python til data visualisering, analyse, klyngeanalyse, klassifikation og machine learning.
Håndtering af store datamængder og beregninger på dem; skalering, Spark og Map-Reduce anvendelse i et big data miljø.
Bemærkninger
Kurset gives i samarbejde mellem Jacob Nordfalk og John Aa. Sørensen.
Sidst opdateret
05. maj, 2020