62527 Big data

2016/2017

Informatik(100)
Sundhedsteknologi: valgfag
IT Ballerup: valgfag
Kursusinformation
Big Data
Dansk
5
Diplomingeniør
Efterår
Forår
Afholdes torsdage kl 17-20.30
Campus Ballerup
Forelæsninger og projektarbejde
13-uger
Aftales med underviser
Mundtlig eksamen og bedømmelse af opgave(r)
7-trins skala , ekstern censur
62T33
Du skal have kendskab til programmering, og ønske om at lære mere programmering. I kurset introduceres R, Java og scripting. Egen PC (med Mac, Windows eller Linux) medbringes. Afhængig af dine datas størrelse må du regne med at afsætte midler til lagring og behandling af disse.
Minimum 6 Maksimum: 15
John Aasted Sørensen , Ballerup Campus, Bygning Ballerup, Tlf. (+45) 3588 5235 , jaas@dtu.dk

62 DTU Diplom
I studieplanlæggeren

Kurset gives i samarbejde mellem Jacob Norfalk (50%) og John Aa. Sørensen (50%).
Dette kursus giver den studerende en mulighed for at lave eller forberede et projekt som kan deltage i DTUs studenterkonference om bæredygtighed, klimateknologi og miljø (GRØN DYST). Se mere på http://www.groendyst.dtu.dk
Overordnede kursusmål
Systematisk indsamling, oprensning, lagring og analyse af data, og rapportering og evnen til at reagere og handle på baggrund af dem - har potentialet til at transformere forretningen i mange virksomheder.

Klassiske discipliner som data mining og data warehousing baserer sig på fast definerede dataformater og databaseskemaer, som ikke rækker når datamængderne bliver meget omfattende, heterogene, inkonsistente og med varierende informationer.

Her skal man videre end de relationelle databaser rækker. Big Data lagres typisk distribueret og replikeret i en NoSQL-database (Not only SQL) på et cluster af maskiner styret af Hadoop, i skyen eller på egne servere.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Forståelse for datasæt i multidimensionale rum
  • Forståelse for outliers og klassifikation
  • Anvende R til databehandling og analyse
  • Anvende R til visualisering
  • Anvende dataklassifikation og machine learning
  • Forstå data- og kommandostrukturen i et Big Data-miljø og konfigurere det
  • Anvende nødvendige administrationsværktøjer i et Unix-miljø med Hadoop
  • Anvende Map-Reduce-algoritmen og tilhørende værktøjer
Kursusindhold
Se ovenfor.
Sidst opdateret
28. oktober, 2016