Systematisk indsamling, oprensning, lagring og analyse af data, og
rapportering og evnen til at reagere og handle på baggrund af dem -
har potentialet til at transformere forretningen i mange
virksomheder.
Klassiske discipliner som data mining og data warehousing baserer
sig på fast definerede dataformater og databaseskemaer, som ikke
rækker når datamængderne bliver meget omfattende, heterogene,
inkonsistente og med varierende informationer.
Her skal man videre end de relationelle databaser rækker. Big Data
lagres typisk distribueret og replikeret i en NoSQL-database (Not
only SQL) på et cluster af maskiner styret af Hadoop, i skyen eller
på egne servere.
Læringsmål:
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
Forståelse for datasæt i multidimensionale rum
Forståelse for outliers og klassifikation
Anvende R til databehandling og analyse
Anvende R til visualisering
Anvende dataklassifikation og machine learning
Forstå data- og kommandostrukturen i et Big Data-miljø og
konfigurere det
Anvende nødvendige administrationsværktøjer i et Unux-miljø med
Hadoop
Anvende Map-Reduce-algoritmen og tilhørende
værktøjer
Kursusindhold:
Se ovenfor.
Mulighed for GRØN DYST deltagelse:
Dette kursus giver den studerende en mulighed for at lave eller
forberede et projekt som kan deltage i DTUs studenterkonference om
bæredygtighed, klimateknologi og miljø (GRØN DYST). Se mere på
http://www.groendyst.dtu.dk