Systematisk indsamling, oprensning, lagring og analyse af data, og
rapportering og evnen til at reagere og handle på baggrund af dem -
har potentialet til at transformere forretningen i mange
virksomheder.
Klassiske discipliner som data mining og data warehousing baserer
sig på fast definerede dataformater og databaseskemaer, som ikke
rækker når datamængderne bliver meget omfattende, heterogene,
inkonsistente og med varierende informationer.
Her skal man videre end de relationelle databaser rækker. Big Data
lagres typisk distribueret og replikeret i en NoSQL-database (Not
only SQL) på et cluster af maskiner styret af Hadoop, i skyen eller
på egne servere.
Læringsmål:
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
Forståelse for datasæt i multidimentionale rum
Forståelse for outliers og klassifikation
Anvende R til databehandling og analyse
Anvende R til visualisering
Anvende dataklassifikation og machine learning
Forstå data- og kommandostrukturen i et Big Data-miljø og
konfigurere det
Anvende nødvendige administrationsværktøjer i et Unux-miljø med
Hadoop
Anvende Map-Reduce-algoritmen og tilhørende
værktøjer
Kursusindhold:
Se ovenfor
Litteraturhenvisninger:
-
Bemærkninger:
Eksamensform: Kurset er et virksomhedskursus uden eksamen