At sætte deltagerne i stand til at anvende relevante værktøjer og
metoder indenfor Big Datamiljøer og kunne reflektere over
grundlaget for etablering af BigData distribueret analysemiljø i
egen organisation
Læringsmål:
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
Viden om og forståelse af Big Data terminologien
Viden om relevante open source programmeringssprog og
statistikprogrammer og kunne reflektere over implikationerne af
valg af disse
Viden om grundlaget for machine learning, distribueret lagring
og analyse af enorm store heterogene datasæt
Forståelse af dataselektering og funktionsberegning
Reflektere over grundlaget for etablering af et Big Data
distribueret analysemiljø
Kan begrunde, vælge, konfigurere og validere et givet
analyse-/visualiseringsproblem inden for BigData
Kan anvende relevant open source programmeringssprog til
analyse og visualisering af enorme mængder af data
Kan foretage systematisk indsamling, oprensning, lagring,
analyse og rapportering af en virksomheds store heterogene
datamængder herunder ikke komplette data-frames
Kan på et begrundet valg anvende en dataselekterings- og
funktionsmodel og tilhørende værktøjer på egne data
Kan håndtere konfigurering af eget miljø til distribueret
analyse af BigData
Kan på en reflekteret måde bidrage til at transformere egen
virksomheds forretning på baggrund af en systematisk indsamling,
oprensning, lagring, analyse og rapportering af en virksomheds
store heterogene datamængder
Kursusindhold:
- Platforme til BigData-miljø
- Metoder og værktøjer til etablering af et miljø til BigData
analyse, samt til planlægning og vurdering af et BigData miljø.
- Matematik til mangedimensionale data
- Datastrukturer og operationer på enorme mængder af data
- Opsamling, konvertering, scripting og oprensning af heterogene
datasæt
- Introduktion til administration og vedligeholdelse af et cluster,
f.eks. Linux med Hadoop.
- Visualisering af analyseresultater
- Distribuering og beregning af enorme mængder af heterogene
data