62533 Anvendt machine learning og big data

2022/2023

Kursusinformation
Applied Machine Learning and Big Data
Dansk
5
Diplomingeniør
Kurset udbydes som enkeltfag
Forår
Afholdes over 14 aftener.
Forår 2023: torsdage kl 17-20.30.
Campus Ballerup
Forelæsninger og projektarbejde
[Kurset følger ikke DTUs normale skemastruktur]
Aftales med underviser, Eksamen er i juni og januar uden for den normale eksamensperiode for 13-ugerskurser. Se cv.diplom.dtu.dk
Mundtlig eksamen og bedømmelse af rapport(er)
Mundtlig eksamen ved præsentation af projekt udarbejdet igennem kurset. Spørgsmål ved den mundtlige eksamen indenfor kursets pensum.
7-trins skala , ekstern censur
62T33
Du skal have kendskab til programmering, og ønske om at lære mere programmering. I kurset introduceres R/Python. Egen PC (med Mac, Windows eller Linux) medbringes. Afhængig af dine datas størrelse må du regne med at afsætte midler til lagring og behandling af disse.
Minimum 6 Maksimum: 15
Henrik Bechmann , Ballerup Campus, Bygning Ballerup , hebec@dtu.dk
Lei You (Primær kontaktperson) , Ballerup Campus, Bygning Ballerup , leiyo@dtu.dk
62 Institut for Ingeniørteknologi og -didaktik
http://www.cv.diplom.dtu.dk/Diplom...nelsen/Big-Data
I studieplanlæggeren
Dette kursus giver den studerende en mulighed for at lave eller forberede et projekt som kan deltage i DTUs studenterkonference om bæredygtighed, klimateknologi og miljø (GRØN DYST). Se mere på http://www.groendyst.dtu.dk
Overordnede kursusmål
Systematisk indsamling, oprensning, lagring og analyse af data og rapportering etablerer evnen til at reagere og handle på baggrund af dem - har potentialet til at transformere forretningen i mange virksomheder.

I kurset arbejdes med strukturerede og ustrukturerede heterogene data i forbindelse med visualisering, klynge- og klassifikationsanalyse af datasæt.

Yderligere arbejdes med cloud services til big data analyse og grundlæggende Unix/Linux administration til drift af servermiljøer.

Der udføres et projekt efter eget valg hvor kursets værktøjer og metoder anvendes. Et led i gennemførelse af projektet er søgning af projektrelevant information i en videnskabelig database, fx DTU Findit.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Forstå og anvende repræsentation af datasæt i multidimensionalt rum i R og/eller Python.
  • Forstå og anvende værktøjer til oprensning af datasæt.
  • Forstå og anvende machine learning til visualisering af datasæt i R og/eller Python.
  • Forstå og anvende machine learning til klyngeanalyse (unsupervised classification) af datasæt i R og/eller Python.
  • Forstå og anvende machine learning til klassifikation (supervised classification) af datasæt i R og/eller Python.
  • Forstå og anvende cloud services til big data analyse.
  • Forstå og anvende grundlæggende Unix/Linux administrationsværktøjer bl.a. til opsætning af big data beregningsmiljøer.
  • Forstå og anvende en videnskabelig database, fx DTU Findit, til søgning af litteratur af relevans for et givet projektområde.
Kursusindhold
Repræsentation af data i multidimensionale heterogene datasæt.
Rensning af datasæt, inklusiv identifikation og fjernelse af outliers.
Anvendelse af R og/eller Python til machine learning baseret data visualisering;
klyngeanalyse (unsupervised classification), fx k-nearest-neighbor, hierarkisk klyngeanalyse, spectral clustering, naiive Bayes og klassifikation (supervised classification), fx logistisk regression, support vector machines, decision trees, random forests, deep neural networks, recurrent neural networks.
Anvende cloud service til big data analyse, herunder grundlæggened Unix/Linux administrationsværktøjer til opsætning af big data miljø.
Anvendelse af videnskabelig videndatabase.
Bemærkninger
Faggruppe: AI, matematik og software
Sundhedsteknologi: valgfag
IT Ballerup: valgfag
IT-elektronik:valgfag
Softwareteknologi:valgfag
ITØ:valgfag
Sidst opdateret
17. februar, 2023