02450 Introduktion til machine learning og data mining

2022/2023

Kursusinformation
Introduction to Machine Learning and Data Mining
Engelsk
5
Bachelor
Kandidat
Kurset udbydes som enkeltfag
F4A (tirs 13-17)
E4A (tirs 13-17)
Campus Lyngby
Aktiviteterne skifter mellem forelæsninger, opgaveregning og øvelser i Matlab, R eller Python (den studerende vælger selv mellem disse programmeringssprog). Øvelserne udføres i hold med 2-3 studerende.
13-uger
E4A, F4A
Skriftlig eksamen og bedømmelse af rapport(er)
Skriftlig eksamen: 4 timer
Alle hjælpemidler er tilladt :

multiple choice

7-trins skala , ekstern censur
01005.­(02402/02403).­(02525/02631/02632/02633/02692) , Grundkursus i Lineær algebra og matematisk analyse, kendskab til sandsynlighedsregning eller statistik, kendskab til Matlab, Python eller R.
Morten Mørup , Tlf. (+45) 4525 3900 , mmor@dtu.dk
Bjørn Sand Jensen (Primær kontaktperson) , bjje@dtu.dk
Jes Frellsen , Lyngby Campus, Bygning 321, Tlf. (+45) 4525 3923 , jefr@dtu.dk
Mikkel Nørgaard Schmidt , Tlf. (+45) 4525 5270 , mnsc@dtu.dk
Tue Herlau , Lyngby Campus, Bygning 321, Tlf. (+45) 4525 5254 , tuhe@dtu.dk
Georgios Arvanitidis , Tlf. (+45) 4525 5241 , gear@dtu.dk
01 Institut for Matematik og Computer Science
http://www.compute.dtu.dk/courses/02450
I studieplanlæggeren
Kontakt underviseren for information om hvorvidt dette kursus giver den studerende mulighed for at lave eller forberede et projekt som kan deltage i DTUs studenterkonference om bæredygtighed, klimateknologi og miljø (GRØN DYST). Se mere på http://www.groendyst.dtu.dk
Overordnede kursusmål
At give deltagerne kendskab til:
* en række grundlæggende og bredt anvendte metoder til data modellering v.h.a. machine learning,
* en generel struktur til datamodellering,
* Matlab, R eller Python som værktøj til dataanalyse (deltagerne kan frit vælge mellem disse programmeringssprog).

Kurset sætter således deltagerne i stand til at benytte machine learning til modellering af real-world data.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Beskrive de vigtigste trin der er involveret i datamodellering fra forberedelse af data, modellering af data til evaluering og formidling af resultaterne.
  • Diskutere centrale machine learning begreber som featureudtrækning, kryds-validering, generalisering og overindlæring, prædiktion og curse of dimensionality.
  • Skitsere hvordan datamodelleringsmetoder virker og beskrive deres forudsætninger og begrænsninger.
  • Matche praktiske problemer til standard datamodelleringsproblemer såsom regression, klassifikation, tæthedsestimering, gruppering (clustering) og association mining.
  • Anvende struktureret datamodellering indenfor en bred vifte af anvendelsesområder såsom medicoteknik, bio-informatik, kemi, elektronik og computer science.
  • Beregne resultaterne af datamodelleringen ved brug af Matlab, R eller Python.
  • Bruge visualiseringsteknikker og statistik til at evaluere modelpræstationer, identificere mønstre og problemer med data.
  • Kombinere og modificere datamodelleringsværktøjer med henblik på at analysere eget datasæt samt formidle resultaterne af analysen.
Kursusindhold
Struktureret datamodellering. Dataforbedredelse. Featureudtrækning og dimensionalitetsreduktion, herunder principal komponent analyse. Similaritetsmål og beskrivende statistikker. Visualisering og fortolkning af modeller. Overindlæring og generalisering. Klassifikation (beslutningstræer, nærmeste nabo, naiv Bayes, neurale netværk og ensemblemetoder). Lineær regression. Gruppering (k-means, hierarkisk gruppering og mixturmodeller). Associeringsregler. Tæthedsestimering og outlierdetektion. Anvendelser indenfor et bredt spektrum af ingeniørvidenskab.
Litteraturhenvisninger
Kursusnoter
Bemærkninger
Kurset er et grundlæggende machine learning kursus som er relevant for alle tekniske diplom-, bachelor- og masterretninger. Kurset giver en indføring i grundlæggende machine learning, matematikken bag metoderne samt hands-on erfaring i metodernes anvendelser. Kurset kan således stå alene.
Sidst opdateret
26. oktober, 2022