42186 Model-based machine learning (2021/2022)

42186 Model-based machine learning

2021/2022

Kursusinformation

Engelsk titel	Model-based machine learning
Undervisningssprog	Engelsk
Point( ECTS )	5
Kursustype	Kandidat

Skemaplacering	F4B (fre 8-12)
Undervisningens placering	Campus Lyngby
Undervisningsform	Forelæsning og praktisk laboratorie med iPython notebook
Kursets varighed	13-uger
Evalueringsform	Bedømmelse af øvelser og rapport(er) The evaluation consists of two mini-tests (15% of the grade each), and one group project with individualized report (70% of the grade).
Eksamensvarighed	2 timer
Hjælpemidler	Alle hjælpemidler er tilladt
Bedømmelsesform	7-trins skala , intern bedømmelse
Anbefalede forudsætninger	02806/02450/02807/42184/02402/02403 , Forudgående godt kendskab til sandsynlighed, statistik og programmering anbefales.

Kursusansvarlig	Filipe M Pereira Duarte Rodrigues , Lyngby Campus, Bygning 116, Tlf. (+45) 4525 6530 , rodr@dtu.dk
Medansvarlige	Francisco Camara Pereira , Lyngby Campus, Bygning 116, Tlf. (+45) 4525 1496 , camara@dtu.dk
Institut	42 Institut for Teknologi, Ledelse og Økonomi
Tilmelding	I studieplanlæggeren

Overordnede kursusmål

Dette kursus henvender sig til ingeniører, systemanalytikere, statistikere eller relaterede fagfolk, der ønsker at udføre avancerede dataanalyser i deres fremtidige forskning eller praksis. Modelbaseret maskinindlæring svarer til en klasse af algoritmer, kaldet Probabilistiske grafiske modeller (PGMs), der på en meget enkel måde tillader kombinationen af domæneviden med data drevne metoder.

Følgende forventes: grundlæggende statistik og sandsynlighed (f.eks. 42585 Business Analytics); kendskab til programmering (f.eks. Python, R, Matlab, Julia, C++, Java).

Selvom Maskine Læring har mange algoritmer (f.eks. neurale netværk, Gauss processer, Support Vector Machines, Decision Trees, osv.) som har den fordel at være "trykknap" løsninger, så er disse sjældent kompatible, når det ikke vedrører det originale design. Opgaven bliver at omdanne problem og data og få det tilpasset den enkelte algoritme. Ofte mistes relevant information (som f.eks. kendt forhold mellem 2 variabler, forskellig støj distribution i indgangsvariabler), hvilket kan have en skadelig indflydelse på resultaterne.

PGMs tillader at omfatte forudgående viden, parametrisk og non-parametriske (under)-modeller, samt usikkerheden om input og parametre. PGMs fungerer perfekt til at kombinere forskellige typer af data, og i løbet af de senere år, har et voksende fællesskab udviklet værktøjer til PGMs, der forenkler design og inferens proces. Sammen med Deep Learning, tilhører PGMs det nyeste indenfor Maskine Læring og datamining forskning, der er afgørende i bearbejdning af Big og Small data.

Selvom dette kursus i sagens natur handler om metodologi, er det baseret på en række eksempler på applikationer, der hovedsagelig er fokuseret på udfordringer indenfor transportsystemer.

Læringsmål

En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:

Forklare centrale koncepter i modelbaseret maskinlæring (MBML), såsom PGM, tidligere, posterior, sandsynlighed, Bayesian inference og tro udbredelse.
Forklare og være i stand til at manipulere de forskellige blokke af et probabilistisk program (fx i STAN-sprog).
Genkende anvendelsen af de forskellige probabilistiske grafiske modeller præsenteret på kurset samt kunne redegøre for deres underliggende antagelser.
Udarbejde en ny model, ud fra en given problemformulering og data.
Anvendelse af de forskellige tilgængelige inferensmetoder i de indøvede værktøjer.
Forstå praktiske datamodelleringsaspekter, såsom overfitting, systemer (f.eks. spatio-temporal) dynamik, betinget uafhængighed, imputation, konjugat forud?
Evaluere forskellige modellers kvalitet for en given problemstilling og data.
Præsentere og være i stand til at argumentere for et projekt baseret på PGM
Forbinde eksisterende problemer og data (især fra transportområdet), med modelleringsmetoder til at tackle disse.

Kursusindhold

Dette kursus består af forelæsninger understøttet af slides, samt laboratorie arbejde udført med interaktive værktøjer (Jupyter notebooks in Python using a probabilistic programming language like Pyro or STAN). Studerende på dette kursus vil altid arbejde manuelt i hvert modul, under og efter den teoretiske del, for at tilegne sig nye koncepter. Kurset er designet til at være trinvis og stærkt understøttet af praksis.

Moduler:

- Gennemgang af grundprincipperne-stokastisk variable, sandsynlighedsfordelinger, Bayes
Theorem
- Probabilistiske grafiske modeller fundamenter - Bayesian netværk, faktorisering,
D-separation, betinget uafhængighed.
- Probabilistiske grafiske modeller - generative modeller som repræsenterer dit problemfelt
- Forskellige modeller - Regression, Klassifikation, Hierarkiske modeller, Temporale modeller, Emnemodeller, Gaussiske processer
- Inferens - Eksakt Inteferens
- Inferens - Markov Chain Monte Carlo
- Inferens - Variationsregning Inferens
- Avancerede emner

Litteraturhenvisninger

"Model Based Machine Learning", John Winn, Christopher Bishop, Thomas Diethe, http://www.mbmlbook.com
Uddrag fra (listen kan forlænges):
"Pattern Recognition and Machine Learning", Christopher Bishop
"Probabilistiske grafiske modeller", Daphne Koller og Nir Friedman

Sidst opdateret

21. april, 2021