Overordnede kursusmål
Dette kursus henvender sig til ingeniører, systemanalytikere,
statistikere eller relaterede fagfolk, der ønsker at udføre
avancerede dataanalyser i deres fremtidige forskning eller praksis.
Modelbaseret maskinindlæring omfatter en klasse af algoritmer
kaldet probabilistiske grafiske modeller (PGMs), som på en enkel
måde gør det muligt at kombinere domæneviden med datadrevne
metoder.
Selvom maskinlæring har mange algoritmer (f.eks. neurale netværk,
Gauss processer, Support Vector Machines, Decision Trees, osv.),
som har den fordel at kunne fungere som
"trykknap"-løsninger, er disse sjældent kompatible, når
det ikke vedrører det originale design. Opgaven bliver derfor at
omdanne problem og data, så de passer til den enkelte algoritme.
Ofte mistes relevant information (f.eks. kendte forhold mellem to
variabler eller forskellig støjfordeling i indgangsvariabler),
hvilket kan have en negativ indvirkning på resultaterne.
PGMs gør det muligt at inddrage forudgående viden, parametriske og
non-parametriske (under)modeller samt usikkerhed omkring input og
parametre. PGMs fungerer særdeles godt til at kombinere forskellige
typer af data, og i løbet af de senere år har et voksende
fællesskab udviklet værktøjer til PGMs, der forenkler design- og
inferensprocessen. Sammen med Deep Learning tilhører PGMs den
nyeste udvikling inden for maskinlæring og datamining, som er
afgørende i behandling af både Big og Small Data.
Selvom dette kursus i sagens natur handler om metodologi, er det
baseret på en række anvendelsesorienterede eksempler, der
hovedsagelig fokuserer på udfordringer inden for transportsystemer.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
- Forklare centrale begreber inden for modelbaseret maskinlæring,
herunder probabilistiske grafiske modeller (PGM'er), Bayesiansk
inferens og trosudbredelse
- Undersøg use cases for forskellige PGM'er og skeln mellem
deres underliggende antagelser
- Implementere PGM'er i et probabilistisk programmeringssprog
(f.eks. Pyro)
- Forstå praktiske aspekter af datamodellering, såsom
overtilpasning, systemdynamik (f.eks. rumlig og tidsmæssig
dynamik), betinget uafhængighed, imputering og konjugerede
forudgående fordelinger
- Evaluere kvaliteten af forskellige modeller for et givet
problem og datasæt
- Forbinde eksisterende problemer og data med modelleringsmetoder
for at tackle dem
- Formulere nye modeller ud fra et givet problem og datasæt
- Udvikle og præsentere et projekt baseret på en PGM
- Præsentere og argumentere for et projekt baseret på en
PGM
Kursusindhold
Dette kursus består af forelæsninger understøttet af slides samt
laboratoriearbejde udført med interaktive værktøjer (Jupyter
Notebooks i Python, anvendende et probabilistisk
programmeringssprog som Pyro eller STAN). Studerende på dette
kursus vil altid arbejde manuelt i hvert modul, både under og efter
den teoretiske del, for at tilegne sig nye koncepter. Kurset er
designet til at være trinvis og stærkt praksisorienteret.
Moduler:
- Gennemgang af grundprincipperne-stokastisk variable,
sandsynlighedsfordelinger, Bayes
Theorem
- Fundamenter for probabilistiske grafiske modeller - Bayesian
netværk, faktorisering,
D-separation, betinget uafhængighed.
- Probabilistiske grafiske modeller - generative modeller som
repræsenterer dit problemfelt
- Forskellige modeller - Regression, Klassifikation, Hierarkiske
modeller, Temporale modeller, Generative modeller, Gaussiske
processer
- Inferens - Eksakt Inteferens
- Inferens - Markov Chain Monte Carlo
- Inferens - Variationsregning Inferens
- Avancerede emner
Litteraturhenvisninger
"Model Based Machine Learning", John Winn, Christopher
Bishop, Thomas Diethe,
http://www.mbmlbook.com
Uddrag fra (listen kan forlænges):
"Pattern Recognition and Machine Learning", Christopher
Bishop
"Probabilistiske grafiske modeller", Daphne Koller og Nir
Friedman
Sidst opdateret
15. oktober, 2025