Overordnede kursusmål
Dette kursus henvender sig til ingeniører, systemanalytikere,
statistikere eller relaterede fagfolk, der ønsker at udføre
avancerede dataanalyser i deres fremtidige forskning eller praksis.
Modelbaseret maskinindlæring svarer til en klasse af algoritmer,
kaldet Probabilistiske grafiske modeller (PGMs), der på en meget
enkel måde tillader kombinationen af domæneviden med data drevne
metoder.
Selvom Maskine Læring har mange algoritmer (f.eks. neurale netværk,
Gauss processer, Support Vector Machines, Decision Trees, osv.) som
har den fordel at være "trykknap" løsninger, så er disse
sjældent kompatible, når det ikke vedrører det originale design.
Opgaven bliver at omdanne problem og data og få det tilpasset den
enkelte algoritme. Ofte mistes relevant information (som f.eks.
kendt forhold mellem 2 variabler, forskellig støj distribution i
indgangsvariabler), hvilket kan have en skadelig indflydelse på
resultaterne.
PGMs tillader at omfatte forudgående viden, parametrisk og
non-parametriske (under)-modeller, samt usikkerheden om input og
parametre. PGMs fungerer perfekt til at kombinere forskellige typer
af data, og i løbet af de senere år, har et voksende fællesskab
udviklet værktøjer til PGMs, der forenkler design og inferens
proces. Sammen med Deep Learning, tilhører PGMs det nyeste indenfor
Maskine Læring og datamining forskning, der er afgørende i
bearbejdning af Big og Small data.
Selvom dette kursus i sagens natur handler om metodologi, er det
baseret på en række eksempler på applikationer, der hovedsagelig er
fokuseret på udfordringer indenfor transportsystemer.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
- Forklare centrale begreber inden for modelbaseret maskinlæring,
herunder probabilistiske grafiske modeller (PGM'er), Bayesiansk
inferens og trosudbredelse
- Undersøg use cases for forskellige PGM'er og skeln mellem
deres underliggende antagelser
- Implementere PGM'er i et probabilistisk programmeringssprog
(f.eks. Pyro eller Stan)
- Forstå praktiske datamodelleringsaspekter, såsom
overtilpasning, systemdynamik (f.eks. rumlig-tidsmæssig) dynamik,
betinget uafhængighed, imputation, konjugerer forud
- Evaluere kvaliteten af forskellige modeller for givet et
problem og datasæt
- Forbinde eksisterende problemer og data med modelleringsmetoder
for at tackle dem
- Formulere nye modeller givet et problem og data
- Udvikle og præsentere et projekt baseret på en PGM
- Præsentere og kunne argumentere for et projekt baseret på en
PGM
Kursusindhold
Dette kursus består af forelæsninger understøttet af slides, samt
laboratorie arbejde udført med interaktive værktøjer (Jupyter
notebooks in Python using a probabilistic programming language like
Pyro or STAN). Studerende på dette kursus vil altid arbejde manuelt
i hvert modul, under og efter den teoretiske del, for at tilegne
sig nye koncepter. Kurset er designet til at være trinvis og stærkt
understøttet af praksis.
Moduler:
- Gennemgang af grundprincipperne-stokastisk variable,
sandsynlighedsfordelinger, Bayes
Theorem
- Probabilistiske grafiske modeller fundamenter - Bayesian netværk,
faktorisering,
D-separation, betinget uafhængighed.
- Probabilistiske grafiske modeller - generative modeller som
repræsenterer dit problemfelt
- Forskellige modeller - Regression, Klassifikation, Hierarkiske
modeller, Temporale modeller, Generative modeller, Gaussiske
processer
- Inferens - Eksakt Inteferens
- Inferens - Markov Chain Monte Carlo
- Inferens - Variationsregning Inferens
- Avancerede emner
Litteraturhenvisninger
"Model Based Machine Learning", John Winn, Christopher
Bishop, Thomas Diethe,
http://www.mbmlbook.com
Uddrag fra (listen kan forlænges):
"Pattern Recognition and Machine Learning", Christopher
Bishop
"Probabilistiske grafiske modeller", Daphne Koller og Nir
Friedman
Sidst opdateret
05. februar, 2025