Overordnede kursusmål
Dette kursus henvender sig til ingeniører, systemanalytikere,
statistikere eller relaterede fagfolk, der ønsker at udføre
avancerede dataanalyser i deres fremtidige forskning eller praksis.
Modelbaseret maskinindlæring svarer til en klasse af algoritmer,
kaldet Probabilistiske grafiske modeller (PGMs), der på en meget
enkel måde tillader kombinationen af domæneviden med data drevne
metoder.
Følgende forventes: grundlæggende statistik og sandsynlighed
(f.eks. 42585 Business Analytics); kendskab til programmering
(f.eks. Python, R, Matlab, Julia, C++, Java).
Selvom Maskine Læring har mange algoritmer (f.eks. neurale netværk,
Gauss processer, Support Vector Machines, Decision Trees, osv.) som
har den fordel at være "trykknap" løsninger, så er disse
sjældent kompatible, når det ikke vedrører det originale design.
Opgaven bliver at omdanne problem og data og få det tilpasset den
enkelte algoritme. Ofte mistes relevant information (som f.eks.
kendt forhold mellem 2 variabler, forskellig støj distribution i
indgangsvariabler), hvilket kan have en skadelig indflydelse på
resultaterne.
PGMs tillader at omfatte forudgående viden, parametrisk og
non-parametriske (under)-modeller, samt usikkerheden om input og
parametre. PGMs fungerer perfekt til at kombinere forskellige typer
af data, og i løbet af de senere år, har et voksende fællesskab
udviklet værktøjer til PGMs, der forenkler design og inferens
proces. Sammen med Deep Learning, tilhører PGMs det nyeste indenfor
Maskine Læring og datamining forskning, der er afgørende i
bearbejdning af Big og Small data.
Selvom dette kursus i sagens natur handler om metodologi, er det
baseret på en række eksempler på applikationer, der hovedsagelig er
fokuseret på udfordringer indenfor transportsystemer.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
- Forklare centrale koncepter i modelbaseret maskinlæring (MBML),
såsom PGM, tidligere, posterior, sandsynlighed, Bayesian inference
og tro udbredelse.
- Forklare og være i stand til at manipulere de forskellige
blokke af et probabilistisk program (fx i STAN-sprog).
- Genkende anvendelsen af de forskellige probabilistiske grafiske
modeller præsenteret på kurset samt kunne redegøre for deres
underliggende antagelser.
- Udarbejde en ny model, ud fra en given problemformulering og
data.
- Anvendelse af de forskellige tilgængelige inferensmetoder i de
indøvede værktøjer.
- Forstå praktiske datamodelleringsaspekter, såsom overfitting,
systemer (f.eks. spatio-temporal) dynamik, betinget uafhængighed,
imputation, konjugat forud?
- Evaluere forskellige modellers kvalitet for en given
problemstilling og data.
- Præsentere og være i stand til at argumentere for et projekt
baseret på PGM
- Forbinde eksisterende problemer og data (især fra
transportområdet), med modelleringsmetoder til at tackle
disse.
Kursusindhold
Dette kursus består af forelæsninger understøttet af slides, samt
laboratorie arbejde udført med interaktive værktøjer (Jupyter
notebooks in Python using a probabilistic programming language like
Pyro or STAN). Studerende på dette kursus vil altid arbejde manuelt
i hvert modul, under og efter den teoretiske del, for at tilegne
sig nye koncepter. Kurset er designet til at være trinvis og stærkt
understøttet af praksis.
Moduler:
- Gennemgang af grundprincipperne-stokastisk variable,
sandsynlighedsfordelinger, Bayes
Theorem
- Probabilistiske grafiske modeller fundamenter - Bayesian netværk,
faktorisering,
D-separation, betinget uafhængighed.
- Probabilistiske grafiske modeller - generative modeller som
repræsenterer dit problemfelt
- Forskellige modeller - Regression, Klassifikation, Hierarkiske
modeller, Temporale modeller, Emnemodeller, Gaussiske processer
- Inferens - Eksakt Inteferens
- Inferens - Markov Chain Monte Carlo
- Inferens - Variationsregning Inferens
- Avancerede emner
Litteraturhenvisninger
"Model Based Machine Learning", John Winn, Christopher
Bishop, Thomas Diethe,
http://www.mbmlbook.com
Uddrag fra (listen kan forlænges):
"Pattern Recognition and Machine Learning", Christopher
Bishop
"Probabilistiske grafiske modeller", Daphne Koller og Nir
Friedman
Sidst opdateret
21. april, 2021