Overordnede kursusmål
Dette kursus henvender sig til ingeniører, systemanalytikere,
statistikere eller relaterede fagfolk, der ønsker at udføre
avancerede dataanalyser i deres fremtidige forskning eller praksis.
Modelbaseret maskinindlæring svarer til en klasse af algoritmer,
kaldet Probabilistiske grafiske modeller (PGMs), der på en meget
enkel måde tillader kombinationen af domæneviden med data drevne
metoder.
Følgende forventes: grundlæggende statistik og sandsynlighed
(f.eks. 42585 Business Analytics); kendskab til programmering
(f.eks. Python, R, Matlab, Julia, C++, Java).
Selvom Maskine Læring har mange algoritmer (f.eks. neurale netværk,
Gauss processer, Support Vector Machines, Decision Trees, osv.) som
har den fordel at være "trykknap" løsninger, så er disse
sjældent kompatible, når det ikke vedrører det originale design.
Opgaven bliver at omdanne problem og data og få det tilpasset den
enkelte algoritme. Ofte mistes relevant information (som f.eks.
kendt forhold mellem 2 variabler, forskellig støj distribution i
indgangsvariabler), hvilket kan have en skadelig indflydelse på
resultaterne.
PGMs tillader at omfatte forudgående viden, parametrisk og
non-parametriske (under)-modeller, samt usikkerheden om input og
parametre. PGMs fungerer perfekt til at kombinere forskellige typer
af data, og i løbet af de senere år, har et voksende fællesskab
udviklet værktøjer til PGMs, der forenkler design og inferens
proces. Sammen med Deep Learning, tilhører PGMs det nyeste indenfor
Maskine Læring og datamining forskning, der er afgørende i
bearbejdning af Big og Small data.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
- Forklare centrale begreber i modelbaseret Maskine Læring
(MBML).
- Udpege trin i MBML modelleringsprocessen.
- Genkende anvendelsen af de forskellige probabilistiske grafiske
modeller præsenteret på kurset.
- Udarbejde en ny model, ud fra en given problemformulering og
data.
- Anvendelse af de forskellige tilgængelige PGM inferensmetoder i
de indøvede værktøjer.
- Forstå praktiske datamodelleringsaspekter, såsom overfitting,
systemer (f.eks. spatio-temporal) dynamik, og antagelser om data
uafhængighed.
- Evaluere forskellige modellers kvalitet for en given
problemstilling og data.
- Præsentere og være i stand til at argumentere for et projekt
baseret på PGM
Kursusindhold
Dette kursus består af forelæsninger understøttet af slides og
mini-video sekvenser, samt laboratorie arbejde udført med
interaktive værktøjer (såsom iPython notebook). Studerende på dette
kursus vil altid arbejde manuelt i hvert modul, efter den
teoretiske del, for at tilegne sig nye koncepter.
Moduler:
- Gennemgang af grundprincipperne-stokastisk variable,
sandsynlighedsfordelinger, Bayes
Theorem
- Introduktion til grafiske modeller - Bayesianske netværk, Markov
netværk, faktor grafer
- Probabilistiske grafiske modeller - faktor grafer, Markov felter
- Probabilistiske grafiske modeller - som repræsenterer dit
problemfelt
- Inferens - Clique Trees - videre formidling af besked
- Inferens - loopy tro formering
- Inferens - forventning/formering
- Inferens - Markov Chain Monte Carlo
- Udvælgelse af model
- Avancerede emner
Litteraturhenvisninger
"Model Based Machine Learning", John Winn, Christopher
Bishop, Thomas Diethe,
http://www.mbmlbook.com
Uddrag fra (listen kan forlænges):
"Probabilistiske grafiske modeller", Daphne Koller og Nir
Friedman
"Pattern Recognition and Machine Learning", Christopher
Bishop
Sidst opdateret
19. januar, 2018