42186 Model-based machine learning

2019/2020

Kursusinformation
Model-based machine learning
Engelsk
5
Kandidat
F4B (fre 8-12)
Campus Lyngby
Forelæsning, praktisk laboratorie- og online læring (f.eks. med iPython notebook og mini video foredrag).
13-uger
F4B
Skriftlig eksamen og bedømmelse af rapport(er)
The evaluation consists of two mini-tests (25% of the grade each) and one group project + report (50% of the grade). Changes as a result of COVID-19: - The group project + individualised report is now worth 70% of the grade - The two mini-tests were replaced by an online multiple-choice exam (30% of the grade)
2 timer
Alle hjælpemidler er tilladt
7-trins skala , intern bedømmelse
02806/02450/02807/4218402402/02403 , Forudgående godt kendskab til statistik og programmering anbefales.
Filipe Rodrigues , Lyngby Campus, Bygning 116, Tlf. (+45) 4525 6530 , rodr@dtu.dk
Francisco Camara Pereira , Lyngby Campus, Bygning 116, Tlf. (+45) 4525 1496 , camara@dtu.dk
Susanne Rieneck Pedersen , Lyngby Campus, Bygning 116, Tlf. (+45) 4525 1516 , surp@dtu.dk
42 Institut for Teknologi, Ledelse og Økonomi
I studieplanlæggeren
Overordnede kursusmål
Dette kursus henvender sig til ingeniører, systemanalytikere, statistikere eller relaterede fagfolk, der ønsker at udføre avancerede dataanalyser i deres fremtidige forskning eller praksis. Modelbaseret maskinindlæring svarer til en klasse af algoritmer, kaldet Probabilistiske grafiske modeller (PGMs), der på en meget enkel måde tillader kombinationen af domæneviden med data drevne metoder.

Følgende forventes: grundlæggende statistik og sandsynlighed (f.eks. 42585 Business Analytics); kendskab til programmering (f.eks. Python, R, Matlab, Julia, C++, Java).

Selvom Maskine Læring har mange algoritmer (f.eks. neurale netværk, Gauss processer, Support Vector Machines, Decision Trees, osv.) som har den fordel at være "trykknap" løsninger, så er disse sjældent kompatible, når det ikke vedrører det originale design. Opgaven bliver at omdanne problem og data og få det tilpasset den enkelte algoritme. Ofte mistes relevant information (som f.eks. kendt forhold mellem 2 variabler, forskellig støj distribution i indgangsvariabler), hvilket kan have en skadelig indflydelse på resultaterne.

PGMs tillader at omfatte forudgående viden, parametrisk og non-parametriske (under)-modeller, samt usikkerheden om input og parametre. PGMs fungerer perfekt til at kombinere forskellige typer af data, og i løbet af de senere år, har et voksende fællesskab udviklet værktøjer til PGMs, der forenkler design og inferens proces. Sammen med Deep Learning, tilhører PGMs det nyeste indenfor Maskine Læring og datamining forskning, der er afgørende i bearbejdning af Big og Small data.

Selvom dette kursus i sagens natur handler om metodologi, er det baseret på en række eksempler på applikationer, der hovedsagelig er fokuseret på udfordringer indenfor transportsystemer.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Forklare centrale koncepter i modelbaseret maskinlæring (MBML), såsom PGM, tidligere, posterior, sandsynlighed, Bayesian inference og tro udbredelse.
  • Forstå og være i stand til at manipulere de forskellige blokke af et probabilistisk program (fx i STAN-sprog).
  • Genkende anvendelsen af de forskellige probabilistiske grafiske modeller præsenteret på kurset samt kunne redegøre for deres underliggende antagelser.
  • Udarbejde en ny model, ud fra en given problemformulering og data.
  • Anvendelse af de forskellige tilgængelige inferensmetoder i de indøvede værktøjer.
  • Forstå praktiske datamodelleringsaspekter, såsom overfitting, systemer (f.eks. spatio-temporal) dynamik, betinget uafhængighed, imputation, konjugat forud?
  • Evaluere forskellige modellers kvalitet for en given problemstilling og data.
  • Præsentere og være i stand til at argumentere for et projekt baseret på PGM
  • Forbinde eksisterende problemer og data (især fra transportområdet), med modelleringsmetoder til at tackle disse.
Kursusindhold
Dette kursus består af forelæsninger understøttet af slides, samt laboratorie arbejde udført med interaktive værktøjer (såsom Jupyter notebook). Studerende på dette kursus vil altid arbejde manuelt i hvert modul, under og efter den teoretiske del, for at tilegne sig nye koncepter. Kurset er designet til at være trinvis og stærkt understøttet af praksis.

Moduler:

- Gennemgang af grundprincipperne-stokastisk variable, sandsynlighedsfordelinger, Bayes
Theorem
- Probabilistiske grafiske modeller fundamenter - Bayesian netværk, faktorisering,
D-separation, betinget uafhængighed.
- Probabilistiske grafiske modeller - generative modeller som repræsenterer dit problemfelt
- Forskellige modeller - Regression, Klassifikation, Temporale modeller, Emnemodeller
- Inferens - Eksakt Inteferens
- Inferens - Markov Chain Monte Carlo
- Inferens - Variationsregning Inferens
- Avancerede emner
Litteraturhenvisninger
"Model Based Machine Learning", John Winn, Christopher Bishop, Thomas Diethe, http://www.mbmlbook.com
Uddrag fra (listen kan forlænges):
"Probabilistiske grafiske modeller", Daphne Koller og Nir Friedman
"Pattern Recognition and Machine Learning", Christopher Bishop
Sidst opdateret
04. maj, 2020