42186 Model-based machine learning

2024/2025

Kursusinformation
Model-based machine learning
Engelsk
5
Kandidat
Kurset udbydes som enkeltfag
Generel retningskompetence (MSc), Business Analytics
Retningsspecifikt kursus (MSc), se flere
Retningsspecifikt kursus (MSc), Business Analytics
Retningsspecifikt kursus (MSc), Industrial Engineering and Management
Retningsspecifikt kursus (MSc), Mathematical Modelling and Computation
Retningsspecifikt kursus (MSc), Transport and Logistics
Teknologisk specialisering (MSc), se flere
Teknologisk specialisering (MSc), Business Analytics
Teknologisk specialisering (MSc), Industrial Engineering and Management
Teknologisk specialisering (MSc), Mathematical Modelling and Computation
Teknologisk specialisering (MSc), Transportation and Logistics
F5B (ons 13-17)
Campus Lyngby
Forelæsning og praktisk laboratorie med iPython notebook
13-uger
Bedømmelse af øvelser og rapport(er)
Evalueringen består af to mini-test (Hver 25 % af karakteren), og et gruppeprojekt (gruppestørrelse på 4) med en individuel rapport (50 % af karakteren).
Hver af de to tests har en varighed på 1 time
Skriftlige hjælpemidler er tilladt
7-trins skala , intern bedømmelse
02806/02450/02807/42184/02402/02403 , Grundlæggende statistik og sandsynlighed (f.eks. 42585 Business Analytics); kendskab til programmering (f.eks. Python, R, Matlab, Julia, C++, Java).
Filipe Rodrigues , Lyngby Campus, Bygning 358, Tlf. (+45) 4525 6530 , rodr@dtu.dk
42 Institut for Teknologi, Ledelse og Økonomi
I studieplanlæggeren
Overordnede kursusmål
Dette kursus henvender sig til ingeniører, systemanalytikere, statistikere eller relaterede fagfolk, der ønsker at udføre avancerede dataanalyser i deres fremtidige forskning eller praksis. Modelbaseret maskinindlæring svarer til en klasse af algoritmer, kaldet Probabilistiske grafiske modeller (PGMs), der på en meget enkel måde tillader kombinationen af domæneviden med data drevne metoder.

Selvom Maskine Læring har mange algoritmer (f.eks. neurale netværk, Gauss processer, Support Vector Machines, Decision Trees, osv.) som har den fordel at være "trykknap" løsninger, så er disse sjældent kompatible, når det ikke vedrører det originale design. Opgaven bliver at omdanne problem og data og få det tilpasset den enkelte algoritme. Ofte mistes relevant information (som f.eks. kendt forhold mellem 2 variabler, forskellig støj distribution i indgangsvariabler), hvilket kan have en skadelig indflydelse på resultaterne.

PGMs tillader at omfatte forudgående viden, parametrisk og non-parametriske (under)-modeller, samt usikkerheden om input og parametre. PGMs fungerer perfekt til at kombinere forskellige typer af data, og i løbet af de senere år, har et voksende fællesskab udviklet værktøjer til PGMs, der forenkler design og inferens proces. Sammen med Deep Learning, tilhører PGMs det nyeste indenfor Maskine Læring og datamining forskning, der er afgørende i bearbejdning af Big og Small data.

Selvom dette kursus i sagens natur handler om metodologi, er det baseret på en række eksempler på applikationer, der hovedsagelig er fokuseret på udfordringer indenfor transportsystemer.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Forklare centrale begreber inden for modelbaseret maskinlæring, herunder probabilistiske grafiske modeller (PGM'er), Bayesiansk inferens og trosudbredelse
  • Undersøg use cases for forskellige PGM'er og skeln mellem deres underliggende antagelser
  • Implementere PGM'er i et probabilistisk programmeringssprog (f.eks. Pyro eller Stan)
  • Forstå praktiske datamodelleringsaspekter, såsom overtilpasning, systemdynamik (f.eks. rumlig-tidsmæssig) dynamik, betinget uafhængighed, imputation, konjugerer forud
  • Evaluere kvaliteten af forskellige modeller for givet et problem og datasæt
  • Forbinde eksisterende problemer og data med modelleringsmetoder for at tackle dem
  • Formulere nye modeller givet et problem og data
  • Udvikle og præsentere et projekt baseret på en PGM
  • Præsentere og kunne argumentere for et projekt baseret på en PGM
Kursusindhold
Dette kursus består af forelæsninger understøttet af slides, samt laboratorie arbejde udført med interaktive værktøjer (Jupyter notebooks in Python using a probabilistic programming language like Pyro or STAN). Studerende på dette kursus vil altid arbejde manuelt i hvert modul, under og efter den teoretiske del, for at tilegne sig nye koncepter. Kurset er designet til at være trinvis og stærkt understøttet af praksis.

Moduler:

- Gennemgang af grundprincipperne-stokastisk variable, sandsynlighedsfordelinger, Bayes
Theorem
- Probabilistiske grafiske modeller fundamenter - Bayesian netværk, faktorisering,
D-separation, betinget uafhængighed.
- Probabilistiske grafiske modeller - generative modeller som repræsenterer dit problemfelt
- Forskellige modeller - Regression, Klassifikation, Hierarkiske modeller, Temporale modeller, Generative modeller, Gaussiske processer
- Inferens - Eksakt Inteferens
- Inferens - Markov Chain Monte Carlo
- Inferens - Variationsregning Inferens
- Avancerede emner
Litteraturhenvisninger
"Model Based Machine Learning", John Winn, Christopher Bishop, Thomas Diethe, http://www.mbmlbook.com
Uddrag fra (listen kan forlænges):
"Pattern Recognition and Machine Learning", Christopher Bishop
"Probabilistiske grafiske modeller", Daphne Koller og Nir Friedman
Sidst opdateret
05. februar, 2025