62669 Statistisk Analyse og Datavisualisering

2021/2022

Faggruppe: Matematisk modellering og dataanalyse
Mobilitet, Transport og Logistik: 2. semester
Proces og Innovation: 3. semester
Produktion: 3. semester
Kursusinformation
Statistical Analysis and Datavisualisation
Dansk
5
Diplomingeniør
E4B (fre 8-12)
F4A (tirs 13-17)
Campus Ballerup
Klasseundervisning og øvelsessessioner. Præsentation af teori, suppleret med eksempler og anvendelse af R. Der stilles 2 obligatoriske, skriftlige kursusopgaver af beregningsmæssig karakter til styrkelse af forståelsen og beherskelsen af begreber og metoder. Programmet R bruges som beregningsplatform. Det anbefales at de studerende samarbejder i grupper på 3-4 personer.
13-uger
E4A, F4A
Skriftlig eksamen og bedømmelse af rapport(er)
Eksamen er digital med alle hjælpemidler og fuld adgang til internet. Kursuskarakteren er et 70% / 30% vægtet gennemsnit af karakteren for den skriftlige eksamen og den samlede karakter for de to obligatoriske projektrapporter.
Skriftlig eksamen: 4 timer
Alle hjælpemidler er tilladt
7-trins skala , intern bedømmelse
62668 Statistik og 62429 Datavisualisering
62668/62429/62022
01901/01920 , 01901 BasisMat 1 og 01920 Basismat 2
Hans Christian Pedersen , Ballerup Campus, Bygning Ballerup , hchpe@dtu.dk
62 Institut for Ingeniørteknologi og -didaktik
I studieplanlæggeren
Dette kursus giver den studerende en mulighed for at lave eller forberede et projekt som kan deltage i DTUs studenterkonference om bæredygtighed, klimateknologi og miljø (GRØN DYST). Se mere på http://www.groendyst.dtu.dk
Overordnede kursusmål
At give de studerende en grundlæggende statistisk, datarelateret begrebsforståelse og træning i anvendelse af statistiske analysemetoder datavisualisering af en foreliggende datamængde.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Karakterisere et tilfældigt eksperiment og datatyperne: Diskrete, kategoriske og kontinuerte data.
  • Anvende, fremstille og fortolke visualiseringerne: Scatterplot, histogram, boxplot,quantile-quantile plot og 3D plot med brugerdefineret observationspunkt.
  • Anvende og forstå sandsynlighedsbegrebet og sandsynlighedsfordelinger i både det diskrete og det kontinuerte tilfælde.
  • Forstå og anvende de diskrete sandsynlighedsfordelinger: Uniform, Bernoully, Binomial, Poisson og hypergeometrisk ved benyttelse af programmet R.
  • Forstå og anvende de kontinuerte sandsynlighedsfordelinger: Uniform, eksponential og normalfordeling med relateret benyttelse af programmet R.
  • Fortolke og anvende estimationsmetoder for middelværdi, varians og fraktiler.
  • Fortolke og anvende konfidensintervaller for middelværdi og differens mellem middelværdier.
  • Fortolke og anvende den centrale grænseværdisætning.
  • Forstå, fortolke og anvende en lineær regressionsanalyse.
  • Forstå og anvende hypotesetest som grundlag for en statistisk analyse.
  • Forstå og anvende grundlæggende begreber for klyngeanalyse og klassifikation.
  • Bruge R til fremstilling af en samlet beskrivende statistik for et datasæt.
Kursusindhold
Et tilfældigt eksperiment, hændelsesbegrebet. Udfaldsrum og datatyper for observationer.
Venn-diagrammer. Optælling af elementarhændelser, permutationer og kombinationer.
Sandsynlighedsregning, sumregel, produktregel, Bayes’ sætning.
Stokastisk afhængighed og uafhængighed.
Diskrete stokastiske variable, generelt: Definitionsgrundlag, udfaldsrum, frekvens- og fordelingsfunktion, middelværdi og varians.
Diskrete fordelinger: Bernoullyfordelingen. Binomialfordelingen. Den hypergeometriske fordeling. Poissonfordelingen. Ligefordelingen.
Kontinuerte stokastiske variable generelt: Definitionsgrundlag, udfaldsrum, frekvens- og fordelingsfunktion, middelværdi og varians, fraktiler.
Kontinuerte fordelinger: Ligefordelingen. Eksponentialfordelingen. Normalfordelingen.
Chi-i-anden-fordelingen, Student’s t-fordeling, F-fordelingen.
Flerdimensionale stokastiske variable. Simultane, marginale og betingede fordelinger. Kovarians, korrelation.
Estimation af parametre i statistiske modeller og konfidensintervaller for parametre.
Hypotesetest, signifikansniveau, P-værdi. Lineære regressionsmodeller.
Beskrivende statistik, sammenhængen mellem empiri og model.
Anvendelse af R til understøttelse af teori, anvendelse, analyse og visualisering af det samlede statistiske begrebsapparat.
Litteraturhenvisninger
Peter Dalgaard, "Introductory Statistics with R", Second Edition, Springer 2008
Sidst opdateret
28. maj, 2021