Overordnede kursusmål
Kurset handler om de udfordringer, som opstår når man forsøger at
besvare spørgsmål vha. data og forskellige tilgange til at løse
disse udfordringer. Kursets hovedemne er derfor data, og dækker
viden om forskellige typer af data og måder at indsamle og behandle
data. Kurset introducerer forskellige tilgange til deskriptiv
analyse, datavisualisering og -analyse. Kurset har også som formål
at give de studerende et overblik over forskellige skoler inden for
statistik og data science, som alle bidrager med forskellige
tilgange til at besvare spørgsmål vha. data f.eks. statistisk
analyse vs. machine learning og eksplorativ vs. konfirmatorisk
datavisualisering.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
- diskutere forholdet mellem problemstilling, metode og data
- beskrive forskellige typer af data og dataindsamling
- diskutere data governance og producere en data management
plan
- diskutere og anvende værktøjer til databehandling
- benytte data til at besvare relevante spørgsmål
- foretage en deskriptiv analyse og visualisere data
- diskutere forskellen mellem forskellige tilgange til
statistik/data science
- anvende standardmetoder til analyse af kontinuerte data og
fortolke resultater
- anvende standardmetoder til analyse af diskrete data og
fortolke resultater
- anvende standardmetoder til analyse af tekstuelle data og
fortolke resultater
- præsentere fokuserede og koncise dataanalyser
Kursusindhold
Kurset præsenterer generelle aspekter af data og dataindsamling.
Samtidig giver det en introduktion til de forskellige
datakategorier og deres kendetegn f.eks. observationsdata,
hypotetiske data og dataindsamling via surveys, eksperimentelle
data og realtidsdata. Kurset omhandler også governance f.eks. data
management plans, GDPR og FAIR. I kurset skal de studerende løbende
afprøve de forskellige værktøjer på forskellige datasæt, så de kan
opbygge en forståelse af de udfordringer, der følger med
databehandling (og hvor tidskrævende det er). Den sidste del af
kurset omhandler dataanalyse og indeholder emner som deskriptiv
statistik, data scraping, sprogteknologi, visualisering,
regressions- og klassifikationsmodeller.
Litteraturhenvisninger
Kurset benytter
- James, Witten, Hastie, Tibshirani, Taylor (2023) An Introduction
to Statistical Learning: with Applications in Python.
https://findit.dtu.dk/en/catalog/64f4119c68cc5422d030e2e9.
Yderligere litteratur videregives i løbet af kurset.
Sidst opdateret
16. september, 2024