Overordnede kursusmål
Det overordnede mål for kurset er at forsyne de studerende med en
data science værktøjskasse med konkrete færdigheder i moderne bio
data science i Tidyverse R via RStudio IDE'et (Integrated
Developer Environment). Der vil være et stærkt
anvendelsesorienteret fokus på at komme fra et rodet- til et rent
datasæt. Efterfulgt af data transformering, opnåelse af indsigt via
EDA (Exploratory Data Analysis) og kommunikation via
data-visualisering med ggplot. Alt i kontekst med reproducerbar
dataanalyse. Ydermere vil der være fokus på konstruktionen omkring
og organiseringen af et moderne bio data science project i
Tidyverse R, herunder brug af git/GitHub. I kurset vil vi alene
arbejde med biologisk relaterede datasæt.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
- Redegøre for hvorfor reproducerbar dataanalyse er vigtig, samt
identificere relevante udfordringer og redegøre for replicerbarhed
versus reproducerbarhed
- Beskrive komponenterne i en reproducerbar dataanalyse
- Anvende Tidyverse R til at udføre eksplorativ data analyse
(EDA) med henblik på opnåelse af data-indsigt, herunder anvendelse
af ggplot til at visualisere multilagsdata fra f.eks.
high-througput -omics platforme
- Anvende Tidyverse R til udføre data -oprensning,
-transformering, -visualisering og -kommunikering
- Anvende RStudio og git/GitHub til kollaborative
analyseprojekter
- Udføre samt fortolke standard dimensionsreduktions- og
clustering-teknikker, samt basale statistiske tests og
modeller
- Træne og anvende en machine learning model baseret på et
neuralt netværk med Keras / Tensorflow i R
- Udarbejde en dynamisk rmarkdown rapport/præsentation for en
bio data analyse
- Udarbejde en simpel R-pakke
- Udarbejde en simpel Shiny-app
- Designe og udføre et bio data science projekt med fokus på
reproducerbarhed, herunder selvstændigt at anvende online resourcer
til at opsøge information om anvendelse og tekniske detaljer af
state-of-the-art data science værktøjer
- Analysere et allerede udført bio data science projekt med
henblik på at vurdere fremgangsmåde, metoder og
reproducerbarhed
Kursusindhold
Moderne bio data science i Tidyverse R, data -oprensning,
-transformering, -visualisering og -kommunikering. maskinlæring,
statistik og deep Learning (neurale netværk med keras / tensorflow)
i kontekst med bioinformatik / computational-biologi. Tidyverse R,
RStudio, Rmarkdown, dplyr, ggplot, reproducerbar bio-dataanalyse,
rstudio.cloud, shinyapps.io, R-pakker, git/GitHub, bio-data-science
projekt-organisering alt med et anvendelsesoritenteret fokus.
Litteraturhenvisninger
Undervisningen vil i store træk følge "R for Data
Science" af Garrett Grolemund og Hadley Wickham [1], men også
suppleres af andre open source læringsmaterialer. Se
kursushjemmesiden for mere information.
1. Open source bog:
https://r4ds.had.co.nz/Sidst opdateret
02. maj, 2022