Overordnede kursusmål
Det overordnede mål for kurset er at forsyne de studerende med en
værktøjskasse med konkrete færdigheder i moderne bio data science i
Tidyverse R via RStudio IDE'et. Der vil være et stærkt
anvendelsesorienteret fokus på at komme fra et rodet- til et rent
datasæt. Efterfulgt af data transformering, opnåelse af indsigt via
EDA og kommunikation via data visualisering med ggplot. Alt i
kontekst med reproducerbar dataanalyse. Ydermere vil der være fokus
på konstruktionen omkring og organiseringen af et moderne bio data
science project i Tidyverse R. I kurset vil vi arbejde med
biologisk relaterede datasæt.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
- Redegøre for hvorfor reproducerbar dataanalyse er vigtig, samt
identificere relevante udfordringer og redegøre for replicerbarhed
versus reproducerbarhed
- Beskrive komponenterne i en reproducerbar dataanalyse
- Anvende Tidyverse R til at udføre eksplorativ data analyse
(EDA) med henblik på opnåelse af data-indsigt, herunder anvendelse
af ggplot til at visualisere multilags data fra f.eks.
high-througput -omics platforme
- Anvende Tidyverse R til udføre data -oprensning,
-transformering, -visualisering og -kommunikering
- Anvende RStudio og github til kollaborative
analyseprojekter
- Udføre samt fortolke standard dimensionsreduktions- og
clustering-teknikker, samt basale statistiske tests og
modeller
- Træne og anvende en machine learning model baseret på et
neuralt netværk med Keras / Tensorflow i R
- Udarbejde en dynamisk rmarkdown rapport/præsentation for en
bio data analyse
- Udarbejde en simpel R-pakke
- Udarbejde en simpel Shiny-app
- Designe og udføre et bio data science projekt med fokus på
reproducerbarhed
- Analysere et allerede udført bio data science projekt med
henblik på at vurdere fremgangsmåde, metoder og
reproducerbarhed
Kursusindhold
Moderne bio data science i Tidyverse R, data -oprensning,
-transformering, -visualisering og -kommunikering. maskinlæring,
statistik og deep Learning (neurale netværk med keras / tensorflow)
i kontekst med bioinformatik / computational-biologi. Tidyverse R,
RStudio, Rmarkdown, dplyr, ggplot, reproducerbar bio-dataanalyse,
rstudio.cloud, shinyapps.io, R-pakker, GitHub, bio-data-science
projekt-organisering, anvendelsesoritenteret fokus.
Litteraturhenvisninger
Undervisningen vil i store træk følge "R for Data
Science" af Garrett Grolemund og Hadley Wickham [1], samt
"Statistical Inference via Data Science - A modern dive into R
and the tidyverse" af Chester Ismay and Albert Y. Kim [2],
samt "Mastering Shiny" af Hadley Wickham [3].
1. Open source bog:
https://r4ds.had.co.nz/
2. Open source bog:
https://moderndive.com/
3. Open source bog:
https://mastering-shiny.org/Sidst opdateret
06. januar, 2020