22100 R for Bio Data Science (2022/2023)

22100 R for Bio Data Science

2022/2023

Kurset har ændret placering fra forår til efterår, men vil ikke blive udbudt i efterårssemestret 2022.
Næste gang kurset udbydes vil være i efteråret 2023 (E3A).
Se kursushjemmesiden for mere information. Information for eksterne studerende kan findes her: https://www.dtu.dk/uddannelse/efteruddannelse/kurser/enkeltfagskurser

Kursusinformation

Engelsk titel	R for Bio Data Science
Undervisningssprog	Engelsk
Point( ECTS )	5
Kursustype	Kandidat Kurset udbydes som enkeltfag

Skemaplacering	E3A (tirs 8-12)
Undervisningens placering	Campus Lyngby
Undervisningsform	Undervisningen er en blanding af små introduktioner til emner og sky-baserede computerøvelser. Studerende skal medbringe egen laptop.
Kursets varighed	13-uger
Eksamensplacering	F1A
Evalueringsform	Skriftlig eksamen og bedømmelse af rapport(er) Eksamen består af 3 deleksaminer: 1) Et bio-data-science projekt udarbejdet i grupper, hvor alle medlemmer er ansvarlige for alle dele af projektet. Aktiv deltagelse i gruppearbejdet og rettidig aflevering af projektet er begge forudsætninger for at kunne gå til eksamen. 2) En mundtlig gruppepræsentation af projektet 3) 2 timers MCQ eksamen, hvor der eksamineres i generelle kursuslæringsmål. Den endelige karakter er baseret på en helhedsvurdering af alle tre deleksaminer. Reeksamen vil bestå af en 4 timers skriftlig eksamen. Forudsætningskravet for at gå til eksamen gælder ikke for reeksamen.
Eksamensvarighed	Skriftlig eksamen: 2 timer
Hjælpemidler	Skriftlige hjælpemidler er tilladt
Bedømmelsesform	7-trins skala , intern bedømmelse
Anbefalede forudsætninger	01005.02402.22110.(27002/27008) , Kurset antager, at den studerende har erfaring med programmering (sprog irrelevant), statistik, matematik og molekylærbiologi svarende til niveauet for bachelorkurser på DTU (se foreslåede kursusnumre ovenfor).

Kursusansvarlig	Leon Eyrich Jessen , Lyngby Campus, Bygning 204 , ljess@dtu.dk
Institut	22 Institut for Sundhedsteknologi
Kursushjemmeside	http://teaching.healthtech.dtu.dk/...io_Data_Science
Tilmelding	I studieplanlæggeren

Overordnede kursusmål

Det overordnede mål for kurset er at forsyne de studerende med en data science værktøjskasse med konkrete færdigheder i moderne bio data science i Tidyverse R via RStudio IDE'et (Integrated Developer Environment). Der vil være et stærkt anvendelsesorienteret fokus på at komme fra et rodet- til et rent datasæt. Efterfulgt af data transformering, opnåelse af indsigt via EDA (Exploratory Data Analysis) og kommunikation via data-visualisering med ggplot. Alt i kontekst med reproducerbar dataanalyse. Ydermere vil der være fokus på konstruktionen omkring og organiseringen af et moderne bio data science project i Tidyverse R, herunder brug af git/GitHub. I kurset vil vi alene arbejde med biologisk relaterede datasæt.

Læringsmål

En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:

Redegøre for hvorfor reproducerbar dataanalyse er vigtig, samt identificere relevante udfordringer og redegøre for replicerbarhed versus reproducerbarhed
Beskrive komponenterne i en reproducerbar dataanalyse
Anvende Tidyverse R til at udføre eksplorativ data analyse (EDA) med henblik på opnåelse af data-indsigt, herunder anvendelse af ggplot til at visualisere multilagsdata fra f.eks. high-througput -omics platforme
Anvende Tidyverse R til udføre data -oprensning, -transformering, -visualisering og -kommunikering
Anvende RStudio og git/GitHub til kollaborative analyseprojekter
Udføre samt fortolke standard dimensionsreduktions- og clustering-teknikker, samt basale statistiske tests og modeller
Træne og anvende en machine learning model baseret på et neuralt netværk med Keras / Tensorflow i R
Udarbejde en dynamisk rmarkdown rapport/præsentation for en bio data analyse
Udarbejde en simpel R-pakke
Udarbejde en simpel Shiny-app
Designe og udføre et bio data science projekt med fokus på reproducerbarhed, herunder selvstændigt at anvende online resourcer til at opsøge information om anvendelse og tekniske detaljer af state-of-the-art data science værktøjer
Analysere et allerede udført bio data science projekt med henblik på at vurdere fremgangsmåde, metoder og reproducerbarhed

Kursusindhold

Moderne bio data science i Tidyverse R, data -oprensning, -transformering, -visualisering og -kommunikering. maskinlæring, statistik og deep Learning (neurale netværk med keras / tensorflow) i kontekst med bioinformatik / computational-biologi. Tidyverse R, RStudio, Rmarkdown, dplyr, ggplot, reproducerbar bio-dataanalyse, rstudio.cloud, shinyapps.io, R-pakker, git/GitHub, bio-data-science projekt-organisering alt med et anvendelsesoritenteret fokus.

Litteraturhenvisninger

Undervisningen vil i store træk følge "R for Data Science" af Garrett Grolemund og Hadley Wickham [1], men også suppleres af andre open source læringsmaterialer. Se kursushjemmesiden for mere information.
1. Open source bog: https://r4ds.had.co.nz/

Sidst opdateret

02. maj, 2022