22100 R for Bio Data Science

2022/2023

Kurset har ændret placering fra forår til efterår, men vil ikke blive udbudt i efterårssemestret 2022.
Næste gang kurset udbydes vil være i efteråret 2023 (E3A).
Se kursushjemmesiden for mere information. Information for eksterne studerende kan findes her: https:/​/​www.dtu.dk/​uddannelse/​efteruddannelse/​kurser/​enkeltfagskurser
Kursusinformation
R for Bio Data Science
Engelsk
5
Kandidat
Kurset udbydes som enkeltfag
E3A (tirs 8-12)
Campus Lyngby
Undervisningen er en blanding af små introduktioner til emner og sky-baserede computerøvelser. Studerende skal medbringe egen laptop.
13-uger
F1A
Skriftlig eksamen og bedømmelse af rapport(er)
Eksamen består af 3 deleksaminer: 1) Et bio-data-science projekt udarbejdet i grupper, hvor alle medlemmer er ansvarlige for alle dele af projektet. Aktiv deltagelse i gruppearbejdet og rettidig aflevering af projektet er begge forudsætninger for at kunne gå til eksamen. 2) En mundtlig gruppepræsentation af projektet 3) 2 timers MCQ eksamen, hvor der eksamineres i generelle kursuslæringsmål. Den endelige karakter er baseret på en helhedsvurdering af alle tre deleksaminer. Reeksamen vil bestå af en 4 timers skriftlig eksamen. Forudsætningskravet for at gå til eksamen gælder ikke for reeksamen.
Skriftlig eksamen: 2 timer
Skriftlige hjælpemidler er tilladt
7-trins skala , intern bedømmelse
010050240222110.­(27002/27008) , Kurset antager, at den studerende har erfaring med programmering (sprog irrelevant), statistik, matematik og molekylærbiologi svarende til niveauet for bachelorkurser på DTU (se foreslåede kursusnumre ovenfor).
Leon Eyrich Jessen , Lyngby Campus, Bygning 204 , ljess@dtu.dk
22 Institut for Sundhedsteknologi
http://teaching.healthtech.dtu.dk/...io_Data_Science
I studieplanlæggeren
Overordnede kursusmål
Det overordnede mål for kurset er at forsyne de studerende med en data science værktøjskasse med konkrete færdigheder i moderne bio data science i Tidyverse R via RStudio IDE'et (Integrated Developer Environment). Der vil være et stærkt anvendelsesorienteret fokus på at komme fra et rodet- til et rent datasæt. Efterfulgt af data transformering, opnåelse af indsigt via EDA (Exploratory Data Analysis) og kommunikation via data-visualisering med ggplot. Alt i kontekst med reproducerbar dataanalyse. Ydermere vil der være fokus på konstruktionen omkring og organiseringen af et moderne bio data science project i Tidyverse R, herunder brug af git/GitHub. I kurset vil vi alene arbejde med biologisk relaterede datasæt.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Redegøre for hvorfor reproducerbar dataanalyse er vigtig, samt identificere relevante udfordringer og redegøre for replicerbarhed versus reproducerbarhed
  • Beskrive komponenterne i en reproducerbar dataanalyse
  • Anvende Tidyverse R til at udføre eksplorativ data analyse (EDA) med henblik på opnåelse af data-indsigt, herunder anvendelse af ggplot til at visualisere multilagsdata fra f.eks. high-througput -omics platforme
  • Anvende Tidyverse R til udføre data -oprensning, -transformering, -visualisering og -kommunikering
  • Anvende RStudio og git/GitHub til kollaborative analyseprojekter
  • Udføre samt fortolke standard dimensionsreduktions- og clustering-teknikker, samt basale statistiske tests og modeller
  • Træne og anvende en machine learning model baseret på et neuralt netværk med Keras / Tensorflow i R
  • Udarbejde en dynamisk rmarkdown rapport/​præsentation for en bio data analyse
  • Udarbejde en simpel R-pakke
  • Udarbejde en simpel Shiny-app
  • Designe og udføre et bio data science projekt med fokus på reproducerbarhed, herunder selvstændigt at anvende online resourcer til at opsøge information om anvendelse og tekniske detaljer af state-of-the-art data science værktøjer
  • Analysere et allerede udført bio data science projekt med henblik på at vurdere fremgangsmåde, metoder og reproducerbarhed
Kursusindhold
Moderne bio data science i Tidyverse R, data -oprensning, -transformering, -visualisering og -kommunikering. maskinlæring, statistik og deep Learning (neurale netværk med keras / tensorflow) i kontekst med bioinformatik / computational-biologi. Tidyverse R, RStudio, Rmarkdown, dplyr, ggplot, reproducerbar bio-dataanalyse, rstudio.cloud, shinyapps.io, R-pakker, git/GitHub, bio-data-science projekt-organisering alt med et anvendelsesoritenteret fokus.
Litteraturhenvisninger
Undervisningen vil i store træk følge "R for Data Science" af Garrett Grolemund og Hadley Wickham [1], men også suppleres af andre open source læringsmaterialer. Se kursushjemmesiden for mere information.
1. Open source bog: https://r4ds.had.co.nz/
Sidst opdateret
02. maj, 2022