22100 R for Bio Data Science

2020/2021

Se kursushjemmesiden for mere information. Information for eksterne studerende kan findes her: https:/​/​www.dtu.dk/​uddannelse/​efteruddannelse/​kurser/​enkeltfagskurser
Kursusinformation
R for Bio Data Science
Engelsk
5
Kandidat
Kurset udbydes som enkeltfag
F1A (man 8-12)
Campus Lyngby
Undervisningen er en blanding af små introduktioner til emner og sky-baserede computerøvelser. Studerende skal medbringe egen laptop.
13-uger
F1A
Mundtlig eksamen og bedømmelse af rapport(er)
I grupper udarbejdes et bio-data-science projekt, som danner baggrunden for eksamen. Rettidig aflevering af projektet er en forudsætning for at kunne gå til eksamen. Den mundtlige eksamen vil være en gruppepræsentation af projektet, efterfulgt af en individuel eksaminering i projektet, samt i generelle kursuslæringsmål.
Uden hjælpemidler
7-trins skala , intern bedømmelse
010050240222110.­(27002/27008) , Kurset antager, at den studerende har erfaring med programmering (sprog irrelevant), statistik, matematik og molekylærbiologi svarende til niveauet for bachelorkurser på DTU (se foreslåede kursusnumre ovenfor).
Maksimum: 40
Leon Eyrich Jessen , Lyngby Campus, Bygning 204 , ljess@dtu.dk
22 Institut for Sundhedsteknologi
http://teaching.healthtech.dtu.dk/...io_Data_Science
I studieplanlæggeren
Overordnede kursusmål
Det overordnede mål for kurset er at forsyne de studerende med en data science værktøjskasse med konkrete færdigheder i moderne bio data science i Tidyverse R via RStudio IDE'et (Integrated Developer Environment). Der vil være et stærkt anvendelsesorienteret fokus på at komme fra et rodet- til et rent datasæt. Efterfulgt af data transformering, opnåelse af indsigt via EDA (Exploratory Data Analysis) og kommunikation via data-visualisering med ggplot. Alt i kontekst med reproducerbar dataanalyse. Ydermere vil der være fokus på konstruktionen omkring og organiseringen af et moderne bio data science project i Tidyverse R, herunder brug af git/GitHub. I kurset vil vi alene arbejde med biologisk relaterede datasæt.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Redegøre for hvorfor reproducerbar dataanalyse er vigtig, samt identificere relevante udfordringer og redegøre for replicerbarhed versus reproducerbarhed
  • Beskrive komponenterne i en reproducerbar dataanalyse
  • Anvende Tidyverse R til at udføre eksplorativ data analyse (EDA) med henblik på opnåelse af data-indsigt, herunder anvendelse af ggplot til at visualisere multilagsdata fra f.eks. high-througput -omics platforme
  • Anvende Tidyverse R til udføre data -oprensning, -transformering, -visualisering og -kommunikering
  • Anvende RStudio og git/GitHub til kollaborative analyseprojekter
  • Udføre samt fortolke standard dimensionsreduktions- og clustering-teknikker, samt basale statistiske tests og modeller
  • Træne og anvende en machine learning model baseret på et neuralt netværk med Keras / Tensorflow i R
  • Udarbejde en dynamisk rmarkdown rapport/​præsentation for en bio data analyse
  • Udarbejde en simpel R-pakke
  • Udarbejde en simpel Shiny-app
  • Designe og udføre et bio data science projekt med fokus på reproducerbarhed, herunder selvstændigt at anvende online resourcer til at opsøge information om anvendelse og tekniske detaljer af state-of-the-art data science værktøjer
  • Analysere et allerede udført bio data science projekt med henblik på at vurdere fremgangsmåde, metoder og reproducerbarhed
Kursusindhold
Moderne bio data science i Tidyverse R, data -oprensning, -transformering, -visualisering og -kommunikering. maskinlæring, statistik og deep Learning (neurale netværk med keras / tensorflow) i kontekst med bioinformatik / computational-biologi. Tidyverse R, RStudio, Rmarkdown, dplyr, ggplot, reproducerbar bio-dataanalyse, rstudio.cloud, shinyapps.io, R-pakker, git/GitHub, bio-data-science projekt-organisering alt med et anvendelsesoritenteret fokus.
Litteraturhenvisninger
Undervisningen vil i store træk følge "R for Data Science" af Garrett Grolemund og Hadley Wickham [1], men også suppleres af andre open source læringsmaterialer. Se kursushjemmesiden for mere information.
1. Open source bog: https://r4ds.had.co.nz/
Sidst opdateret
07. maj, 2020