22100 R for Bio Data Science

2024/2025

Kurset udbydes også som kandidatkursus, se kursusnummer 22160.
Kursusinformation
R for Bio Data Science
Engelsk
5
Bachelor
Kurset udbydes som enkeltfag
Retningsspecifikt kursus (BSc), Life Science og Teknologi
Retningsspecifikt kursus (MSc), Quantitative Biology and Disease Modelling
Teknologiske linjefag, Life Science og Teknologi
E3A (tirs 8-12)
Campus Lyngby
Semi-flipped classroom. Eleverne forbereder tildelte skriftlige og videobaserede materialer før undervisningen. Undervisningen indledes med en kort opsummering af nøglepunkter fra sidste uges øvelser efterfulgt af en kort introduktion til nøglepunkter i dagens emne. Resten af klassen er Cloud-baserede øvelser. Studerende skal medbringe egen bærbar computer med fungerende trådløst internet og gyldig DTU-konto.
13-uger
E3A
Skriftlig eksamen og bedømmelse af opgave(r)
Eksamen består af 3 delprøver: 1. Et kodebaseret gruppeprojekt. 2. En mundtlig gruppepræsentation af projektet. 3. 2 timers afsluttende individuel MCQ-eksamen. Alle tre delprøver skal gennemføres for, at man kan bestå kurset. Den endelige karakter er baseret på en helhedsvurdering af alle tre delprøver. Bemærkninger til delprøver: 1. Alle medlemmer er ansvarlige for alle dele af projektet. 2. Alle medlemmer skal præsentere fysisk på den sidste undervisningsdag. 3. Der eksamineres i generelle kursuslæringsmål. Reeksamen vil bestå af selvstændig udarbejdelse af et nyt projekt efter samme retningslinier, som under den ordinære eksamen, efterfulgt af en mundtlig præsentation, hvor der også eksamineres i de generelle kursuslæringsmål. Der ydes i den forbindelse ikke vejledning. Der vil ikke være nogen afsluttende MCQ-eksamen.
Skriftlig eksamen: 2 timer
Alle hjælpemidler - uden adgang til internettet
7-trins skala , intern bedømmelse
22160
01005.­(02402/(2702423214)).­(22101/02631/02632/02633).­(27002/27008).­22111 , Det forudsættes, at den studerende har eksisterende viden om matematik, statistik, basal programmering (sprog irrelevant), life science og bioinformatik svarende til niveauet for bachelorkurser på DTU (se relevante kursusnumre ovenfor).
Leon Eyrich Jessen , Lyngby Campus, Bygning 204 , ljess@dtu.dk
22 Institut for Sundhedsteknologi
I studieplanlæggeren
Overordnede kursusmål
Målet med dette kursus er at udstyre de studerende med praktiske færdigheder i moderne biodatascience ved hjælp af Tidyverse R, RStudio IDE og Quarto-rapporteringssystemet. I løbet af kurset vil de studerende lære at omdanne rodede datasæt til rene og organiserede, udføre dataanalyse, få indsigt gennem undersøgende dataanalyse og kommunikere resultater via datavisualisering og dynamisk rapportering. Der vil blive lagt vægt på vigtigheden af processen underlæggende reproducerbar dataanalyse og design, organisering og eksekvering af samarbejdsprojekter inden for biodatascience ved hjælp af Tidyverse R og git/GitHub. Kurset vil udelukkende fokusere på biologiske datasæt.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • redegøre for hvorfor reproducerbar dataanalyse er vigtig og for forskellen mellem replikerbarhed og reproducerbarhed.
  • beskrive de grundlæggende begreber for datarensning og transformation, og hvordan de relaterer til reproducerbar dataanalyse.
  • forklare hvilke Tidyverse-værktøjer, der gør hvad, og identificere passende værktøjer til givne opgaver.
  • anvende Tidyverse-værktøjer til at konvertere et rodet datasæt til et rent og konsistent i sammenhæng med undersøgende dataanalyse og opnå indsigt i biologiske data.
  • bruge RStudio og git/GitHub til at arbejde kollaborativt på biodatascience-projekter.
  • udføre basale statistiske test og lineære modeller ved hjælp af Tidyverse framework.
  • konstruere en simpel R-pakke.
  • konstruere en simpel Shiny app.
  • selvstændigt identificere og adaptere relevante nye state-of-the-art biodatascience-værktøjer.
  • bruge Large-Language-Model (LLM) teknologi såsom chatGPT som sparringspartner i et biodatascience-projekt, samt vurdere og redegøre for de potentielle faldgruber og konsekvenser heraf.
  • designe og organisere et kollaborativt end-to-end biodatascience-projekt ved hjælp af Tidyverse R og git/GitHub og præsentere resultaterne i en omfattende dynamisk Quarto-rapport/​præsentation.
  • analysere et allerede udført biodatascience-projekt for at vurdere valg af metoder, reproducerbarhed og kvalitet af datakommunikation.
Kursusindhold
Moderne bio data science i Tidyverse R, data -oprensning, -transformering, -visualisering og -kommunikering. Tidyverse R, RStudio, Rmarkdown, dplyr, ggplot, reproducerbar bio-dataanalyse, rstudio.cloud, shinyapps.io, R-pakker, git/GitHub, bio-data-science projekt-organisering alt med et anvendelsesoritenteret fokus. Nogle elementer af anvendt basal statistik of maskinlæring.
Litteraturhenvisninger
Undervisningen vil i store træk følge "R for Data Science (2e)" af Hadley Wickham, Mine Çetinkaya-Rundel, and Garrett Grolemund [1], men også suppleres af andre open source læringsmaterialer. Se kursushjemmesiden for mere information.
1. Open source bog: https://r4ds.hadley.nz
Sidst opdateret
02. maj, 2024