22160 R for Bio Data Science

2024/2025

Arbejder du i industrien, og er du interesseret i at følge dette kursus, så er du meget velkommen! Læs mere om dine muligheder her: https:/​/​www.dtu.dk/​efteruddannelse/​enkeltfagskurser. Kurset eksisterer også på BSc niveau (22100). Er du indskrevet på et andet universitet, skal du indskrives som meritstuderende.
Kursusinformation
R for Bio Data Science
Engelsk
5
Kandidat
Kurset udbydes som enkeltfag
Generel retningskompetence (MSc), Bioinformatics and Systems Biology
Retningsspecifikt kursus (MSc), Bioinformatics
E3A (tirs 8-12)
Campus Lyngby
Semi-flipped classroom. Eleverne forbereder tildelte skriftlige og videobaserede materialer før undervisningen. Undervisningen indledes med en kort opsummering af nøglepunkter fra sidste uges øvelser efterfulgt af en kort introduktion til nøglepunkter i dagens emne. Resten af klassen er Cloud-baserede øvelser. Studerende skal medbringe egen bærbar computer med fungerende trådløst internet og gyldig DTU-konto.
13-uger
E3A
Skriftlig eksamen og bedømmelse af opgave(r)
Eksamen består af 3 delprøver: 1. Et kodebaseret gruppeprojekt. 2. En mundtlig gruppepræsentation af projektet. 3. 2 timers afsluttende individuel MCQ-eksamen. Alle tre delprøver skal gennemføres for at man kan bestå kurset. Den endelige karakter er baseret på en helhedsvurdering af alle tre delprøver. Bemærkninger til delprøver: 1. Alle medlemmer er ansvarlige for alle dele af projektet. 2. Alle medlemmer skal præsentere fysisk på den sidste undervisningsdag. 3. Der eksamineres i generelle kursuslæringsmål. Reeksamen vil bestå af selvstændig udarbejdelse af et nyt projekt efter samme retningslinier, som under den ordinære eksamen, efterfulgt af en mundtlig præsentation, hvor der også eksamineres i de generelle kursuslæringsmål. Der ydes i den forbindelse ikke vejledning. Der er ingen afsluttende MCQ-eksamen.
Skriftlig eksamen: 2 timer
Alle hjælpemidler - uden adgang til internettet
7-trins skala , intern bedømmelse
22100
01005.­(02402/(2702423214)).­(22101/02631/02632/02633).­(27002/27008).­22111 , Det forudsættes, at den studerende har eksisterende viden om matematik, statistik, basal programmering (sprog irrelevant), life science og bioinformatik svarende til niveauet for bachelorkurser på DTU (se relevante kursusnumre ovenfor).
Leon Eyrich Jessen , Lyngby Campus, Bygning 204 , ljess@dtu.dk
22 Institut for Sundhedsteknologi
I studieplanlæggeren
Overordnede kursusmål
Målet med dette kursus er at udstyre de studerende med praktiske færdigheder i moderne biodatascience ved hjælp af Tidyverse R, RStudio IDE og Quarto-rapporteringssystemet. I løbet af kurset vil de studerende lære at omdanne rodede datasæt til rene og organiserede, udføre dataanalyse, få indsigt gennem undersøgende dataanalyse og kommunikere resultater via datavisualisering og dynamisk rapportering. Der vil blive lagt vægt på vigtigheden af reproducerbar dataanalyse og design, organisering og eksekvering af samarbejdsprojekter inden for biodatascience ved hjælp af Tidyverse R og git/GitHub. Kurset vil udelukkende fokusere på biologiske datasæt.
Læringsmål
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • redegøre for hvorfor reproducerbar dataanalyse er vigtig og for forskellen mellem replikerbarhed og reproducerbarhed.
  • beskrive de grundlæggende begreber for datarensning og transformation, og hvordan de relaterer til reproducerbar dataanalyse.
  • forklare hvilke Tidyverse-værktøjer, der gør hvad, og identificere passende værktøjer til givne opgaver.
  • anvende Tidyverse-værktøjer til at konvertere et rodet datasæt til et rent og konsistent i sammenhæng med undersøgende dataanalyse og opnå indsigt i biologiske data.
  • bruge RStudio og git/GitHub til at arbejde kollaborativt på biodatascience-projekter.
  • udføre basale statistiske test og lineære modeller ved hjælp af Tidyverse framework.
  • konstruere en simpel R-pakke.
  • konstruere en simpel Shiny app.
  • selvstændigt identificere og adaptere relevante nye state-of-the-art biodatascience-værktøjer.
  • bruge Large-Language-Model (LLM) teknologi såsom chatGPT som sparringspartner i et biodatascience-projekt, samt vurdere og redegøre for de potentielle faldgruber og konsekvenser heraf.
  • designe og organisere et kollaborativt end-to-end biodatascience-projekt ved hjælp af Tidyverse R og git/GitHub og præsentere resultaterne i en omfattende dynamisk Quarto-rapport/​præsentation.
  • analysere et allerede udført biodatascience-projekt for at vurdere valg af metoder, reproducerbarhed og kvalitet af datakommunikation.
Kursusindhold
Moderne bio data science i Tidyverse R, data -oprensning, -transformering, -visualisering og -kommunikering. Tidyverse R, RStudio, Rmarkdown, dplyr, ggplot, reproducerbar bio-dataanalyse, rstudio.cloud, shinyapps.io, R-pakker, git/GitHub, bio-data-science projekt-organisering alt med et anvendelsesoritenteret fokus. Nogle elementer af anvendt basal statistik of maskinlæring.
Litteraturhenvisninger
Undervisningen vil i store træk følge "R for Data Science (2e)" af Hadley Wickham, Mine Çetinkaya-Rundel, and Garrett Grolemund [1], men også suppleres af andre open source læringsmaterialer. Se kursushjemmesiden for mere information.
1. Open source bog: https://r4ds.hadley.nz
Sidst opdateret
02. maj, 2024