Målet med kurset er at lære at bruge og kombinere eksisterende
bioinformatiske værktøjer for at sammensætte en overordnet pipeline
til at samle, analysere, visualisere og modellere biologisk og
klinisk data.
De studerende vil få kendskab til og praktisk forståelse for
udvikling af små programmer (scripts) og brug af BioPython til at
tilgå online databaser for biologiske sekvenser som f.eks. Genbank,
RefSeq og UniProt. De studerende vil lære at samle og analysere
store mængder data fra filer og databaser gennem simple scripts
udarbejdet som UNIX kommandoer. De studerende vil lære at indlæse,
visualisere og udføre simple beregninger og statistiske analyser af
deres data gennem programmeringssproget R. Endelig bestræbes det at
give de studerende indsigt i principperne samt fordele og ulemper
ved statistiske modellerings-, klassificerings- og
forudsigelsesmetoder, så de studerende kristisk kan evaluere og
sammenligne præstationerne af disse værktøjer.
De studerende forventes at have basale IT-erfaringer og bør være
trygge med programmering i Python og R forud for deltagelsen af
kurset.
Læringsmål:
En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
Sammensætte biologiske værktøjer i en pipeline ved brug af UNIX
og små programmer (scripts).
Skrive scripts som samler og filtrerer datasæt.
Bearbejde data ved brug af UNIX kommandoer.
Analysere biologiske sekvenser i Python.
Bearbejde data ved brug af R.
Visualisere data ved brug af R.
Beregne statistiske analyser ved brug af R.
Udføre basale statistiske modelleringer ved brug af R.
Analysere og evaluere biologiske og kliniske
forudsigelsesmetoder.
Kursusindhold:
Kurset introducerer deltagerne for praktisk anvendelse af
biologiske værtøjer til typiske opgaver indenfor biologisk
dataanalysering. Kurset dækker metoder til at tilgå online
databaser med BioPython, samt metoder for databearbejdning og
visualisering med UNIX og R. Kurset præsenterer typiske eksempler
inden for statistik- og modelleringsmetoder inden for
bioinformatik, som f.eks. neurale netværk og ”Random Forest”, og
introducerer disse metoders brug indenfor relevante biologiske
systemer. Der vil være en stor vægt på at effektivisere typiske
arbejdsprocesser ved brug af programmering.
Litteraturhenvisninger:
online materials, papers
Mulighed for GRØN DYST deltagelse:
Kontakt underviseren for information om hvorvidt dette kursus giver
den studerende mulighed for at lave eller forberede et projekt som
kan deltage i DTUs studenterkonference om bæredygtighed,
klimateknologi og miljø (GRØN DYST). Se mere på http://www.groendyst.dtu.dk