2015/2016

02807 Beregningsmæssige Værktøjer til Store Datamængder

Engelsk titel:

Computational Tools for Big Data

Sprog:

Point( ECTS )

5

Kursustype:

Kandidat
 

Skemaplacering:

E4A (tirs 13-17)

Undervisningens placering:

Campus Lyngby

Undervisningsform:

Ugentlige forelæsninger og grupperegninger. 3 større hjemmeopgaver.

Kursets varighed:

13-uger

Evalueringsform:

Bedømmelsesform:

Anbefalede forudsætninger:

Deltagerbegrænsning:

Minimum 20 Maksimum: 1200

Overordnede kursusmål:

Dette kursus giver en kort og intensiv introduktion til en stor mængde beregningsmæssige værktøjer og teknikker til at håndtere store datamængder. Vi vil berøre for eksempel: UNIX-terminalen, versionsstyring, grafdatabaser, Python, hashing-tricks og cloud-computing.

Læringsmål:

En studerende, der fuldt ud har opfyldt kursets mål, vil kunne:
  • Udvikle og implementere algoritmer til parallel kørsel af kode og vurdere hvornår problemer kan paralleliseres.
  • Bruge cluster-computere - for eksempel DTU's eget HPC-cluster, Amazon EC2 og Google Compute Platform - til at foretage storskala beregninger.
  • Designe, analysere og implementere MapReduce-algoritmer for simple og komplekse problemer og forklare hvornår brugen af MapReduce giver mening.
  • Kombinere forskellige UNIX-værktøjer (for eksempel sed, cut og grep) til at håndtere og redigere store og komplekse datafiler i terminalen.
  • Sammenligne og vurdere metoder til at skalere data analyse til store datamængder.
  • Sammenligne databasemodeller (for eksempel SQL, NoSQL og grafdatabaser) og databaseimplementationer (for eksempel Postgres, MongoDB og Neo4j). Vurdere hvilken database der egner sig til et specifikt problem.
  • Sammenligne og vurdere forskellige metoder til deep learning på store datamængder.
  • Finde og vurdere flere værktøjer til at arbejde med store datamængder og præsentere fordele og ulemper samt hvordan disse værktøjer virker.

Kursusindhold:

UNIX, Git, Amazon EC2, DTU HPC, Python, Numpy, Scipy, Scikit-learn, Cython, iPython, Pandas, streaming algoritmer, Postgresql og Psycopg, MongoDB og Pymongo, Neo4j, Mesosphere og DCOS, deep learning, Theano, Vowpal Wabbit, feature hashing, locality sensitive hashing, MapReduce og mrjob, Apache Spark.

Mulighed for GRØN DYST deltagelse:

Dette kursus giver den studerende en mulighed for at lave eller forberede et projekt som kan deltage i DTUs studenterkonference om bæredygtighed, klimateknologi og miljø (GRØN DYST). Se mere på http://www.groendyst.dtu.dk

Kursusansvarlig:

David Kofoed Wind , dawi@dtu.dk
Ole Winther , Lyngby Campus, Bygning 321, Tlf. (+45) 4525 3895 , olwi@dtu.dk

Institut:

01 Institut for Matematik og Computer Science

Kursushjemmeside:

http://www.toolsforbigdata.com

Tilmelding:

I CampusNet
Sidst opdateret: 08. september, 2015