Uključene obrazovne institucije
Univerzitet u Nišu
Oblast
Upoznavanje sa konceptom velikih i kompleksnih skupova podataka: osnovnim karakteristikama, tehnologijama i neophodnoj infrastrukturi za prikupljanje, čuvanje i obradu podataka. Poseban akcenat je na razumevanju Apache Hadoop platforme kao osnove za distribuiranu obradu velikih skupova podataka. Detaljno upoznavanje Apache Spark platforme i primena postojećih funkcionalnosti u analizi velikih skupova podataka. Izučavanje komponenti Spark ekosistema: Spark Streaming, GraphX i Spark SQL. Upoznavanje sa MLib, Spark bibliotekom za mašinsko učenje i implementacija kompleksnih algoritama mašinskog učenja primenom MLib funkcija.
Ovladavanje osnovnim znanjima neophodnim za prepoznavanje i rešavanje problema koji spadaju u domen velikih skupova podataka. Korišćenje Hadoop platforme za čuvanje i obradu velikih skupova podataka. Sticanje znanja o arhitekturi Spark platforme kao i veština za njenu primenu u distribuciji podataka i paralelno izvršavanje zadataka nad podacima. Osposobljavanje za primenu različitih scenarija obrade podataka zasnovanih na kombinaciji Spark SQL, Spark Streaming i kompleksnoj analitici podataka. Razumevanje primene GraphX biblioteke u rešavanju problema mrežne analize. Ovladavanje veštinama programiranja u Spark platformi korišćenjem Pyspark-a. Implementacija algoritama Mašinskog učenja primenom MLib biblioteke. Ovladavanje praktičnim znanjima kroz laboratorijske vežbe. Sticanje znanja i veština koje predstavljaju kvalitetnu osnovu za angažovanje na poslovima fundamentalnih, razvojnih i primenjenih istraživanja u oblasti Data science.
Teorijska nastava
Uvod u analitiku velikih skupova podataka korišćenjem Apache Spark platforme. Apache Spark API (application program interface). Obrada podataka primenom Spark tehnologije. Spark streaming modul. Mašinsko učenje primenom Spark-a Mllib. Spark GraphX modul.
Praktična nastava
Vežbe u računskom centru. Obrađuju se i implementiraju primeri u skladu sa teorijskom nastavom.