Data Science, „najseksi zanimanje veka“ — šta to znači u praksi?

Radim u Nordeusu na analizi igara i razvoju infrastrukture za analizu podataka. Pre nekoliko godina mi se fokus rada pomerio sa razvoja infrastrukture na analizu i od tada se kolegama iz industrije predstavljam kao Data Scientist.

Koliko god da je to olakšalo komunikaciju sa kolegama na konferencijama, toliko komplikuje situaciju kada vas pitaju za zanimanje. Obično kažem da sam programer. Statističar, ipak, nisam, niti imam duboko obrazovanje iz te oblasti. Data Scientist je, upravo zahvaljujući svojoj popularnosti, postao maglovito definisano zanimanje.

 Mnogi kritičari smatraju da je Data Scientist samo glorifikovani statističar. Lično, ne slažem se sa tim.


Šta je to Data Scientist?

Pored znanja statistike, koje nije presudno, i obrade podataka, programiranja i baza podataka, neophodne su i neke ne-tehničke veštine, kao što je domensko znanje iz oblasti kojom se bavite (u mom slučaju Game Design) i kvalitetna vizualizacija i komunikacija podataka i nalaza (što je često više umetnost nego nauka).

Karakteristika ovog posla je pre širina, nego specijalizacija u bilo kojoj od ovih oblasti.

Verovatno su upravo ovako široki zahtevi za veštinama jednog Data Scientist-a i doveli do pokretanja ogromne marketinške kampanje koja je, između ostalog, proglasila ovo zanimanje „najseksi poslom 21. veka“. To je taj smisao za marketing američkih korporacija.

Kampanja je svakako uspela, čemu svedoči i eksplozija kurseva koji obećavaju stvaranje armije Data Scientist-a koji su potrebni novoj ekonomiji.

Imati ljude u kompaniji koji se bave ovim poslom je danas isto što i ulagati u marketing: nekada vam to donosi prednost u odnosu na konkurente, ali pre svega vam omogućava da ostanete na površini. S druge strane, nagla popularnost tog posla je dovela i do toga da dosta ljudi sebe „rebrendira“ u Data Scientist-a, što je dovelo do još veće konfuzije oko toga šta to tačno (sve) Data Scientist radi?

Generalno, Data Scientist koristi podatke da bi kroz eksplorativnu analizu došao do modela koji objašnjavaju neke fenomene. Modeli se dalje koriste ili za donošenje odluka ili za pravljenje proizvoda zasnovanih na podacima.

Kako to izgleda u praksi?

Igra Top Eleven, glavni proizvod kompanije Nordeus, ima milione igrača, dakle populaciju sličnu jednoj ne maloj državi. Mi skupljamo između pola milijarde i milijardu redova podataka dnevno koje igrači generišu svojim aktivnostima u igri.

Međutim, podaci nisu informacije, oni su sirovina iz kojih ćemo dobiti informacije.

Možete zamisliti sve te milione i milijarde podataka kao gomilu zemlje, blata i kamenja u kojima se krije grumen zlata, informacija koja će dovesti do toga da se nešto uradi bolje, da znamo gde smo i kuda se krećemo ili da napravimo novi proizvod koji će ljudi koristiti, jer i njima informacije koje pruža donose nekakvu vrednost.

Da bismo došli do tih informacija koristimo razne Data Mining tehnike, eksplorativnu analizu i vizualizaciju podataka. Ovo nipošto nije linearan proces, već istraživanje gde se kroz mnoštvo iteracija gradi sve jasnija mentalna slika.

Za razliku od naučnih radova u kojima je poželjno ulaziti u detalje statistike koja dokazuje ili opovrgava nekakvu hipotezu, u poslovnom okruženju je bitno što jednostavnije preneti drugim ljudima tu mentalnu sliku do koje ste došli. Rezultat istraživanja više liči na kvalitetan blog nego na naučni rad.

Mora postojati narativ koji objašnjava kako se nalaz uklapa u širu sliku koju imate o proizvodu, ili, pak, zašto moramo promeniti tu širu sliku zahvaljujući novim nalazima.

Dobra vizualizacija podataka postavljena na pravom mestu u tom narativu će pomoći da i drugi brzo dođu do istih zaključaka. Gomile dijagrama i raznih grafika, statističkih analiza, intervali sigurnosti – sve će to samo zatrpati još jednom suštinu priče. Tu je velika razlika između Data Scientist-a i statističara, ali ovde leži i ključna razlika između Data Scientist-a i drugih, naizgled sličnih, analitičara.

Data Scientist ume da komunicira sa ljudima kao pripovedač i prenese im razumevanje nekakvih procesa oslikanih u svim tim podacima, iako oni sami nemaju veštinu i znanje da dođu do tih rezultata. S druge strane, Data Scientist mora da bude u stanju da svoje tvrdnje opravda prikazivanjem strogog metodološkog procesa.

Naučni metod u poslovanju

Ovo je, zapravo, zanimanje koje je prvi put zvanično uvelo naučni metod u biznis. Umesto slepog „kopanja“po podacima, sve kreće od brižljivo postavljenih hipoteza koje se mogu oboriti. Nadalje se razlikuje samo metodologija prikazivanja rezultata i konačni cilj je, budimo iskreni, uvek u službi biznisa, a ne pukog proširenja ljudskog znanja.

Rezultati uvek moraju imati upotrebnu vrednost, jer će biti odmah iskorišćeni ili za donošenje odluke čije se posledice mogu jasno izmeriti, ili za pravljenje nove aplikacije, čija se upotreba, a samim tim i vrednost, jako lako može izmeriti.

U praksi, ljudi se uglavnom specijalizuju za određene aspekte ovog posla, što zavisi od njihovih veština i sklonosti. Postoji grupa Data Scientist-a koji se pre svega bave razvojem proizvoda na osnovu podataka.

Iako prethodi bumu zanimanja za ovu oblast, jako dobar primer je nastanak i razvoj Gugla. I Guglov pretraživač i njihov biznis sa reklamama su proizvodi zasnovani na podacima. Takve proizvode razvijaju, pre svega, programeri koji su svoja interesovanja proširili u oblast obrade podataka i statistike.

S druge strane, velika većina Data Scientist-a se bavi analizom i njihovo obrazovanje je raznoliko – ili su u pitanju ljudi koji su završili tehničke fakultete, pa su se usmeravali ka biznisu, ili su u pitanju ljudi koji su završili ekonomski ili slične fakultete, a zatim unapredili svoja tehnička znanja, pre svega u oblasti programiranja.

Konkretno, od svih Data Scientist-a u Nordeusovom Analytics timu, ne postoje dva čoveka sa istim obrazovanjem i setom veština.

Pošto su zahtevi za „idealnog“ Data Scientist-a blago nerealni – neko ko bi bio jako dobar u svemu što sam pomenuo, taj problem se rešava sklapanjem potpuno funkcionalnog tima u kome ljudi dopunjuju jedni druge svojim veštinama.

U tom smislu, Data Science je zanimljiv kao nova pojava koja menja moderni biznis i zato što su jedino kompanije koje su u stanju da stvore tu zdravu atmosferu saradnje u mogućnosti da potpuno razviju i iskoriste potencijale ove oblasti.

Marko Jevremović, Data Scientist u kompaniji Nordeus

Tekst realizovan u saradnji sa Startit-om