A világ legjobb munkái várják azokat, akik megoldják ezeket az adatbányász feladványokat
Gilberto Titericz elektromérnök hét évig foglalkozott szenzorok és más hardverek karbantartásával a Petrobras olajvállalatnál. Miközben ebből élt, szabadidejében napokat töltött azzal, hogy hobbijának, a kompetitív adatelemzésnek hódoljon. Ez annyira jól ment neki, hogy a világ legjobb adatbányászai közé küzdötte fel magát, a Szilícium-völgy pedig bejelentkezett érte.
Amint Titericz 2015. októberben bekerült a legjobbak közé a Kaggle nevű szájton, ömleni kezdtek az állásajánlatok, olyan cégektől is, mint a Google vagy a Tesla. Titericz, aki ma is első a Kaggle toplistáján, február óta az Airbnb-nél dolgozik.
A 2010-ben indult, ma már több mint egymillió felhasználóval, közösségi alapon működő Kaggle az adatelemzést egyfajta sportággá fejlesztette. Cégek, állami hivatalok, kutatók dobnak be megoldandó problémákat, a hobbikódolók pedig rávetik magukat a feladatra. A legjobb megoldást kínálók jutalma nemcsak a dicsőség, hanem sokszor pénzdíj is, amellett, hogy feljebb tornásszák pontszámukat a Kaggle rendszerében.
Egy október 25-i kiírás szerint például 25 ezer dolláros fődíjért arra keresik a legjobb megoldást, hogy miként lehet kikövetkeztetni a horrorszerzők személyét az általuk leírt szövegből.
Titericz egyedül és kisebb csapatok tagjaként összesen kb. 100 ezer dollárt nyert a Kaggle-n olyan problémák megoldásával, mint hogy miként lehet megjósolni agyhullámokból a készülő rohamot (ezt a Nemzeti Egészségügyi Intézet akarta tudni), hogyan alakul a fémcsövek ára (a Caterpillar feladványa), illetve az albérleti díjak emelkedése (a Deloitte megbízásából). Ennél jóval nagyobb összegek is forognak a Kaggle-n: a Zillow nevű ingatlanos oldal 1,2 millió dollárt ajánl az algoritmusát tökéletesítő adatbányásznak.
De a veterán kagglerek szerint a díjaknál többet érnek a lehetőségek, amiket a jó listás helyezés nyit meg. Egyrészt a versenyzők megismerik a legújabb adatelemzési és gépi tanulási módszereket, másrészt a toplistát vezető nagymesterek értéke az egekig nő a munkaerőpiacon egy olyan területen, amely egyre fontosabbá válik az adatközpontú gazdaság erősödésével.
A Glassdoor listáján 2016-ban és 2017-ben is az adatkutatóké lett a legjobb munka az Egyesült Államokban, mert álláshelyek ezrei tátonganak üresen, évi 110 ezer dollár az átlagfizetés, és az adattudósok elégedettek a munkájukkal. A listán egyébként dobogós helyezést ért el az adatmérnök, és bekerült a top 10-be az adatbázis-kezelő pozíció is. Nem csoda, hogy kis és nagy cégek versengenek a Kaggle self-made szakértőiért.
A legjobbak a végsőkig elmennek
A Kaggle-t márciusban a Google vásárolta fel és integrálta felhő alapú szolgáltatásai közé. A vételárat nem hozták nyilvánosságra. A cég a hangsúlyt a versengés felől elmozdította afelé, hogy a cégek és magánszemélyek kezdjék el egymással megosztani adatbányász megoldásaikat. A Google abban reménykedik, hogy további cégek keresnek embereket, kódokat és adatokat új, gépi tanulással kapcsolatos projektjeikhez, és a megoldásokat majd a Google felhőjében futtatják. A győztesek jellemzően meg is osztják módszereiket a Kaggle fórumain.
A Kaggle nagymesterei állítják, a tanulás élvezete legalább annyira hajtja őket, mint a győzelemé. A legjobbak a végsőkig elmennek, hogy oda kerüljenek, ahol vannak. A Kaggle-n korábban első, ma harmadik Marios Michailidis az után kezdett el érdeklődni a téma iránt, hogy hallott egy emberről, aki lóversenytrendek elemzéséből gazdagodott meg. „Felfedezni és megmutatni a jövőt – mindez olyannak tűnt nekem, mint valami szuperképesség” – mondta Michailidis, aki önállóan tanult meg kódolni, majd felment a Kaggle-re, és napi munkája mellett heti 60 órát szánt arra, hogy minél jobb helyezéseket érjen el a versenyeken. Ma londoni otthonából dolgozik a kaliforniai H2O-nak, három évvel ezelőtti fizetése háromszorosáért.
Az eBay-nek és a Capital One-nak is adatelemzési megoldásokat szállító H2O akkor figyelt fel a Kaggle-n gyülekező tehetségekre, amikor az egyik H2O-szoftvert felhasználták egy győztes megoldáshoz. A H2O Driverless AI néven éppen olyan szolgáltatást fejleszt, amely részben az adattudós munkáját automatizálná; már hatezer cég és magánszemély várja, hogy kipróbálhassa a megoldást. A H2O-val rivalizáló DataRobot szintén leigazolt néhány nagymestert. Jeremy Achin alapító szerint a Kaggle-listás helyezés abban is segít, hogy a munkaadó kiszűrhesse a jelentkezők közül a magukat adattudósnak nevező imposztorokat.
A start-upok mellett már a nagyok is felfigyeltek a Kaggle-ben rejlő lehetőségre. A közösségi étteremkritikát felfuttató Yelp és a Facebook írt már ki versenyeket munkaerő-toborzási céllal, az Intel októberi állásajánlatában pedig már egyenesen elvárás a leendő gépitanulás-kutatóval szemben, hogy legyen a zsebében egy Kaggle-győzelem.