2016. június: portré, atomenergia, tudomány, egyetem, it, anyagtudomány, innováció, vízgazdálkodás, zöldkörnyezet, megújuló energia
2016. június 1.

Szerző:
B. Szabó Edina

Adatelemzés nem középiskolás fokon

A „data scientist” kifejezést foglalkozásnévként „adattudós munkatárs”-nak magyaríthatjuk. Egyike azon kifejezéseknek, amelyeket az új információtechnológiai megoldások hoztak magukkal. Nem meglepő, hogy nagyon gyorsan fejlődik a mögöttes tudást nyújtó oktatás is.


Magyarországon a Kürt Akadémia egyike azoknak a vállalatoknak, amelyek már elindították Data Science képzésüket. A hatékony módszereiről ismert oktatási intézmény egyedi képzést ígér azoknak, akik a gyakorlati tudásukat szeretnék fejleszteni, és holisztikus személetre szeretnének szert tenni. A képzésben a Kürt Akadémia ötvözte a technológiai alapokat, újdonságokat, az adatelemzés módszertanának eszköztárát a projektszemlélettel és a társadalmi kontextus legizgalmasabb kérdéseivel. Ehhez adódik a megszokott, mégis rendhagyó oktatási szemlélet és egy intenzív szakmai közösségi háttér. A tematika az adattudomány fejlődésétől az elemzések fázisain és a problémafeltáráson át a statisztika és big data rejtelmein keresztül a jogi és kommunikációs területekig vezeti végig a jelentkezőket a data scientistté válás útján.

A tartalom mellett az oktatás kereteit is a legmodernebb elvárásokhoz igazították, az oktatókból, hallgatókból és szakértőkből álló csapat lehetőséget nyújt a folyamatos párbeszédre. Ez pedig olyan dinamikus és széles spektrumra kiterjedő tudásfrissítést biztosít, amire csak egy élő hálózat képes.

Lévai Richárd közösségimarketing-specialista maga is belevágott a képzésbe, így első kézből kaptunk információt a fogalomról, az oktatásról, valamint az információtömeg kiaknázásáról.

Data Scientist. Értem a fogalom jelentését, de milyen feladatkört lehet hozzá társítani?

– Alapvetően arról van szó, hogy egyre több adat áll rendelkezésünkre, és ez nem csupán vagy nem feltétlenül „big data” kategória. Eleve azt, hogy a big data milyen esetben big, azt mindenki másként határozza meg, és több értelmezése is van. Van, aki a mérete szerint vizsgálja, van, aki az adathalmazt tároló gépek számában, esetleg az adatbázis összetettségében határozza meg, vagy annak alapján, hogy milyen összetevőkből, mezőkből áll – nagyon sokfajta megfelelője van.
Nem minden esetben big data az, amivel egy data scientist foglalkozik, hiszen egy kis cég esetében nem feltétlenül ekkora méretű, mennyiségű az adathalmaz, de abból is le lehet vonni következtetéseket. Ennek pedig az a lényege, hogy üzletileg valami jobb irányba lehessen vinni a céges folyamatokat. Így tehát a munkakörből kinyert feladatokat nevezhetjük döntéstámogatásnak, termékfejlesztésnek, de bármilyen jellegű megközelítésre jó lehet, feltéve, ha az a segíti egy cég működését és előrevitelét.

Tulajdonképpen megtanítják az összefüggéseket észrevenni?

– Részben ez is beletartozik, igen. A Kürt Akadémia data scientist képzésére járok, ez pedig végigvisz azon, hogy ha valaki ezzel a területtel komolyabban szeretne foglalkozni, akkor milyen lépéseket kell megtennie. Például akár üzleti, akár hardverszempontból hogyan kell kialakítani eszközparkokat, vagy adatbázis-tárolásra alkalmas helyet, vagy éppen hogy jelenleg milyen típusú adatelemzési módszerek, adatelemzési nyelvek léteznek. Utóbbi esetben tulajdonképpen programozni tanulunk speciális nyelveken, ami azért nagy kihívás. Legalábbis nekem.
A képzés tehát ad egy viszonylag átfogó képet az egész folyamatról. A mostani félévben pedig már éppen a big datával foglalkozunk. Az előzőekben erről még nem volt szó – kétszemeszteres a képzés –, akkor modelleket kellett építeni, például arra, hogy egy mobilszolgáltató ügyfelei közül ki az, aki azon gondolkodik, hogy szolgáltatót vált. Vagy adhatunk-e hitelt egy embernek, nem banki, hanem más típusú adatok alapján.
De építünk modellt különböző osztályozási módszerekkel is. Egyrészt el kell kezdeni kiválogatni és letisztítani a sok adatot, ami előttem van, másrészt ki kell gondolnom, hogy melyik faktort hogyan kell figyelembe venni az optimális modellépítésnél. Azután le kell tesztelni a modellt, hogy megfelelő-e egyáltalán, és van-e hatása a jelenlegi adatok alapján? Amikor ez később éles projektben történik, mindezt vissza kell vezetni a rendszerbe.
Ha például egy banki hitelfelvételről van szó, akkor megadom az adataimat a bankosnak, ő beviszi őket a gépbe, a rendszer pedig visszajelzi, hogy kaphatok-e hitelt vagy sem. A „kaphatok vagy nem kaphatok” mögötti algoritmusokat építik ki például a data scientistesek…

Kissé bonyolultnak tűnik a dolog. Az Ön szakterületéhez miért volt szükség erre a képzésre?

– Azt gondolom, hogy a marketing egyre inkább az adatokon alapul, pontosan annak köszönhetően, hogy mindenhol ott vannak velünk a kis eszközeink, és kismillió adatot gyűjtenek rólunk. A legtöbb felhasználó, ha tudná, milyen adatokat gyűjtenek róla, lehet, hogy két napig sírna, de aztán mindent folytatna ugyanúgy tovább…
A lényeg, hogy a cégek nagyon sok adatot gyűjtenek, és például a marketingben azt látjuk, hogy mi is egyre több adattal dolgozunk, és ez még csupán egy folyamat eleje. Az a kiindulópont, hogy mondjuk a Facebook vagy az Adwords, a saját honlapunk és hírleve­leink adatai teljesen szegmentálva és használhatatlanul keverednek. Nagyon nehéz ezeket úgy összegereblyézni, hogy egy rendszerben nagyjából ugyanazokat az eredményeket adják vissza, vagy hogy egyszerű legyen egymásra, egymásból következtetéseket levonni. Egyelőre abból a szempontból is csak a folyamat elején járunk, még csak „szűkösen” gondolkodunk, mint a Facebook, az Adwords, a saját weboldal, hírlevél, egy-két ügyvezetéssel vagy cégmenedzsmenttel kapcsolatos adatunk van csak, ha van egyáltalán figyelt adathalmaza a cégnek. Még nem tartunk ott, hogy egy szórakozóhely vagy egy kávéház, amilyenben mi most ülünk, tele legyen szenzorokkal. Az pedig egy logikus következő lépés, hogy néhány év múlva ezek a szenzorok adják majd az adatokat: hány ember jött be, milyen volt a fogyasztás, hányszor kapcsolták be a kávégépet. Ezek olyan adatok, amelyek a cégmenedzsmenttel vagy üzemeltetéssel kapcsolatban fontosak, ugyanakkor a marketingben is használhatóak.
Úgy vélem, ezekre egyre inkább fel kell készülni, én mindenesetre pozitívan állok a dologhoz. Részemről ez amolyan előremenekülés vagy szakmai kíváncsiság, hiszen teljesen más az, amit most tanulok, mint az, amivel foglalkozom. Amikor elkezdtem tanulni, nagyon sokat gondolkodtam azon, hogy érdemes-e ebbe belevágnom. Nem is a költségek miatt, hiszen mindennek megvan az ára, hanem mert összesen 29 péntekről van szó, ami öt óra alkalmanként. Ez az idő pedig kiesik a családnál, kiesik a munkából. De mivel minden egyre inkább ebbe az irányba halad – mindig mindenkiről adatot gyűjtünk, és egyre többet gyűjtünk, és ezekkel aztán kell kezdeni valamit –, ezért a marketingesnek is, aki nem feltétlenül data scientist, meg kell tanulnia kezelni ezt a mennyiséget.

Az adatelemzés önálló szakma, vagy inkább eszköz?

– Egyértelműen szakmáról van szó. Méghozzá az egyik legjobban fizetett szakma. Szóval, ha valaki például programozóként még többet szeretne elérni, szeretné még jobban beleásni magát az elemzésekbe, akkor a data scientist remek továbblépési lehetőség. Manapság egyre több ilyen képesítésű emberre van szükség, és különböző képességek kellenek hozzá. Vagyis nem kell mindenkinek a programozás részében elmerülni; lehet, hogy valakinek az adatvizualizáció-készítés vagy az üzletimodell-építés jobban illik majd a munkájába, ettől függetlenül ez egy éppen kiforróban lévő szakma, és sokan kimondottan már ilyen munkatársat keresnek.
Az is lehet, hogy egy vállalatfejlesztőt keresnek, de az illetőt végül ez a típusú elemzőmunka várja: piros vagy kék legyen az a bizonyos gomb azon a bizonyos fejlesztett felületen? Ehhez gyakran sok százezer felhasználó tevékenységét kell elemezni.

Azt mondja, hogy akár nekem sem ártana elmenni egy ilyen képzésre, mert jól tudnám hasznosítani a munkámban?

– Ez azért nagyban függ attól, milyen projektjei vannak. Ha adattal kapcsolatosak a projektek, vagy egy cégen belüli adatvagyonhoz kapcsolódóak, akkor igen. Figyelni kell erre, én is próbáltam alkalmazni a tanultakat a saját cégemen belül, hogy élesben miként is működnek, de nagyon nehezen ment. Mert bár vannak adataink, amiket használunk is, ám modellt építeni erre, amiből aztán valami „jóslást” is kinyerhetünk, mondjuk ügyfélszegmentálást – na, ehhez már nem volt elég nagy adathalmazunk. Vagyis egy emberről nem öt adat kell, hanem huszonöt vagy inkább kétszázötven ahhoz, hogy kezdeni lehessen vele valamit. Arra figyelni kell azért, hogy ha adatgyűjtésbe kezdünk, előbb-utóbb jogi korlátokba ütközünk…

Milyen jellegű cégek tudják kihasználni ezt? Webshopok, gyártók?

– Mindenhol más a lényeg. Egy webshop esetében vannak például a belépő adatok vagy a statisztikai ki-mit-csinál részletek. Egy gyártó esetében pedig inkább a szenzoros adatok kerülnek képbe. Ma már fillérekért lehet szenzorokat kapni, amivel teleszórhatja a gyártóteret meg a műhelyt, és ebből máris megfelelő adatokat lehet összeszedni. A probléma nem ott kezdődik, hogy hol tárolják el ezeket az adatokat, hiszen ma már tárhely van bőven, hanem hogy hogyan válogatják ki azokat, amikre szükség van. Lényeges, hogy ne legyen túlmérés, vagy túl sok felesleges adattal kapcsolatos munka.
De speciális döntéstámogatást találunk a biztosítási csalások felderítésénél is, vagy az eltávozó ügyfelek előrejelzése esetében, banki tranzakcióanalíziseknél, új termékek ajánlásánál. Nincs tehát olyan terület, ahol ne lehetne alkalmazni az adatelemzést. És az világosan látható, hogy minden az egyre több adat felhalmozódása felé tart, rólunk is van rengeteg, csak nem a mi kezünkben.
Viszont ha valaki olyan kütyümániás, mint én – okostelefon, fitneszalkalmazás, pulzusmérő, okosmérleg –, akkor már magáról is gyűjthet sok adatot, és hasznos következtetéseket is levonhat belőlük. Mondhatom, hogy ez is egyike az engem ebbe az irányba mozdító okoknak. Az is az okok közé tartozik, hogy bár a mi cégünknél most még nincs sok adat, de lehet, hogy egy-másfél év múlva annyi lesz, hogy bele fogunk fulladni… Azzal együtt, hogy én valószínűleg sosem fogok programozni, lesznek és kellenek is majd a cégnél olyan munkatársak, akik ezt teszik. Akkor pedig fontos lesz, hogy egy nyelvet tudjunk beszélni, és értsük egymást, amikor a lehetőségeket vesszük sorba és közösen elemezzük az adatokat.

Ezek érthető célok, világos motivációk. Azt viszont nehezen tudom elképzelni, hogy mindehhez az oktatást hogyan lehet rendszerbe foglalni. Úgy felépíteni, hogy a megszerzett tudást később önállóan tudja gyakorolni, vagy akár továbbképezni magát.

– Igen, itt ez is érdekes kérdés. Mivel ez az első ilyen képzés, a szer­vezők jelezték a meghirdetéskor, hogy bár természetesen a tematika készen áll a kezdésre, a csoportösszetétel alapján lehetséges, hogy módosítják majd az anyagot úgy, hogy az mindenkinek megfelelő legyen. A csoportunkba például többen érkeztek ugyanannak a telekommunikációs cégnek a teljesen más fejlesztési részlegeiről, és a képzésen ismerkedtek meg. Különböző cégektől érkeztek a csoporttársak, és persze marketingesek is szép számban képviseltetik magukat. Az, hogy valaki önként jön, vagy a cége delegálja, szintén vegyes.

Vagyis egyre inkább felismerjük, felismerik, hogy szükségük van erre a típusú tudásra?

– Igen. Tisztában vannak azzal, hogy nap mint nap milliószámra ömlik hozzájuk az információ, és ezekkel az információkkal vala­hogyan képben kell lenniük. Ehhez jön a big data egy bizonyos üzleti környezetben, és ezzel együtt megjelenik a döntéshozók részéről is az igény arra, hogy a rengeteg adatot feldolgozzák. Viszont sokan nem tudják még, hogy mit is lehetne ebből az egészből kihozni, ekkor jön el az útkeresés ideje. Rengeteg adatunk van, mihez kezdjünk?! Mekkora üzleti értéket képvisel mindez? Mekkora üzleti értéket lehet belőle kihozni? Szerintem egyelőre a legnagyobb multik is csak tapogatódznak, mert például egy cégen belül sok esetben két osztálynak két különböző adatvagyona van, ami más-más eredményt hozhat ki ugyanarra a körülményre. Szerencsére gyorsan fejlődő ágazatról van szó. Körülbelül húsz éve született meg az adatbányász-pozíció, ami nagyon menő volt. Ez azóta átalakult egyrészt a fejekben is, és szakmailag is. Ugyanúgy, ahogy valaki öt éve social media, vagyis közösségimédia-menedzsernek hívta magát, az ma content, vagyis tartalommenedzser… Az iróniát félretéve azért valódi tartalmi változás is bekövetkezett.
Az adatelemzés használatának másik aspektusa az az eredmény, amelynek elérése után egy általános keresésre mondjuk a Google egy bizonyos, számomra kedves helyet sorol előre a találati listán. Vagy mondjuk, anyukám névnapján a GPS egy közeli virágüzlet felé tervezi az útvonalat. Az üzletláncok hírlevelének ajánlatai is ehhez hasonló elemzésen alapulnak. Mondok egy példát erre is: amikor az egyik üzlet bevezette a klubkártyákat, akkor adtak mellé egy kuponcsomagot, amit negyedévente postán küldtek ki a vásárlóknak. Az első csomagból általában egy kupont sem tudtak beváltani, mert azokra a termékekre nem volt szükségük. A kártyát persze használták továbbra is, pontgyűjtésre, akciók esetében és így tovább. A második csomagban szinte minden második termék stimmelt, a harmadik-negyediket pedig mintha rájuk szabták volna. Vagyis körülbelül egy év kellett ahhoz, hogy a vásárlót a vásárlásai alapján megismerjék – természetesen adatelemzéssel: a klubkártyával beazonosítanak, hozzácsapják a vásárolt terméklistát és végül elemzik a kapott összképet.
Zárszóként egy visszatérő példa a tréningekről, az amerikai Target áruházlánc sztorija. Valahol Minnesotában egy feldúlt úr csapkodni kezdte a pultot egy Target üzlet ügyfélszolgálatán, számonkérve a tizenhat éves lányának küldött utolsó termékajánlatukat, ugyanis a levélben terhességgel kapcsolatos termékek is szerepeltek. Az apa felháborodottan közölte, hogy nem tűri, hogy az üzletlánc ilyen módon próbálja befolyásolni a lányát gyermekvállalással kapcsolatban. A munkatárs visszahívást ígért. Másnap fel is hívták az ügyfelet: az apa vette fel a telefont, és rögtön bocsánatkéréssel kezdte, mert miután beszélt a lányával, kiderült, hogy valóban gyermeket vár. Egy kérdése volt csupán: mégis mi alapján tudta az áruház, hogy mi a helyzet, hiszen a lány nem töltött ki semmilyen kérdőívet, nem adott meg speciális igényeket sem, titok övezte az egész szituációt. A válasz egyszerű volt: megváltoztak a vásárlási szokásai. Az áruház évekkel korábban felvett egy elemzőt, aki kikövetkeztette, hogy ha egy nő gyermeket vár, ha családja lesz, megváltoznak a vásárlási szokásai. Ezekből az adatokból felállított egy képletet arra vonatkozóan, hogy mit kell ahhoz tudnia az üzletláncnak, hogy a termékösszetétel megváltozásából levonható legyen a terhesség ténye.
De szerintem már az is jó dolog, ha például az általunk felkeresett portálokon nekünk szólnak a hirdetések, hiszen kiszolgálnak és nem zavarnak olyasmivel, amire nem vagyunk kíváncsiak.
Ezek azok a mindennapi dolgok, amelyek miatt én beülök az órákra minden pénteken.•

 
Innotéka