Felhőalapú adatbányászat

Ha megkérdezné tőlem valaki, hogy az adatbányászat az elmúlt 20 évben változott-e, és ha igen, akkor milyen mértékben, akkor nehezen tudnék egyszerű választ adni. 2000 és 2010 között nem volt túl izgalmas az adatbányászat fejlődése. Az adatbányászok számára volt néhány nagy tudású eszköz, amik évről évre fejlődtek, de ezek az új fejlesztések alig érintették a hétköznapi felhasználó munkáját: adattáblák tisztítása, összekapcsolása, új mezők létrehozása, egy kis korreláció elemzés és modellezés, majd a végen hátradőlés, esetleg egy kis vállon veregetés.

Az adatbányászatnak ez a Csipkerózsika-álma a 2000-es évek végéig tartott (legalábbis itthon). Jómagam egy 2008-as európai adatbányászati konferencián tapasztaltam először a változás szelét. Korábban az adatbányászat egyik mostoha gyermekeként kezelt szövegbányászat lett az egyik kiemelt témája a konferenciának, pedig akkor még nem is lehetett sejteni, hogy a közösségi média és a szövegbányászat frigyéből megszületik egy új analitikai terület, az SNA avagy a Social Network Analysis. Aztán a 2010-es évek elején berobbant a „Big Data”, és vele hirtelen minden megváltozott, a Csipkerózsika-álomból pedig ébredés lett.

A sok változás között talán kevesebb szó esett a felhőalapú adattárolásról és elemzéséről. Pedig külföldön igen érdekes dolgok történtek ezen a területen is. Elindult például a Kaggle 2010-ben, ahova a cégek saját adatokat tehetnek fel, amiket aztán adatbányász csapatok verseny keretében elemezhetnek. (Csak érdekességként jegyzem meg, hogy a Microsoftnak most is fut egy kiírt versenye rosszindulatú fájlok beazonosítására.) Az oldal viharos népszerűségre tett szert, óriási data-science közösség alakult ki köré annak ellenére, hogy a versenyeken általában minimális a pénzdíj. A cégek annak ellenére hirdetnek meg újabb és újabb versenyeket, hogy ezzel törvényszerűen bárki számára elérhetővé teszik az adataikat (legalábbis azok egy részét).

Ha valaki tehát megkérdezné tőlem, hogy melyik változást érzem legfontosabb az adatbányászat területén, akkor a felhőalapú adatbányászatot mindenképpen kiemelném. Persze feltehető a kérdés, hogy mi is a helyzet itthon? A válasz érdekes módon nem is annyira negatív, mint talán sokan gondolják. Számos cég teszi ki felhőbe call centerének adatait, ahol az arra szakosodott cég elemzi hangbányász technológiával. De hasonló módon kezd átalakulni a biztosítóknál a csalásdetektálás is. A biztosítóknak kényelmesebb kitenni felhőbe a káradataikat, ahol a csalásdetektáló szoftverek kiszűrik a gyanús káreseteket.

De a felhőalapú adatbányászatra más módon is van lehetősége a cégeknek.

Egy ilyen új lehetőség a Microsoft által kifejlesztett Machine Learning. A Microsoft már régóta nyújt adatbányászati megoldást az SQL Server részeként, melynek segítségével bárkinek Excel környezetben volt lehetősége adatbányászati elemzésekre. Az elmúlt években a Microsoft azonban egyre nagyobb energiával összpontosít felhőalapú megoldások kifejlesztésére, mindnek alapja pedig az Azure. Az Azure folyamatos fejlesztéseinek egyik eredménye, hogy 2015. február 18 óta mindenki számára elérhető a Microsoft felhőalapú adatbányászatot támogató megoldása, a Machine Learning.

A Microsoft felhőjébe bármelyik cég felteheti az adatait, kiválaszthat az adott problémára és adatstruktúrára egy korábban kifejlesztett adatbányászati modellt, és azonnal megkapja a számára fontos adatbányászati score-t. Ha például valaki szeretné kiszámolni  az ügyfeleinek elvándorlási valószínűségét, felteszi az adatait, kiválaszt egy churn modellt, és már vissza is kapja a szükséges információkat.

Néhány fontosabb információ az Azure Machine Learningről:

  • A Machine Learning bármilyen adat elemzését lehetővé teszi, használatához nem kell saját infrastruktúra, csak egy webböngésző. A számlázás használatarányosan történik.
  • A Machine Learning modul egy áttekinthető és egyszerű vizuális felületen keresztül nyújt lehetőséget adatbányászati feladatok végrehajtására az adatok tisztításától egészen az adatbányász algoritmusok kiértékeléséig. A betanított modell a végén kipublikálható privát vagy akár publikus webszolgáltatásként. Utóbbi esetében mások számára fizetős szolgáltatásként jelenik meg a megoldás az Azure piactéren. A publikált ML webszolgáltatás könnyedén integrálható tetszőleges alkalmazásba.
  • A korábbi Microsoftos adatbányász eszközöktől eltérően felhasználható a több ezer nyílt forráskódú R vagy Python könyvtár, vagy akár kialakítható egyedi szkript is.
  • A Machine Learning modul számos lehetőséget kínál az adatok előkészítésére, ideértve az egyszerű változóképzést, az outlier-detektálást, a hiányzó adatok kezelését, a változók kategorizálását stb. Ezen felül tartalmaz egy statisztikák modult, mely az adatok áttekintéséhez (leíró statisztikák) és egyszerű összefüggések feltáráshoz (t-próba, lineáris korreláció) nyújt segítséget. Lehetőségünk van továbbá típuskeresésre (k-means klaszter) és dimenziócsökkentésre (főkomponens elemzés).
  • A modul ezen kívül számos osztályozó algoritmust tartalmaz (Bayes-osztályozó, döntési fa, logisztikus regresszió, neurális háló, support vector machine, stb.), és regressziós problémák megoldásához is több megoldást kínál (lineáris regresszió, ordinális regresszió, Poisson-regresszió, Bayes-i lineáris regresszió stb.)

Mivel a Machine Learning igen fontos szerepet fog betölteni a közeljövő adatbányászatában, ezért a következő hetekben bővebben írunk erről az új megoldásról.

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.