„Data Mining a analýza dat v praxi“ byl název přednášky ing. Petra Máši, Business Consultanta společnosti ADASTRA Corporation Praha.
Přednášku (s názvem složeným ze dvou až tří pětin z cizích slov), která vzbudila zájem řady studentů i vyučujících, jsme měli možnost vyslechnout si ve středu 5. dubna 2006 od 10.00 hodin na učebně B16.
Pan inženýr Máša velmi zasvěceně a zajímavě promluvil o tom, co si pod data miningem a analýzou dat představuje odborník, který má v této oblasti vlastní praktické zkušenosti. Na začátku zdůraznil že nebude mluvit o speciálním softwaru, neboť firma pro kterou pracuje je softwarově nezávislá, tedy nepreferuje žádný software kvůli značce, ale vybírá technologie na základě praktické potřeby zákazníků a jejich dat.
Mnohé posluchače zaujala šíře problémů které je potřeba vyřešit předtím, než jsou data k analýze připravena.
- V prvé řadě je důležité mít nápady a ujasnit si, k čemu by data mohla být užitečná.
- Potom je nutné zvolit zdroje dat (zpravidla jsou v různých databázích), vybrat a sjednotit data, transformovat je, rozhodnout jaké metody analýzy budou použity a jak budou výsledky využity v praxi.
- Přitom se nesmí zapomenout na zákon o ochraně osobních údajů, a to ani tehdy, když se data sjednocují z různých provozních systémů do datového skladu, neboli do tak zvaného Data Warehouse.
- Důležitá je také analýza užitku a návratnosti investice do takto náročné analýzy. Musí se uvážit čas pracovníků (analytika, programátora, technika, ...), cena hardwaru, riziko nevyužitelnosti výsledků atd.
- Problémy mohou při analýze vznikat i s rozsahem dat. Typicky mohou mít data připravená pro analýzu kupříkladu 30 milionů řádků a přitom na každém řádku několik desítek až stovek proměnných (řada z nich je odvozených). Potom celkový rozsah dat může být v řádech desítek GB (tj. desítek miliard, neboli ~k.10 x 109 Bytů).
- Nikoho z posluchačů potom už nepřekvapilo, že některé databázové technologie nebo některé druhy analytického softwaru jsou pro data mining nepoužitelné, neboť mají třeba omezení počtu zaznamenaných proměnných (například maximálně 1000) nebo vyžadují, aby veškerá data pro analýzu byla přístupná v paměti počítače.
- Pro některé účely se pracuje se vzorky dat (s náhodnými výběry).
Přednáška byla doplněná nejen příklady aplikací z oblasti finančních institucí (pojišťovny, banky), telekomunikací nebo obchodování, ale zejména také zajímavými zkušenostmi i postřehy z vlastní praxe.
Typicky se metody data miningu používají pro detekci podvodů (platební karty, pojistné podvody, mobilní telefony apod.), segmentaci klientů, pro cílený marketing, odhad odchodu zákazníků apod.
Poznamenávám, že termín „data mining“ se někdy překládá jako dolování z dat. Oponenti tohoto překladu upozorňují, že při data miningu se nejedná o destrukci jako při dolování a tudíž že tento překlad nemá v češtině asi ten správný význam.
Během přednášky i po jejím ukončení byly přednášejícímu položeny některé zvídavé dotazy od posluchačů. Studenty například zajímalo, jaké mechanismy se používají pro kontrolu správnosti transakcí nad daty, jak se provádí výběr vhodného softwaru pro analýzy, jaké prostředky se používají pro čištění dat, jaké jsou typické chyby v datech, jak se ověřuje spolehlivost předpovědi v chování zákazníků, případně zda lze správně rozpoznat typické chování klienta (ideální příklad pro vysvětlení principu statistického uvažování) apod.
Posluchači si po skončení přednášky odnášeli nejen mnoho nových a zajímavých poznatků, ale také příjemný pocit vynikajícího souznění tématu přednášky a přednášejícího.
Připravenou prezentaci a samotnou přednášku ocenili nejen závěrečným potleskem, ale také slovy uznání, což od studentů a navíc informatiků je asi nejvyšší pocta, jaké se přednášejícímu mohlo dostat.
Na další přednášku kterou nám pan ing. Máša přislíbil, se můžeme těšit v příštím školním roce.
S využitím svých poznámek z přednášky připravila:
Hana Skalská, vedoucí Katedry informatiky a kvantitativních metod