Upload
bhamori
View
27
Download
1
Embed Size (px)
Citation preview
Barnaby Rich szindróma a 21. században
Hámori Balázs
Ünnepi konferencia Szabó Katalin 70. születésnapja alkalmából, 2014. november 5. ----------------------------------------------------------------------------------------------------------
Amiről ma szó lesz…
o Robbanásszerű adatfeldúsuláso Barnaby Rich szindróma o Az elmélet lemaradása o Big Data o Az információs szennyeződés mint externália o Az adatok természetének a változása o A közgazdasági kutatások új perspektívái o Big Data elemzések a gyakorlatban o A Big Data Magyarországon
Adatförgetego 2012- re 20 (!) tipikus – széles sávú internettel
ellátott – háztartás több információ-forgalmat generál, mint amennyi 2008-ban az egész interneten átfolyt.
o 2010 végére egy fél zettabyte-nyi adat ment át az interneten, ami körülbelül akkora információ-mennyiségnek felel meg, mint amennyit egy 36 milliárd mérföld hosszú (ez a Föld és a Pluto távolságának a tízszerese) könyvespolc tartalmaz.
o Minden öt percben (!) akkora digitális adatförgeteget generálunk, amely egyenértékű az amerikai Kongresszusi Könyvtárban tárolt információmennyiséggel
1 zettabyte a számítógépes adattárolás egysége 1 sextillion bytes (10007 vagy 1021)
Forrás: Https://www.cisco.com/web/about/ac79/docs/pov/Data_Explosion_IBSG.pdf
Barnaby Rich szindróma
o A 17. században élt ír katonaorvosról Barnaby Rich-szindrómának nevezték el a szüntelen panaszkodást az irodalom túlcsordulása, exponenciális szaporodása, mértéktelen burjánzása miatt. Mit szólna Barnaby Rich a mai állapotokhoz?
o A publikációk csak a jéghegy csúcsát jelentik, és eltörpülnek az elképzelhetetlen méretű adattermelés mellett
o Az University of San Diego egy tanulmánya szerint az átlag amerikai napi 11,8 (!) órát tölt információ-fogyasztással, ez alatt napi 34 gigabyte információt fogyaszt.
2000-ben becslések szerint a világ teljes információ mennyiségének a negyedét tárolták digitálisan, ma ez az arány 98 %2005-től kezdve a jelenség Big Data néven vonult be a köztudatba
Az USA 17 ágazatából 15-ben aVállalatok egyenként több adatot tárolnak átlagosan, mint a Kongresszusi Könyvtár
Információs szennyeződés mint externáliao Az információtermelő folyamatok
káros mellékhatása a kéretlen reklámanyagoktól a spameken keresztül a gépeket megtámadó férgekig és vírusokig.
o A felesleges információk eltömítik az információs csatornákat, megnehezítik a keresést, ezáltal kárt okoznak mind az információtermelőknek, mind az információfogyasztóknak
o A szennyeződésnek ez a formája láthatatlan, additív, destruktív, hosszú távú hatású, a jog által is védelmezett, rejtett költségei vannak és visszafordíthatatlan, a szennyezők nehezen megfoghatók
o Ezek negatív externális hatást fejtenek ki.
Az elmélet lemaradása
oAz információ közgazdaságtana sokáig szinte egyáltalán nem foglalkozott az információs túlterheléssel. Sokkal inkább a hiányos információk kötötték le a közgazdászok figyelmét (aszimmetrikus információk, bizonytalanság, stb.)
oNem az információ, hanem az észleléséhez, feldolgozásához, megemésztéséhez szükséges figyelem szűkös.
oEbből viszont következik, hogy e szűkös jószágot, a figyelmet hatékonyan kell allokálni a különféle felhasználási lehetőségek között.
oAz allokációs problémát azonban csak akkor lehet jól megoldani, ha megtaláljuk a szűkös erőforrás mérésére szolgáló eszközöket (Simon, 1982, p. 151.)
oEz az idő
Big Data
oMcKinsey Global Institute (2011) a Big Datára olyan adategyüttesként hivatkozik, „amelynek a mérete túlnyúlik a tipikus adatbázis-kezelő szoftverek rögzítési, raktározási, menedzselési és analizálási képességén”.
o„Az adattömeg túl nagy, túl gyorsan mozog, vagy nem illeszkedik az adatbázis architektúrájához.”
(Edd Dumbill, 2012)
Az adatok természetének változása a Big Data korszakban
o Ezek ráadásul valós időben és torzításmentesen állnak rendelkezésre, amelyek a korábbi -- felmérésekkel beszerzett -- adatokról egyáltalán nem volt elmondható
o Lehetővé teszi a kutatók számára hogy nyomon kövessék a különböző gazdaságpolitikai intézkedések és intézményi változások következményeit
o Negatív konnotáció helyett inkább pozitív jelenségként tekinthetünk rá, mert ami kezelhetetlen vagy strukturálatlan egy adott időpontban valamivel később a számítás-technikának köszönhetően már kezelhető lehet
o Korábban elérhetetlen vagy nehezen megfigyelhető, ám gazdasági szempontból fontos adatok néhány klikkeléssel beszerezhetők (emberek helyváltoztatása, kapcsolathálójuk, stb.)
o Néhány évvel ezelőtt az üzletek csak a napi forgalomról összesítve gyűjthettek adatokat, jó esetben termékek , illetve termékkategóriák szerint. Ma a pénztárgépek lehetővé teszik, hogy egyénenként rögzíthessék a vásárlásokat, nyomon kövessék a vevőtörténetet, vagyis hosszú távon megfigyelhessék az individuális vevő megatartását és annak a trendjeit, ajánlataikat, illetve promóciós tevékenységüket feltételezett vevőcsoportok helyett az egyes egyénekhez igazítsák.
o A kutatók számára ezek adatok valóságos aranybányát jelentenek, különösen ha összekötik őket a demográfiai adatokkal, a közösségi médián keresztül nyomon követhető aktivitással vagy a hiteltörténettel. (V.ö. Einav&Levin, NBER, 2014)
o Nincs szükség feltételezésekre a reprezentatív fogyasztóról, szélsőséges leegyszerűsítésekre a modellépítéskor, közvetlenül és teljeskörűen megfigyelhető a valóság. Ez egészen új megvilágításba helyezi a közgazdasági kutatások és a valóság viszonyát, amely eddig talán a legkritikusabb pontja volt tudományágunknak
Új perspektívák a közgazdasági kutatások előtt: teljes körű megfigyelés
Big Data Big ThinkingoA kutatók predikcióra is
alkalmas összefüggést találtak a Wikipedia pénzügyi témájú keresései és a Wall Street nagy zuhanásai között. oMivel az emberek
kockázatkerülők, főként az eladások előtt keresgéltek a Wikipédián, ezért a keresések megugró száma előre vetítette a krachot.
oA nagy tömegű adat pénzügyi célú feldolgozására egy egészen új tudományterület, az ökonofizika épült.
Gingras, Y. - Schinckus, C. (2012): The Institutionalization of Econophysics in the Shadow of Physics, Journal of the History of Economic Thought, Volume 34, Number 1, March 2012
A Big Data előnyei a közgazdasági kutatások szempontjából o Meglévő adatok használhatók, amelyek
olcsóbak az originális adatok létrehozásánál (például felmérésekkel)
o Amennyiben automatikusan keletkeznek (például klikkeléssel, vagy egy vásárlás tételeinek a beütésével) többnyire torzításmentesek, szemben a lekérdezéssel nyert adatokkal
o Megragadhatók olyan események és jelenségek is, amelyek relatíve ritkák, a nagy adattömegben azonban következtetések levonására is alkalmas számban fordulnak elő
o Kombinálhatók egymással és a tradicionális módon nyert adatokkal
o A nagy adattömeg megbízhatóbb, mint a korlátozott körben gyűjtött adathalom
Kihívások a Big Data kutatási célú felhasználásakor
oAdatbázisokhoz való hozzáférés, a megismételhetőség nehézségei
oSpeciális szaktudásra van szükség a nagy adatbázisok elemzéshez (A Gartner szerint 2015-ig világszerte 4,4 millió munkahelyet kell majd betölteni a "big data", elemzésében jártas szakemberekkel.)
oZajos adatok, a zajok kiszűrése nem egyszerű (Cho & Judge, 2013) oHamis kapcsolatok kimutatása
Mire használják a Big Data elemzéseket a gyakorlatban?• A Google 2009-ben hatékonyan
jelezte előre a sertésinfluenza vírus terjedését, anélkül, hogy egyetlen orvosi vizsgálatot is végeztek volna. A keresőmotor, amely naponta mintegy 3 milliárd keresési kérést dolgoz fel, 450 millió modellt értékelt, amelyek a sertésinfluenzával kapcsolatos 50 millió legnépszerűbb keresőszó kombinációján alapultak, és felépített egy 45 keresőszóból álló modellt, amely tényleg jól teljesített a sertésinfluenza előrejelzésében.
• Rolls Royce a jet-motorok néhány tucat szenzora által továbbított adatokat gyűjtött. Ezek a kereskedelmi járatok minden egyes útján detektálták az alkatrészeket, hogy ennek alapján előre jelezze azt, mikor megy valószínűen tönkre egy alkatrész, és kicserélje azt, mielőtt az valóban felmondta volna a szolgálatot. Az utasoknak ez nagyobb biztonságot, a légitársaságoknak kevesebb meghibásodást jelentett, és ennek alapján a Rolls Royce sokkal előnyösebb karbantartási szerződéseket tudott ajánlani.
További példákoAz energiaszektorban új
lehetőségeket nyit meg az okos mérők elterjedése és a adataik részletes elemzése
oBérszámfejtésre kb. 500.000 vállalat használ az USA-ban ADP (Automatic Data Processing) szoftvert
oAz ADP kutatóintézete együttműködve Moody’s Analitics-szel havi jelentést ad a foglalkoztatásról. Az adatok ennek az 500.000 vállalatnak az automatikus bérszámfejtő szoftver-adataiból származnak
oAz állam is felismerte az adatelemzésben rejlő lehetőségeket, jó példa erre az online pénztárgépek bevezetése és a belőlük nyert adatok kockázatalapú elemzése.
A Big Data Magyarországono Az MTA Wigner Fizikai
Kutatóközpont a magyarországi Big Data kutatásokban érdekelt tudományos közösségeknek szervezett konferenciát 2013 szeptemberében
o A konferencián a Microsoft munkatársa elmondta: ők a közösségi hálón történteket elemzik. Hangulatokra, trendekre, véleményvezérekre kíváncsiak, az eredményeket aztán a marketingkampányokban szeretnék felhasználni.
o Az üzleti élet és a munkaerőpiac várható változásaira készülve indít közös mesterképzést a CEU és az IBM. A „Big Data szakra" közgazdászokat, szociológusokat várnak és olyan diplomásokat, akik az adathasznosítás legújabb módszereivel szeretnének mélyebben megismerkedni.
o Radoop egy három évvel ezelőtt alakult magyar startup. A hazai kutatókból és fejlesztőkből álló csapat olyan megoldást hozott létre, amely programozói háttértudás nélkül alkalmas nagymennyiségű adat elemzésére.
o A „felhasználóbarát alkalmazás a nemzetközi érdeklődést váltott ki, ennek tudható be, hogy RapidMiner felvásárolta
o Radoop-ból a RapidMiner Big Data feldolgozásával foglalkozó részlegét alakítják majd ki. RapidMiner Magyarországra hozza teljes Big Data fejlesztési üzletágát
Néhány konklúzió
o Új adatforrások - új lehetőségek a tudományos kutatásbano A Big Data
már ma is stratégiai kérdés és egyre inkább azzá válik mind a vállalkozások, mind a gazdaságpolitikusok számára;
informatikai beruházásokat követel; a képzés módosítását, kiegészítését igényli egy sor szakmában (például informatika, statisztika, döntéselmélet, vezetés és szervezés, marketing, közgazdaságtan, pénz- bank- és tőzsde ügyek, meteorológia, fizika, földrengések kutatása, stb.)
o Adatbiztonsági kérdések sorát veti fel