blogness

5 gyakori félrevezető statisztikai hiba

2018. november 06. - blogness

A mai big data világban a rendelkezésre álló adatok segítségével egyre több elemzés készül statisztikai módszerek felhasználásával sajnos meglehetősen változó minőségben. Ebben a bejegyzésben összegyűjtöttem az általam legtöbbször észlelt hibákat és rámutatok pár félrevezetésre alkalmas módszerre.

Ha tetszik ez a bejegyzés kövesd a blogomat vagy olvasd el korábbi bejegyzéseimet az amerikai választásokról, az elektromos autók terjedéséről vagy a 18/19-es Bajnokok Ligájában szereplő csapatok esélyeiről.

1. A korreláció és a kauzalitás összekeverése

Az egyik leggyakoribb hiba, hogy együtt mozgó, azaz korreláló folyamatok közé egyből ok-okozati viszonyt feltételeznek. Példaként az első ábrán nem valós adatokkal szemléltetem a problémát.

 

1. Ábra: A Duna vízállásának és egy jégcsarnokban eladott jegyek számának alakulása éven belül - kitalált adatok

1_1.png

 

Már a grafikonon is jól látható, hogy a jégcsarnok látogatottsága és a Duna vízszintje meglehetősen hasonlóan alakul éven belül (itt úgy állítottam be, hogy 90%-ban korreláljon). Ezek alapján akár le is vonhatnánk a következtetést, hogy a jégcsarnok látogatottsága nyáron a Duna alacsony vízszintje miatt esik vissza. Ugyanakkor nyilván a kettőnek semmi köze egymáshoz, egyszerűen mindkettő egy harmadik független faktortól, a kint lévő hőmérséklettől függ.

Az itt bemutatott példa ráadásul még a jobbik eset, hiszen van valamilyen összefüggés a két adatsor között, még ha nem ok-okozati is. De azt sem szabad figyelmen kívül hagyni, hogy a korrelációt akár véletlen is okozhatja.

Tehát mindig érdemes a józan paraszti eszünkre hagyatkozni ilyen esetekben és észben tartani, hogy a korreláció nem egyenlő a kauzalitással.

 

2. A heteroszkedaszticitás figyelmen kívül hagyása

A heteroszkedaszticitás az a szó, ami hallatán minden jóérzésű magyarnak feláll a hátán a szőr nem beszélve a statisztikát hallgató egyetemistákról. Valójában viszont egy viszonylag egyszerű, de annál fontosabb dologról van itt szó, ami ráadásul egy olyan hiba, amit még a legnagyobb hírnevű gazdasági lapok is (pl. az Economist elég gyakran) rendszeresen elkövetnek.

Vegyük például azt az esetet, hogy megpróbáljuk meghatározni, hogy hogyan lehetne egy közepes oktatással rendelkező ország (pl. Magyarország) oktatását javítani. Elkezdünk adatokat gyűjteni és a GDP arányos oktatási ráfordítást (y tengely) és az oktatás minőségét (x tengely, 1-100-ig, ahol 100 a legjobb) ábrázoló grafikonra ránézve nagyon úgy tűnik, hogy szoros összefüggés van a kettő között. Rá is pattintunk egyből egy trendvonalat (lineáris regressziót), ami több mint 80%-os magyarázóerőt mutat.

 

2. Ábra: GDP arányos oktatási ráfordítás (%) és az oktatás minősége (1-100=legjobb) - kitalált adatok

2_1.png

 

Tehát a zöld ország szempontjából a trendvonal magas magyarázóereje miatt le is vonhatjuk a következtetést, ha növeljük az oktatási ráfordításokat arányosan nőni fog az oktatás minősége, így kell 70 pont feletti oktatási színvonalat elérni. Ez az állítás természetesen valamennyire igaz is.

A probléma ugyanakkor ott van, hogy míg a 0 és 60 pont között szóródó, rossz-közepes oktatási rendszerrel rendelkező országokra nagyon pontosan illeszkedik a trendvonal, addig a piros, kiemelkedő minőségű oktatást kínáló országokéra már jóval kevésbé (azaz a modell egyre inkább hibás, heteroszkedasztikus). Ráadásul a kutatásunknak pontosan az a célja, hogy meghatározzuk, hogyan lehetne  a piros országok oktatási színvonalát elérni és pont ezekre a legrosszabb a modellünk. Ezek alapján valószínűsíthető, hogy a legmagasabb színvonalú oktatási rendszer kiépítése korántsem csak pénz kérdése (a kitalált adatok alapján).

Tehát mindig érdemes megbizonyosodni, hogy az elénk tárt modell ne csak a jelenlegi helyzetünket magyarázza jól, hanem a kitűzött célállapotot is.

 

3. Túl kicsi minta használata

 Egy másik gyakori hiba vagy még inkább elhallgatott tény, hogy adott kutatást mekkora minta felhasználásával készítettek el és így milyen megbízhatóságú lesz a következtetés. Mindig négy dolgot kell keresnünk:

1. Mekkora a sokaság, amire következtetni akarunk (például, ha minden magyar állampolgárra akarunk következtetést levonni, úgy kb. 10 millió fős)

2. Mekkora megbízhatóságot akarunk (jellemzően 95%-os vagy 99%-os bizonyossággal akarjuk tudni például, hogy a magyarok hány százaléka szereti a sört)

 3. Mekkora a hibatűrésünk (például ha kijön, hogy a magyarok 80%-a szereti a sört +-3% hibával és 95%-os megbízhatósággal, az azt jelenti, hogy 95%-ig biztosak lehetünk benne, hogy a magyarok 77-83%-a szereti a sört)

4. Ha megvan a sokaság mérete, a megbízhatósági szint és a megengedett hiba mértéke meghatározhatjuk, hogy hány fős mintára van szükségünk (azaz, ahhoz, hogy 10 millió magyartól, 95%-os megbízhatósággal és maximum 3%-os hibával megkapjam hány százalékuk szereti a sört hány embert kell megkérdeznem).

Ha a megfelelő számításokat elvégezzük, akkor világossá válik, miért is olyan nehéz például egy szoros politikai csata kimenetelének megbecslése.

Ahogyan a 3. ábrán is látszik, minél biztosabban akarom tudni a kimenetelt (szűkítem a hiba lehetőségét), akkor exponenciális szerűen emelkedik a szükséges mintaszám. Például 10 millió választó esetén, ahhoz hogy 95%-os bizonyosággal eldöntsem melyik párt lesz a befutó +-5%-os hibával elég csak 665 embert véletlenszerűen megkérdeznem. Ha viszont a megengedett hibasáv tized akkora, azaz csak fél százalékos, akkor már 100-szor ennyi embert kell felhívnom.

 

3. Ábra: A szükséges mintaelemszám (y tengely, log skála) és a megengedett hibahatár függvényeként (x tengely) különböző szignifikanciaszinteken 10 milliós sokaságra - valós adatok

3_1_1.png

 

Érezhető tehát, hogy az ilyen megkérdezéses, mintavételes kutatásoknak ez egy komoly nehézsége lehet. Különösen, ha szoros kimenetelek (pl. BREXIT) megbecslésére használják, ahol a hibasávnak nagyon alacsonynak kell lennie. De ha megmaradunk a sörös példánál, ahol megkérdeztünk például már 24 embert, akik 80%-ban azt válaszolták, hogy szeretik a sört, akkor 95%-os szinten már nyugodtan állíthatjuk, hogy a magyarok többsége szereti a sört. Ugyanakkor ha még 400 ember megkérdezése után is csak 51% mondta azt, hogy szereti a sört, akkor mindenképpen érdemes tovább növelni a mintánkat.

Tehát mindig figyeljünk oda, hogy mennyire megbízható egy adott kutatás interpretációja a mintaelemszám és a sokaság arányában, valamint mindig kételkedjünk az ilyen jellegű felmérésekben, amikor szoros eredményekből erős következtetéseket vonnak le.

 

4. Megtévesztő grafikonok

Az itt felsorolt listában talán ez az egyetlen olyan elem, amit a leggyakrabban szándékosan követnek el a különböző adatokat publikáló szerzők. A következőkben bemutatok pár példát arra, hogy milyen egyszerű manipulálni minket a különböző grafikonokkal.

Vegyük egy autókereskedés példáját, ahol a menedzsment a tulajdonosnak akarja prezentálni az elmúlt évek autóeladásainak alakulását. Nyilván a menedzsment szeretné bizonyítani mennyire jó munkát végeztek, azaz az autóeladások meredeken emelkedtek. A menedzsment fogja is a nyers adatokat és kirajzolja egy grafikonra (4.1. Ábra).

 

4.1. Ábra: Az autóeladások alakulása 2010 és 2018 között - kitalált adatok

5_1.png

 

A kirajzolt grafikonon ugyan látszik az autóeladások emelkedése, de a menedzsment úgy látja, hogy ez mégse elég impresszív. Rövid gondolkodás után arra gondolnak, hogy mi lenne, ha a darabszám helyett az éves növekedést mutatnák be (4.2. Ábra).

 

4.2. Ábra: Az autóeladások éves növekedése 2010 és 2018 között - kitalált adatok

5_2.png

 

Na ez már mindjárt meggyőzőbb gondolja a menedzsment. Helyenként erősen emelkedő, magasnak tűnő növekedés. Na de ott van az a csúnya 2013-as év és  ráadásul pont az utolsó évben lefelé mutat a grafikon vége is miközben az első ábráról tudjuk, hogy emelkednek az eladások. Hát akkor egyszerűen számoljuk a növekedést 2010-es bázisra vagy az első ábrán toljuk el az x tengely-t a nulláról.

 

4.3. Ábra: Az autóeladások növekedése 2010 és 2018 között - kitalált adatok

5_3.png

4.4. Ábra: Az autóeladások alakulása 2010 és 2018 között - kitalált adatok

5_4.png

 

Na most már a tutiban ülünk - gondolhatja jogosan a menedzsment. De ennél még jobb ha a vonaldiagram helyett oszlopdiagramot választunk veti közbe egyikük, az olyan telítettnek tűnik. És valóban, ezzel már tuti az év végi bónusz.

 

4.5. Ábra: Az autóeladások alakulása 2010 és 2018 között - kitalált adatok

5_5.png

 

Az egész történet üzenete csak annyi, hogy nagyon oda kell figyelni mit ábrázol egy grafikon, mit mutatnak és hol kezdődnek a tengelyek. Képzavarral élve úgy is mondhatnám, hogy ne csak a szemünkre hallgassunk.

 

5. Túlilleszkedés, túltanítás

A túlilleszkedés problémája annyiban hasonlít a heteroszkedaszticitásnál ismertetett problémakörhöz, hogy itt is egy trendvonalakkal kapcsolatos problémakörről van szó. Tegyük fel, hogy egy hajógyártó vállalatnál dolgozunk, ahol kollégánk a 2008 és 2017 közötti eladások alapján megpróbálja megbecsülni, hogy mennyi lesz idén (2018) az eladott hajók száma.

Elkezd kattintgatni a statisztikai programban és sikerül is felvenni egy trendvonalat. Látja ám, hogy különböző fokszám beállítási lehetőséget ajánl fel a program. Ez lefordítva annyi jelent, hogy a trendvonal egyenletében hányadik hatvány lesz a legmagasabb (azaz például ha a 2019-es becslésben 2019^3-on tag a legmagasabb hatványfokú tag, akkor harmadfokú - ha az év a magyarázó változó).

Először lineáris, azaz elsőfokú trendvonalat alkalmaz, de látja, hogy az elmúlt évek eladásai valahogy mégse annyira esnek rá erre az egyenesre és a programból az is kiolvasható, hogy a trendvonal magyarázóereje csak 11%-os.

 

5.1. Ábra: A lineáris trendvonal

4_1.png

 

Ekkor kollegánk átállítja a fokszámot kettőre (5.2. Ábra), azaz már másodfokú egyenlet adja meg a trendvonalat. Ez szemmel látható javulást eredményez, sőt a modell immár 35%-os magyarázóerővel bír.

 

5.2. Ábra: A másodfokú trendvonal

4_2_1.png

 

De ha ez ennyit javul, akkor miért is ne állítsuk még feljebb? - gondolhatja kollegánk és át is állítja a programot harmadfokúra (5.3. Ábra). A modell még tovább javul, immár 44%-os magyarázóerőt ért el.

 

5.3. Ábra: A harmadfokú trendvonal

4_3.png

 

De akkor miért is ne legyen inkább negyedfokú? és már kattint is kollégánk (5.4. Ábra). Hű, gondolhatja magában ez már egy igen jó modell, közel 85%-os "hatékonyságú".

 

5.4. Ábra: A negyedfokú trendvonal

4_2.png

 

Na de nézzük meg, hogy mit is mutatnak ezek a modellek a 2018-as előrejelzett évre - végső soron ezért csináltuk az egészet. Jól látható, hogy a lineáris, a másodfokú és a harmadfokú bár eltérő mértékben, de egyaránt növekvő eladásokat vetítenek előre. Ezzel szemben a legjobban illeszkedő negyedfokú  modell szerint hatalmas zuhanásra számíthatunk. Ha viszont szemmel ránézünk az ábrára, akkor 2013-tól egy egyre lassulú, de emelkedő trendet látunk, akkor hogy is van ez?

Természetesen nehéz igazságot tenni a kérdésben, hiszen majd utólag kiderül a dolog mondaná a bölcs, de azt azért érezhetjük, hogy mind a harmadfokú, mind a negyedfokú becslés túlzó. Se a harmadfokú által mutatott eladáskétszereződés, se a negyedfokú által előrevetített negyedére visszaesés nem látszik indokoltnak. A titok nyitja a túltanítás jelensége, ami akkor áll fenn, amikor egy modellt túlzottan specifikálunk egy adott mintára. Természetesen nem az a gond, hogy a modell a mintára túl jó, hanem hogy a modell nem azért építjük általában, hogy a mintát magyarázzunk, hanem arról a sokaságról akarunk valamit mondani, ahonnan a mintát vettük - arra meg nem lesz jó. Itt a példában valahol a másodfokú környékén lehet az igazság.

A lényeg tehát, hogy minden statisztika elemzésénél tartsuk észbe, hogy a kapott eredmények mennyire általánosíthatóak, nem a mintára lövünk, hanem a sokaságra.

Ha tetszik ez a bejegyzés kövesd a blogomat vagy olvasd el korábbi bejegyzéseimet az amerikai választásokról, az elektromos autók terjedéséről vagy a 18/19-es Bajnokok Ligájában szereplő csapatok esélyeiről.

A bejegyzés trackback címe:

https://itsblogness.blog.hu/api/trackback/id/tr7814352857

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.