2015. október 30., péntek

A TESCO újságtól a görög csődig

Egy korábbi bejegyzésben volt szó arról az érdekes jelenségről, hogy a TESCO újságban szereplő árak első számjegyeinek az eloszlása nem egyenletes, hanem a számjegyek nagyságával csökken az előfordulási gyakoriság. Konkrétan az egyes a leggyakoribb első számjegy, nagyjából 30%-os előfordulási aránnyal, majd a kettes számjegy következik körülbelül 20%-os előfordulási aránnyal, a maradék hét számjegy pedig osztozik az esetek másik felén.

Valójában nagyon sok adathalmaz első értékes számjegyeinek eloszlásánál találkozhatunk a fenti tulajdonsággal. Hasonló megfigyelést tehetünk, ha városok lakosságát, országok területét, vagy éppen cégek költségadatait vizsgáljuk, és még hosszan sorolhatnánk a példákat. Sőt, teljesen eltérő adatoknál is megfigyelhető a jelenség, vehetjük például a Négyjegyű függvénytáblázatok című kiadványban előforduló összes számot, vagy a különféle fizikai állandókat. Ezen számhalmazok mindegyikére igaz, hogy az első számjegyek előfordulási aránya az egyenletestől jellegzetesen eltérő eloszlást mutat, konkrétan a gyakoriság jól közelítéssel log10(1+1/d), ahol d a tekintett számjegy.

A fenti törvényszerűség Benford-törvény néven vált ismertté. Simon Newcomb amerikai csillagász és matematikus, aki Michaelson-al együtt megmérte a fény sebességét, 1981-ben észrevette, hogy a logaritmus táblázatok eleje elhasználódottabb, mint a végük. Ebből arra a következtetésre jutott, hogy az olvasók gyakrabban keresik ki 1,2,3-al kezdődő számok logaritmusát, mint 7,8,9-el kezdődő számokét. Később 1938-ban Frank Benford fizikus újra felfedezte a törvényt és húsz különböző adathalmazra tesztelte is az összefüggést.

Mindez nagyon érdekes, de használható is valamire? A meglepő az, hogy igen, mégpedig fontos dolgokra, általában csalások leleplezésére. Ha ugyanis valaki egy valódi adathalmaz helyett egy hamisat kreál, és nem ismeri a törvényt, akkor az felismerhető lesz a statisztika alapján. Ilyen rosszul kivitelezett könyvelési csalások a gazdasági életben mindennaposak, és ma már oktatják a Benford-törvényt, mint eszközt, ezen csalások leleplezéséhez. Nagyon beszédes például a görögök esete. Az EU-tagállamainak statisztikáit megvizsgálva kiderül, hogy a Benford-törvény teljesülésének mértéke alapján Görögország szerepel az utolsó helyen, és valószínűsíthető, hogy meghamisította az adatait.

Mit tanultunk tehát ebből? Praktikusan azt, hogyha könyvelési adatokat hamisítunk, akkor ne magunk találjuk ki az adatokat hasból, hanem bízzuk azt egy olyan véletlen szám generátorra, amely figyelembe veszi a szóban forgó adatok statisztikáját. De milyenek ezek a statisztikák, azaz mi kell ahhoz pontosan, hogy a Benford-törvény teljesüljön? És miért teljesül a Benford-törvény olyan sok adathalmazra? Ezekre a kérdésekre egyelőre még nem adtunk meg a választ, de következik majd a folytatásban...

Nincsenek megjegyzések:

Megjegyzés küldése