Data mining, data snooping bias: Hogyan ne tévedj a tőzsdén..

Cikkünkben a data mining, data snooping bias fogalmakkal foglalkozunk, illetve arról lesz szó, hogy milyen téves következtetéseket vonhatunk le múltbeli adatokból, hogyan szűrhetjük ki a nem létező, csak a véletlennek köszönhető összefüggéseket. A leírtak vélhetően segíteni fogják a tőzsdén befektetőket, tőzsdei kereskedőket abban, hogy a saját módszerüket, kereskedési stratégiájukat úgy fejlesszék, hogy ne a véletlennek köszönhető összefüggéseket használjanak fel. Témáink:

  • Mit jelent a data mining?
  • Mit jelent a data snooping bias?
  • Miért követjük el a data snooping bias problémáját?
  • Hogyan követi el az átlagos kereskedő a data snooping bias problémáját?
  • In-sample és out of sample tesztelések lényege

Mit jelent a data mining?

A big data és az ehhez kapcsolódó fogalmak ma meglehetősen divatosak, és a data mining tulajdonképpen a nagy mennyiségű adatokban rejlő információk, összefüggések kinyerését jelenti. Tőzsdei, pénzügyi értelemben természetesen nagy jelentősége van a data miningnak, hiszen rengeteg pénzügyi adat áll a rendelkezésére egy befektetőknek, kerekedőnek. Ráadásul kutatások széles köre foglalkozik különböző összefüggésekkel, de az interneten is százával találunk különböző kereskedési technikákat, módszereket, melyek sajátossága, hogy múltbeli adatokon megfigyelt összefüggések alapján adják a jeleket. Ebbe a körbe tartoznak a technikai elemzés jelzései, például RSI, MACD, Bollinger, Parabolic SAR, japán gyertyák, alakzatok és a sort hosszasan folytathatnánk, de a fundamentális vonalon is számos ilyen összefüggés létezik, például value, quality, size, momentum stb.

Ezek az összefüggések tehát nagy mennyiségű adat felhasználásával lettek kimutatva, erre utal a data mining kifejezés. Ugyanakkor pénzügyi területen a data mining kifejezéssel gyakran arra utalunk, hogy a kimutatott összefüggés nem létezik, csak az adatok ügyes felhasználásával, a figyelembe vehető tényezők megfelelő kiválasztásával sikerült kimutatni az összefüggés. Ebben az értelemben a data mining egy visszatesztelési hiba, melyet data snooping bias néven ismernek a kereskedők. A továbbiakban megbeszéljük, mit jelent, hogyan követhető el, és hogyan kerülhető el a data snooping bias.

Mit jelent a data snooping bias?

A data snooping bias azt jelenti, hogy olyan összefüggéseket olvasunk, mutatunk ki a pénzügyi adatokból, melyek a valóságban nem léteznek. Főleg akkor fordul elő a data snooping torzítás, ha nagyon sok adatok kell feldolgozni, és sajnos pont emiatt gyakori a pénzügyi adatok feldolgozása során ennek a hibának az elkövetése. Jó példája a data snooping biasnak az indikátorok paramétereinek módosítása, azaz addig optimalizáljuk a stratégiát, amíg az adatsoron a legjobb eredményt kapjunk (néztünk is példát erre itt curve fitting cím alatt). Megtalájuk az indikátor azon paramétereit, melyek a legjobb hozamot hozták, azonban az eredmények csak a véletlennek köszönhetők, és ha egy másik idősoron próbáljuk ki a stratégiát (például a jövőben elkezdjük használni), akkor nem fog működni).

Sullivan Timmermann a Data-snooping, technical trading rule performance, and the bootstrap tanulmány szerzője egy érdekes példát mutat be a data snooping biasra. Amikor a közgazdászok elkezdték keresni azokat a megbízható összefüggéseket, melyekkel az S&P500 index hozama megjósolható, akkor az egyik legjobban korreláló adat a bangladesi vajtermelés volt. Józan paraszti ésszel belátható, hogy a bangladesi vajtermelésnek semmi köze az S&P500 indexhez, azonban összetett, bonyolult, nem átlátható adatok esetében az emberek nem képesek ilyen jellegű elvonatkoztatásokat végezni, így elfogadjuk hogy a kimutatott összefüggések között kapcsolat van, holott a valóságban csak a véletlen műve, ahogy a fenti példában is.

Arra is láthattunk példát, hogy módszertanilag kifogástalan statisztikai kutatásokban követnek el hibákat az elemzők. Hogy ezt megértsd mit jelent, azt kell tudni ezekről a statisztikai vizsgálatokról, hogy általában a felállított nullhipotézis cáfolásával bizonyítjuk az alternatív hipotézist. Például a value-prémium azért létezik, mert az elmúlt 91 évben 4,05%-os átlaghozamot számoltunk ki az olcsó és drága részvények között. Ugyanakkor egyáltalán nem biztos, hogy a 4,05%-os átlag nem a véletlen műve, hiszen előfordulhat, hogy nagyon sok évben nulla a value-prémium értéke, és csak néhány év eredményezi a pozitív átlagot. Eszerint tehát a hipotézisvizsgálat során a nullhipotézis az, hogy a value-prémium értéke 0, míg az alternatív hipotézis szerint a value-prémium értéke nem nulla. Ha be tudjuk bizonyítani, hogy a nullhipotézis hamis, akkor az alternatív hipotézis igaz. A példánál maradva tehát, ha a value-prémium vizsgálatának p-értéke 0,05 vagy alatti, akkor 5% az esélye annak, hogy a v value-prémium valójában 0 a pozitív átlag ellenére, azaz nem létezik a value-prémium. Bővebben a témáról: Létezik működőképes módszer, stratégia?

Miért követjük el a data snooping bias problémáját?

Fentebb már megbeszéltük, vélhetően megértettük a hipotézisvizsgálatok alapjait. Most egy egyszerű matematikai példán keresztül világítanék rá a felmerülő problémákra. Az egyik legnagyobb francia matematikus Pierre de Fermat felfedezte, hogy bármely prímszám (prímszámok saját magukkal és 1-el oszthatók) rendelkezik a következő tulajdonságokkal:

2p-1 elosztva p-vel mindig 1-et ad maradékul, ahol p= bármely prímszám.

Tegyünk egy próbát, például 213-1 = 212 = 4096, melyből p-vel (13) elosztva 315-öt +1 maradékot kapunk. Bármely prímszám esetén kipróbálhatjuk, végül mindig 1 lesz a maradék.

Találtunk egy összefüggést, ugyanúgy, ahogy egy tőzsdei kereskedő is felfedez különböző összefüggéseket, módszereket, szabályokat a pénzpiacokon. Azonban ahogy a fenti állítással, úgy a tőzsdei kereskedésben megfigyelt módszerekkel is van egy kis gond. Mégpedig az, hogy bár a fenti állítás az összes prímszámra igaz, de ez nem jelenti azt, hogy más számokra nem igaz az összefüggés. Vegyük most példaként bármely szám esetét, q legyen egy tetszőleges szám. Végezzük el ugyanazokat a számításokat, azaz 2q-1 elosztva q-val mindig 1-et ad maradékul. Azt fogjuk tapasztalni, hogy tetszőleges, nem prímszámokra nem igaz a fenti állítás. Ahogy tehát a hipotézis vizsgálatok esetében, itt is megállapíthatjuk, hogy az egyik hipotézis hamis, ebből következik, hogy a másik igaz.

Azonban a véletlen közbeszól. Ugyanis az esetek többségében prímszámokat fogunk kapni, de nem minden esetben.Tehát van néhány, nagyon ritka szám, mely nem prímszám, és igaz rá a kezdeti felvetés. Ezek az ún. carmichael-számok. Például érdemes kiszámolni q = 561, 1105, 1729, 2465, 2821, 6601, 8911 esetében végül 1 maradékot kapunk, annak ellenére, hogy ezek a számok nem prímszámok.

Nézzünk további tesztelési problémákat, gondolatban vigyük tovább a carmichael-számokat a következő kísérletünkbe. Tegyük fel, a részvénypiacon hasonló összefüggéseket kutatunk, és azokat a részvényeket keressük ki, melyek azonosítójában (CUSIP) carmichael-számok szerepelnek. Hívjuk ezt a vizsgálatot carmichael-stratégiának. Ha az NYSE adatbázisát áttekintjük, és csak az első hét carmichael-számot (fentebb felsoroltam) vizsgáljuk, akkor egyetlen társaságot fogunk találni. Ez pedig az AMETEK, melynek teljesítményadatai néhány évtizedet felülelő vizsgálat alapján

Megnevezés

Érték

Havi átlaghozam

0,017

Havi átlaghozam szórása

0,142

Sharpe-ráta

0,86

Jensen alpha

5,15

Teljes hozam

320,75 dollár

A fenti teljesítmény adatok jónak tekinthetők, különösen a 0,86-os sharpe-ráta, mellyel erősen felülteljesítettük a vedd meg és tartsd technikát. Azt láthatjuk tehát, hogy találtunk egy jól hasznosítható összefüggést a részvénypiacon, azaz azok a részvények, melyek azonosító kódjában carmichael szám szerepel, jó teljesítményt nyújtanak. Ez azonban egy téves következtetés, és a jó teljesítmény csak a véletlen műve.

A fenti példában „kikutatott” tőzsdei összefüggés vizsgálata során több hibát is vétettünk. Például a társaság 65 éves időszakot túlélt a tőzsdén. Tudjuk azt azonban, hogy az elmúlt 90 évben összesen 25.900 társaság került az amerikai tőzsdékre, most pedig csak néhány ezret találunk. Tulajdonképpen olyan a helyzet mintha most megmondanánk, hogy mely társaságok élik túl a következő 65 évet, és azok közül válasszunk részvényt, de a valósában senki nem mondja meg nekünk, hogy a következő 65 évben, mely cégek maradnak a tőzsdén (ezt hívják túlélési torzításnak, részletek itt).

Neurális hálózatok, nem lineáris tesztelési technikák (ahogy a carmichael algoritmusunk is ilyen) ma már a kutatások szerves részét képezik, azonban könnyen adhat a fenti példában szemléltetett hibás eredményt.

Hogyan követi el az átlagos kereskedő a data snooping bias problémáját?

A felkészültebb befektetők tisztában vannak azzal, hogy a tőzsdei kereskedéshez, befektetéshez különböző szabályok, összefüggések felhasználásával érdemes belekezdeni (másik csoportjuk marad a megérzéseknél, tippeknél). Eljutottunk tehát odáig, hogy elkezdünk kereskedni vagy visszatesztelni egy kereskedési stratégiát, majd sok száz kötés után azt tapasztaljuk, hogy a rendszer nyereséges. Sajnos azonban ekkor is előfordulhat, hogy a nagy kötésszám ellenére csak a múltbeli adatokon nyereséges a rendszer, azaz nagy valószínűséggel csak a véletlen eredményezi a kiugró eredményt. Ez pedig azt jelenti, hogy a jövőbeni eredmény ettől lényegesen elmarad.

In-sample és out of sample tesztelések lényege

A legegyszerűbben úgy lehet kiküszöbölni a data snooping bias hibáját, hogy a rendelkezésünkre álló adatokat két részre bontjuk:

  • In-sample
  • és out of sample részre

Az in-sample adatok lesz az az adathalmaz, például egy technikai jeleket alkalmazó stratégia esetén az árfolyamadatok, melyen a stratégiát kifejlesztjük. Ezen az adathalmazon a stratégia nyereséges lesz, hiszen a paramétereket folyamatosan javítjuk, alakítjuk. Azonban ha a stratégia változtatása közben data snooping hibákat követünk el, akkor az out of sample adatokon eredménytelen lesz a kereskedési rendszer. Fontos tehát, hogy a két adatsort elkülönítsük, és az out of sample adatokat csak a stratégia ellenőrzésére használjuk, és azon ne fejlesszük a rendszert. Egy korábbi cikkben pedig már érintettük, hogy az átlag megbízhatóságát az esetszám növeli, illetve a különböző összefüggések esetén az ún. t-stat és p-value értékek mutatják a véletlen valószínűségét, azaz annak a valószínűségét, hogy a valóságban nem létezik a kimutatott összefüggés, csak a véletlen műve: Létezik működőképes módszer, stratégia?

Ha kérdésed van a fentiekkel kapcsolatban, hozzá szeretnél szólni a témához, csatlakozz facebook csoportunkhoz ide kattintva!

Tanfolyamaink:

Új tartalmak

please do NOT follow this link