Ugrás a tartalomra
Megjelent az Elemzésközpont új Daytrade képzése: A 70 órás, 2026-os tananyag a rövid távú kereskedés legfontosabb technikáit mutatja be deviza-, index- és részvénypiaci példákon keresztül. Tanfolyam megtekintése

Miért téved, hibázik a mesterséges intelligencia?

Szerző | Hírlevél | Facebook

A rendelkezésünkre álló adatok azt mutatják, hogy a mesterséges intelligencia távol áll attól, amit a sci-fi filmek alapján gondolunk róla. A mesterséges intelligencia ugyanis tévedhet, hibázhat, nem minden esetben dönt racionálisan, és olyan kognitív torzításokat is elkövethet, amelyek az emberekre jellemzők (túlreagálás, jelen felülértékelése). Cikkünkben a témával kapcsolatos kutatásokat, elsődlegesen a pénzügyek területére fókuszálva tekintjük át. Témáink:

  • Példák a mesterséges intelligencia tévedéseire
  • Bizonyos feladatokban az AI pontosabb lehet az embereknél
  • A mesterséges intelligencia sem hoz mindig racionális döntéseket?
  • Miért tévedhet a mesterséges intelligencia?
  • A nyelvi modellek előretekintési torzításai, előrejelzési hibái
  • Nagy nyelvi modelleknél (ChatGPT) egyszerűbb megoldások is hatékonyak
  • Anonimizált adatokkal már nem tud felülteljesíteni a mesterséges intelligencia?
  • Valódi előrejelzésben gyengébben teljesített a ChatGPT

Példák a mesterséges intelligencia tévedéseire

A mesterséges intelligencia, azon belül a nagy nyelvi modellek, meggyőző válaszokat adhatnak akkor is, amikor tévednek. Erről saját magunk is meggyőződhetünk, ha megkérdezzük az OpenAI ChatGPT algoritmusától, hogy kik az Egri csillagok című könyv szereplői. Dózsa György nevét olvasva értetlenül csodálkozhatunk ezen a tévedésen, de a ChatGPT mentségére szolgáljon, hogy Dózsa György neve valóban megemlítésre kerül a könyvben.

Ugyanakkor nemcsak a nagy nyelvi modellek hibáznak, hanem ahogy egy korábbi cikkemben beszámoltam, a mesterséges intelligenciát alkalmazó hedge fundok, alapkezelők, algoritmusok eredményei is elmaradnak a várttól. A témában 27 kutatást összegeztünk a cikkünkben (lásd itt), többek között az alábbi megállapításokat tettük:

  • Az Eurekahedge hedge fund 2011-2022 közötti időszakon halmozott hozamban alulteljesített. A passzív befektetők halmozott hozama 210 százalékkal magasabb volt az időszak alatt.
  • A Preqin AI hedge fund 2016-2019 közötti időszakon 27 százalék hozamot ért el, de ezen időszak alatt az amerikai részvénypiacon 65 százalék hozam keletkezett.
  • Az Aidya a mesterséges intelligencia iparágban legendának számító Ben Goertzel fejlesztése. Az AI az első kereskedési napon 12 százalék hozamot generált, majd egy éven belül a projektet abbahagyták a gyenge teljesítmény miatt.
  • A Sentient Technologies hedge fund AI-támogatott algoritmusa 2017-ben 4 százalék, 2018-ban 0% hozamot ért el, majd a projektet abbahagyták.

Továbbá léteznek olyan ETF-alapok is, amelyek a mesterséges intelligencia alapján alakítják ki a portfóliójukat. Az alapok konkrét nevének említése nélkül nézzük az eredményeket:

  • Az egyik globális makró típusú AI ETF 2018-ban indult, de 2018-ban és 2019-ben nem tudott nyereséget termelni, majd az alapkezelést befejezték.
  • Egy másik ETF-alap az EquBot nevű AI segítségével kezeli a portfóliót. Az IBM Watson támogatásával működő algoritmus 2017-2023 közötti időszakon évi 6,7 százalékos hozamot ért el, 23 százalékos szórás mellett. Ezen időszak alatt a teljes részvénypiacba passzívan befektetők 11,2 százalékos hozamot érhettek el 18,5 százalékos szórás mellett.

A témával kapcsolatos kutatások arra is rámutatnak, hogy a mesterséges intelligencia bizonyos esetekben hasonló kognitív torzításokat követhet el, mint az emberek. Vagyis nem állítható általánosan, hogy a mesterséges intelligencia minden helyzetben racionálisabb előrejelzést készít az embereknél. Nézzük ennek részleteit és okait.

Bizonyos feladatokban az AI pontosabb lehet az embereknél

A rendelkezésünkre álló kutatások azt mutatják, hogy az emberek gyakran rosszak az előrejelzésben, és még a professzionális elemzők, a társaságokat irányító vezetők, illetve a befektetők is kognitív torzítások sorát követik el. Ezek közül az egyik legfontosabb a túlreagálás (overreaction bias), és a recency bias, azaz a jelen felülértékelése.

A Behavioral Machine Learning? Computer Predictions of Corporate Earnings also Overreact cím alatti tanulmányban különböző mesterséges intelligencia algoritmusokat használtak fel arra, hogy tőzsdei társaságok jövőbeni nyereségét (egy részvényre jutó nyereség) előre jelezzék. A vizsgált algoritmusok jellemzően lineáris regresszió és az ún. Gradient Boosting Regression Tree (GBT) módszeren alapultak. A tesztelés 1994-2018 közötti adatokon, az amerikai részvénypiacon történt. Azt, hogy hogyan lehet a gyorsjelentésekből algoritmikus úton előrejelzést készíteni, itt részleteztük.

Az eredmények alapján nagy átlagban a gépi algoritmusok jobb előrejelzőnek bizonyultak, mint az emberek. Az alábbi képen az összes elemző előrejelzése látható (a halvány pontok egy-egy elemzést mutatnak). Akkor tekinthető pontosnak egy előrejelzés, ha a behúzott piros egyenesre vagy annak közelébe esik.

forrás: Behavioral Machine Learning..

Az alábbi képen a mesterséges intelligenciát alkalmazó algoritmusok láthatók. Az AI is téved, de a tévedés mértéke kisebb.

forrás: Behavioral Machine Learning..

Az 1994-2018 közötti időszak 22 évéből 10 évben az emberek felülteljesítették a mesterséges intelligenciát (a mean squared error egy alatti értéke jelzi ezt).

forrás: Behavioral Machine Learning..

A mesterséges intelligencia tehát ebben a vizsgálatban valamivel jobban jelezte előre a vállalati profitok alakulását a gyorsjelentések alapján, mint a professzionális elemzők. Ugyanakkor azt várnánk, hogy egy algoritmus nem követi el azokat a hibákat, amelyeket az elemzők elkövetnek. Ezek közül az egyik legdominánsabb az overreaction bias, melynek lényege, hogy a társasággal kapcsolatban érkező, jelenhez közeli információkat felülsúlyozzuk, eltúlozzuk a jelentőségüket, és ezt kivetítjük a jövőbe. Ebből születnek a túlzottan optimista célárak, amelyeket később a piac nem igazol vissza. Egy korábbi cikkünkben mutattam erre példát, ahol a kék görbe az emberi előrejelzés, a sárga (logisztikai görbe) pedig a valóságot mutatja.

 

Csakhogy a fenti vizsgálat arra jutott, hogy a gépi tanulás útján működő algoritmusok az emberekhez hasonlóan, de kisebb mértékben elkövetik az overreaction bias-t.

A hétköznapi vélekedéssel szemben a mai AI-rendszerek többsége nem emberi módon gondolkodik, hanem mintázatokat tanul nagy adathalmazokból, és ezek alapján ad becslést, döntést vagy szöveges választ. Így például a mesterséges intelligencia különböző lineáris regresszión alapuló eljárásokkal hoz döntést, keres kapcsolatot, és végez előrejelzést. De léteznek természetesen más eljárások (itt beszéltünk róluk), amelyek közül a pénzügyek világában a döntési fák a leggyakrabban alkalmazottak. A döntési fa lényegét az alábbi egyszerű ábrán keresztül megérthetjük. A feladat az, hogy meghatározzuk, milyen idő van ma. Értelemszerűen az emberek kinéznek az ablakon, és megállapítják, hogy jó vagy rossz az időjárás. A háttérben azonban döntések sorozatát visszük végig, többek között a napos, esős, szeles, párás kérdések megválaszolásával jutunk el a jó vagy rossz idő megállapításához. Az algoritmusok hasonló döntési fákkal dolgoznak, csak ennél sokkal mélyebbekkel, és sokkal több döntési fát alakítanak ki, amely végül elvezeti őket az optimálisnak tekintett megoldáshoz.

forrás: Interactive decision tree algorithm

A fenti vizsgálatban a lineáris regresszió különböző típusait és a pénzügyekben gyakran használt Gradient Boosted Regression Tree (GBRT) módszereket vizsgálták meg túlreagálás tekintetében. A GBRT módszer felülteljesíti a lineáris regresszió módszereit és az emberi előrejelzést is, de a híreket túlreagálja, ahogy az emberek is. A túlreagálás csökkenthető a GBRT egyik paraméterének (learning rate, amely a tanulás gyorsaságát szabályozza) változtatásával. Ha azonban csökkentik a learning rate mutatót, akkor a túlreagálás eltűnik, de ezzel együtt a modell előrejelző képessége is drasztikusan visszaesik. A fentieken túl az is jól elkülöníthető az adatokon, hogy azok az elemzők, akik ismerik a gépi tanulás különböző módjait (statisztikai módszereket), kisebb mértékben követik el az overreaction bias-t.

Összegezve a lényeget, a mesterséges intelligencia azért tévedhet, azért értékelheti felül a közelmúlt eredményeit, mert a betanítására és működtetésére használt statisztikai módszereknek is vannak korlátai. Például egy regressziós módszer pontosabb lehet, ha sokkal több múltbeli adatot veszünk figyelembe, de ez jellemzően csökkentheti az előrejelzés érzékenységét a friss információkra. Ha pedig kevesebb adattal dolgozik az algoritmus, akkor könnyebben felülsúlyozza a jelenhez közeli adatokat. A probléma jól szemléltethető a mozgóátlagokkal. Képzeljük el azt az esetet, hogy az emelkedő, csökkenő trend megállapítása egy mozgóátlaghoz kötött. Ha fölötte van az árfolyam, akkor emelkedő, ha alatta, akkor csökkenő trendet jelzünk előre.

Ahogy az alábbi grafikonon látható, még az ilyen egyszerű módszerek esetében is csökken a túlreagálás, a téves jelek száma, ha több adatot vizsgálunk (kék görbén alapuló jelzések), szemben a jelenhez közelebbi adatok vizsgálatával (zöld görbén alapuló jelzések).

Továbbá a különböző statisztikai módszerek sajátossága, hogy statisztikailag szignifikáns eredményre, megfigyelésre juthatunk. A statisztikai szignifikancia határértéke 95 vagy 99 százalék a legtöbb esetben, azaz gyakran 5 vagy 1 százalékos szignifikanciaszintet használunk. Ha például egy vizsgálat p-value értéke 0,01-nél kisebb, akkor az adott modellfeltételek mellett nagyon kicsi annak valószínűsége, hogy ilyen vagy ennél szélsőségesebb eredményt kapjunk akkor, ha valójában nincs kapcsolat a változók között. Ez azonban nem jelenti azt, hogy 99 százalékos bizonyossággal létezik ok-okozati kapcsolat. A statisztikai módszerek esetében tehát nem rendelkezünk 100 százalékos bizonyossággal (további részletek itt).

A helyzetet tovább bonyolítja, hogy a lineáris regresszión alapuló összefüggések felderítése nem feltétlenül jelent ok-okozati összefüggést. Ahogy erről a clustering illusion témában beszéltünk, bár a medencébe fulladó emberek száma és Nicolas Cage filmszerepei között közepesen magas (R2=0,66) korreláció figyelhető meg, a valóságban nincs ok-okozati kapcsolat a két változó között.

Utolsó példaként álljon itt a margarin egy főre jutó fogyasztása és a válások aránya közötti statisztikailag szignifikáns, erős korreláció (0,99).

forrás: Spurious Correlations

A nyelvi modellek előretekintési torzításai, előrejelzési hibái

Az elmúlt hónapokban több esetben is beszámoltunk arról, hogy a nagy nyelvi modelleket előrejelzésre is lehet használni. Például Fieberg és szerzőtársai (2023) kimutatták, hogy a ChatGPT képes olyan befektetési tanácsokat adni a rendelkezésére álló információk alapján, amelyeket a hagyományos befektetési tanácsadók adnának (részletek itt). Lopez-Lira és Tang (2023) kutatásából pedig az derült ki, hogy a ChatGPT az előző modelleknél sokkal nagyobb pontossággal tudta megállapítani a megjelenő hírek társaságra gyakorolt negatív, pozitív árhatásait (cikkünk a témában itt). Chapados (2023) a tőzsdei gyorsjelentések értelmezésére használta fel a BERT pénzügyi adatok értelmezésére betanított változatát, és felülteljesítő stratégiát tudott ez alapján összeállítani (itt beszéltünk erről). A fenti pozitív vizsgálatok ellenére valódi piaci körülmények között eddig nem tapasztalhattuk egyértelműen a mesterséges intelligencián alapuló rendszerek előnyeit. A témával kapcsolatban 27 kutatást tekintettünk át korábbi cikkünkben. Ezek nagyrészt olyan intézményi befektetők eredményeit vizsgálták, amelyek mesterséges intelligencia segítségével értek el eredményeket. A végkövetkeztetések:

  • Nincs bizonyíték arra, hogy bármely gépi tanuláson alapuló algoritmus vagy befektetési alap tartósan kiemelkedő hozamot biztosított volna.
  • A vizsgált alapok többsége alulteljesítette a benchmarkként használt tőzsdeindexeket.

Ahogy fentebb látható volt, a nagy nyelvi modelleket a gazdasági élet számos területén használják előrejelzésre. Intenzív kísérleteket láthatunk a tőzsdei társaságok gyorsjelentései, nagy mennyiségű hírek alapján a piaci hangulat előrejelzése, illetve a gazdasági növekedés előrejelzése területén, de a társadalomtudományok más területein is láthatunk vizsgálatokat, például a választások győzteseinek előrejelzését életrajzi adatok alapján.

Sarkar és Vafa néhány héttel ezelőtt megjelent anyagában leírja annak a lehetőségét, hogy a nagy nyelvi modellek által készített előrejelzéseket eltorzíthatja az, hogy a múltbeli adatokon végzett vizsgálatokba „beszivárognak” a jövőbeni információk. A problémát az alábbi példával szemléltették. Az alábbi képen az egyik nagy nyelvi modellnek (Llama 2-70B verzió) adtak utasítást arra, hogy a 2019. szeptember 5-én megjelent Zoom Inc gyorsjelentése alapján készítsen kockázatelemzést a céggel kapcsolatban úgy, hogy kizárólag a gyorsjelentés adataira támaszkodik a modell.

forrás: Sarkar és Vafa (2024)

Az alábbi képen olvashatjuk a nyelvi modell elemzését, amelyben erős utalást találhatunk a Covid-19 járványra, illetve az otthoni munkavégzésre. Ugyanakkor a koronavírus-járvány tényleges kitörése fél évvel későbbre tehető, azaz az előrejelzésbe bekerült olyan információ, amely az adott pillanatban a valóságban nem állt rendelkezésre. Emiatt felmerül annak a lehetősége, hogy a modell pontosabb előrejelzést tudott adni a tesztelés során, de kizárólag azért, mert rendelkezett jövőbeni információkkal.

forrás: Sarkar és Vafa (2024)

A fentiek miatt a múltbeli adatokon (mintán belül, in-sample) végzett tesztelések jobb eredményeket mutathatnak, mint a valóságban, mintán kívül (out-of-sample). A fenti egyetlen példa mellett szélesebb adatkörön is megvizsgálták, hogy milyen nagyságrendben, milyen mértékben torzítja el az előrejelzéseket a jövőből beszivárgó információ. Ehhez összesen 1000 társasági gyorsjelentést használtak fel, amelyek 2018. szeptember 1. és 2018. november 30. között kerültek publikálásra, és a nyelvi modellnek azt az utasítást adták, hogy készítsen kockázati előrejelzést az adatok alapján a 2019-es évre. Ahogy erről az alábbi grafikon tanúskodik, a járvány kitörése előtti évben 6-8 százalék közötti gyakorisággal említette meg a nyelvi modell a járványt mint kockázati tényezőt.

forrás: Sarkar és Vafa (2024)

A fentiekhez hasonló eredményre jutottak a szerzők abban az esetben, amikor a kongresszusi választások győzteseit jelezték előre a nyelvi modellel életrajzi adatok alapján. Ezekbe az előrejelzésekbe is beszivárogtak az előrejelzés pillanatában nem létező adatok. A fentiek arra mutatnak rá, hogy a hagyományos előrejelzési technikák teszteléséhez képest sokkal könnyebb tesztelési hibákat elkövetni a nyelvi modellekkel. Ennek pedig az lesz az eredménye, hogy a tesztelési adatokon magas megbízhatóságot, jó előrejelző képességet látunk, de ez részben azért lehet, mert a jövőbeni adatok beszivárogtak a tesztelésbe. Amíg egy hagyományos technika esetében a mintán belüli (in-sample) és mintán kívüli (out-of-sample) tesztelések mellett a robusztussági vizsgálatok is segítségünkre lehetnek (részletek itt), addig a nyelvi modellek esetében a betanításra használt adatokat kell megfelelően kezelni. Ez tehát azt jelenti, hogy a teszt készítésekor a modell nem tartalmazhat az előrejelzési időpontnál újabb szöveges információt. Ennek technikai kivitelezésére azonban jelenleg nincsenek tökéletes eljárások. Kísérletek azonban már vannak, például Schweter és szerzőtársai (2022) olyan nyelvi modellt hoztak létre erre a célra, amelyet 1914 előtti nyelvi adatokon tanítottak be. Hasonlóan járt el Manjavacas és Fonteyn (2021), akik 1450-1950 közötti szöveges adatokon tanították be nyelvi modelljeiket.

A fenti megoldásokkal van azonban egy fontos probléma. Nincsenek bennük azok a statisztikai adatok, összefüggések, amelyek alapján a modell pontos előrejelzést végezhetne. Gondoljunk csak arra, hogy a 100 évvel ezelőtti szövegek nyilvánvalóan nem tartalmazzák azokat az összefüggéseket, amelyekkel egy gyorsjelentésből pénzügyi kockázatokat elemezni, előrejelezni lehetne.

A probléma megoldását feltételezhetően az jelentené, hogy időcímkével ellátott nyelvi modelleket kellene használni a tesztelések során. Eszerint minden egyes év előrejelzését külön nyelvi modellel kellene elvégezni. A cikkben szereplő példánál maradva ez azt jelenti, hogy a 2019-es részvénypiaci kockázatok előrejelzésére olyan modellt kellene használni, amely csak 2018-ig tartalmaz adatokat, a 2020-as előrejelzés esetén pedig már olyan modellt, amelyben a 2019-es év adatai is szerepelnek. A fentiek egyúttal azt is jelentik, hogy az elmúlt évben megjelent, a nyelvi modellek előrejelzési képességeivel foglalkozó vizsgálatok jelentős részét érintheti a probléma, azaz a kimutatott jó eredményeket mintán kívül nem feltétlenül tudják biztosítani.

Nagy nyelvi modelleknél (ChatGPT) egyszerűbb megoldások is hatékonyak

Érdemes tisztában lenni azzal, hogy a tőkepiaci, pénzügyi adatok algoritmikus feldolgozásának közel két évtizedes múltja van, azaz a ChatGPT bemutatkozása előtt is léteztek, és használtak hasonló algoritmusokat, nagyrészt a hírfeldolgozás, a hangulatmérés, a gyorsjelentések értelmezése területén. Én is beszámoltam több ilyen vizsgálatról az elmúlt években, például a gazdasági adatok és a következő napok árváltozása közötti kapcsolatról (lásd itt), a gyorsjelentések tartalmi változása és az árfolyam kapcsolatáról, illetve a gyorsjelentésekben előforduló negatív szavak és a jövőbeni hozam kapcsolatáról (lásd itt). Ezek a vizsgálatok mind korábbi nyelvi modellek segítségével készültek.

A legegyszerűbbek egyszerűen szótárakat használnak, amelyekben a vizsgálandó szavak, kifejezések felsorolásra kerülnek. A legkorábbi modellek a Harvard IV-4 szótárt használták erre a célra, de 2011-ben Loughran és McDonald összeállított egy specializált szótárt, amellyel sokkal pontosabban lehetett értelmezni a tőkepiaci tartalmakat. A szótárakat használó algoritmusok után a következő lépcsőfokot a Word2Vec és a Doc2Vec programok jelentették. Ezek már újabb, 2013-ban megjelenő nyelvfeldolgozási technikák, amelyeknél az algoritmus képes szóasszociációk megtanulására egy nagyobb szövegadatbázis segítségével. Ezek a modellek már képesek felismerni szavakat, kifejezéseket a betanítás után. A következő lépcsőfokot pedig a ChatGPT jelentette, ahol a betanulás után teljes mondatok, szövegek értelmezése vált lehetővé. A nagy nyelvi modellek pénzügyekre tanított változatát BERT néven találjuk meg, ennek módosított, gyorsjelentésekre, pénzügyi beszámolók értelmezésére készített változata az FtBERT, illetve a FinBERT. Az alábbiakban tárgyalásra kerülő vizsgálatban a fenti modellek feladatmegoldási hatékonyságát vizsgálták meg.

A Can AI Explain Company Performance.. cím alatti vizsgálatban két különböző feladat végrehajtási pontosságát vizsgálták meg a ChatGPT, a BERT, a FinBERT, az LSI, a Word2Vec és a Doc2Vec rendszereken. Az első feladat az volt, hogy az algoritmusoknak fel kellett ismerniük a társaságot a gyorsjelentések (10-K form) és a gyorsjelentésekhez kapcsolódó prezentáció (earnings call) alapján. A vizsgálatnak az a lényege, hogy a gyorsjelentés 10-K néven elérhető dokumentuma és a befektetőknek készített prezentáció nyelvezete, tartalma hasonló, így meg lehet határozni, hogy összetartoznak. Az első feladat végrehajtásában a ChatGPT teljesített a legjobban, ugyanakkor minden kategóriában (lásd grafikon x tengely) a Word2Vec jobban teljesített, mint a BERT vagy a FinBERT.

forrás: Can AI Explain Company Performance..

A második feladatban a gyorsjelentések tanulmányozása volt a cél, és a feldolgozott adatok alapján kellett megbecsülnie az algoritmusnak, hogy várhatóan mekkora meglepetés éri a piacot. A meglepetés az elemzői konszenzus és a tényleges nyereségadat különbsége, azaz ha a közzétett tényadat nagyobb, mint az elemzői várakozás, akkor pozitív meglepetés érte a piacot. Fordított esetben negatív meglepetésről beszélünk. Az alábbi grafikonon az algoritmusok által megbecsült meglepetések mértéke látható, de a minta öt részre lett bontva a meglepetés mértéke alapján.

forrás: Can AI Explain Company Performance..

A grafikonból az derül ki, hogy gyakorlatilag mindegyik nyelvi modell hasonló teljesítményt ért el a feladat során. Ha a két szélsőséges kategóriát (0 és 4) vizsgáljuk, akkor azt látjuk, hogy a BERT hozta a legjobb teljesítményt. Ezt támasztja alá a regressziós vizsgálat is, amelyben a BERT algoritmusnak lett a legmagasabb R2-tényezője.

Összességében tehát azt láthatjuk, hogy az első feladatban a ChatGPT kiemelkedően teljesített, de a második feladat végrehajtásában az olyan egyszerűbb modellek, mint a Word2Vec is hatékonynak bizonyultak. Ezek az adatok is megerősítik azt, hogy nem minden területre, feladathoz van szükség drága, erőforrás-igényes megoldásokra, mert a korábban kifejlesztett egyszerűbb megoldásokkal is hasonló eredményt lehet elérni.

Anonimizált adatokkal már nem tud felülteljesíteni a mesterséges intelligencia? 

Perlin és szerzőtársai (2024) úgy próbálták meg elkerülni a nyelvi modellek előretekintési torzítását (amikor jövőbeni adatok beszivárognak a múltba), hogy anonimizálták tőzsdei társaságok széles körének pénzügyi és árfolyamadatait, azaz a Google nyelvi modellje (Gemini) nem tudta a kísérlet során a társaságok nevét, így nem is használhatta fel a társaságok jövőbeni eredményeivel kapcsolatos, az adatbázisában rendelkezésre álló adatokat. A kísérletben 2004-2014 között 10 000 dollárnyi tőkét kellett befektetnie az algoritmusnak öt különböző részvényt kiválasztva 1, 6, 12, 36 hónapos időtávon. Emellett olyan változatokat is kipróbáltak, hogy csak könyvviteli, csak árinformációt, vagy a kettőt együttesen is felhasználhatta a Gemini a döntéseihez. Az összesen 1522 részvény felhasználásával, időtávonként 1500 szimulációval, a teljes szimulációszám elérte a 18 000-et.

A Gemini által összeállított portfóliók eredményét az S&P 500 index és az ún. naív portfólióépítési technika teljesítményével vetették össze. A naív technika lényege, hogy 5 db részvény és egy kockázatmentes kötvény egyenlő arányban, hat részre osztva kerül a portfólióba. A részvények kiválasztása véletlenszerűen történik ebben az esetben. Az eredmények azt mutatják, hogy kizárólag könyvviteli információk birtokában, 1 hónapos befektetési időtáv esetén a Gemini szinte mindig egyetlen részvénybe fektette a pénzt. Ha azonban az árfolyamról vagy az árfolyam és a könyvviteli adatokról is kapott információt, akkor már diverzifikált, és jellemzően öt részvényt választott ki. Ahogy az alábbi táblázatból kiderül, a Gemini portfólió-összeállításai alulteljesítik abszolút hozamban és kockázattal korrigált hozamban (Sharpe) a naív és a vedd meg és tartsd technikákat. Az eredmények nem változnak érdemben akkor sem, ha az ár- és pénzügyi információk egyaránt a tudomására jutnak (táblázat alsó harmada).

forrás: Perlin és szerzőtársai (2024)

A vizsgált 18 000 eset 33-44 százalékában a Gemini felülteljesítette a vedd meg és tartsd technika eredményét, ha a kockázattal korrigált hozamot nézzük. A Jensen alfával szemben mért felülteljesítés azonban mindössze az összes eset 5,6-8,47 százalékában figyelhető meg, azaz a Gemini a piaci hozamokat mindössze az esetek egy szűk körében tudta konzisztensen felülteljesíteni.

forrás: Perlin és szerzőtársai (2024)

A fejlett nyelvi modellek hasznos segítséget nyújthatnak számos területen, de a felülteljesítő részvények kiválasztását nem célszerű kizárólag rájuk bízni.

Valódi előrejelzésben gyengébben teljesített a ChatGPT

Az alábbi ábra a ChatGPT és a Cleveland Fed inflációs előrejelzéseinek hibáját (MSE) hasonlítja össze három különböző időszakban. A zöld oszlopok a ChatGPT, a lila oszlopok a Cleveland Fed nowcast modell hibáját mutatják.

Ennek az új tanulmánynak az egyik kulcsfogalma a „knowledge cutoff”, vagyis az a dátum, ameddig a modell tanítóadatai információkat tartalmazhattak. A szerzők a GPT-4 Turbo esetében 2023 áprilisát tekintették potenciális knowledge cutoffnak, de azt is hangsúlyozzák, hogy a pontos tudáshatár nem teljesen egyértelmű. Ez azért fontos, mert ha a modell a tanítás során már találkozott az adott időszak inflációs adataival vagy az ezekre utaló szöveges információkkal, akkor a visszamenőlegesen készített pseudo out-of-sample előrejelzések részben memóriahatást vagy információszivárgást (leakage) is tükrözhetnek.

A „pre-knowledge cutoff” időszak tehát a 2019 és 2023 áprilisa közötti periódust jelenti. Ebben az időszakban a ChatGPT előrejelzései még viszonylag versenyképesnek tűntek, bár így is gyengébbek voltak a Cleveland Fed modelljénél.

A „post-knowledge cutoff” időszak (2023 május - 2024 április) még érdekesebb. Itt a kutatók még mindig pseudo out-of-sample módszert használtak, tehát visszamenőleg kérdezték le a modellt történelmi időpontokra. Ez az időszak azonban már a szerzők által feltételezett tudáshatár utánra esik, ezért itt a modell teljesítménye kevésbé magyarázható egyszerű memorizációval. Ebben az időszakban a ChatGPT teljesítménye látványosan romlott: az előrejelzési hibája többszörösére nőtt a Fed modellhez képest.

A harmadik periódus a valódi out-of-sample időszak (2024. május 13. - 2025. június 30.), ahol a kutatók valós időben, óránként kérdezték le a ChatGPT-t az aktuális hónapra és a következő 12 hónapra vonatkozó amerikai inflációs előrejelzésekről. Ebben a helyzetben a modell már biztosan nem „emlékezhetett” jövőbeli adatokra, mert azok az előrejelzés pillanatában még nem léteztek. A teljesítmény itt is jelentősen elmaradt a Cleveland Fed nowcast modelljétől.

A tanulmány fő következtetése tehát az, hogy a generikus LLM-ek előrejelzési képességét könnyű túlbecsülni, ha az értékelés olyan időszakokra épül, amelyeket a modell a tanítás során részben már láthatott, vagy amelyekről közvetett módon információt szerezhetett. A valódi, jövőre vonatkozó előrejelzések esetében a klasszikus makrogazdasági modellek továbbra is stabilabb és pontosabb eredményeket adtak.

forrás: saját szerkesztés Alam et al. (2026) alapján

Összegzés

A mesterséges intelligencia és a nagy nyelvi modellek hasznos eszközök lehetnek az adatok feldolgozásában, a szövegek értelmezésében, a mintázatok felismerésében és bizonyos előrejelzési feladatok támogatásában. Ugyanakkor a kutatások alapján nem érdemes azt feltételezni, hogy ezek a rendszerek minden helyzetben racionálisabbak vagy pontosabbak az embereknél, illetve a hagyományos statisztikai modelleknél.

A pénzügyi és makrogazdasági előrejelzések esetében fontos a tesztelési környezet. Ha a modell olyan múltbeli adatokon teljesít jól, amelyeket a tanítás során részben már láthatott, akkor a jó eredmény könnyen túlbecsülheti a valós előrejelző képességet. Ezért a valódi out-of-sample tesztelés, az előretekintési torzítások kiszűrése és az egyszerűbb benchmark modellekkel való összehasonlítás nélkül nem vonhatunk le megbízható következtetést az AI előrejelzési képességéről.

A gyakorlati megfigyelés az, hogy az AI-t érdemes döntéstámogató eszközként használni, de nem célszerű önálló előrejelző vagy befektetési döntéshozó rendszerként kezelni. A modell válaszait, előrejelzéseit és befektetési következtetéseit mindig ellenőrizni kell adatokkal, módszertani kontrollokkal és hagyományos benchmarkokkal.

Tanfolyamaink – fejleszd pénzügyi tudásod!

Ha szeretnél elmélyedni a befektetések világában, válassz az alábbi gyakorlatorientált képzések közül:

  • Befektetés: kezdőknek szóló tanfolyam a portfóliókialakításról, részletek itt.
  • Tőzsdei kereskedés: magyar és külföldi piacok gyakorlati bemutatása, technikai és fundamentális elemzéssel, részletek itt.
  • Daytrade kereskedés: intenzív, rövid távú stratégiák devizákkal és részvényekkel, napi kereskedőknek, részletek itt.
  • Bitcoin és kriptoeszközök: modern, jövőorientált képzés a legújabb blokklánc-trendekről és kriptokereskedésről, részletek itt.
  • Adatelemzés: kvantitatív módszerek gyakorlati bemutatása valódi tőkepiaci adatokon, programozás nélkül, részletek itt.