Lineáris regresszió működése, korlátai egy példán keresztül
A befektetési döntések mögött gyakran olyan múltbeli összefüggések állnak, amelyek statisztikai eszközökkel mutathatók ki. A lineáris regresszió egy egyszerű, mégis hatékony eszköz ezeknek a kapcsolatoknak a feltárására, legyen szó részvényhozamokról, értékeltségi mutatókról vagy más piaci tényezőkről. Cikkünkben azt vizsgáljuk meg, hogy hogyan működik a lineáris regresszió, melyek a korlátai, és mennyire lehet megbízni a regressziós modellek előrejelzéseiben. Témáink:
- A lineáris regresszió
- Mikor nem alkalmazható a lineáris regresszió?
- Hogyan zajlik a gyakorlatban az összefüggések kimutatása
A lineáris regresszió
A regressziós algoritmusok főként ott kerülnek felhasználásra, ahol számokkal kell dolgozni. Ilyen például a pénzügyek, gazdasági adatok és a mérnöki területek széles köre. A legismertebb regressziós eljárások:
- Linear Regression
- Nonlinear Regression
- Support Vector Machine Regression
A fentiek közül a lineáris regresszió példáján szemléltetjük az összefüggések kimutatásának egyszerűsített működését. A lineáris regresszió jelentősége, hogy x változóból próbáljuk megjósolni y változó értékét. Ezért a múltbeli, statikus adatokon kivizsgáljuk a kapcsolatot x és y változó között, megkeressük az adatsorra legjobban illeszkedő egyenest, majd az egyenest használjuk a jövőben arra, hogy x változásában y jövőbeni értékét előre jelezzük.
Képzeljük el azt az esetet, hogy rendelkezésünkre áll 200 ingatlan adásvételének adata, és arra vagyunk kíváncsiak, hogy a lakás alapterülete milyen hatást gyakorol az eladási árra, illetve az egyszerűség kedvéért, készítsünk egy olyan modellt, mely a lakás alapterületéből előrejelzi az ingatlan eladási árát. A valóságban természetesen több tényezőt is bevonhatnánk a modellbe, de az érthetőség kedvéért ragaszkodjunk ehhez az egy változóhoz.
A lineáris regresszió lényege, hogy megtaláljuk azt az egyenest, mely a legkisebb eltérésekkel (hibával) illeszkedik az adathalmazra, majd ez alapján a jövőbeli lakások négyzetmétere alapján jelezzük előre a várható eladási árat. A modell az alábbi egyenletet fogja alkalmazni.
![]()
ahol:
- β0 a konstans tag, az ún. alapár,
- β1 a meredekség, vagyis hogy mennyit növekszik az ár minden plusz m²-rel,
- ε pedig a hiba.
A fentiek után a rendelkezésünkre álló 200 ingatlan adatát elkülönítjük egy 160 ingatlanból álló tréningadatbázisra, és egy 40 ingatlanból álló tesztadatbázisra. Ez utóbbin vizsgáljuk, hogy a 160 ingatlanon betanított modell előrejelzése mennyire pontos. A lineáris regressziót elvégezve a fenti egyenletre a következő eredményt kaptuk:
Lakás becsült ára (millió Ft) =5,73+0,34 * Alapterület (m2)
A fenti egyenlet szerint tehát egy 30 m2-es lakás 15,93 millió forintba kerül. Az alábbi grafikonon látható a 160 db ingatlan eladási ára (y) és alapterülete (x), illetve a lineáris regresszióval az adatokra illesztett egyenes, melyet előrejelzésre használunk. A fenti regresszió magyarázóereje 75% (R2=0,751), azaz a lakás alapterülete 75 százalékban magyarázza az ingatlanárak változékonyságát.

A következő ábrán már a tesztelésre elkülönített 40 ingatlanból álló mintán látható a tényleges ár (x-tengely) és az előrejelzett ár (y-tengely). Az előrejelzés akkor pontos, ha az egyes pontok a behúzott 45 fokos egyenes közelében szóródnak.

A modell teljesítményét a gyök négyzetes hiba (RMSE) mutatja, mely a tanítóadatokon 4,57 millió Ft, míg a tesztadatokon 5,75 millió Ft volt, azaz ennyi volt az átlagos eltérés a valós és becsült lakásárak között. Ez azt jelzi, hogy a modell jól általánosít, nemcsak a tanulási adatokon működik, hanem új, ismeretlen lakások árát is viszonylag pontosan megbecsüli.
Fontos szem előtt tartani, hogy a lineáris regresszió nem alkalmazható minden esetben és komoly korlátai vannak. A modell feltételezi, hogy a változók között egyenes arányosság áll fent, de ha a valódi kapcsolat nem lineáris (általában ez a jellemző), akkor a modell torzít. Esetünkben, a lakásárak példáján biztosan nem lineáris a kapcsolat az ár és az alapterület között, hiszen a nagy méretű ingatlanok ára nem növekszik arányosan az alapterülettel.
Mikor nem alkalmazható a lineáris regresszió?
A Gauss-Markov tételnek az a lényege, hogy ha egy lineáris regresszió teljesíti az alábbi öt feltételt, akkor az OLS módszer (legkisebb négyzetek módszere, mellyel az egyenest illesztjük) az egyik legjobb (BLUE, azaz Best Linear Unbiased Estimator):
- Lineáris modell, azaz a függő változó (például a lakás ára) egyenesen arányosan függ a magyarázó változóktól (példánkban az alapterület). A maradékhibák ábrázolásával (residual plot) vizsgáljuk.
- A hibák várható értéke nulla, azaz a modell nem jelez előre szisztematikusan kevesebbet, vagy többet.
- Homoszkedaszticitás, azaz a hiba (eltérés a modell és a valós érték között) mindenhol hasonló nagyságú. Tesztelhető: Breusch–Pagan teszt, white-teszt
- Hibatagok nem korrelálnak egymással, azaz az egyik adat hibája nem befolyásolja a következő adat hibáját. Különösen fontos, ha idősorokkal foglalkozunk. Tesztelhető: Durbin–Watson autokorreláció teszt.
- Magyarázó változók nem kollineárisak, azaz azaz nem állnak erős kapcsolatban egymással. A fenti példában képzeljük el azt az esetet, hogy az alapterület mellé magyarázó változóként betesszük a szobák számát. Mivel az alapterülettel növekszik a szobák száma, így a két változó között szoros a korreláció, ami a becslés torzításához vezet. Tesztelhető: VIF
A lineáris regresszió lefuttatása önmagában tehát egyszerűnek tűnhet, de figyelembe kell venni, hogy számos kiegészítő vizsgálat, adatelőkészítés, a változók átalakítása szükséges ahhoz, hogy a becslés torzításmentes legyen.
Lineáris regresszió a gyakorlatban
Itt az oldalon és a tanfolyamunkon is nagyon sok ismert, a múltban megbízhatónak bizonyuló tőzsdei összefüggéssel foglalkoztunk. Vélhetően a tőzsdei kereskedők, befektetők széles köre találkozik az ismertebbekkel, például a value-tényezővel, momentum-hatással, size-prémium, a CAPE-mutatóval és a sort hosszasan sorolhatnám, hiszen mára már száznál is több ilyen tőzsdei összefüggést ismerünk. Ezeknek a vizsgálatoknak a jelentős részében két adat között keressük a kapcsolatot. Ezek a vizsgálatok gyakran lineáris regresszióval, azok speciális változataival történnek. A lineáris regresszióra nagyon jó példa a CAPE-mutató (magyarázat itt), melynél azt vizsgáljuk meg, hogy a mutató értéke és a jövőbeni részvénypiaci hozam között van-e bármiféle kapcsolat. Ha ezt a vizsgálatot el szeretnénk végezni, akkor ehhez két dologra van szükségünk. Az egyik a CAPE mutató értéke minden egyes évben az adott tőzsde vonatkozásában, a másik pedig a következő évi hozam a tőzsdén. Ha ezeket az adatok felvisszük egy táblázatba az egyik oszlopba a CAPE a másik oszlopban a jövő évi hozamot, akkor egy egyszerű grafikonon ábrázolhatjuk az összes esetet, ahogy ez az alábbi képen is látható (Shiller professzor kutatási anyagából másoltam ki a CAPE grafikonját).

forrás: Robert J. Shiller
A fenti képen minden egyes pont a CAPE mutató értékét és a következő évi tőzsdei hozamot mutatja. Ha ránézünk erre a ponthalmazra, látható, hogy az adatok tulajdonképpen véletlenszerűen szóródnak, azaz magas CAPE (túlárazott, drága részvénypiac) esetén is vannak magas jövő évi, és alacsony jövő évi hozamok. Ugyanígy alacsony CAPE (olcsó részvénypiac) esetében is vannak magas és alacsony jövőbeni hozamok. Már ránézésre megállapítható, hogy a CAPE és a jövő évi hozam között nincs szoros összefüggés. Ha viszont pontosak akarunk lenni, akkor a lineáris regresszió segítségével a pontokra illeszkedő egyenest veszünk fel. A fenti grafikon látható egyenesből több dolog is következik. Általános összefüggést mutathatunk ki, illetve az egyenes meghosszabbításával jövőbeni előrejelzéseket tehetünk. Ilyenkor azonban az a kérdés, hogy ez az egyenes mennyire pontosan jelezte előre a múltban az eseményeket, azaz menyire pontosan illeszkedik az egyes a pontokra. A fenti kép alapján belátható, hogy semennyire, azaz a lineáris regresszióval felvett egyenes és a múltbeli adatok között nagy a szórás. Emiatt a CAPE mutató nem jelzi előre a jövő évi tőzsdei hozamokat. A megbízhatósági tényező, más néven R2, azaz magyarázóerő azt mutatja tehát, hogy a lineáris regresszióval felrajzolt egyeneshez milyen közel esnek az adatok. Az alábbi grafikon a CAPE-ráta és a 10 éves évesített hozam közötti kapcsolatot szemlélteti az 1980-2024 közötti időszakban, a magyarázóerő itt már 50%.
