Előrejelzések verifikációja I.
1. Bevezetés
Mi az a verifikáció?
Az elején érdemes tisztázni pár elméleti dolgot, hogy mi fán terem a verifikáció, pontosabban előrejelzés verifikáció. Egyrészt szükség van előrejelzésekre, amiket verifikálunk, másrészt észlelésekre, amivel az előrejelzés jóságát ellenőrizni tudjuk. A pontosságot általában számmal/számokkal is jellemezzük.
A verifikáció célja
A verifikációs eredmények vizsgálatával lehetőség nyílik különböző előrejelzések összehasonlítására és az előrejelzés folyamatának fejlesztésére is. Információt ad arról is, hogy egy döntési helyzetben mennyire lehet figyelembe venni az adott előrejelzést.
Különböző célok összefoglalva:
- adminisztratív: monitorozás, előrejelzések összehasonlítása/kiválasztása
- tudományos: a modell hibáinak feltárása és kijavítása; az előrejelzési folyamat fejlesztése
- gazdasági: jobb döntéshozatal, automatikus döntéshozó rendszerek támogatása
A verifikáció minősége és értéke
Ez a két fogalom különböző:
- Minőség (quality): valamilyen szempontból jól jelezzük előre az adott eseményt, pl. jó verifikációs mérőszámokat kapunk.
- Érték (value): az előrejelzés alapján lehet-e jó döntést hozni? - ez az adott a felhasználótól függ. Például egy repülőgéppilótát nem érdekel az, ha az éves csapadékmennyiséget jól jeleztük előre a repülési útvonal mentén.
Kérdések a verifkáció felhasználásához, értelmezéséhez:
- Milyen meteorológiai változót verifikáljunk? (pl. hőmérséklet, csapadék, szupercella előfordulása...)
- Milyen időbeli/térbeli felbontással vegyük figyelembe az adatokat? (pl. napi adatok, Magyarország)
- Milyen kategóriákat, küszöbértékeket használjunk? (pl. hideg/meleg, kis/nagy valószínűséggel)
- Milyen verfikációs mérőszámot/mérőszámokat használjunk? (pl. találati arány)
Ez függ az adott meteorológiai változó típusától is.
A verifikációs megfigyelési adatok tulajdonságai
A verifikációhoz felhasznált adatokkal kapcsolatban a következő szempontokat kell figyelembe venni:
- A mérési hiba miatt "sohasem tudjuk a teljes igazságot". A mérési hiba tulajdonságai az adatok forrásától függenek: mérőállomások/földi észlelések, radar, műhold, modell előrejelzés, modell analízis
- A megfigyelési adatok függetlenek egymástól és az előrejelzéstől? Ha nem, akkor torzított eredményeket kaphatunk. Például egy modell analízisnél a függetlenség nem teljesül.
- Az előrejelzés és megfigyelés párosítása nem mindig egyszerű feladat. Fontos a reprezentativitás: az előrejelzés lehetőleg ugyanarra a helyre és időpontra legyen érvényes, mint ahol és amikor az eseményt is figyelembe vesszük. Néha interpoláció szükséges, rácspontok közötti értékek meghatározására.
Egy gondolatkísérlet erejéig képzeljük el, hogy a következő előrejelzést szeretnénk verifikálni: Lesz-e csapadék 16:27 perckor Kiskunlacházán? GFS esetén a csapadék előrejelzés 0.5 fokos rácspontokra és 3 óránként áll rendelkezésre. Megfigyelésként a 10 percenként frissülő radartérképet vesszük figyelembe. (Érdemes az olvasónak elgondolkodnia, hogy itt milyen problémák merülhetnek fel.)
A verifikációs eredmények megbízhatósága
- Ritka események esetén relatíve sok verifikációs adatra van szükség.
- A verifikációs mérőszámok bizonytalanságának becsléséhez érdemes konfidencia intervallumokat meghatározni. Ezt úgy tehetjük meg, hogy a megfigyelési adatokat mesterségesen megváltoztatjuk, ezzel a megfigyelés hibáját próbáljuk reprezentálni. Több ilyen esetet leszimulálva megnézünk, hogyan szóródik a mérőszám ennek hatására.
- Érdemes egyszerre több mérőszámot megvizsgálni, ill. különböző küszöbértékeket alkalmazni.
Verifikációs módszerek csoportosítása
Az előrejelzés természete lehet:
- determinisztikus: pl. 18 fok várható
- valószínűségi: pl. 10% eséllyel eső várható
- kvalitatív: szavakkal leírható, pl. szép idő várható (ezzel a továbbiakban nem foglalkozom)
Az előrejelzett érték tartománya szerint:
- bináris: igen/nem, pl. várható-e eső?
- multikategóriás, pl. hideg/átlagos/meleg idő várható
- folytonos, pl. maximális hőmérséklet
- objektum/esemény-alapú, pl. trópusi ciklon
Még lehet csoportosítani tér és idő tartománya szerint:
- idősor egy adott helyen, pl. maximális hőmérsékletek egy adott városban
- térbeli adatok egy adott időpontban, pl. légnyomástérkép
- tér- és időbeli adatok összesítése, pl. áltagos globális hőmérséklet-anomália egy adott hónapban
Kitérő - standard vs. tudományos verifikáció
Ebben a dokumentumban csak az ún. standard verifikációs módszereket fejtem ki részletesen. Ezek általában nagyszámú előrejelzés és észlelés összegzésével készült statisztikáknak foghatóak fel.
A másik típus az ún. tudományos vagy diagnosztikus verifikáció. Ezek magukban foglalják a térbeli adatok analízisét és az objektum-alapú módszereket (itt többdimenziós adatok feldolgozásáról is van szó). Fő céljuk az előrejelzett folyamat részleteibe belemenve az előrejelzés hibáinak felderítése.
Egy példa, amikor egy csapadékgóc előrejelzését verifikáljuk radar segítségével. Megnézzük, hogy a góc előrejelzett középpontja, területe, illetve maximális intenzitása mennyire tér el a valóságos, radarral mért csapadékgóc azonos tulajdonságaitól. A kapott eltérések alapján eldöntjük, elfogadható volt-e az előrejelzés.
Ezeket általában ember végzi, egyszerűen szemmel megállapítja az eltéréseket, aztán szubjektíve eldönti, hogy milyen volt az előrejelzés. Ez kevés adat esetén jól működik, viszont ezek számának növekedésével egyre inkább szükség van automatizálására - ez az eredmény számszerűsítése miatt sem egy utolsó szempont. A számítógéppel való kiértékelés bonyolultabb algoritmusokat igényel, mint egy egyszerű átlagolás vagy statisztika.
Ezek az eljárások jóval szerteágazóbbak, specifikusabbak, illetve adott esetben komplexebb matematikai módszereket alkalmaznak (különféle transzformációk, képfeldolgozás, fuzzy módszerek).
A standard verifikációnál maradva, az előrejelzés természete (determinisztikus/valószínűségi) és értéktartománya (bináris/multikategóriás/folytonos) szerint 6 kombináció lehetséges, de ezeket általában 4 csoportba szokták beosztani:
- Bináris-determinisztikus
- Multikategóriás-determinisztikus
- Folytonos-determinisztikus
- Valószínűségi előrejelzés (ezen belül lehet bináris, multikategóriás és folytonos)
2. Bináris-determinisztikus (igen/nem) előrejelzés
Itt az előrejelzés és a megfigyelés is mindössze két értéket vehet fel. Ez esetben 2x2, azaz 4 lehetséges eset van aszerint, hogy előrejeleztük-e az adott eseményt, és valóban bekövetkezett-e.
Több előrejelzést leverifikálva ezen esetek számát egy táblázatban összesíthetjük, aminek a neve kontingencia táblázat:
Megfigyelés | |||
igen | nem | ||
Előrejelzés | igen | A | B |
nem | C | D |
Az esetek számának elnevezései:
- A: találatok száma (hits)
- B: téves riasztások száma (false alarms)
- C: elmulasztott események száma (misses)
- D: helyes negatív előrejelzések száma (correct negatives)
Az összes eset száma N:
(1)
A sorok ill. oszlopok összegzésével meghatárózhatóak az előrejelzések ill. megfigyelések száma. Képezhető az esemény előfordulási gyakorisága (p), és az előrejelzés gyakorisága (q).
(2)
A fenti értékek egyszerű összegzésként szolgálnak. A négy fajta eset számaiból sokféleképpen képezhető olyan mérőszám, amely az előrejelzés jóságát fejezi ki. A következőkben a legismertebbeket sorolom fel.
2.1 Gyakran használt egyszerűbb mérőszámok
- Pontosság (accuracy): A leggyakrabban használt mérőszám, ami megmondja, hogy az összes eset közül mekkora rész lett helyesen előrejelezve:
(3)
Értéktartomány: 0..1
Tökéletes előrejelzés esetén értéke: 1
Bizonyos esetekben ez a mérőszám félrevezető lehet, főleg amikor egy ritka eseményről van szó. Erre egy jó példa, hogyha sohasem jelzünk előre tornádót, akkor is magas (valószínűleg 95%-nél nagyobb) ACC-ot fogunk kapni, mivel a tornádó előfordulási gyakorisága általában pár % körül van.
- Torzítás (bias): Ez a mérőszám azt mondja meg, hogy mennyivel többször jeleztük előre az eseményt, mint ahogy az bekövetkezett.
(4)
Értéktartomány: 0..∞
Tökéletes előrejelzés esetén értéke: 1
Jelzi, hogy alul, vagy felülbecsültük az esemény bekövetkezési előfordulását. Arról viszont nem ad információt, hogy az egyes előrejelzések mennyire felelnek meg a tényleges bekövetkezéseknek.
- Találati arány (Sensitivity/True positive rate/Hit rate/Probability of detection): Egy másik gyakran használt mérőszám, ami azt mondja meg, hogy a bekövetkezett események közül mekkora részt jeleztünk előre:
(5)
Értéktartomány: 0..1
Tökéletes előrejelzés esetén értéke: 1
Az "igen" előrejelzések számának növelésével egyszerűen javítható. Hátránya, hogy nem veszi figyelembe a téves riasztásokat, és érzékeny az esemény előfordulási gyakoriságára.
- Téves riasztás aránya (False alarm ratio): Megmondja, hogy az előrejelzések mekkora része téves riasztás:
(6)
Értéktartomány: 0..1
Tökéletes előrejelzés esetén értéke: 0
Figyelembe veszi a téves riasztásokat, de az elmulasztott eseményeket nem. Érzékeny az esemény előfordulási gyakoriságára.
- Hamis pozitív arány (False positive rate/Probability of false detection): Azt mondja meg, hogy az esetek mekkora részében volt téves riasztás, amikor nem következett be az esemény:
(7)
Értéktartomány: 0..1
Tökéletes előrejelzés esetén értéke: 0
Hasonlóan az előzőhöz, figyelembe veszi a téves riasztásokat, de az elmulasztott eseményeket nem. Ha csökkentjük az "igen" előrejelzések számát, akkor egyszerűen javíthatjuk az értékét.
- Critical success index/Treat score: Azt mondja meg, hogy arányaiban mennyire jeleztük előre jól az esemény bekövetkezését azon esetek közül, amikor bekövetkezett az esemény, vagy pedig előrejeleztük azt.
(8)
Értéktartomány: 0..1
Tökéletes előrejelzés esetén értéke: 1
Ez a mérőszám figyelembe veszi mind a találatokat, a mulasztásokat és a téves riasztásokat is. Az előrejelzési hiba forrását nem különbözteti meg, és ez is érzékeny az esemény előfordulási gyakoriságára.
- F1 score: Hasonló a TS-hez (Treat score), felhasználja a találatokat, a mulasztásokat és a téves riasztásokat is.
(9)
Értéktartomány: 0..1
Tökéletes előrejelzés esetén értéke: 1
2.2 Gyakran használt bonyolultabb mérőszámok
A bonyolultabb mérőszámok tárgyalása előtt érdemes tisztázni a véletlen előrejelzések fogalmát. Tegyük fel, hogy valaki úgy jelez előre egy adott jelenséget, hogy nem nézi meg az azt kiváltó feltételeket, azaz vakon jósol. Ha N eset van, akkor ebből ő q*N esetben jelzi előre a jelenséget, teljesen hasraütésszerűen (q az előrejezés gyakorisága). Ebben az esetben fel lehet írni, hogy hosszútávon a kontingencia táblázatban hova hány eset fog tartozni átlagosan az N esetből:
Megfigyelés | |||
igen | nem | ||
(Véletlen) Előrejelzés |
igen | p*q*N | (1-p)*q*N |
nem | p*(1-q)*N | (1-p)*(1-q)*N |
A p itt is az esemény előfordulási gyakoriságát jelenti. A fenti táblázatban felhasználtam az események függetlenségére vonatkozó szabályt, miszerint két független esemény valószínűségét a két esemény valószínűségének összeszorzásával kapjuk meg. Például: P(találat) = P(megfigyelés volt ÉS előrejelzés volt) = P(megfigyelés volt)*P(előrejelzés volt)
- Equitable Treat Score/Gilbert Skill Score: Az Treat Score továbbfejlesztett változata. A találatok számát korrigálja a véletlen találatok számával (Ar):
(10)
A véletlen találatokat megkaphatjuk, ha ránézünk a Táblázat 2-re, és vesszük a találatoknál levő értéket:
Azaz egy olyan fiktív, véletlenszerű előrejelzés találatait számoljuk itt ki, aminek a q rátája megegyezik az eredeti előrejelzésünkével. Más szóval, ha véletlenszerűen jeleztünk volna előre, akkor hány eseményt találtunk volna el.
Értéktartomány: -1/3..1
Tökéletes előrejelzés esetén értéke: 1
A nulla érték a véletlenszerű előrejelzés szintjének felel meg, a negatív pedig az annál rosszabb előrejelzésnek.
Ennek a mérőszámnak egyetlen hátránya, hogy az előrejelzési hiba forrását nem különbözteti meg.
- True skill statistic/Hanssen and Kuipers discriminant/ Peirce's skill score: Azt mondja meg, mennyire szeparálja el egymástól az előrejelzés a bekövetkezett illetve a nem bekövetkezett események csoportját.
(11)
Értéktartomány: -1..1
Tökéletes előrejelzés esetén értéke: 1
Ez a mérőszám a táblázat összes elemét felhasználja, és értéke nem függ az esemény előfordulási gyakoriságától. Az értelmezését ritka események esetén kissé nehezíti az a tény, hogy ekkor az első tag (TPR) felülértékelődik, mivel a második tag nevezőjében egy nagy szám szerepel, tehát FPR 0 körüli érték lesz.
- Heidke Skill Score: Ez a pontosság (ACC) egy módosított változatának is felfogható, a különbség az, hogy a "véletlenül jól sikerült" előrejelzéseket levonjuk a számlálóban és a nevezőben is.
(12)
A "véletlenül jól sikerült" előrejelzések számát hasonlóan kapjuk meg, mint az ETS-nél, viszont itt nem csak az A mezőre számoljuk ki a véletlen találatokat, hanem hozzávesszük a D mező véletlen találatait is (amikor nem jeleztük előre az eseményt ÉS nem is következett be), lásd Táblázat 2:
Értéktartomány: -∞..1
Tökéletes előrejelzés esetén értéke: 1
A 0 érték itt is a véletlenszerű előrejelzéseket írja le, amikor a számláló nulla, a negatív értékek pedig az ennél még rosszabb előrejelzéseket.
- Odds ratio skill score: Információt ad arról, hogy az előrejelzés mennyivel jobb a véletlen tippelésnél.
(13)
Értéktartomány: -1..1
Tökéletes előrejelzés esetén értéke 1, a nulla érték a véletlen előrejelzéseket reprezentálja.
Független a sor és oszlopösszegektől.
- Korrelációs együttható (általános definíció)
Az érthetőség és az egyszerűbb felírás érdekében érdemes először bevezetni az átlagot és a szórást. Az előrejelzések és megfigyelések átlaga:
A szórások definíciója az előrejelzésekre és megfigyelésekre:
Ezekkel a mennyiségekkel a korrelációs együttható kifejezése a következő:
(14)
Értéktartomány: -1..+1
Tökéletes előrejelzés esetén értéke: 1
Ennek a számnak szemléletes jelentése az, hogy a megfigyelés-előrejelzés pontokat 2 dimenzióban felrajzolva mennyire vagyunk közel egy egyeneshez. Ez az egyenes bárhol lehet, (14) az eltolásra nem érzékeny (pl. ha az összes előrejelzett értékhez hozzáadunk 10-et, ugyanazt az értéket kapjuk). Emellett érzékeny a kiugró adatokra.
- Korrelációs együttható/Phi coefficient/Matthews correlation coefficient (definíció bináris eseményekre):
Az előző képletet (14) bináris eseményekre alkalmazva, a kontingencia táblázat elemeivel kifejezve:
(15)
Figyelembe veszi a táblázat összes értékét. Hátránya, hogy viszonylag bonyolult kiszámolni.
- Skill-score: Ez egy általános képlet, amely bármelyik S mérőszámra alkalmazható:
(16)
ahol Sref a referencia előrejelzés pontszáma, Sperfect a tökéletes előrejelzés pontszáma. A referencia előrejelzés lehet pl. véletlenszerű tippelés, vagy klimatológiai átlag. A SS fő tulajdonsága az, hogy a tökéletes előrejelzés esetén értéke 1, és elmondhatjuk, hogy pozitív érték esetén jobbak vagyunk a referencia előrejelzésnél, negatív érték esetén viszont rosszabbak.
2.3 A mérőszámok kiválasztása
Felvetődhet a jogos kérdés, milyen mérőszámot használjunk egy verifikációhoz? Több szempontot figyelembe lehet venni a kiválasztásnál:
- van egy véges minimum és maximum értéke
- a tökéletes előrejelzés esetén veszi fel a maximumértékét
- a legrosszabb előrejelzés esetén veszi fel a minimumértékét
- a "véletlen"/klimatológiai átlag előrejelzést ne díjazza, és ugyanaz legyen a várható értéke (például nulla). Ennek speciális esetei az olyan előrejelzések, amelyek szerint egy esemény mindig vagy soha sem következik be (nyilván ezek sem lehetnek jobbak a véletlen előrejelzésnél).
- az adott előrejelzést módosítva a véletlen előrejelzés irányába (ezt nevezzük kertelésnek) a mérőszám lehetőleg ne javuljon
- az esemény gyakoriságától ne függjön
- ritka esemény esetén is informatív maradjon
Az első három feltétel azt a célt szolgálja, hogy a különböző előrejelzések összehasonlíthatóak maradjanak. A negyedik és ötödök pedig arra vonatkozik, hogy a tudást nem reprezentáló előrejelzések kevesebb pontot kapjanak.
Az első 6 követelményt a TSS teljesíti, az MCC pedig az első 5-öt.
Ha az 1-es vagy a 3-as feltételtől eltekintünk, akkor a HSS és az ETS is elfogadhatóan jó mérőszámnak tekinthető.
Az ORSS is egy elfogadható mérőszám - hasonlóan a TSS-hez - de abban az esetben, ha a táblázat bármelyik eleme nullához közeli, bizonytalan értéket ad.
Az utolsó feltételt az itt leírt mérőszámok közül egyik sem teljesíti. (Létezik egyébként ezt teljesítő mérőszám, pl. az ún. Symmetric Extreme Dependency Index, amit ebben a cikkben nem említek meg részletesebben.)
2.4 Előrejelzések összehasonlítása
Bár az (A,B,C,D) számnégyes egyértelműen leírja az előrejelzések tulajdonságait, ezek alapján nehéz több előrejelzést összehasonlítani. Érdemes ezért különböző csoportokra bontani az eseteket, például az események bekövetkezése szerint.
A ún. esemény-alapú felosztáshoz (likelihood-base rate factorization) a következő mennyiségeket lehet származtatni:
- N: összes eset száma
- p: az esemény előfordulási gyakorisága (tehát N*p esetben történt meg az esemény, és ezek száma A+C)
- TPR, FPR: a mérőszámoknál már megismert találati arány és hamis pozitív arány (mindkettő az előrejelzett esetek részarányát jelenti, az egyik a bekövetkezett, a másik pedig a nem bekövetkezett események csoportjában, lásd (5) és (7))
(Emellett létezik előrejelzés-alapú felosztás is, erre itt nem térek ki, mivel az nehezen használható összehasonlításhoz)
A kontingencia táblázat értékeit a következő módon lehet értelmezni a fenti szétbontás segítségével (a nyilak alatt a megfelelő arányok szerepelnek):
Tehát ez is 4 olyan szám, ami egyértelműen leírja az előrejelzéseket. Amennyiben az esetek száma, illetve még az események adathalmaza sem változik, akkor N és p állandó, és ezért elég csak a TPR-t és FPR-t vizsgálni különböző előrejelzések összehasonlításához. Ezt egy 2 dimenziós grafikonon szokás ábrázolni:
2. ábra
Minél nagyobb a TPR, és minél kisebb az FPR, annál jobb az előrejelzés. Az "A" pont a tökéletes előrejelzést írja le. A "B" ezzel szemben a lehető legrosszabb előrejelzést mutatja.
A "C" pont az átlón helyezkedik el, ami a semleges előrejelzéseket írja le. Ezek egyenértékűek a véletlen előrejelzésekkel, és nem hordoznak ahhoz képest plusz információt. A véletlen előrejelzés azt jelenti, hogy mind a bekövetkezett, mind pedig a nem bekövetkezett események esetében is arányaiban nézve ugyanannyiszor adunk ki előrejelzést. Ez más szóval annyit jelent, hogy a TPR és FPR értéke megegyezik.
Az átló felett elhelyezkedő előrejelzésekre azt mondhatjuk, hogy jobbak, mint a "véletlen" előrejelzés. Minél közelebb vagyunk az A ponthoz, annál jobbnak tekinthető az előrejelzés.
2.5 Bináris esemény előrejelzése folytonos segédváltozóval
A matematikai megfogalmazás általánosan:
A bináris eseményt egy folytonos változó (x) segítségével jelzünk előre. A folytonos előrejelzést először valahogyan igen/nem információvá kell átalakítani. A legegyszerűbb eset az, ha az előrejelzés kimenetét egy küszöbérték (t) segítségével döntjük el. Ha x>=t, akkor igent, ha x<t, akkor nemet mondunk. Természetesen ennek a döntésnek más lehetőségei is vannak (az x egy bizonyos tartományban/tartományokban van stb.)
Egy elméleti példa kedvéért tegyük fel, hogy előre akarjuk jelezni a szupercellákat egy paraméter segítségével. Szeretnénk meghatározni egy küszöbértéket, amely felett azt tudjuk mondani, hogy inkább lehet szupercella.
Ebben a példában az x paraméter -15 és +15 között változik. A megfigyelés szerint az x változónak két csoportját lehet vizsgálni, aszerint, hogy a szupercella bekövetkezett, avagy nem következett be. Tegyük fel, hogy ez az x paraméter következő két elméleti eloszlással rendelkezik:
3. ábra
Látható, hogy a szupercellák nagy része 0 és 5 közötti paraméter érték körül található, míg a sima zivatarok inkább 0 közelében helyezkednek el. Kérdés, hogyan határozzuk meg a küszöbértéket?
Az előző fejezetben leírt ábrázolást alkalmazva, felrajzolhatjuk az egyes küszöbértékhez tartozó pontokat a TPR-FPR térben, ezt ROC görbének hívjuk (receiver operating characteristic):
4. ábra
A görbét megvizsgálva egy 0 körüli érték tűnik a legjobbnak, hiszen ez a rész helyezkedik el a tökéletes előrejelzés pontjához a legközelebb.
Általános módszer:
- különböző küszöbértékekre meghatározzuk a kontingencia táblázatot
- kiválasztunk egy verifikációs mérőszámot, és kiszámoljuk az összes táblázatra
- kiválasztjuk azt a küszöbértéket, amely a legjobb mérőszámmal bír
Ha ismerjük már a feltételes eloszlásokat, azaz a p0(x) és p1(x) függvényeket, azokból egyszerűen kiszámolhatóak a TPR(x) és FPR(x) függvények. Ez esetben nem kell kontingencia táblázatokkal számolni. Ha a fenti példánál maradunk, és a TSS = TPR-FPR értékkel számolunk, megmutatható, hogy az optimális küszöbérték a p0 és p1 görbe metszéspontjánál helyezkedik el.
Egyes mérőszámok az esemény bekövetkezési valószínűségétől (p) is függenek, ezért befolyásolják az optimális küszöbérték elhelyezkedését.
2.6 Költség alapú megközelítés
A cél ebben az esetben az, hogy meghatározzuk az előrejelzés várható költségét. Ezt úgy tehetjük meg, hogy mind a négy lehetséges esethez hozzárendelünk egy költséget. Ezt egy költségmátrixszal ábrázolhatjuk:
Megfigyelés | |||
igen | nem | ||
Előrejelzés | igen | cfo | cf |
nem | co | 0 |
Amikor nem következik be az esemény, és nem is jeleztük azt előre, akkor a költséget nullának feltételezhetjük. A téves riasztás költségét viszont már figyelembe vesszük egy nem nulla értékkel. A legnagyobb általában az elmulasztott esemény költsége. A találat költsége ennél jóval kisebb, mivel meg tudjuk előzni a károk egy részét. Elméleti problémáknál ez nullának vehető, de általában egy valós eseménynél ez nem nulla, gondoljunk például a tornádókra.
A várható költség kifejezése, előfordulási arányok felhasználásával:
(17)
Ennek egy speciális esete, amikor a találathoz nulla költséget rendelünk, ami azt jelenti, hogy csak a hibás előrejelzéseket vesszük számításba. Ekkor a két hiba együtthatója határozza meg, melyiket súlyozzuk fel jobban.
Amennyiben a két fajta hibát egyenlő súllyal vesszük figyelembe, akkor (1-ACC)-val (azaz a hibás előrejelzések arányával) kapunk egy arányos mennyiséget.
Általában ez a fajta költség, mint mérőszám csak az első hármat teljesíti a mérőszámok kiválasztásánál leírt feltételek közül, de arra jól használható, hogy megindokoljuk egy előrejelzés létjogosultságát gazdaságilag. Ugyanis összehasonlíthatjuk az előrejelzés nélküli költséggel, ami a következő képlettel számolható (ekkor az összes bekövetkezett esemény a "miss" kategóriába sorolható):
A várható költség felírható TPR és FPR segítségével is:
(18)
Megjegyzés: A szakirodalomban az ún. cost-loss model-t szokták megemlíteni, ami a fenti költségek egy hasonló felírását alkalmazza. Ez a várható költségből gyakorlatilag egy skill-score-t képez (lásd (16)) a klimatológiai információt referenciának használva, és ezt relatív értéknek nevezi el. Ezt itt nem tárgyalom részletesebben.
3. Multikategóriás-determinisztikus előrejelzés
Ebben az esetben kettőnél több előrejelzett kategória van. Ezt is ábrázolhatjuk táblázatban, a kontingencia-táblázathoz hasonlóan. Ha K darab kategóra van, akkor:
Megfigyelés | |||||
Kategória 1 | Kategória 2 | ... | Kategória K | ||
Előrejelzés | Kategória 1 | n(1,1) | n(1,2) | ... | n(1,K) |
Kategória 2 | n(2,1) | n(2,2) | ... | n(2,K) | |
... | ... | ... | ... | ... | |
Kategória K | n(K,1) | n(K,2) | ... | n(K,K) |
Az n(i,j) jelöli azon esetek számát, amikor az i. kategóriát jeleztük előre, és a j. kategória következett be.
A főátlóbeli számok (n(i,i)) jelölik azokat az eseteket, amikor helyesen jeleztük előre az adott eseményt, a főátlón kívüli esetek pedig a hibás előrejelzéseket reprezentálják. Látható, hogy nagyon sokféle hiba lehetséges, így nehéz egy darab mérőszámmal kifejezni az előrejelzés jóságát. Ennek ellenére van pár olyan mérőszám, amit bináris esetről ki lehet terjeszteni több kategóriás előrejelzésre.
- Pontosság (accuracy): Az összes eset mekkora része lett helyesen előrejelezve, azaz mennyi elem van a főátlóban:
(19)
ahol N a táblázatban szereplő kategóriák száma.
Értéktartomány: 0..1
Tökéletes előrejelzés esetén értéke: 1
Itt is elmondható, hogy ez a legegyszerűbb mérték, bár félrevezető lehet abban az esetben, ha a kategóriák nem egyenletesen oszlanak el (azaz gyakoriságuk nagyon eltérő).
- True skill statistic/Hanssen and Kuipers discriminant/ Peirce's skill score:
(20)
Értéktartomány: -1..1
Tökéletes előrejelzés esetén értéke: 1
Ez a mérőszám felhasználja a sor- és oszlopösszegeket. Az i. sor összege F(i), azaz az i. kategória előrejelzések száma, míg az i. oszlop összege O(i), azaz az i. kategória megfigyelések száma. A TSS arról ad információt, hogy az előrejelzésünk mennyivel jobb a véletlen tippelésnél, normalizálva a tökéletes előrejelzéssel. Ugyanis a számláló a véletlen tippeléshez képesti javulást írja le, a nevező pedig gyakorlatilag ugyanez a kifejezés egy tökéletes előrejelzés esetében (ekkor az első tag 1, mert csak a főátlóban szerepelnek elemek, ill. a második tagban a sor és oszlopösszegek megegyeznek, F(i)=O(i))
- Heidke Skill Score:
(21)
Értéktartomány: -∞..1
Tökéletes előrejelzés esetén értéke: 1
A képlet hasonló, mint a TSS esetén, csak a nevezőben van eltérés.
Egyéb módszerek
Ezen kívül vannak még a fentieknél bonyolultabb, de gyakran használt mérőszámok (pl. Gerrity score), amit itt nem tárgyalok.
Egy másik verifikációs módszer a K darab kategóriára az, hogy verifikációt felbontjuk K-1 darab bináris (igen/nem) verifikációra - a fenti táblázatból K-1 darab 2x2-es táblázatot gyártunk úgy, hogy "elvágjuk" azt egy kategória-elválasztó vonalnál függőlegesen és vízszintesen is, és összegezzük a számokat az így létrejövő 4 tartományban.
Ezt sem tárgyalom részletesebben ezen keretek között.
4. Összefoglalás
Ebben a tudományos cikkben a determinisztikus, kategorikus (diszkrét értékű) előrejelzések verifikációját foglaltam össze, aminek két fő része a kétértékű (bináris) illetve a többértékű előrejelzések voltak. A következő cikkekben a folytonos értéktartományú és a valószínűségi előrejelzések verifikációját fogom kifejteni. Szó lesz ezen kívül a 2014-es év konvektív előrejelzéseinek verifikációs eredményeiről is.
www.cawcr.gov.au/projects/verification/
http://www.eumetcal.org/resources/ukmeteocal/verification/www/english/co...
http://www.dtcenter.org/met/users/docs/presentations/WRF_Users_2012.pdf
http://www.iac.ethz.ch/edu/courses/master/electives/acwd/Scores1.pdf
Bondor Gyula
- A hozzászóláshoz belépés szükséges