Statisztikai forradalmat robbantanak ki, hogy véget vessenek a szenzációhajhász kutatásoknak
Az elmúlt hetekben nagyot futott a sajtóban az a tanulmány, amely szerint a tojásevés káros az egészségre. Az amerikai kormány táplálkozási iránymutatásaiban 2016 óta nincs korlátozva az ajánlott napi koleszterinbevitel, előtte 300 milligrammban állapították meg a maximumot. Az új fejlemények alapján azt javasolják a szakértők, hogy vizsgálják felül az ajánlást, és újra vezessék be a napi limitet.
Ez az ügy az egyértelmű egészségügyi vonal mellett egy másik tudományág szereplőit is izgalomba hozta: a statisztikusok azon kezdtek el gondolkodni, hogy mi lehet az oka annak, hogy a tojásokkal foglalkozó különböző tanulmányok gyakran élesen ellentmondanak egymásnak.
Nem kérnek a p < 0,05-ból
Mivel az igazság nem változhat állandóan, arra jutottak, hogy az eltérő eredményeket az okozhatja, hogy a kutatók sok esetben nem tudnak mit kezdeni a kutatásban előforduló bizonytalan elemekkel. Az American Statistician (AS) nevű folyóirat ezért most különszámban próbálja új korszakba lendíteni a tudományt, és felhívni a figyelmet arra, hogy itt az ideje búcsút inteni a tudományos eredményeket torzító statisztikai szignifikanciának.
A tanulmányokban p-vel jelölt tényező kritikusai szerint bonyolult kérdésekre kell igen vagy nem választ adni ahhoz, hogy egy kutatási eredményről megállapítsák, statisztikailag jelentős-e vagy sem. Ezt a Galaxis útikalauz stopposoknak című könyvben az élet értelmére adott válaszhoz (42) hasonlítják, amely nyilvánvalóan abszurd módon leegyszerűsített a kérdés összetettségéhez képest.
„A különkiadásban megjelent cikkek és a szakirodalom tanulmányozása alapján megállapíthatjuk, hogy itt az ideje felhagyni a statisztikai szignifikancia kifejezés használatával” – írta az AS vezércikkében Ronald Wasserstein, az Amerikai Statisztikai Szövetség ügyvezető igazgatója, Allen Schirm, a Mathematica Policy Research nevű tudománypolitikai kutatócég nyugalmazott munkatársa, valamint Nicole Lazar, a Georgiai Egyetem statisztikaprofesszora. Wasserstein szerint
a szignifikanciaszinthez való görcsös ragaszkodásnak köszönhető, hogy egyes kutatók elkezdték úgy kozmetikázni a kísérleteiket, hogy azok mindenképpen a 0,05-ös értéken belül maradjanak.
„Egyetlen p érték sem jelezheti egy korreláció vagy hatás valószínűségét, előfordulását, igazságát vagy fontosságát. (...) A tudományos kiadványok és a kutatási disszemináció becsületét szem előtt tartva ezért az eredmények bemutatásánál nem tanácsos figyelembe venni, hogy a p érték átlép-e egy tetszőleges határt” – írták a közmegegyezés szerint 0,05-ös határértékű mutatóról.
Megágyaz a szenzációknak, miközben fontos felfedezések ragadnak a fiókban
A Nature-ben egy 2014-es kutatást hoznak fel példaként, amely a gyulladáscsökkentő gyógyszerek váratlan mellékhatásait elemezte. Mivel a kutatók statisztikailag jelentéktelennek minősítették az eredményeket, egy kutatócsoport úgy ítélte meg, hogy a gyógyszerek nem hozhatók összefüggésbe az egyik leggyakoribb szívritmuszavar, a pitvarfibrilláció kialakulásával, ráadásul a kutatás ellentmondott más, korábban statisztikailag szignifikánsnak minősített tanulmányoknak.
A tanulmányban közölt adatok ehhez képest 1,2-es relatív kockázatot mutattak (vagyis a gyógyszernek kitett alanyoknál 20 százalékkal nagyobb eséllyel fordul elő a pitvarfibrilláció), 95 százalékos konfidenciaintervallum mellett, ami a 3 százalékos kockázatcsökkenéstől a 48 százalékos kockázatnövelésig terjedt (p = 0,091). A korábbi, szignifikáns tanulmány ugyanúgy 1,2-es relatív kockázatot állapított meg, viszont precízebb eredményeket tálalt, miszerint a gyógyszer 9-33 százalék közötti értékekkel növeli a szívritmuszavar esélyét (p = 0,0003).
Mint látható, a statisztikailag jelentéktelennek ítélt kutatásban a gyógyszer egy alanynál 48 százalékkal növelte a pitvarfibrilláció kialakulásának kockázatát, eszerint már önmagában hiba lenne elvetni a tanulmányt. Ahogy józan ésszel azt sem lehet állítani, hogy a két tanulmány ellentmondana egymásnak – gyakorlatilag ugyanazt a jelenséget állapították meg, csak az egyik átlépett egy mesterségesen létrehozott határértéket.
A p értéknek való megfelelés szem előtt tartása a lázadozó statisztikusok szerint garancia arra, hogy egy – akár kevésbé alapos – tanulmány elinduljon a siker útján, ezért jöhetnek ki sorra az olyan, esetenként megalapozatlan és százszor cáfolt szenzációk, mint az említett tojásos-koleszterines példa. Fordított esetben pedig fontos felfedezések kerülhetnek örökre a fiókba, ha statisztikailag jelentéktelennek minősítik.
A Nature megírta, de nem tervez változtatni
A 20. század elején R.A. Fisher, a statisztika atyja alkotta meg a szignifikanciaszint-mérés alapjait. A p érték meghatározását követő években a kutatók körében kiirthatatlanul elterjedt a mutató és a 0,05-ös határérték használata, és ez mára odáig fajult, hogy sok esetben ez az egyetlen faktor dönt arról, hogy egyes tanulmányok megjelenhetnek-e, így kutatók állásairól és pályázati sikereiről is dönthet.
A Virginia Tech tudományfilozófusa, Deborah Mayo szerint a Nature kiáltványából egyvalami hiányzott: hogy valaki a statisztikai szignifikancia eltörlésének kockázatait is ismertesse. „A szignifikancia szó eltörlése azt is eredményezheti, hogy a kutatókat felelősségre lehessen vonni, ha el akarják rejteni a negatív eredményeket, és a felelősségre vonás lehetőségét nem szabad csak úgy feladni” – mondta Mayo az NPR-nak.
Az AS különszámában megjelent 43 cikk több alternatívát vagy kiegészítő megoldást is javasol a p értékhez, a szerzők hangsúlyozták például, hogy átfogó reformra lenne szükség a folyóirat-szerkesztőségekben, valamint az oktatási és kutatóintézetekben. A vezércikk szerzői szerint nem úgy tűnik, hogy egyetlen csodamegoldással helyettesíteni lehet a statisztikai szignifikancia berögződött gyakorlatát, de szerintük ezt nem is lehet elvárni. Helyette egyelőre olyan univerzális tanácsokat adtak a kutatásukat statisztikailag kielemző tudósoknak, hogy legyenek nyitottak, megfontoltak és mérsékletesek, valamint fogadják el a bizonytalanságot.
A Nature kommentárját 52 ország 854 tudósa írta alá támogatóként, köztük statisztikusok, klinikai és orvosi kutatók, biológusok és pszichológusok. A lap ugyanakkor jelzi, hogy nem támogatja a p értékek teljes betiltását, mivel azok a gyártási folyamatok minőség-ellenőrzési fázisánál például elengedhetetlenek, de az tény, hogy komoly tanulmányoknál egy ilyen mesterséges mutató nem dönthet arról, hogy az eredmény igazolja-e a hipotézist, vagy sem.
Igaz, a kommentár megjelenésével egy időben a Nature szerkesztőségi állásfoglalásban jelezte, hogy a folyóirat nem tervez változtatni a statisztikai analízis megítélésének menetén a beérkező tanulmányok értékelésénél.
Kapcsolódó cikkek a Qubiten: