Statisztikai forradalmat robbantanak ki, hogy véget vessenek a szenzációhajhász kutatásoknak

Az elmúlt hetekben nagyot futott a sajtóban az a tanulmány, amely szerint a tojásevés káros az egészségre. Az amerikai kormány táplálkozási iránymutatásaiban 2016 óta nincs korlátozva az ajánlott napi koleszterinbevitel, előtte 300 milligrammban állapították meg a maximumot. Az új fejlemények alapján azt javasolják a szakértők, hogy vizsgálják felül az ajánlást, és újra vezessék be a napi limitet. 

Ez az ügy az egyértelmű egészségügyi vonal mellett egy másik tudományág szereplőit is izgalomba hozta: a statisztikusok azon kezdtek el gondolkodni, hogy mi lehet az oka annak, hogy a tojásokkal foglalkozó különböző tanulmányok gyakran élesen ellentmondanak egymásnak.

Nem kérnek a p < 0,05-ból

Mivel az igazság nem változhat állandóan, arra jutottak, hogy az eltérő eredményeket az okozhatja, hogy a kutatók sok esetben nem tudnak mit kezdeni a kutatásban előforduló bizonytalan elemekkel. Az American Statistician (AS) nevű folyóirat ezért most különszámban próbálja új korszakba lendíteni a tudományt, és felhívni a figyelmet arra, hogy itt az ideje búcsút inteni a tudományos eredményeket torzító statisztikai szignifikanciának.

A tanulmányokban p-vel jelölt tényező kritikusai szerint bonyolult kérdésekre kell igen vagy nem választ adni ahhoz, hogy egy kutatási eredményről megállapítsák, statisztikailag jelentős-e vagy sem. Ezt a Galaxis útikalauz stopposoknak című könyvben az élet értelmére adott válaszhoz (42) hasonlítják, amely nyilvánvalóan abszurd módon leegyszerűsített a kérdés összetettségéhez képest.

„A különkiadásban megjelent cikkek és a szakirodalom tanulmányozása alapján megállapíthatjuk, hogy itt az ideje felhagyni a statisztikai szignifikancia kifejezés használatával” – írta az AS vezércikkében Ronald Wasserstein, az Amerikai Statisztikai Szövetség ügyvezető igazgatója, Allen Schirm, a Mathematica Policy Research nevű tudománypolitikai kutatócég nyugalmazott munkatársa, valamint Nicole Lazar, a Georgiai Egyetem statisztikaprofesszora. Wasserstein szerint 

a szignifikanciaszinthez való görcsös ragaszkodásnak köszönhető, hogy egyes kutatók elkezdték úgy kozmetikázni a kísérleteiket, hogy azok mindenképpen a 0,05-ös értéken belül maradjanak. 

„Egyetlen p érték sem jelezheti egy korreláció vagy hatás valószínűségét, előfordulását, igazságát vagy fontosságát. (...) A tudományos kiadványok és a kutatási disszemináció becsületét szem előtt tartva ezért az eredmények bemutatásánál nem tanácsos figyelembe venni, hogy a p érték átlép-e egy tetszőleges határt” – írták a közmegegyezés szerint 0,05-ös határértékű mutatóról.

Megágyaz a szenzációknak, miközben fontos felfedezések ragadnak a fiókban

A Nature-ben egy 2014-es kutatást hoznak fel példaként, amely a gyulladáscsökkentő gyógyszerek váratlan mellékhatásait elemezte. Mivel a kutatók statisztikailag jelentéktelennek minősítették az eredményeket, egy kutatócsoport úgy ítélte meg, hogy a gyógyszerek nem hozhatók összefüggésbe az egyik leggyakoribb szívritmuszavar, a pitvarfibrilláció kialakulásával, ráadásul a kutatás ellentmondott más, korábban statisztikailag szignifikánsnak minősített tanulmányoknak.

A tanulmányban közölt adatok ehhez képest 1,2-es relatív kockázatot mutattak (vagyis a gyógyszernek kitett alanyoknál 20 százalékkal nagyobb eséllyel fordul elő a pitvarfibrilláció), 95 százalékos konfidenciaintervallum mellett, ami a 3 százalékos kockázatcsökkenéstől a 48 százalékos kockázatnövelésig terjedt (p = 0,091). A korábbi, szignifikáns tanulmány ugyanúgy 1,2-es relatív kockázatot állapított meg, viszont precízebb eredményeket tálalt, miszerint a gyógyszer 9-33 százalék közötti értékekkel növeli a szívritmuszavar esélyét (p = 0,0003).

Mint látható, a statisztikailag jelentéktelennek ítélt kutatásban a gyógyszer egy alanynál 48 százalékkal növelte a pitvarfibrilláció kialakulásának kockázatát, eszerint már önmagában hiba lenne elvetni a tanulmányt. Ahogy józan ésszel azt sem lehet állítani, hogy a két tanulmány ellentmondana egymásnak – gyakorlatilag ugyanazt a jelenséget állapították meg, csak az egyik átlépett egy mesterségesen létrehozott határértéket.

A p értéknek való megfelelés szem előtt tartása a lázadozó statisztikusok szerint garancia arra, hogy egy – akár kevésbé alapos – tanulmány elinduljon a siker útján, ezért jöhetnek ki sorra az olyan, esetenként megalapozatlan és százszor cáfolt szenzációk, mint az említett tojásos-koleszterines példa. Fordított esetben pedig fontos felfedezések kerülhetnek örökre a fiókba, ha statisztikailag jelentéktelennek minősítik.

A Nature megírta, de nem tervez változtatni

A 20. század elején R.A. Fisher, a statisztika atyja alkotta meg a szignifikanciaszint-mérés alapjait. A p érték meghatározását követő években a kutatók körében kiirthatatlanul elterjedt a mutató és a 0,05-ös határérték használata, és ez mára odáig fajult, hogy sok esetben ez az egyetlen faktor dönt arról, hogy egyes tanulmányok megjelenhetnek-e, így kutatók állásairól és pályázati sikereiről is dönthet.

A Virginia Tech tudományfilozófusa, Deborah Mayo szerint a Nature kiáltványából egyvalami hiányzott: hogy valaki a statisztikai szignifikancia eltörlésének kockázatait is ismertesse. „A szignifikancia szó eltörlése azt is eredményezheti, hogy a kutatókat felelősségre lehessen vonni, ha el akarják rejteni a negatív eredményeket, és a felelősségre vonás lehetőségét nem szabad csak úgy feladni” – mondta Mayo az NPR-nak.

Az AS különszámában megjelent 43 cikk több alternatívát vagy kiegészítő megoldást is javasol a p értékhez, a szerzők hangsúlyozták például, hogy átfogó reformra lenne szükség a folyóirat-szerkesztőségekben, valamint az oktatási és kutatóintézetekben. A vezércikk szerzői szerint nem úgy tűnik, hogy egyetlen csodamegoldással helyettesíteni lehet a statisztikai szignifikancia berögződött gyakorlatát, de szerintük ezt nem is lehet elvárni. Helyette egyelőre olyan univerzális tanácsokat adtak a kutatásukat statisztikailag kielemző tudósoknak, hogy legyenek nyitottak, megfontoltak és mérsékletesek, valamint fogadják el a bizonytalanságot.

A Nature kommentárját 52 ország 854 tudósa írta alá támogatóként, köztük statisztikusok, klinikai és orvosi kutatók, biológusok és pszichológusok. A lap ugyanakkor jelzi, hogy nem támogatja a p értékek teljes betiltását, mivel azok a gyártási folyamatok minőség-ellenőrzési fázisánál például elengedhetetlenek, de az tény, hogy komoly tanulmányoknál egy ilyen mesterséges mutató nem dönthet arról, hogy az eredmény igazolja-e a hipotézist, vagy sem.

Igaz, a kommentár megjelenésével egy időben a Nature szerkesztőségi állásfoglalásban jelezte, hogy a folyóirat nem tervez változtatni a statisztikai analízis megítélésének menetén a beérkező tanulmányok értékelésénél.

Kapcsolódó cikkek a Qubiten:

Tudós? Akkor ateista!

Stellan Ottosson svéd szerző magyarul frissen megjelent Darwin-életrajza érdekes, de meglehetősen egyoldalú képet ad az evolúcióelmélet atyjáról, a tudósról, apáról, angolról, ateistáról és teológusról.

Száz méter mély szénhidrogéntavakat találtak a Titánon

A Szaturnusz legnagyobb holdja, a Titán ősi Földre emlékeztető viszonyai, vastag légköre, szénhidrogéntengerei és tavai, szénhidrogén-esőzése, vándorló dűnéi, folyóvölgyei, érdekes szerves kémiai folyamatai és felszín alatti globális folyékony vízrétege az egyik legizgalmasabb tudományos célponttá teszik a holdat Naprendszerben.