Ész Ventura: És azt ismered, hogy n egyenlet, n ismeretlen?

Támogasd a tudomány népszerűsítését, segítsd a munkánkat!

N ismeretlen meghatározására általában akkor van esélyünk, ha van n darab egymástól független összefüggés, ami ezek között kapcsolatot teremt. Az n egyenlet, n ismeretlen mantra, azt hiszem mindenkinek felsejlik a matekórákról, de használtátok ezt valaha egy életszagú probléma megoldásához? 

Most itt van ez az aktuális, meglehetősen valós koronavírus-probléma, amiben nem ismerjük a fertőzöttek pontos számát, mert nem mindenki mutat tüneteket, így aztán teszteket készítünk, de tudjuk, hogy a tesztek hatékonysága sose 100 százalékos. Ezért aztán egy konkrét tünetmentes alany fertőzöttségét se tudjuk teljesen biztosan megállapítani, ha azonban ismernénk a teszt hatékonyságát, akkor legalább egy adott csoporton belül meg lehetne határozni, hogy statisztikailag hány fertőzött van, ami jól jellemezné a járvány aktuális állapotát. Szoktunk is olyan adatokról hallani, hogy egy teszt hány százalékos valószínűséggel mutatja ki a fertőzést, de mégis honnan vehették ezt a számot, hogyan tudták megmérni, ha a fertőzöttek száma ismeretlen volt a teszt bevetése előtt? Ezt a kérdést járta körbe az ismeretlen hatékonyságú tesztekről szóló 89. feladványunk.

A feladványban feltettük, hogy két egymástól teljesen független tesztünk van, amikről tudjuk, hogy sosem adnak hamis pozitív eredményt, azaz a specificitásuk 100 százalékos. Szenzitivitásuk és a fertőzöttek száma azonban ismeretlen. A szenzitivitás azoknak a betegeknek a százalékaránya a valódi betegek között, akiknek a tesztje pozitív. A feladat szerint tízezer véletlenszerűen választott főt tesztelünk mindkét teszttel, és az alábbi eredményeket kapjuk. 

  • Pozitív 1-es teszt, pozitív 2-es teszt: 960 fő,
  • pozitív 1-es teszt, negatív 2-es teszt: 640 fő,
  • negatív 1-es teszt, pozitív 2-es teszt: 240 fő,
  • negatív 1-es teszt, negatív 2-es teszt: 8160 fő.

Legyen a fertőzöttség valószínűsége Q, az első teszt ismeretlen szenzitivitása P1, a másodiké P2. Annak várható értéke, hogy tízezer emberből hánynak lesz mindkét tesztje pozitív: 10000 × Q × P1 × P2. Annak várható értéke, hogy tízezer emberből hánynál lesz az első teszt pozitív, és a második negatív: 10000 × Q × P1 × (1-P2). Annak várható értéke, hogy tízezer emberből hánynak lesz az első tesztje negatív, és a második pozitív: 10000 × Q × (1-P1) × P2. Annak várható értéke, hogy tízezer emberből hányra lesz mindkét teszt negatív: 10000 × Q × (1-P1) × (1-P2). Ha feltesszük, hogy a mért értékek átlagosak, akkor ez négy egyenletet ad nekünk:

  • 10000 × Q × P1 × P2 = 960
  • 10000 × Q × P1 × (1-P2) = 640
  • 10000 × Q × (1-P1) × P2 = 240
  • 10000 × Q × (1-P1) × (1-P2) = 8160

Valójában a négy egyenlet nem független egymástól, hiszen minden teszt vagy pozitív, vagy negatív, nincsen harmadik eset, tehát aki nem tartozik az első három csoportba, az automatikusan a negyedik csoportba tartozik: 8160 = 10000-960-640-240. Elég tehát az első három egyenletet néznünk, így lesz három független egyenletünk és három ismeretlenünk, ami megoldható. Összeadva az első két egyenletet adódik, hogy 10000·(Q·P1) = 1600. Összeadva az elsőt a harmadikkal, az adódik, hogy 10000·(Q·P2) = 1200. Ebből a fertőzöttek számának legvalószínűbb értéke a tízezres mintában Q = (Q·P1)·(Q·P2)/(Q·P1·P2) = 2000 fő. Az első tesz szenzitivitására 80 százalék (P1=0,8), a másodikéra pedig 60 százalék (P2=0,6) adódik mint legvalószínűbb érték. Ezektől a számoktól a valóságban természetesen lehetnek eltérések, ezek csak a legvalószínűbb értékek.

A fenti feladványban feltettük, hogy a tesztek specificitása 100 százalék, azaz ismert. Általánosságban azonban a specificitás is ismeretlen, így egy tesztnek két ismeretlen paramétere van: a specificitás és a szenzitivitás. Ha tehát van K darab tesztünk, akkor 2K+1 ismeretlenünk van a fertőzöttek számával együtt. A mérésekből viszont 2^K egyenletünk lesz, pontosabban 2^K-1 független egyenlet. Ha tehát 2^K-1 ≥ 2K+1, akkor elegendő tesztünk és egyenletünk van ahhoz, hogy mindent meghatározzunk. Ebből az látható, hogy három teszt már elegendő, ha azok függetlenek egymástól. Természetesen minél több van, annál kisebb hibával határozhatók meg a paraméterek.

Kapcsolódó cikk a Qubiten: