A génkutatók ősellensége: az Excel

Nincsen jövőnk tudomány nélkül, nincsen Qubit nélkületek. Támogasd a munkánkat!

Hemzsegnek a hibáktól a genetikai publikációk, erről pedig legalábbis részben az Excel és a Google Spreadsheets tehet: a 2020-ban megjelent tanulmányok 30 százalékában akad olyan hiba, amit a segítő kedvű algoritmus autocorrect funkciójának köszönhet a tudomány. 

Vagy inkább nem köszönhet: Auriol Purdie, a Sydney-i Egyetem molekuláris biológusa szerint rengeteg hibát okoznak ezek a funkciók, és bár a probléma régóta ismert, sokan még mindig belesétálnak a csapdába, és génszimbólumok helyett dátumokat vagy zagyvaságokat sorolnak fel a publikációikban. A SEPT4 génszimbólumból így lesz 4-Sep, a MARCH1 szimbólumból pedig 1-Mar. Ugyanez a probléma az APR, DEC, MAR, NOV stb. szimbólummal ellátott gének esetében is.

A hibát már 2004-ben észlelték, 2016-ban pedig már minden ötödik genetikai tárgyú publikációban felbukkant. Azóta csak rosszabb lett a helyzet, mostanra ez az arány már harminc százalékra emelkedett. Miután több tízezer adatról van szó, manuálisan szinte lehetetlen megtalálni az elrontott génszimbólumokat. A problémára létezik megoldás, de nem mindenki ismeri, Purdie szerint a fiatalok és a kezdő kutatók például pont ugyanúgy belefutnak a hibába, mint a tizenöt évvel ezelőtt publikáló szakemberek, akiknek először tűnt fel, hogy baj van az adatokkal.

A bizottság meghátrált

A génszimbólumokat egy HUGO Gene Nomenclature Committee (HGNC) nevű bizottság határozza meg. Úgy tűnik, a szervezet csatát vesztett az Excel segítőkészsége ellen: 2017-ben 27 génszimbólum névváltozását jelentették be, így a SEPT4 azóta hivatalosan például SEPTIN4 néven szerepel. 

Elspeth Bruford bionformatikus szerint ez szembemegy a HGNC szimbólumokhoz való hagyományos ragaszkodásával, de nincs mit tenni: miután az Excel és a Google Spreadsheets nem a genetikusokra alapozta az üzleti modelljét, valószínűleg az autocorrect funkciót sem fogják megváltoztatni a kedvükért. Purdie is beletörődött a megváltoztathatlanba: megkerüli a problémát, és továbbra is az Excelt használja a munkájához.

Jennifer Bryan, a British Columbia Egyetem statisztikaprofesszora szerint jó lenne, ha a kutatóknak nem kellene feltétlenül ezeket az eszközöket használniuk, de egy új program fejlesztéséhez rengeteg pénzre lenne szükség. A probléma nem jelentkezik a LibreOffice és a Gnumeric használatakor, de Mark Ziemann szerint, aki 2016-ban már egyre növekvő problémáról beszélt, ezeknél is nehezen ellenőrizhető, hogy félrement-e valami.

Kapcsolódó cikkek a Qubiten: