Lassan új tudományterületté válik a COVID-19
Korábban a Qubiten is írtunk az úgynevezett preprint portálokról, mint a bioRxiv vagy a medRxiv és a rajtunk megjelenő, szakmai bírálaton még át nem esett publikációk hirtelen gyarapodásáról COVID-19 témában. Vajon mit látunk, ha összevetjük az ezen oldalakon megjelent publikációk tartalmát az egyik legrangosabb tudományos kiadó, a Springer Nature által megjelentetett írásokkal?
Az összevetéshez a hálózat és adattudomány eszköztárát használtam, ami a siker természetének általános megértésén vagy éppen a szerencse befolyásoló erején túl a különböző tudományos témák és trendek megtalálására, leírására is alkalmas. Ehhez megfelelő mennyiségű adatot szolgáltatott a Springer Nature által közölt több mint 700 publikáció, bejegyzés, komment és összefoglaló, kiegészítve az arXiv-on, valamint a medRxiv - bioRxiv közös platformján megjelent preprintekkel. Ezen a három különböző platformon összesen több mint ötezer cikket jelent a január végétől május 19-ig terjedő időszakban, ami átlagosan több mint 40 új írás naponta. A napi szinten megjelenő cikkek számát az alábbi ábra mutatja, amiből leolvasható, hogy a megjelenési intenzitás már csökkenő szakaszba lépett a preprint platformokon, míg a szigorúbb szakmai szűrőn átjutott munkák száma a Nature Springer gondozásában továbbra is növekszik – feltételezhetően azért, mert egyre több publikáció jut át a bírálaton és kerül megjelenésre.
A több mint ötezer cikk témáinak megismerésére azok címét mint szöveges adatot vettem alapul. Először gépi tanulási módszerekkel megtisztítottam címeket, leválasztottam róluk a kötőszavakat és névelőket, majd a szavakat szótári alakra hoztam. Így a címekből tisztított szólistákat kaptam eredményül, amit a következő cikk címe is illusztrál:
Eredeti cím:
High Temperature and High Humidity Reduce the Transmission of COVID-19
Tisztított szókészlet:
high, temperature, high, humidity, reduce, transmission, covid
Ezt követően vizsgáltam a kulcsszavak megoszlását a három fő adatforrás között. Kiderült, hogy az adatbázisonként előforduló 20 leggyakoribb kulcsszó közül 7 szerepel mindhárom adatbázisban, míg az első húszból összesen 6 jellemző kizárólag az arXiv-re. A medRxiv és bioRxiv együtt csupán 5 egyedi kulcsszóval bír, míg a Springer Nature toplista tetején 12 egyedi kifejezés szerepel. Bővebben kifejtve az adatbázis-specifikus top kulcsszavak a következők:
arXiv:
'network', 'data', 'spread', 'dynamic', 'learn', 'social'
medRxiv és bioRxiv:
'study', 'transmission', 'clinical', 'china', 'novel'
Springer Nature:
'science', 'cell', 'new', 'research', 'human', 'daily', 'time', 'cancer', 'vaccine', 'test', 'briefing', 'drug'
Röviden összefoglalva: az arXiv profilját leginkább az adatalapú modellezéshez kapcsolódó irányok teszik ki, így például a hálózatos vírusterjedési és társadalomdinamikai kutatások. Ezzel szemben a medRxiv és a bioRxiv elsődleges profilja az orvosi- és élettudományok, fókuszban a különféle klinikai vizsgálatokkal. Számottevőbb különbséget láthatunk a Springer-kulcsszavakat vizsgálva, ahol a szakmai témák (pl. a gyógyszer- és vakcinakutatás) mellett szélesebb közösségre vonatkozó kifejezések is felmerülnek (pl. daily, briefing). Ennek feltehető oka, hogy a Springer oldalán nemcsak tudományos publikációk, hanem hírek, újdonságok és cikkek összefoglalói is szerepelnek.
Bár az iménti okfejtés az első húsz leggyakoribb kulcsszó példáját mutatja be, hasonló trendeket láthatunk, ha az első 15, 100, 500, vagy akár 1000 kulcsszót tekintjük a vizsgálat alaphalmazának – ahogy az alábbi ábrán látható, az arányok gyakorlatilag nem változnak. Az ábra szerint a három különböző platform témakészletének átfedése ma valahol 30 százalék körül található, vagyis jelenleg a témák kevesebb mint egyharmada szivárgott át a preprint világból az elfogadottabb tudományos vizekre. Ez az arány, figyelembe véve a tudományos publikációk hosszadalmas bírálati folyamatát (ami hónapokig, kirívó esetekben akár évekig is eltarthat), valószínűleg emelkedni fog a jövőben, további, jelenleg preprint stádiumban lévő munkák megjelenésével.
Végül vessünk egy pillantást arra, hogy melyek is ezek a fő kutatási irányok a fenti kulcsszavak mentén, részletesebben kifejtve. Ehhez felrajzoltam az adatbázisonkénti 100 leggyakoribb kulcsszó közös elfordulását mutató témahálózatot, amely az alábbi ábrán látható. Itt az egyes kulcsszavakat a hálózat csúcsai jelölik, a köztük lévő kapcsolatok pedig a közös előfordulás gyakoriságát mutatják.
A hálózatból kiderül, hogy az emberi viselkedés modellezése és előrejelzése kiemelten hangsúlyos irány a társas kapcsolatok alakulása és a mozgásmintázatok szempontjából is: ezen eszközök segíthetnek megérteni a vírus globális szintű terjedésének jellegét, vagy éppen megtalálni a leghatékonyabb kijárási korlátozások és szabályozások jellemzőit. Gyakran felmerülő irány a gépi tanulás és mesterséges intelligencia használata is, elsősorban diagnosztikai módszerek és képfelismerés témakörökben. Az orvosi és biológiai kutatások mozognak a legszélesebb spektrumon, a vírus terjedési képességeitől kezdve a potenciális gyógyszerhatóanyagokon keresztül egészen az oltási stratégiák kidolgozásáig.
A szerző hálózatkutató, fizikus, a CEU Hálózat- és Adattudományi Tanszékének doktorjelöltje.
Kapcsolódó cikkek a Qubiten: