Ha mindenki egyformán unalmasan és egysíkúan beszélne, már nemcsak írógépet, hanem klaviatúrát sem gyártanának
Megújul a Google Dokumentumok beépített beszédfelismerő rendszere, a jövőben kevesebb átírási hibával és a hangzó szöveg kisebb veszteségével kell számolni. A jegyzetelést, a gépelést és a hangzó szöveg átírását általában segítő funkció ráadásul február közepétől már nemcsak a Google böngészőjében, a Chrome-ban, hanem az összes nagyobb böngészőben, a Firefoxban, az Edge-ben és a Safariban is elérhető lesz.
Hogy mi a probléma a szövegfelismerő szoftverekkel? Maga az elv elméletben egyszerű, mint a bot: a szoftver mikrofon segítségével felveszi a beszédet, majd az algoritmus írott szöveggé alakítja. Csakhogy a valóságban a hangzó szöveget még a legfejlettebb szövegfelismerő szoftverek is csak jól körülírható keretek között ismerik fel úgy, hogy hibátlan írott szöveget alkossanak belőle. A beszélőnek jól hallhatóan, tagoltan, kimért tempóban, nem túl lassan de nem is túl gyorsan, és az adott nyelv legelterjedtebb dialektusában érdemes beszélnie, lehetőleg olyan környezetben, ahol minimális és nem túl hangos a háttérzörej. Hogy miért, arra a BBC Scotland csatornán futó klasszikus sitcom-sorozat, a Burnistoun egyik epizódja adja meg a választ a legegyértelműbben, de mindenképp a legszórakoztatóbb formában:
Hogy nem tanulnak meg írni a szoftverek?
A szövegfelismerő szoftvereket többnyire gépi tanulással trenírozzák a hangzó szöveg felismerésére és átírására. Ennek első lépéseként a rendszer beszélt mintákkal és az azokhoz tartozó írott szövegekkel képezik, így tudja elsajátítani a kettő közötti kapcsolatot. Ha elegendő szövegminta áll a rendelkezésére, a gép az olyan komoly beszédhibával kommunikálók beszédét is megérti, amit az átlagos, ahhoz a beszédmódhoz nem szokott emberek egyáltalán nem képesek dekódolni. A speciálisan trenírozott szoftverek az ilyen helyzetekben óriási segítséget jelenthetnek az ilyen vagy olyan okokból beszédfejlődési eltérésekkel, súlyos beszédhibával élőknek – mondja Weisz Ágoston szoftvermérnök, aki az egyik legnagyobb globális techcégnél foglalkozik beszédfelismerő szoftverek fejlesztésével.
Más kérdés, hogy az átlagos beszédfelismerő szoftvereket az átlagos felhasználókra optimalizálták, ezért fordulhat elő, hogy az egyébként rengeteg ember által beszélt angol nyelv ír vagy skót akcentusával is lényegesen nehezebben birkóznak meg, mint mondjuk a középosztálybeli fehérek által beszélt amerikai akcentussal. De nemcsak a nyelvek dialektusán, hanem a különböző népcsoportok által beszélt szókincsen is fennakadhat a rendszer, mint ahogy az is előfordulhat, hogy az olyan hasonló hangzású szavakon csúszik el a leirat, mint a their, a they’re és a there, noha nem mindegy, hogy a beszélő arra utalt-e, hogy valami az övék, vagy arra, hogy valakik vannak valahol, netán arra, hogy egy bizonyos helyen vannak-e. A fejlettebb beszédfelismerő rendszerek persze ismerik a nyelvi modelleket is, így a szövegkörnyezetből ki tudják következtetni, melyik szót kell használniuk, de az olyan finomságokat, hogy Hannát vagy Hannah-t említették-e egy szövegben, a legkifinomultabb rendszerek is eltéveszthetik.
A jó tésztát meg is kell találni
A legkorábbi beszédfelismerő rendszerekben a szoftver két fő modulból állt: a hangfelismerésére tanított rész kezelte az akusztikus jeleket, a mondatok és a szöveg koherenciáját ismerő rész pedig összeállította a hangokból leírt jelekből a legvalószínűbb kimenetet. A legújabb, mesterséges intelligencia alapú beszédfelismerő rendszerek esetében azonban nem lehet pontosan tudni, mit csinál a szoftver, mert hatalmas, sok rétegből álló modellek alapján dönti el maga a program, hogyan alkot a bemeneti hangokból kimeneti szöveget – magyarázza Weisz.
A hangalapú Google-keresés segítségével tanított LAS (listen-attend-spell) modellel, vagy más összetett, neurális hálókat és más MI-alapú technológiákat használó modellekkel működő hangfelismerő szoftvereket már nemcsak a számítógépekre, hanem okostelefonokba is be lehet építeni. Ha a szoftver és a modell is a telefonon fut, annak óriási előnye a szervereken tanított rendszerekkel szemben, hogy a szoftver a felhasználótól közvetlenül is tud tanulni. Ennek azért van jelentősége, mert nem mindegy, hogy a Fausto éttermet kereső olasz anyanyelvű turistát hová küldi a telefonja, attól függően, hogy New Yorkban, Budapesten vagy Róma és Nápoly között félúton van-e éppen. Vagyis, mivel manapság, különösen a nagyvárosokban, szinte senki nem él már teljesen egynyelvű környezetben, egy szövegfelismerő rendszer is akkor működik igazán jól, ha párhuzamosan képes több nyelvi környezetet, egy nyelv több dialektusát és egyszerre több felhasználót kezelni.
Speciális problémát jelenthet a szoftvernek a kizárólag szűk munkacsoportokon vagy társadalmi csoportokon belül használt kontextuális szavak vagy a gyerekhangok dekódolása. Előbbi esetben az okozza a nehézséget, hogy a szoftvernek nem áll elegendő minta a rendelkezésére, míg utóbbi esetben azért nem tud eleget tanulni, mert a gyerekek biometrikus adatainak kezelése esetén (elméletben) sokkal szigorúbb követelményeknek kell a fejlesztőknek megfelelniük, ráadásul a még fejlődésen lévő hangképző szervek miatt a gyerekek hangképzése összetettebb egyenetlenebb, mint a felnőtteké. A szövegfelismerő rendszerek ezekben a helyzetekben az átlagosnál lényegesen rosszabbul teljesítenek.
A rejtett titkárnőtől a zsebasszisztensig
A hangfelismerő rendszerek a hibák és a személyiségi jogi aggályok ellenére feltartóztathatatlanul terjednek, a Samsung hanggal irányítható okostévéitől a telefonokba épített személyi asszisztenseken át az elektronikus jegyzetfüzet diktafon-funkciójáig. Weisz szerint egyébként az on-device rendszerek, vagyis a telefonon a felhasználótól tanulni képes, és nem egy távoli szerveren futó beszédfelismerő szoftverek a személyiségi jogi aggályoknak is jobban megfelelnek, mert az adatok kizárólag a felhasználók saját eszközein tárolódnak el.
A hangfelismerő technológiák 2021-ben globálisan 10 milliárd dolláros piaca az évtized végére az előrejelzések szerint mindenesetre legalább az ötszörösére nő. Ezt talán még az első fejlesztőket is meglepné, pedig az IBM-nél Fred Jelinek, a Cornell Egyetem információtechnológia-professzora és munkatársai már az 1980-as években tesztelték az akkor még gyakorlatilag nem is létező piac fogadókészségét. Hogy hogyan? Az önként jelentkezőket egy terembe vezették, ahol az előttük lévő asztalon csak egy monitor fogadta őket. A kísérletvezetők azt mondták nekik, hogy amit látnak, az egy olyan számítógép, amelyet hanggal, klaviatúra nélkül is lehet irányítani. Ezután megkérték őket, hogy diktáljanak a monitornak, amit ők meg is tettek. Az eredmény, a monitoron megjelenő, szinte tökéletes szöveg láttán kivétel nélkül minden résztvevő hihetetlenül lelkes lett. A piackutatás itt véget is ért. Amit viszont a résztvevők nem tudtak: a mikrofonokkal felszerelt teremben elhangzottakat egy másik szobában gyors- és gépírónők hallgatták és jegyezték le egy másik teremben, és a monitoron az ő munkájuk jelent meg. Azóta a hangfelismerő szoftverek nemcsak megszülettek, hanem az IBM első – ma már szánalmasnak tűnő próbálkozásai óta óriási utat jártak be –, és a népszerűségükön szemernyit sem változtatott a tény, hogy ma már léteznek.
Kapcsolódó cikkek a Qubiten: