Akarsz beszélni az állataiddal?

A mesterséges intelligencia valóban segíthet nekünk beszélgetni az állatokkal? – ezt a kérdést sokszor tettük fel ,de valóban elérkezett az az idő amikor képesekké válunk, megbeszélni dolgokat állatainkkal. Egy kaliforniai székhelyű szervezet a gépi tanulás erejét akarja felhasználni a kommunikáció dekódolására az egész állatvilágban. A projektnek azonban vannak kétkedői.

A delfinidomár a kezével adja ki az „együtt” jelzést, majd a „létrehozni” jelzést. A két kiképzett delfin eltűnik a víz alatt, hangokat váltanak, majd felbukkannak, a hátukra fordulnak és felemelik a farkukat. Kitaláltak egy új, saját trükköt, és azt tandemben, kérésüknek megfelelően előadták. „Ez nem bizonyítja, hogy létezik nyelv” – mondja Aza Raskin. „De mindenképpen van értelme annak, hogy ha hozzáférnének a kommunikáció egy gazdag, szimbolikus módjához, akkor az sokkal könnyebbé tenné ezt a feladatot.”

Raskin az Earth Species Project (ESP) társalapítója és elnöke, egy kaliforniai nonprofit csoport, amelynek merész célja van: a mesterséges intelligencia (AI) egyfajta gépi tanulásnak nevezett formája segítségével megfejteni a nem emberi kommunikációt, és az összes tudást nyilvánosan elérhetővé tenni, ezáltal elmélyítve kapcsolatunkat más élő fajokkal és segítve védelmüket. Egy 1970-ben megjelent, bálnákat éneklő album indította el azt a mozgalmat, amely a kereskedelmi célú bálnavadászat betiltásához vezetett. Mit hozhatna létre az állatvilág Google Fordítója?

A szervezet, amelyet 2017-ben alapítottak olyan jelentős adományozók segítségével, mint a LinkedIn társalapítója, Reid Hoffman, tavaly decemberben tette közzé első tudományos közleményét. A cél a kommunikáció megoldása még életünkben. „A cél, amiért dolgozunk, az, hogy meg tudjuk-e fejteni az állati kommunikációt, fel tudjuk-e fedezni a nem emberi nyelvet” – mondja Raskin. „Útközben és ugyanilyen fontos, hogy olyan technológiát fejlesztünk, amely már most támogatja a biológusokat és a természetvédelmet.”

Az állatok hangadásának megértése már régóta az emberiség érdeklődésének és tanulmányozásának tárgya. A különböző főemlősök a ragadozótól függően különböző riasztási hangokat adnak ki; a delfinek jellegzetes füttyszóval szólítják meg egymást; egyes énekesmadarak pedig képesek hangjuk elemeit átrendezni, hogy különböző üzeneteket közvetítsenek. A legtöbb szakértő azonban nem nevezi ezt nyelvnek, mivel egyetlen állati kommunikáció sem felel meg az összes kritériumnak.

A dekódolás egészen a közelmúltig főként aprólékos megfigyelésen alapult. Az érdeklődés azonban megnőtt a gépi tanulás alkalmazása iránt, hogy kezelni lehessen azt a hatalmas adatmennyiséget, amelyet a modern állatszenzorok ma már képesek összegyűjteni. „Az emberek kezdik használni” – mondja Elodie Briefer, a Koppenhágai Egyetem docense, aki az emlősök és madarak hangkommunikációját tanulmányozza. „De még nem igazán értjük, hogy mennyi mindent tudunk tenni.”

Briefer társfejlesztett egy algoritmust, amely a disznók röfögését elemezve megállapítja, hogy az állat pozitív vagy negatív érzelmeket él át. Egy másik, DeepSqueak nevű algoritmus az ultrahangos hívások alapján ítéli meg, hogy a rágcsálók stresszes állapotban vannak-e. Egy másik kezdeményezés – a CETI projekt (a Cetacean Translation Initiative (Cetacean Translation Initiative) rövidítése) – azt tervezi, hogy gépi tanulással lefordítja az ámbráscetek kommunikációját.

Az ESP azonban azt mondja, hogy megközelítése más, mert nem egy faj, hanem az összes faj kommunikációjának dekódolására összpontosít. Bár Raskin elismeri, hogy a társas állatok – például a főemlősök, bálnák és delfinek – körében nagyobb a valószínűsége a gazdag, szimbolikus kommunikációnak, a cél olyan eszközök kifejlesztése, amelyek az egész állatvilágban alkalmazhatók. „Nem vagyunk fajfüggetlenek” – mondja Raskin. „Az általunk kifejlesztett eszközök… az egész biológiában működhetnek, a férgektől a bálnákig.”

Raskin szerint az ESP „motiváló intuíciója” az a munka, amely kimutatta, hogy a gépi tanulás felhasználható a különböző, néha távoli emberi nyelvek közötti fordításra – előzetes tudás nélkül.

Ez a folyamat egy olyan algoritmus kifejlesztésével kezdődik, amely a szavakat egy fizikai térben reprezentálja. Ebben a sokdimenziós geometriai reprezentációban a pontok (szavak) közötti távolság és irány leírja, hogy azok milyen értelmes kapcsolatban állnak egymással (szemantikai kapcsolatuk). Például a „király” ugyanolyan távolságra és irányban áll a „férfi” szóhoz, mint a „nő” a „királynőhöz”. (A leképezés nem úgy történik, hogy tudjuk, mit jelentenek a szavak, hanem például azzal, hogy megnézzük, milyen gyakran fordulnak elő egymás közelében.)

Később észrevették, hogy ezek az „alakzatok” hasonlóak a különböző nyelvek esetében. Majd 2017-ben két, egymástól függetlenül dolgozó kutatócsoport talált egy olyan technikát, amely lehetővé tette, hogy az alakzatok összehangolásával megvalósuljon a fordítás. Ahhoz, hogy angolról urdu nyelvre jussunk, igazítsuk egymáshoz az alakzatokat, és keressük meg az urdu nyelven azt a pontot, amelyik a legközelebb van a szó angol nyelvű pontjához. „A legtöbb szót tisztességesen le lehet fordítani” – mondja Raskin.

Az ESP törekvése az, hogy az állati kommunikáció ilyen jellegű ábrázolásait hozza létre – egyszerre dolgozva az egyes fajokkal és sok fajjal -, majd olyan kérdéseket vizsgáljon, mint például, hogy van-e átfedés az univerzális emberi formával. Raskin szerint nem tudjuk, hogy az állatok hogyan élik meg a világot, de vannak olyan érzelmek, például a bánat és az öröm, amelyeken úgy tűnik, hogy egyesek osztoznak velünk, és amelyekről talán a fajuk többi tagjával is kommunikálnak. „Nem tudom, melyik lesz a hihetetlenebb – azok a részek, ahol az alakzatok átfedik egymást, és közvetlenül tudunk kommunikálni vagy lefordítani, vagy azok, ahol nem”.

Hozzáteszi, hogy az állatok nem csak vokálisan kommunikálnak. A méhek például „kacsázó tánccal” tudatják a többiekkel egy virág helyét. Szükség lesz a különböző kommunikációs módok közötti fordításra is.

A cél „olyan, mintha a Holdra mennénk” – ismeri el Raskin, de az elképzelés nem is az, hogy egyszerre érjünk oda. Az ESP útiterve inkább egy sor kisebb probléma megoldását foglalja magában, amelyek szükségesek a nagyobb kép megvalósításához. Ezáltal olyan általános eszközök kifejlesztését várják, amelyek segíthetik a kutatókat, akik a mesterséges intelligenciát a vizsgált fajok titkainak feltárására próbálják alkalmazni.

Az ESP például nemrégiben publikált egy tanulmányt (és megosztotta a kódját) az állati kommunikáció úgynevezett „koktélparti-problémájáról”, amelynek során nehéz megkülönböztetni, hogy egy azonos állatokból álló csoportban melyik egyed hangoskodik zajos szociális környezetben.

„Tudomásunk szerint ezt a végponttól végpontig tartó szétválasztást [az állati hangok] korábban még senki sem végezte el” – mondja Raskin. Az ESP által kifejlesztett, mesterséges intelligencia-alapú modell, amelyet delfinek jellegzetes sípjain, makákók kótyagos hangjain és denevérhangokon próbáltak ki, akkor működött a legjobban, ha a hangok olyan egyedektől származtak, amelyeken a modellt betanították; de nagyobb adathalmazok esetén a modell képes volt a betanított csoporton kívüli állatok hangjainak keverékeit is szétválasztani.

Egy másik projektben a mesterséges intelligencia segítségével újszerű állati hangokat generálnak, a púpos bálnákkal mint tesztfajjal. Az újszerű hangokat – amelyeket úgy állítanak elő, hogy a hangokat mikrofonémákra (a másodperc századrészének megfelelő hangegységekre) bontják, és egy nyelvi modell segítségével „beszélnek” valami bálnaszerűen – aztán vissza lehet játszani az állatoknak, hogy lássuk, hogyan reagálnak. Ha a mesterséges intelligencia képes azonosítani, hogy mi a véletlenszerű változás a szemantikailag értelmes változással szemben, akkor közelebb kerülünk az értelmes kommunikációhoz – magyarázza Raskin. „Ez azt jelenti, hogy az AI beszéli a nyelvet, még akkor is, ha még nem tudjuk, mit jelent”.

Egy további projekt célja egy olyan algoritmus kifejlesztése, amely önfelügyelt gépi tanulás alkalmazásával állapítja meg, hogy egy faj hányféle hívástípussal rendelkezik, ami nem igényli az adatok emberi szakértők általi címkézését a minták megtanulásához. Egy korai tesztesetben a Christian Rutz, a St. Andrews-i Egyetem biológiaprofesszora által vezetett csapat által készített hangfelvételeket fog bányászni, hogy leltárt készítsen a hawaii varjú hangrepertoárjáról – egy olyan fajról, amely Rutz felfedezése szerint képes eszközöket készíteni és használni a táplálékszerzéshez, és amelyről úgy vélik, hogy a többi varjúfajnál lényegesen összetettebb hangkészlettel rendelkezik.

Rutz különösen izgatott a projekt természetvédelmi értéke miatt. A hawaii varjú kritikusan veszélyeztetett, és csak fogságban él, ahol a vadonba való visszatelepítés céljából tenyésztik. Remélik, hogy a különböző időpontokban készült felvételek segítségével nyomon követhető lesz, hogy a fogságban a faj hangrepertoárja erodálódik-e – például bizonyos riasztási hangok elveszhettek -, aminek következményei lehetnek a visszatelepítésre nézve; ezt a veszteséget beavatkozással lehet kezelni. „Ez jelentős változást hozhat abban, hogy segíthetünk ezeknek a madaraknak a szakadék széléről való visszatérésben” – mondja Rutz, hozzátéve, hogy a hangok kézzel történő észlelése és osztályozása munkaigényes és hibás lenne.

Eközben egy másik projekt a vokalizációk funkcionális jelentéseinek automatikus megértésére törekszik. Ezt Ari Friedlaender, a Santa Cruz-i Kaliforniai Egyetem óceántudományi professzorának laboratóriumával közösen végzik. A laboratórium azt vizsgálja, hogyan viselkednek a víz alatt a vadon élő tengeri emlősök, amelyeket nehéz közvetlenül megfigyelni, és a világ egyik legnagyobb jelölőprogramját vezeti. Az állatokra erősített kis elektronikus „biológiailag rögzítő” eszközök rögzítik az állatok helyzetét, mozgásuk típusát, sőt azt is, hogy mit látnak (az eszközökbe videokamerák is beépíthetők). A laboratórium az óceánban stratégiailag elhelyezett hangrögzítőkből is rendelkezik adatokkal.

Az ESP célja, hogy először önfelügyelt gépi tanulást alkalmazzon a címkék adataira, hogy automatikusan felmérje, mit csinál egy állat (például, hogy táplálkozik-e, pihen-e, utazik-e vagy társalog-e), majd a hangadatokkal kiegészítve megvizsgálja, hogy az adott viselkedéshez kötött hívásoknak lehet-e funkcionális jelentést adni. (A lejátszási kísérleteket ezután a korábban dekódolt hívásokkal együtt lehetne felhasználni a megállapítások érvényesítésére). Ezt a technikát kezdetben a púpos bálnák adataira fogják alkalmazni – a laboratórium ugyanabban a csoportban több állatot is megjelölt, így láthatóvá válik, hogyan adják és fogadják a jeleket. Friedlaender azt mondja, hogy „a plafonig” jutott abban, hogy a jelenleg rendelkezésre álló eszközök mit tudtak kiszedni az adatokból. „Reményeink szerint az ESP által végezhető munka új felismerésekkel szolgál majd” – mondja.

De nem mindenki van annyira elragadtatva a mesterséges intelligencia erejétől, hogy ilyen nagyszerű célokat érjen el. Robert Seyfarth a Pennsylvaniai Egyetem emeritus pszichológiaprofesszora, aki több mint 40 éve tanulmányozza a főemlősök társas viselkedését és hangos kommunikációját természetes élőhelyükön. Bár úgy véli, hogy a gépi tanulás hasznos lehet bizonyos problémák megoldásában, például egy állat hangrepertoárjának azonosításában, vannak más területek, például a hangok jelentésének és funkciójának feltárása, ahol szkeptikus, hogy a gépi tanulás sokat tudna hozzátenni.

A probléma az, magyarázza, hogy bár sok állat kifinomult, összetett társadalmakra képes, sokkal kisebb hangrepertoárral rendelkeznek, mint az emberek. Ennek az az eredménye, hogy ugyanaz a hang különböző kontextusokban különböző dolgokat jelenthet, és csak a kontextus tanulmányozásával – ki a hangadó egyed, milyen kapcsolatban áll a többiekkel, hol helyezkedik el a hierarchiában, kivel lépett kapcsolatba – lehet reménykedni a jelentés megállapításában. „Egyszerűen úgy gondolom, hogy ezek a mesterséges intelligencia módszerek nem elegendőek” – mondja Seyfarth. „Ki kell menni oda, és meg kell figyelni az állatokat”.

Kétségek merülnek fel a koncepcióval kapcsolatban is – hogy az állati kommunikáció formája értelmes módon átfedésben lesz az emberi kommunikációval. A számítógépes elemzések alkalmazása az emberi nyelvre, amelyet oly jól ismerünk, egy dolog – mondja Seyfarth. De „egészen más” lehet, ha ezt más fajokkal végezzük el. „Ez egy izgalmas ötlet, de nagy kihívás” – mondja Kevin Coffey, a Washingtoni Egyetem idegkutatója, a DeepSqueak algoritmus társalkotója.

Raskin elismeri, hogy a mesterséges intelligencia önmagában nem biztos, hogy elég lesz a más fajokkal való kommunikáció feloldásához. De hivatkozik azokra a kutatásokra, amelyek kimutatták, hogy számos faj „sokkal összetettebb módon kommunikál, mint azt az emberek valaha is elképzelték”. A buktatókat az jelentette, hogy képesek vagyunk elegendő adatot gyűjteni és nagy léptékben elemezni, valamint a saját korlátozott érzékelésünk. „Ezek azok az eszközök, amelyek lehetővé teszik, hogy levegyük az emberi szemüveget, és megértsük az egész kommunikációs rendszereket” – mondja.