Trend Egy játék alapján befolyásolni tudta az embereket az MI

Egy játék alapján befolyásolni tudta az embereket az MI

autopro.hu/R.K.E. | 2024.04.01 08:21

Egy játék alapján befolyásolni tudta az embereket az MI

Fotó: Pexels

Autopro Weekend - A tanulmány egy fontos és releváns problémával foglalkozik, azzal, hogy a mesterséges intelligencia hogyan tanulhatja meg befolyásolni az embereket. A mesterséges intelligencia egy kooperatív főzőjátékot figyelve képes volt ezt kivitelezni.

Ha valaha is főzött már valakivel együtt bonyolultabb ételt, tudja, milyen szintű koordinációra van szükség. Valaki felkockázza ezt, valaki megpirítja azt, miközben késeket és forró serpenyőket tartva rohangáltok ide-oda. Egy tanulmány ilyen fajta együttműködést vett alapul, amibe a mesterséges intelligenciát (MI) is bevonta.

Hogyan kezelhetné egy robot ezt a fajta interakciót?

A 2023 végén a New Orleansban megrendezett Neural Information Processing Systems, azaz NeurIPS konferencián bemutatott kutatás ad némi támpontot. Megállapították, hogy egy egyszerű virtuális konyhában a mesterséges intelligencia képes megtanulni, hogyan befolyásolja az emberi munkatársat pusztán azáltal, hogy figyeli az emberek közös munkáját.

A jövőben az emberek egyre gyakrabban fognak együttműködni az MI-vel, mind az online, mind a fizikai világban. És néha azt szeretnénk majd, ha az MI csendben irányítaná a döntéseinket és stratégiáinkat, mint egy jó csapattárs, aki ismeri a gyengeségeinket.

Az új munka egy olyan módszert mutat be, amellyel az MI megtanulhat együttműködni az emberekkel, anélkül, hogy velünk gyakorolna. mondja Stefanos Nikolaidis, aki a Los Angeles-i Dél-Kaliforniai Egyetem Interaktív és Együttműködő Autonóm Robotrendszerek (ICAROS) laboratóriumát vezeti, Nikolaidis szerint ez segíthet javítani az ember és az MI közötti interakciókat, és segíthet felismerni, ha az MI esetleg kihasznál minket – akár az ember programozta be erre, akár egy nap magától dönt úgy, hogy ezt teszi.

Tanulás megfigyeléssel

A kutatók már többféleképpen képezték ki az MI-t az emberek befolyásolására. Számos megközelítés az úgynevezett megerősítő tanulást (reinforcement learning, RL) foglalja magában, amelyben az MI kölcsönhatásba lép a környezettel – amely magában foglalhat más mesterséges intelligenciákat vagy embereket –, és jutalmat kap a kívánt eredményekhez vezető döntések sorozatáért.

De ha a semmiből képezünk ki egy tanácstalan MI-t, hogy pusztán próba és tévedés útján lépjen kapcsolatba az emberekkel, az rengeteg emberi munkaórát pazarolhat el, és még kockázatot is jelenthet, ha például késekről van szó (mint például egy valódi konyhában). Egy másik lehetőség az, hogy az MI-t betanítjuk az emberi viselkedés modellezésére, majd ezt fáradhatatlanul ember helyettesítésére használjuk egy másik MI számára, hogy megtanuljon interakcióba lépni vele. A kutatók ezt a módszert alkalmazták például egy egyszerű játékban, amelyben egy partnerre kellett bízni pénzegységeket. De az emberi viselkedés reális leképezése összetettebb forgatókönyvekben, például egy konyhában, nehéz lehet.

A Berkeley-i Kaliforniai Egyetem kutatócsoportjának új kutatása az úgynevezett offline megerősítő tanulást alkalmazta. Az offline RL egy olyan módszer, amely a stratégiák fejlesztését a korábban dokumentált viselkedés elemzésével, nem pedig valós idejű interakcióval valósítja meg. Korábban az offline RL-t főként virtuális robotok mozgásának segítésére vagy MI-k logikai feladatok megoldására használták, itt azonban az emberi munkatársak befolyásolásának trükkös problémájára alkalmazták. Ahelyett, hogy az emberekkel való interakció révén tanult volna, ez az MI az emberi interakciók megfigyelésével tanult.

Az embereknek már van némi kompetenciájuk az együttműködésben. Így a két ember együttműködésének bizonyításához szükséges adatmennyiség nem olyan nagy, mint amennyire akkor lenne szükség, ha egy ember egy olyan MI-vel kommunikálna, amely még soha nem lépett kapcsolatba senkivel.

MI a konyhában

A tanulmányban a UC Berkeley kutatói az Overcooked nevű videojátékot használták, amelyben két szakács osztja szét a feladatokat, hogy elkészítse és felszolgálja az ételeket, ebben az esetben a levest, amiért pontokat kapnak. Minden egyes időlépésnél a virtuális szakácsok mozdulatlanul állhatnak, interakcióba léphetnek az előttük lévő tárgyakkal, illetve mozoghatnak felfelé, lefelé, balra vagy jobbra.

A kutatók először a játékot játszó emberektől gyűjtöttek adatokat. Ezután offline RL vagy három másik módszerrel összehasonlítva képezték ki az MI-ket. (Minden módszer esetében az MI-k neurális hálózatra épültek, egy olyan szoftverarchitektúrára, amely nagyjából az agy működését hivatott utánozni.) Az egyik módszerben az MI csak utánozta az embereket. Egy másik módszer szerint a legjobb emberi teljesítményeket utánozta. A harmadik módszer figyelmen kívül hagyta az emberi adatokat, és az MI-kat egymással gyakoroltatta. A negyedik módszer pedig az offline RL volt, amelyben az MI nemcsak utánozza, hanem a legjobb részeket rakja össze a látottakból, így a megfigyelt viselkedésnél jobb teljesítményt tud nyújtani. Egyfajta kontrafaktuális gondolkodást alkalmaz, ahol megjósolja, milyen eredményt ért volna el, ha bizonyos helyzetekben más utat követ, majd alkalmazkodik.

Az MI-k a játék két változatát játszották. Az „ember-szállító" változatban a csapat dupla pontot kapott, ha a levest az emberi partner szállította. A „paradicsom-bónusz" változatban a paradicsomos, hagyma nélküli levesért dupla pont járt. A tréning után a séfrobotok valódi emberekkel játszottak. A pontozási rendszer a képzés és az értékelés során más volt, mint a kezdeti emberi adatok gyűjtésekor, így az MI-knek általános elveket kellett levonniuk a magasabb pontszám eléréséhez. A legfontosabb, hogy az értékelés során az emberek nem ismerték ezeket a szabályokat, így az MI-nek kellett rávezetnie őket erre.

Az ember-ember játékon az offline RL-t használó képzés 220-as átlagos pontszámot eredményezett, ami körülbelül 50 százalékkal több pontot jelent, mint a legjobb összehasonlító módszerek. A paradicsom-bónusz játékon 165 átlagos pontszámot eredményezett, vagyis körülbelül kétszer annyi pontot. Annak a hipotézisnek az alátámasztására, hogy az MI megtanulta befolyásolni az embereket, a tanulmány leírta, hogy amikor a robot azt akarta, hogy az ember szállítsa ki a levest, akkor egy tálat helyezett a pultra az ember közelébe. Az ember-ember adatokban a kutatók nem találtak olyan esetet, amikor az egyik ember ilyen módon adta volna át a tányért a másiknak. Voltak azonban olyan események, amikor valaki letett egy tányért, és olyanok, amikor valaki felvett egy tányért, és az MI értéket láthatott abban, hogy ezeket a cselekményeket összefűzte.

Jóban-rosszban

A jövőben a konyhákban, raktárakban, műtőkben, csatatereken és olyan tisztán digitális területeken, mint az írás, a kutatás és az utazásszervezés, MI-partnerekkel dolgozhatunk együtt. (Néhány ilyen feladatra már most is használunk MI-eszközöket.) „Ez a fajta megközelítés hasznos lehet az emberek támogatásában, hogy elérjék céljaikat, amikor nem tudják, hogy mi a legjobb módja ennek" – mondja Emma Brunskill, a Stanford Egyetem informatikusa.

JoeyHong, a tanulmány társszerzője jelenleg a chatbotok fejlesztésére szeretné alkalmazni a megközelítését. A ChatGPT-hez hasonló felületek mögött álló nagyméretű nyelvi modelleket jellemzően nem képzik ki többfordulós beszélgetések lebonyolítására. „Sokszor, amikor megkérünk egy GPT-t, hogy csináljon valamit, az a legjobb tippjét adja, hogy szerinte mit akarunk. Nem kér pontosítást, hogy megértse a valódi szándékot, és személyre szabottabbá tegye a válaszait" – teszi hozzá. Az, hogy megtanuljuk befolyásolni és segíteni az embereket egy beszélgetés során, reális alkalmazásnak tűnik – írja a Science News.

Tetszett ez a hír? Értesüljön elsőként a járműipari történésekről, iratkozzon fel az autopro.hu hírlevelére az alábbi linken!

Kiemelt Partnereink