Lerántották a leplet a Google új nyelvi modelljéről, bemutatkozott a Gemini 1.0. A vállalat legújabb, az ígéretek szerint a ChatGPT-t is túlszárnyaló fejlesztése egy multimodális modell, azaz többféle bemenet adható számára: a szöveges mellett képi, videós, vagy akár hangalapú is – írja az atv.hu.
Egy, a Google által a napokban megosztott – alább megtekinthető – videóban multimodális párbeszédet folytatnak a mesterséges intelligenciával: egyszerre adnak számára videós, képi (rajz) és hangalapú inputokat, amikből következtetéseket kell levonnia. A tesztelő által rajzolt ábráról helyesen állapítja meg, hogy azon egy kacsa látható, ráadásul nem gyakori, kék színben, majd információkat közöl az állatról általában. Ezután sikeresen felismer egy, a képpel megegyező kék gumikacsát is.
Ezt követi a Gemini többnyelvűségének tesztelése: arra kérik, hogy tanítsa meg a kacsa szót más nyelveken – majd azok helyes kiejtését is részletes, a nyelvre jellemző hangsúlyozással mutassa be. A nyelvi teszt hamar átvált egy játékszimulációba – a mesterséges intelligencia feladata ezúttal egy játék megalkotása, méghozzá emojikkal. De a Gemini ezt az akadályt is sikerrel teljesíti.
A videó alapján az MI-nek a vizuális fejtörők sem okoznak gondot, gond nélkül játszik itt a piros, hol a pirost, kő-papír-ollót vagy éppen árnyjátékot. A következő részben kapcsolatot kell kialakítania a számára bemutatott tárgyak között, amit szintén sikeresen old meg a Gemini.
Az utolsó előtti feladványban képi anyagokat kell lefordítania, azaz a rajzolt ábráknak hangot kölcsönözni – ahogy sűrűsödnek a papíron a formák, úgy mutatja meg a Gemini változatos zenei ismerettségét: játszik éppen a '80-as évekre jellemző metált vagy kellemes tengerparti muzsikát.
Végül pedig a mesterséges intelligencia kulturális megértését demonstrálják a Google videójában.