• Szerző: Abram Svoboda
Az idei Google I/O 2026 egyetlen dologról szólt – a Gemini új, önállóan működő AI-korszakáról. Bemutatták az új 3.5 Flash modellt, a Spark nevű személyes AI-asszisztenst, a huszonhét év után teljesen újragondolt Google Search keresőt, valamint az első hivatalos részleteket az okosszemüvegről, amelyen a Google a Samsung-gal közösen dolgozik. Mit jelent mindez a gyakorlatban, és mikor juthat el hozzánk?
A Google I/O egy évente megrendezett fejlesztői konferencia, ahol a Google bemutatja, milyen irányba halad az egész vállalat – az idei esemény talán minden eddiginél erősebben egyetlen központi témára, a mesterséges intelligenciára fókuszált. Szinte minden az önállóan működő mesterséges intelligencia körül forgott, vagyis akörül az elképzelés körül, hogy a Gemini ne csak egy chatbot legyen, hanem egy asszisztens, amely konkrét feladatokat is el tud végezni helyetted a való világban. A kétórás keynote rendkívül sűrű volt, talán soha nem volt ennyire tömény. Nézzük meg, mi az, amit érdemes belőle kiemelni.
Kezdjük azzal, mi mozgat mindent a háttérben. A Gemini 3.5 Flash egy új modell, amelyet a Google a saját „mindennapi használatra szánt” alapmodelljeként pozicionál. A cél, hogy a piacon elérhető legjobb modellekhez hasonló teljesítményt nyújtson, de lényegesen alacsonyabb költséggel és főleg sokkal gyorsabb válaszadással. A gyakorlatban ez akár négyszer gyorsabb generálást jelent a versengő élvonalbeli modellekhez képest, valamint jelentős előrelépést a kódolásban és a valós feladatok megoldásában (a GDPVal benchmark szerint). Érdekesség, hogy a 3.5 Flash szinte minden mutatóban felülmúlja a korábbi Gemini 3.1 Pro verziót – tehát nem egy „kisebb” kiadásról van szó, hanem egy új generációs alapmodellről.
A modell már elérhető az összes termékben és API-n keresztül is. A Gemini 3.5 Pro verziója jelenleg belső tesztelés alatt áll, és várhatóan a következő hónapban érkezik. A Google vezérigazgatója, Sundar Pichai szerint a vállalat naponta több mint hárombillió tokent dolgoz fel belső rendszereiben az Antigravity és a Gemini 3.5 segítségével – ami jól mutatja, hogy az AI bevezetésének tempója jelentősen felgyorsult a cégen belül. Ahogy a későbbiekben is látni fogod, a 3.5 Flash gyakorlatilag az összes új bejelentés láthatatlan „motorja”.
Ez volt talán a konferencia egyik legnagyobb bejelentése. A Gemini Spark egy személyes AI-ügynök közvetlenül a Gemini alkalmazásban, amely helyetted végez el feladatokat akkor is, amikor a laptopod épp zárva van. Azért működik így, mert dedikált virtuális gépeken fut a Google Cloud rendszerében, így nincs szüksége a saját eszközödre – a háttérben dolgozik, és bármikor vissza tudsz térni hozzá, amikor csak szeretnél.
A háttérben a Gemini 3.5 és az Antigravity fejlesztői platform kombinációja áll, amely lehetővé teszi, hogy a Spark hosszabb, összetett feladatokat is elvégezzen – nem csak egyszeri kérdésekre válaszol, hanem például ilyesmiket is teljesít: „Keress egy toszkánai nyaralást két főre szeptemberben 300 000 forintig, hasonlítsd össze az értékeléseket, és küldj három végső opciót.” A Spark különböző eszközökhöz is kapcsolódik: először a Google saját szolgáltatásaihoz, majd várhatóan néhány héten belül külső rendszerekhez is a MCP protokollon keresztül. A használata a Gemini alkalmazásban lesz elérhető, később pedig mail-fiókokban vagy chatfelületeken is integrálhatják.
Androidon a Spark saját felületet kap – az úgynevezett Android Halo-t –, ahol élő frissítéseket és státuszjelzéseket láthatsz azokról a feladatokról, amelyeket az ügynök éppen végez. Később a tervek szerint a Google Chrome böngészőbe is bekerül, mint „ügynökalapú” böngésző, amely képes helyetted is navigálni és keresni a weben. A béta jövő héten indul, egyelőre csak a Google AI Ultra előfizetői számára az Egyesült Államokban, a szélesebb elérés pedig fokozatosan érkezik majd. Ha a Spark a gyakorlatban is hozza azt, amit a színpadon bemutattak, akkor ez lehet az első alkalom, amikor az „AI-ügynök” nem marketingfogalom marad, hanem valóban használható eszközzé válik.
A Google úgy írja le az új keresőt, mint az elmúlt több mint huszonhét év legnagyobb frissítését – ami nagy állítás, de ha megnézzük, mi minden változik, van benne logika. A keresőmező többé nem csak automatikus kiegészítésre szolgál: mostantól képet, fájlt, videót vagy akár egy nyitott Google Chrome-fület is be lehet dobni, és a Google Search ezekből kontextust épít a kereséshez. Az AI Mode alapját mostantól a Gemini 3.5 Flash adja, és ez a funkció globálisan, mindenki számára ingyenesen elérhető.
Fontosabb változás azonban az Information Agents megjelenése – ezek személyre szabható ügynökök, amelyeket a háttérben beállítasz, és folyamatosan figyelik azokat a témákat, amelyek érdekelnek. Ha például egy konkrét termék árát követed, vagy egy konferenciáról vársz új információkat, az ügynök értesít, amint talál valami újat. A funkciók várhatóan nyáron indulnak, egyelőre a Google AI Pro és Ultra előfizetők számára.
És van itt még egy dolog, ami érdekes lehet. A Google Search az Gemini 3.5 Flash és az Antigravity segítségével képes lesz közvetlenül az adott kérdéshez igazodó, interaktív felületeket létrehozni. Utazást tervezel? A kereső egy interaktív dashboardot állít össze. Valami összetettebbet tanulsz? Készít egy követhető trackert, amit később is vissza tudsz nézni. A Google ezt „mini-apps”-nek nevezi a keresőn belül, és tervei szerint ezt nyáron mindenki számára ingyenesen elérhetővé teszi. Ha ez a gyakorlatban is olyan gördülékenyen működik, mint a bemutatón, akkor ez az eddigi legkézzelfoghatóbb példája annak, mit jelent az „önállóan működő AI” a mindennapokban.
A Gemini szinte mindenhová bekerül. Az Ask YouTube konkrét kérdésekre tud válaszolni, és egyből arra a videórészre ugrik, amelyik számodra releváns – így vége a hosszú, 15 perces bevezetők tekergetésének, ha csak egy konkrét lépést keresel. A tesztelés most indul, a szélesebb amerikai bevezetés pedig nyáron várható.
A Docs Live egy másik okos funkció – a dokumentumot egyszerűen úgy töltöd ki, hogy beszélsz hozzá. Nincs szükség pontos promptok megfogalmazására, elég annyit mondani, hogy „tegyél bele három bekezdést az idei bevételnövekedésről, egy grafikon szekciót, és a végére egy táblázatot”, és a Gemini elkészíti. Tervezik a meglévő szöveg hangalapú szerkesztését is. A funkció nyáron indul a Google Workspace előfizetőinek, és ugyanez a hangvezérlés bekerül a Gmailbe és a Keepbe is.
A Daily Brief a mindennapi használatra készült – egy reggeli összefoglaló, amely átnézi az inboxodat, a naptáradat és a feladataidat, majd eldönti, mi a fontos az adott napon. Ez nem csak egy egyszerű összegzés, hanem konkrét lépéseket is javasol. A Google Photos új képkészítő és képszerkesztő eszköze a Nano Banana modellre épül, amely minden képelemet külön objektumként kezel, így a képen belül részleteket is módosíthatsz anélkül, hogy az egészet újra kellene kezdened.
A Google tavaly mutatta be az Android XR-rel működő okosszemüvegek koncepcióját. Idén ez már sokkal konkrétabb, és különösen fontos, hogy a Samsung is részt vesz a fejlesztésben. Az első termék egy okos audioszemüveg lesz, amely egy teljesen hétköznapi szemüvegnek néz ki, és úgy működik, hogy a Gemini „a füledbe suttogja” az információkat. Nincs kijelző és nincs AR-felület – csak egy hangalapú asszisztens, amit bárhová magaddal vihetsz. A megjelenése őszre várható.
Utána érkeznek a kijelzős szemüvegek, amelyek egy kis kijelzőn jelenítik meg azt, amire éppen szükséged van (navigációt, értesítéseket, fordítást) – a Google egyelőre nem közölt pontos megjelenési dátumot. A Samsung szerepe itt kulcsfontosságú: a hardveres dizájn és a viselhető eszközöknél szerzett tapasztalat az övék, míg a szoftveres oldal és a Gemini-integráció a Google-hoz tartozik. Ha ez a gyakorlatban is olyan gördülékenyen működik, mint a bemutatón, akkor ez lehet az első valóban tömegek által is használható okosszemüveg-kategória.
A Google I/O-n több kisebb, de érdekes bejelentés is elhangzott. Az Antigravity 2.0 egy új asztali alkalmazás fejlesztők számára – lényegében egy központi felület, ahonnan egyszerre több AI-ügynököt is lehet irányítani. A Gemini 3.5 Flash ebben a rendszerben a Google szerint akár tizenkétszer gyorsabban fut, mint a versenytársmodellek.
A Gemini Omni egy új modellszéria, amely képes bármilyen bemenetből bármilyen kimenetet generálni – a gyakorlatban elsőként a videókra fókuszál. A Gemini Omni Flash már elérhető a Gemini alkalmazásban, a Google Flow-ban és a YouTube Shorts-ban, míg a képek és szöveg támogatása később érkezik. A Google emellett tovább bővíti a SynthID rendszert, amely egy láthatatlan vízjel az AI-val generált tartalmakhoz. Ehhez olyan szereplők csatlakoznak, mint az OpenAI, a Kakao és az ElevenLabs, az ellenőrzési (Content Credentials) rendszer pedig bekerül a Search-be és a Chrome-ba is. Ez egy fontos lépés abba az irányba, hogy egyértelműen meg lehessen különböztetni az AI által generált tartalmat a valódi fotóktól és médiától.
A hardveres újdonságok közül a Google új TPU chipjei emelkednek ki: a TPU 8t és a TPU 8i, ahol a Google először választja szét a szilíciumot tanításra (8t) és következtetésre (8i). Ez a felhasználók számára közvetlenül nem látható, de ez teszi lehetővé, hogy a Gemini 3.5 Flash ilyen gyorsan és költséghatékonyan működjön. A kevésbé hangsúlyozott újdonságok között szerepel a Gemini for Science, amely az Antigravity-t több mint harminc élettudományi adatbázissal kapcsolja össze a kutatásban. A Project Genie pedig Street View-adatokból képes valós helyszínek szimulációjára, így a lefotózott világ gyakorlatilag egy használható 3D környezetté válik az AI számára.
Mi volt az egész bemutató lényege? A központi téma az önállóan működő mesterséges intelligencia: a Google már nem egy egyszerű chatbotként pozicionálja a Gemini-t, hanem egy olyan rétegként, amely valós feladatokat végez el helyetted a mindennapi életben. Bár a bejelentések nagy része még „hamarosan”, „fokozatosan” vagy „először az USA-ban” szakaszban van, az irány egyértelmű, és az a tempó, ahogy a Google ezt bevezeti, kifejezetten erős. A többieknek most lényegében fel kell zárkózniuk ehhez a szinthez.