• Szerző: Matěj Toul
A Google hagyományosan a Google I/O 2024-en mutatja be technológiai újításait, idén azonban kicsit másképp csinálta. A gyártó egy hete mutatta be az új Google Pixel 8a-t, de a közelgő Android 15 bemutatását későbbre hagyta. Hogy miért? Azért, hogy az egész prezentációt a mesterséges intelligenciának szentelhessék. Ahogy a végén említésre került, az I/O kevesebb mint két órája alatt pontosan 121-szer hangzott el az "AI" szó, és tényleg rengeteg újdonságról van szó. Nézzük a legérdekesebbeket.
Ha van valami, amit a Google I/O 2024-ről ki kell emelni, ami egy hatalmas lépéssel előrébb viszi a mesterséges intelligenciát, az a Project Astra. Miután az OpenAI szervezet az I/O előtti napon bejelentette valós idejű válaszokkal rendelkező mesterséges intelligencia asszisztensét, amely a telefon kameráján keresztül is "lát", úgy tűnt, hogy a Google-nek sok munkája lesz, hogy közelebb kerüljön a konkurenciához. Az internet vezetője azonban bőven készen állt a válasszal.
A Project Astra egy gyakorlatias és az alábbi videó szerint nagyon is praktikus megvalósítása egy olyan mesterséges intelligencia modellnek, amely egy olyan személyi asszisztensként működik, amely képes reagálni és valós időben feldolgozni a videóbemenetet. A Google bemutatójából többek között az is kiderült, hogy az asszisztens nagyszerűen képes a kontextussal dolgozni, látszólag lényegtelen dolgokra is emlékszik egy-egy videófelvételből (például arra, hogy hol hagytuk a szemüvegünket heverni), mindezt a telefonunkon és az okosszemüvegünkön egyaránt. Az alábbi demóvideó mindent elmond.
A Project Astra végül a klasszikus Google Asszisztenst váltja majd fel az Android telefonokon. Bár a Google még nem mondott semmi konkrétat ezzel kapcsolatban, ez a változás még az év vége előtt bekövetkezhet, és ez lehet az egyik fő vonzereje a közelgő Android 15-nek, amelyről állítólag a következő napokban többet is meg fogunk tudni.
A Google Gemini-ről már hallottunk a múltban. Jelenleg ez a Google legszélesebb körben használt mesterséges intelligencia terméke, és közvetlen versenytársa az olyan eszközöknek, mint az OpenAI ChatGPT vagy a Microsoft Copilot a Bingben. Ennek a modellnek az egyik fő jellemzője a multimodalitás - a Geminit kezdettől fogva szöveg, kép, videó, kód stb. feldolgozására vagy generálására alkalmas eszköznek tervezték, míg más modellek csak idővel bővültek ezekkel a funkciókkal, és gyakran még mindig a szöveggenerálás a köztes lépés.
Ahol azonban a Google Gemini jelenleg jelentős előnnyel rendelkezik versenytársaival szemben, az az úgynevezett "kontextusablak" mérete. Gondolj erre úgy, mint az általad megadott információk azon mennyiségére, amelyre a mesterséges intelligencia egy pillanat alatt gondolni tud. Jelenleg a csúcsmodell, a Google Gemini 1.5 Pro akár 1 millió tokent is képes következetesen átgondolni. Ez nagyjából 10 óra hanganyagot, 1 óra videót vagy 700 000 szónyi szöveget jelent. A Google nyilvánosságra hozta terveit, hogy 2024 végére 2 millió tokenre bővíti a kontextuális ablakot.
Emellett a Gemini chat verziója mostantól támogatja az előre beállított chat ablakokat, hasonlóan ahhoz, amit már láthattunk a versenytársaktól. A Google ezt a funkciót Gemini Gemsnek nevezte el. Lehetőség lesz például egy Gem személyes séf létrehozására, amire minden indításkor be lehet állítani egy címkét, amire reflektál. Mint kiderült, ha a csevegésbe beleültetjük, hogy ő egy Michelin szakács, sokéves tapasztalattal, akkor a teljesítménye valóban egy kicsit jobb lehet. A leíráshoz például hozzáadhatod, hogy milyen stílusú válaszadásra van szükséged. Ezután minden válasz az általad megadott formátumot fogja követni.
A Gemini család legjobbja eddig a Google Gemini 1.5 Pro volt. Ez a tény nem változott, de a Google új alternatívát mutatott be a Gemini 1.5 Flash formájában. Ez egy könnyített modell, amelyet úgy terveztek, hogy a lehető leggyorsabb válaszokat nyújtsa. Rendelkezik a Gemini összes kiváltságával, azaz a multimodalitással és a hosszú kontextuális ablakkal, de a válaszok általában valamivel gyengébb minőségűek lesznek, mint a Pro modell esetében.
A Gemini 1.5 Flash fő felhasználási területe az olyan alkalmazások lesznek, amelyek nagyszámú, meglehetősen egyszerű kéréssel dolgoznak, amelyeket a lehető leggyorsabban kell feldolgozni. Ha kifinomult, részletes kimenetet igényelsz, és nem bánod, ha egy kicsit tovább kell várnod, a Google továbbra is a Pro változatot ajánlja.
A modellek ára is nagyon érdekes. Ha a Google alkalmazásain kívül, azaz API (programozási felület, amelynek köszönhetően a mesterséges intelligencia integrálható különböző harmadik féltől származó alkalmazásokba) formájában használjuk őket, akkor 1 millió lekérdezési token a Gemini 1.5 Pro-ban 7 dollárba (kb. 2500 Ft) kerül. Ha az egyes lekérdezések 128 000 tokennél kisebbek, az ár még alacsonyabb lesz, akkor 3,50 dollárt (kb. 1250 Ft) kell fizetned egymillió lekérdezési tokenért. A legkedvezőbb árajánlatot a Gemini 1,5 Flash adja. Ennek a modellnek az árazása 1 millió lekérdezési tokenért mindössze 35 centnél (kb. 125 Ft) kezdődik.
Összehasonlításképpen, az OpenAI GPT-4 Turbo modellje, amely egyszerre legfeljebb 128 000 tokent támogat, egymillió lekérdezési tokenenként 10 dollárba (kb. 3500 Ft) kerül.
Az előadás nagy részét szintén a generatív mesterséges intelligenciának szentelték. Bemutatásra került a szövegből videót generáló Veo modell, a szövegből képeket generáló továbbfejlesztett Imagen 3 modell, és végül, de nem utolsósorban a mesterséges intelligencia alapú zenét generáló Music AI Sandbox eszközkészlet.
Az új Veo modell képes egy percnél hosszabb Full HD videók készítésére, különböző stílusokban. Az Imagen 3 modell elsősorban a részletekre összpontosít. A legkülönlegesebb igényeket is hűen képes ábrázolni, és valóban fotórealisztikus képeket készít. A kimenetet ebben az esetben nem érdemes szavakkal leírni - nézd meg az alábbi demóvideót.
Minden, amit a Gemini generál (mostantól a videókat is beleértve), egy megváltoztathatatlan SynthID "vízjellel" lesz ellátva, hogy megakadályozza a hamis információk terjesztését és a generált tartalmak sajátként való átadását.
A Google röviden beszélt a nyílt Gemma modellcsaládról is, amelyet bárki ingyenesen használhat. A PaliGemma modellt például képfelismerésre használják akadálymentesítési célokra, míg a CodeGemma kifejezetten a programozásban való segítésre van kiképezve. A Google egy új, általános használatra szánt nyílt modellt is bemutatott, a Gemma 2-t, amelyről állítólag a következő hetekben tudhatunk majd meg többet.
A Google Gemini tesztelése a Google keresőn belül már egy ideje folyamatban van. A Google I/O 2024-en kaptunk egy előzetest arról, hogy mire képes az AI a keresőben. A legfontosabb funkciók közé tartozik az összegzés - a Gemini összeszedi a keresett cikkekből származó információkat, és rövid, áttekinthető eredményt ad, csatolva az összes forrást, ha többet szeretnél megtudni.
A keresés bonyolultabb kéréseket is képes kezelni. A bemutató a "keresd meg a legjobb jóga- vagy pilates-stúdiót Bostonban, mutasd meg a kezdőknek szóló ajánlatok részleteit és a Beacon Hilltől való gyalogos távolságot" lekérdezést mutatta be. A Google Gemini képes a kérést lépésekre bontani, lekérdezni az összes szükséges információt, és végül egy összefüggő, a keresett információra szabott, blokkokra osztott felületen megjeleníteni.
A keresés ismét multimodális lesz - a meglévő szöveges, hangalapú és képi keresés mellett lesz videókeresés is (valószínűleg az Astra projekt alapján).
A Google bejelentette, hogy hosszas tesztelés után készen állnak arra, hogy a nyilvánosság elé tárják a mesterséges intelligenciát a keresőben. Ha minden igaz, még ezen a héten elérhetővé válik a funkció a felhasználók számára az Egyesült Államokban, a világ többi részéről csak egy homályos "hamarosan" hangzott el.
A Google a Google Workspace-ben újabb felhasználási lehetőséget talált a Gemini számára. Ez egy vállalati csomag, amely olyan népszerű termékeket tartalmaz, mint a Gmail, a Google Drive, a Google Calendar, a Google Docs és még sok más - egy alkalmazásban, hozzáadott funkciókkal. A Google Gemini új "kollégaként" kerül ide. Arra van szükséged, hogy az e-mailekből származó számlákat egy helyre rendezd? A Gemini számára ez nem jelent gondot, az adott alkalomra egy táblázatot készít számodra a bevételeidről és kiadásaidról, a megfelelő grafikonokkal kiegészítve.
A Geminit csoportos beszélgetésekben is használhatod, akár egy kollégát. Azt szeretnéd, hogy terméked új verziója készen álljon a kiadásra? Csak kérdezz, és ha az egyik valódi kollégád sincs a közelben, hogy válaszoljon, a Gemini átnézi az összes fájlt és adatot, amelyhez hozzáfér, rámutat a lehetséges problémákra, és javaslatot tesz a további lépésekre.
Egy másik kolléga ezután reagálhat a Gemini kimenetére, például egy olyan kihívást jelentő feladat elvégzésével, amely normál esetben órákig tartana. A Gemini néhány perc múlva visszatér a kimeneti fájllal.
A Gemini mint a Google Workspace munkatársa jól hangzik, de ez egy tisztán szakmai eszköz, amelyet a legtöbb felhasználó valószínűleg nem fog használni. A Google azonban tényleg mindenkihez el akarja juttatni a mesterséges intelligenciát. Ezért vezetik be az úgynevezett AI Agents-et. Alapvetően ez egy nagyon fejlett kombinációja mindannak, amit a Google AI kínál. Az ügynök egy adott feladatot több lépésre bont, és képes különböző szoftvereken keresztül dolgozni.
A Google I/O 2024-en egy nagyon gyakori példán keresztül ismerhettük meg. Vettél egy pár cipőt, de a méret nem passzol - csak egy parancsot kell adnod az AI-ügynöknek. Ezután átnézi az e-mailjeidet, megkeresi a számlát, kideríti, hol vetted a cipőt, és minden, a visszaküldéssel kapcsolatos információt, kitölti a reklamációs űrlapot, és csak annyit mond, hogy hova kell vinned a cipőt, vagy akár futárt is rendel.
Te irányítanád ezeket a lépéseket - a mesterséges intelligencia-ügynök mindent megtervez és elvégez helyetted, de mindig megerősítést kér, mielőtt olyasmit tenne, amit esetleg nem szeretnél, hogy megtegyen. Az előadáson többször is elhangzott, hogy a teljes folyamat feletti kontroll az egyik legfontosabb prioritás. A Google azonban kiemeli, hogy a technológia még korai fejlesztési fázisban van, így az első nyilvános tesztekre még biztosan várnunk kell néhány hónapot, ha nem többet.
Az elmúlt években exponenciálisan nőtt a mesterséges intelligencia számára tervezett, villámgyors számítási képességgel rendelkező hardverek iránti kereslet, és úgy tűnik, hogy ennek nem látszik vége. A Google ezért mutatta be új, Trillium nevű TPU-családját (tensorfeldolgozó egységek, a mesterséges intelligenciában használt tenzorszámítások felgyorsítására szolgáló speciális chipek). Ez állítólag 4,7-szer erősebb, mint az előző generáció. A chipek 2024 vége felé lesznek elérhetőek a Google Cloud platform felhasználói számára. A TPU-chipek tényleges fizikai változatai eddig nem voltak elérhetőek, és a Google egyelőre nem mutatta annak jeleit, hogy ezen változtatni kívánna.
A Google a Google I/O 2024 két teljes óráját a mesterséges intelligenciának szentelte, és mint láthatjuk, újdonságokból korántsem volt hiány. Bár a Google csak tavaly kapcsolódott be komolyan az AI versenybe, hatalmas erőforrásainak köszönhetően folyamatosan képes feszegetni a határokat, így nincs is más dolgunk, mint kivárni, merre veszi az irányt legközelebb az AI.
Google MobiltelefonokA Google I/O idei nyitó előadása a mesterséges intelligencia jegyében zajlott. De emellett a vállalat nem zárkózott el néhány hardver bemutatásától sem. Mire helyezte a hangsúlyt a Google?
A mesterséges intelligencia fontos szerepet játszik az életünkben, idővel pedig egyre jobban beépül majd szinte mindenbe, amit ismerünk. Ezért is hangzott el sokszor az AI rövidítés a konferencia bevezetőjében.
A Google ezt fogja felhasználni szolgáltatásai fejlesztéséhez. A Gmail Help me write funkciója lehetővé teszi, hogy beírjunk egy beviteli parancsot (úgynevezett promptot), és a Gmail megírja helyettünk az e-mailt. A Google Térkép képes háromdimenziósan navigálni a tervezett útvonalon. Még autókat is hozzáad a képhez és madarakat jelenít meg az égbolton.
A mesterséges intelligenciát sokat használják a fotózás területén is. Így nem meglepő, hogy a Google Fotókba is új funkciók érkeznek. A Magic Editorban például a kép szélére tévedt tárgyat a kép közepére lehet áthelyezni. A szerkesztő magától kiszámítja a fotó többi részét, továbbá beállítja a fényerősséget, hogy az eredmény valósághű legyen. A Google nem korlátozódik az e-mailekre, térképekre és fotókra. Elkötelezte magát amellett, hogy a mesterséges intelligenciát olyan dolgokra használja, amelyek a társadalom javát szolgálják.
i
A keynote angol nyelvű összefoglalóját magától a vezérigazgatótól a Google blogján olvashatod el.
A PaLM 2 a nagyméretű nyelvi modell következő generációja. Ez fogja működtetni a Google Bardot, a chatbotot, amely versenyre kel például a világhírű ChatGPT-vel. A PaLM 2 képes a programozási nyelvek hibáinak elhárítására. Húsz ilyen nyelvre képezték ki. Egészségügyi kérdésekben a modell elég jól teljesített ahhoz, hogy elérje a szakértői szintet. Felismerve, hogy a mesterséges intelligencia eredményeit azonosítani kell, a Google védelmet biztosít vízjelek és integrált metaadatok formájában. A mesterséges intelligencia a keresésbe és az Android mobilokba is bekerül.
A Google operációs rendszerének 14. verziója érkezik. Több mint 50 Google-alkalmazást igazítottak a mobiltelefonok és tabletek egyre nagyobb képernyőméretéhez, köztük a Spotify, a Minecraft és a Disney+ alkalmazásokat. Az új Google Pixel Fold táblagéphez is hozzáigazítják majd őket. A Google Pixel Watch és a Samsung Galaxy Watch rendszeréhez tartozó Wear OS-ről is vannak hírek. A WhatsApp alkalmazás újonnan kerül be a rendszerbe. A Gmail és a Naptár is változásokon esik át.
Az Android hatalmas eszközbázisból meríthet. Ennek azonban megvan a hátránya is, ezért a Google azon gondolkodik, hogy az Android 14-ben jobban összekapcsolja őket. A Fast Pair például felgyorsítja a kiegészítők, például a vezeték nélküli fülhallgatók párosításának folyamatát. Ha egy másik támogatott eszköz közelében vagyunk, azonnal megoszthatunk vele fájlokat, és ez működik a Chromebook, a telefon és a tablet között is. A Find My Device alkalmazás földrajzi célzással tartja szemmel számos eszközödet, akár harmadik féltől származó gyártók termékeit is.
Ezen a területen is a mesterséges intelligencia felé haladunk. Az Android 14 maga is felajánl egy üzenetet válaszul egy csevegésre, teszi ezt többféle változatban. Kivágja az asztali háttérképből az előtérben lévő objektumot, a hátteret pedig hagyja elmosódni. Többféle háttérképet is generálhatsz csak az AI használatával. Ezek pedig olyan egyediek lesznek, amilyenek még senki másnak a telefonján nem voltak. Az RCS szabvány a telefonokra is megérkezik. Ez állítólag a kommunikáció egy modern módja lesz, amely felváltja az általunk ismert SMS-t és MMS-t.
Az új hardver a Google Pixel 7a, amely elvileg a Google Pixel 6a utódja, illetve az okostelefonok középkategóriájába tartozik. Megjelenésében és tulajdonságaiban nagyon hasonlít a jelenlegi Google Pixel 7-re, annak állítólagos könnyített változata.
Elsőre talán alig észrevehető a különbség, de az új készülék kisebb, 6,1 hüvelykes kijelzővel, körülötte pedig vastagabb fekete kerettel rendelkezik. A Pixel 7 hátlapját nagyon könnyen össze lehet vele téveszteni. Talán csak a kék változatról lehet egyértelműen kijelenteni, hogy ez a legújabb Pixel 7a.
A telefon a Google Tensor G2 processzorának és a 8 GB RAM-nak köszönhetően teljesítményben is felveszi a versenyt drágább testvérével. Újdonság, ami biztosan tetszeni fog és egyben növeli a képzeletbeli értékét, minden bizonnyal a vezeték nélküli töltés támogatása. A Google Pixel 7a is odatette magát, a kamerái sem vallanak szégyent. Ezek ugyanis megnövelt pixelszámmal rendelkeznek.
A találgatások beigazolódtak. A Google most már saját hajlítható okostelefonnal büszkélkedhet. Ezzel belép egy olyan piacra, amelyet főként a Samsung Galaxy Z sorozat ural. A Google Pixel Fold nem szerénykedik, és a gyártó szerint állítólag a legjobb fotózási élményt nyújtja a hajlítható telefonok között. És hogyan viszonyul a konkurenciájához, például a Samsung Galaxy Z Fold4-hez? A koreai modellhez képest egy zömökebb prémium mobilnak tűnik, amely nagy teljesítményt és 7,6 hüvelykes kijelzőt rejt.
A 11 colos kijelzővel rendelkező Google Pixel tablet egyenesen a tartalomfogyasztást célozza meg, amiből a Google nem is csinál titkot. Emellett a Google Tensor G2 processzorára támaszkodik. Töltőtalpa továbbá állványként és hangszóróként is szolgál. A tablet tehát otthoni asszisztensként és a szórakozás központi elemeként egyaránt használható. A Pixel telefonokkal és a Google szolgáltatásaival, például a Google Fotókkal való szoros együttműködésre fel van készítve.
A Google a mesterséges intelligenciában látja a jövőt, de már a jelenben is igyekszik feltárni a benne rejlő lehetőségeket. A bemutatott szolgáltatások és termékek is egyértelműen ezt bizonyítják. A Google tehát bemutatta a terveit, és már most nagyon várjuk az idei évre tervezett új zászlóshajó okostelefonok bejelentését.