• Szerző: Ondřej Chabr
A Google Gemini mesterséges intelligencia már most is értékes információkkal szolgálhat számunkra, amelyeket sokféle feladatra felhasználhatunk, például mobiltelefonon keresztül. Most azonban a Geminivel való interakció lehetősége még közelebb kerül a klasszikus interperszonális kommunikációhoz. Ezt pedig a Gemini Live funkció hozza el számunkra. Mi ez, hol indítjuk el az új funkciót és miben segíthet bennünket?
A Gemini Live a Gemini Live Camera & Screen Sharing részeként érhető el, amely a korábbi Project Astrán alapuló funkció. Valós időben kommunikál a felhasználókkal hang segítségével, annak alapján, amit a kamerán keresztül lát, vagy amit a képernyő tartalmának megosztásakor lát.
Ha például a telefon kameráját egy tárgyra irányítod, valós időben beszélhetsz róla a mesterséges intelligenciával. Így például könnyen megtudhatod, hogy mennyibe kerül az autó, amelyen az utcán sétálva megakadt a szemed, vagy hogy milyen specifikációkkal rendelkezik. Meg tudja mondani, hogy mi az az ismeretlen otthoni kiegészítő egy barátod házában, hol lehet megvásárolni és mennyibe kerül.
A Gemini Live mesterséges intelligencia más tárgyakról és objektumokról is tud információt adni, tanácsot adhat a ruházat kiválasztásához, vagy tájékoztatást adhat a téged körülvevő környezetről.
A Gemini Live mesterséges intelligencia tanácsai számos, például műszaki probléma megoldásakor is jól jöhetnek. Csak mutass a telefonoddal a problémára, majd tedd fel a kérdéseket. A Gemini Live a látottak alapján képes lesz válaszolni és útmutatást adni. Természetesen a tudását a különböző webhelyeken rendelkezésre álló adatok és információk felhasználásával szerzi meg.
Továbbá hasonló beszélgetést folytathatsz a telefon képernyőjén megjelenő információk alapján is, például amikor egy problémát kell megoldanod.
Ha nem szereted a különböző használati útmutatókat lapozgatni, add át azokat a Gemini számára úgy, hogy egyszerűen feltöltöd őket PDF formátumban. A Google Gemini Live máris képes lesz instruálni a fájl gyors elolvasásából származó információk alapján.
A kommunikáció a videókra is kiterjed. Az asszisztens elmagyarázza, mi történik egy videóban, vagy módosíthatja az információt, ha megváltoztatod a bemeneti adatokat. Ha például egy videó egy kétszemélyes étel elkészítéséről szól, a Gemini Live segít megváltoztatni azt egy kétszer annyi személyre szóló receptté.
A Circle to Search funkciót már ismerheted, de a Gemini Live sokkal intuitívabb, mivel az eredményeket megbeszélheted, és további kérdéseket tehetsz fel. Mindezt magyar nyelven, hiszen a Gemini Live több mint 45 nyelvet támogat, és szerencsére a mi anyanyelvünk sem hiányzik közülük.
i
Az Apple kiadta az iOS 18.4-et. Az Apple Intelligence már itthon is elérhető, de van egy kis bökkenő
Így például, ha egy idegen országban egy étteremben ülsz, nagyon könnyen eligazodhatsz az étlapon, és ajánlásokat kaphatsz arra vonatkozóan, hogy mi tetszene a legjobban. De egy múzeumban is helyettesítheti az idegenvezetést. A következő bemutató többet mond minden szónál:
Mint már említettük, a Gemini Live a Gemini Advanced fizetős verziójának felhasználói számára érhető el. Előbb-utóbb átkerül a Gemini Basic-be is, de egyelőre csak a Google Pixel 9 és a Samsung Galaxy S25 szériájú telefonokon. Az asszisztens egyszerűen, a bekapcsológomb lenyomva tartásával, majd a mikrofon ikon melletti 3 pontra kattintva indítható el.
A Gemini Live egy újabb izgalmas lépést jelent a mesterséges intelligencia és annak mindennapi életbe való integrálása terén. Olyan társsá válhat, amely a legtöbbünk számára jól jöhet, mivel ez a funkció lehetővé teszi a felhasználók számára, hogy valós időben interakcióba lépjenek az AI-val, és számos témában konzultáljanak vele. Legyen szó inspiráció gyűjtéséről, problémamegoldásról vagy gyakorlati tanácsok beszerzéséről.
Mobiltelefonok
• Szerző: Peter Vnuk
2025 márciusában a Google bemutatta mesterséges intelligenciájának új verzióját, a Gemini 2.5-öt, amely számos fejlesztést tartalmaz a nyelvi és vizuális adatok jobb megértése érdekében. Az új verzió jobb képességgel rendelkezik a nyelvi árnyalatok felismerésére, gyorsabb adatfeldolgozást és fejlettebb funkciókat kínál a képeken lévő objektumok azonosítására. Ez a Google mesterséges intelligenciájának új verzióját hatékonyabb eszközzé teszi számos felhasználáshoz, a chatbotoktól és hangasszisztensektől kezdve az ipari felhasználáson át a webalkalmazás-fejlesztésig.
2025 márciusában a Google bemutatta az Gemini AI új, 2.5-ös verzióját, amely jelentős fejlesztéseket hoz magával a természetes nyelvi feldolgozás és a vizuális adatok terén. A frissítés a kontextus jobb megértésére és a képeken lévő tárgyak pontosabb azonosítására összpontosít.
A Gemini 2.5 különösen büszke a természetes nyelv árnyalatainak felismerésére. Ennek eredményeképpen a modell képes jobban megérteni a szavak kontextusát és jelentését még az összetettebb szövegekben is. Az újítást „gondolkodó modellként” tervezték, ami azt jelenti, hogy a válaszadás előtt képes gondolkodni, javítva ezzel a kimenet pontosságát és logikáját. Ez különösen hasznos a mélyreható nyelvi elemzést igénylő alkalmazásokban, például a chatbot-szolgáltatásokban vagy az automatizált dokumentumfeldolgozásban.
Ugyanakkor a feldolgozási sebességet jelentősen optimalizálták. A Google a modell válaszidejének lerövidítésére összpontosított, ami kulcsfontosságú a valós idejű alkalmazások, például az asszisztensek vagy a képfigyelő alkalmazások esetében.
Jelentős előrelépés a vizuális adatok feldolgozásának jobb képessége. A Gemini 2.5 pontosabban képes azonosítani az objektumokat és jobban működik a részletes képi információkkal. A modell 1 millió tokenből álló kontextusablakot tartalmaz, amely a tervek szerint 2 millióra bővül, lehetővé téve a nagy adathalmazok hatékonyabb kezelését. Ez a funkció értékes az olyan vizuális analitikát használó alkalmazásokban, mint az arcfelismerés vagy az ipari folyamatok felügyelete.
A Google új algoritmusokat is integrált a modellbe a gyorsabb képelemzés érdekében, javítva a teljesítményt videók és nagy képadatbázisok esetén.
A Gemini 2.5 új felületet kínál a fejlesztőknek, amely lehetővé teszi a könnyebb integrációt más Google-szolgáltatásokkal. A fejlesztők közvetlenül az alkalmazásaikban használhatják a fejlett természetes nyelvi és képi eszközöket. A továbbfejlesztett dokumentáció és támogatás sokkal könnyebbé teszi az új funkciók bevezetését a különböző projektekben.
A 2.5 Pro Experimental verzió állítólag a legfejlettebb modell az összetett feladatokhoz, vezeti az LMArena rangsorát, bizonyítva kiváló érvelési és kódolási képességeit. Ez alapvetően azt is bizonyítja, hogy a Google nem túlozza el a Pro Experimental modell fejlettségére vonatkozó állításait.
A gyártó emellett azt tervezi, hogy a Gemini 2.5 használatát a felhőplatformjára is kiterjeszti, robusztusabb és erősebb megoldást kínálva ezzel a nagy mennyiségű adat valós idejű feldolgozását igénylő vállalkozások számára.
Az új képességeknek köszönhetően a Gemini 2.5 használható például interaktív hangalapú asszisztensek létrehozására, ahol a hangsúly a beszélgetés természetességén és a kontextus változásaira való reagálás képességén van. A modell továbbá olyan ipari alkalmazásokban is bevethető, ahol a vizuális adatokat gyorsan és pontosan kell elemezni.
Az új funkció jelentősen javít a kódolási képességeken is, különösen a vizuálisan tetszetős webes alkalmazások és az ügynökkódoló alkalmazások létrehozásában, 63,8%-os eredményt érve el a SWE-Bench Verified benchmarkon (forrás: Google).
A Gemini 2.5 modell arról árulkodik, hogy a vállalat a lehető legnagyobb mértékben a felhasználók gyakorlati igényeihez igazodó mesterséges intelligencia fejlesztésén dolgozik, ugyanakkor a teljes mesterséges intelligencia piac lefedése érdekében a vállalatokat és a fejlesztőket is meg kívánja szólítani.
• Szerző: Ondřej Chabr
A Google bemutatta mesterséges intelligenciájának új generációját, a Gemini 2.0-t, olyan Flash-verzióval kezdődően, amely az előző verzió, az 1.5 Pro teljesítményének felel meg. Ezt a generációt „ügynök” AI-nak nevezik, amely meghatározott feladatok elvégzésére képes, továbbá ez a verzió tartalmazza a Project Astrát is - egy asszisztenst olyan gyakorlati feladatokhoz, mint a beszélgetés vagy a különböző eszközök használata.
A Google bemutatja mesterséges intelligenciájának következő generációját - a Google Gemini 2.0-t. Az előző generációt 1.5 néven emlegették, míg az új 2.0 jelenleg csak egy „gyengébb”, 2.0 Flash nevű változatban jelenik meg. Ez még csak nagyjából a jelenlegi Pro modellel van egy szinten. A Gemini 2.0 Flash már elérhető a fejlesztők és a tesztelők számára.
A Google Gemini 2.0 újdonsága például a natív audiovizuális kimenet kép- és zenefájlok formájában, amelynek bővülése már 2025-ben várható. A Google az új generációt „ágensalapú” mesterséges intelligenciának nevezi. Az ágens alatt azt értik, hogy az AI rendszer olyan, mint egy robot, amely adott feladatokat végez.
A Gemini 2.0-ban a Project Astra asszisztens kerül előtérbe. Tisztán gyakorlati feladatokra összpontosít. Például több nyelven tud társalogni, akcentustámogatással. Használhat eszközöket is, elérheti a térképeket, a keresőt és a Google Lens vizuális keresőt.
A gyakorlatban úgy működik, hogy a telefont egy tárgyra, például egy művészeti kiállításra irányítod, és megkérdezed a telefont, hogy mit tud a tárgyról. A telefon ezután válaszol. A fenti videóban láthatsz is egy példát.
A gördülékenyebb és természetesebb kommunikáció érdekében az Astra a memórián is dolgozott, így képes megjegyezni a beszélgetés utolsó 10 percét. A Gemini alkalmazáson kívül a Google szeretné az Astrát az okosszemüvegekbe is integrálni. Ott különösen a vizuális keresésben rejlik majd valószínűleg a legtöbb lehetőség.
Egy másik ügynök a Project Mariner, amely bonyolultabb feladatokat kezel, lépésről lépésre haladva a Google eszközeinek, különösen a keresőmotornak a használatával. A fejlesztőket viszont a Jules fogja érdekelni. Ő közvetlenül a GitHub munkafolyamatába integrálódik. A fejlesztő felügyelete alatt segít megoldani a problémát, megtervezi a folyamatot és végrehajtja azt.
Meglepő módon a következő ügynök a gaming terén fog tevékenykedni. Segít a játszható virtuális világokban navigálni. Tanácsokat ad a képernyőn látottak alapján.
• Szerző: Peter Vnuk
A mesterséges intelligencia (AI) jelenleg a legnagyobb trend a technológiai világban, és a jövőben sokkal gyakrabban fogunk vele találkozni minden téren, mint ahogy azt megszoktuk. A generatív fajtája már útjára indult az olyan eszközökben, mint a mobiltelefonok, tabletek, számítógépek és viselhető eszközök, elsősorban a ChatGPT-nek köszönhetően. A Google azonban egy olyan Gemini modellel állt elő, amely a ChatGPT-vel szemben is megállja a helyét, és amelyről mostanában sokat lehet hallani. Miben más a Gemini és mi mindent tud?
A 2023-as év a generatív mesterséges intelligencia (AI) éve volt. A nagyközönség érdeklődése elsősorban az OpenAI ChatGPT chatbotjának köszönhetően kezdett el érdeklődni az ágazat iránt, amelyben egykor Elon Musk is részt vett. A ChatGPT kifinomult és hasznos válaszai sikert arattak, és csak idő kérdése volt, hogy a konkurencia mikor száll fel erre az új és gyors lóra.
Az egyik ilyen a Bing AI, amelyet Copilotra kereszteltek át, és amelyet a Microsoft jelenleg a Windows 11-be integrál. De maga a Google is megkeverte a lapokat, a LaMDA-alapú Bard chatbotját Geminire nevezte át, és új magot adott neki.
A modellt hatalmas mennyiségű adattal képezték ki, így olyan területeken tud válaszolni a kérdésekre, mint a tudomány, az irodalom, az aktuális világesemények, a politika és a történelem. Az internetről származó naprakész információkhoz való hozzáférés az Gemini olyan előnye, amellyel sok versenytárs nem rendelkezik. A ChatGPT például a 2022 januárja előtti információkra korlátozódik.
A gyakorlatban a lényeg az, hogy a generatív mesterséges intelligencia megváltoztatja a játékszabályokat. Egy olyan hatékony eszközt ad az átlagember kezébe, amellyel például képes eltávolítani a homlokán lévő ráncokat egy fényképen, csökkenteni egy jelentősen zavaró elemet, vagy vizuálisan eltávolítani egy olyan személyt, akinek semmi keresnivalója a felvételen.
Sőt, a generatív mesterséges intelligencia a rengeteg adattal történő betanításnak köszönhetően képes elfedni a változtatásokat, így többé nem kell "photoshoppal" operálni. Csak áthúzzuk az ujjunkat vagy az érintőtollat az érintett terület fölött, és kész is. A telefon minden mást elvégez helyettünk, így a művelet egyszerű, gyors és bárki meg tudja csinálni. De az előnyök még messze nem értek véget.
Az olyan modellek, mint a Google Gemini, a chatrobottal való kreatív beszélgetések folytatásának lehetőségét is magukban foglalják. Képes verset vagy esszét írni a feladatod alapján, tanácsot adni az étrended kialakításához, hogy növelni tudd az izomtömeged vagy épp fogyni tudj, vagy egyszerűen csak emberi szinten beszélget veled gyakorlatilag bármilyen témáról.
A Google Gemini teljesen természetes nyelvezettel fog veled beszélgetni például a venezuelai politikai helyzetről. Elmagyarázza, miért van sötét éjszaka, lefordít egy idegen nyelvű cikket, vagy tanácsot ad, hogyan fektess be bitcoinba a lehető legbiztonságosabban.
A Google a Geminit multimodális modellként fejlesztette ki, ami azt jelenti, hogy a képességei nem érnek véget a kreatív és egyéb beszélgetéseknél. Képes arra is, hogy a szoftverprogramozásban vagy a videók, hangfelvételek és képek készítésében és szerkesztésében is segítse a felhasználóját. Jelenleg teljes potenciálja még nem nyilvános, egyelőre szöveggel és információval dolgozik, de ez valószínűleg változni fog az elkövetkező hónapokban. Addig is a Google azt állítja, hogy a Gemini több mint 50 tesztelt képességterületen az emberi szakértők szintjén áll.
Jelenleg a mesterséges intelligencia mögött álló vállalatok, mint például a Google Gemini, mindig két alternatívát kínálnak. A fizetős chatbotok mindig kifinomultabbak. Több információhoz férnek hozzá, kreatívabbak, kevésbé korlátozzák a havi válaszok számát, és egy csomó egyéb előnyük is van.
i
Samsung Galaxy S24 és S24+ (TESZT): megérkezett a mesterséges intelligencia. Melyik modellt válaszd?
De érdemes kiemelni, hogy a Gemini ingyenes, mindenki számára elérhető változata már most is számos olyan dolgot tud, ami minden bizonnyal a legtöbb felhasználó számára elegendő is. A különböző témájú beszélgetések mellett az ingyenes verzió képes kreatív szöveggenerálásra és nyelvi fordításra is. A cikk írásakor még csak az ingyenes verzió érhető el, és a Google hangsúlyozza, hogy a Gemini tulajdonképpen béta állapotban van, a Pro (vagy Advanced) és az Enterprise változat nem elérhető a nagyközönség számára.
A Gemini fizetős verzióinak nomenklatúrájában némi káosz uralkodik, és semmi sem biztos vagy egyértelmű. A Google jelenleg a tesztelési adatokat értékeli, tehát a fizetős bétaverziókra még nem lehet regisztrálni. Az előnyeiket és az árazásukat azonban már ismerjük. A Pro változat a Gemini teljes verzióját havi 20 000 Ft körüli összegért kínálná, 100 000 válasz limit mellett. Az ingyenes változat havi 500 válaszra korlátozódik.
A vállalati szféra számára létezik egy Enterprise változat is, amely állítólag gyorsabb válaszokat, Google támogatási előnyöket, sokkal magasabb válaszadási arányt és egy kijelölt fiókmenedzsert biztosít. Az ilyen előfizetés ára azonban igény esetén 3,5 millió forint fölött van havonta, így ez tényleg csak korlátozott számú konkrét ügyfél számára lesz érdekes.
A Google azon is dolgozik, hogy a Geminit beépítse az olyan alkalmazások és szolgáltatások portfóliójába, mint a Gmail és a Térkép. Így a mesterséges intelligencia, amely hozzáfér majd az e-mail üzenetekhez és más személyre szabott információkhoz, jobban tudja majd segíteni a magánszemélyeket és a vállalkozásokat például a kiadások vagy az egészség optimalizálásában.
Egyértelmű, hogy 2024-re a generatív mesterséges intelligencia trendje felerősödik, és a technológia fokozatosan a mobiltelefonokban is meghonosodik. Az első bemutatkozók a Samsung új generációs Galaxy S24 okostelefonjainak tagjai, és már most biztos, hogy az új iPhone 16 és az iOS 18 is tele lesz az AI által működtetett új funkciókkal. A lapokat azonban jelentős mértékben megkeverheti a Google Gemini AI.
Fontos kiemelni, hogy ez nem marketingfogás. A mesterséges intelligencia valóban javíthatja a mindennapi mobilhasználatot, például egy fényképen látható tárgy felismerésével vagy a helyszín meghatározásával. A Google előnye a Gemini esetében, hogy az Android operációs rendszer világszerte több milliárd okostelefonon fut.
Amikor a régebbi Google Asszisztenst elkezdi majd felváltani az új, a Geminivel a középpontban, a Samsung a Galaxy AI-val és az Apple az új, továbbfejlesztett Sirivel nagyon erős konkurenciát kap. És a folyamat már el is kezdődött, bár hivatalosan csak az Egyesült Államokban. Hazánkban egyelőre csak nem hivatalos forrásból származó appokkal lehet a Google Asszisztenst Geminivel helyettesíteni.
Hivatalosan csak angol nyelven érhető el az alkalmazás, de valójában a Gemini támogatja a magyar nyelvet is, így gond nélkül tudunk majd vele kommunikálni. Ezzel adottak az előfeltételek ahhoz, hogy hazánkban teljes mértékben átvegye a Google Asszisztens helyét. Ez csupán idő kérdése.