A Google Gemini modellje mostantól több tárgyat is felismer egyetlen képen
A Google szerint a Gemini modell multimodális képességei teszik lehetővé az AI Mode-ot, amelynek köszönhetően a kereső mostantól több tárgyat is felismer egyetlen képen.
A Google Gemini modellje mostantól képes egyetlen képen több tárgyat is felismerni, így a vizuális keresés új szintre emelkedik. A Circle to Search és a Lens frissítései lehetővé teszik, hogy az Androidon a felhasználó egyetlen képet feltöltve egyszerre keressen minden egyes elemet, például egy ruhadarabot vagy egy szobában lévő bútorokat.
Ez a fejlesztés a multimodális keresés területén jelentős előrelépést hoz, mert a vizuális keresés korábban egyetlen objektumra korlátozódott. Az újabb frissítések, beleértve az AI Mode-t, lehetővé teszik a felhasználók számára, hogy egyetlen képen belül több kérdést is feltegyenek, mint például egy kertben található növények árnyékban való túlélése vagy karbantartási igényei.
A technológia mögött a Gemini modellek állnak, amelyek a képet és a felhasználói kérdést egyszerre elemzik. A modellek a „fan-out” technikát alkalmazzák, ami azt jelenti, hogy egyetlen kérdésre több, párhuzamos keresést indítanak, majd az eredményeket egy egységes válaszba fonják össze. Így a felhasználó azonnal kapja meg a ruhadarabok, bútorok vagy növények részletes információit.
Az AI Mode nem csak képekre korlátozódik: a felhasználók szöveges kereséseket is indíthatnak, majd a rendszer egy kép alapján folytatja a fan-out folyamatot, ami különösen hasznos vásárlási vagy inspirációs szcenáriókban.
Jelenleg a frissítések már elérhetőek az Androidon, és a Google a vizuális keresés további fejlesztéseire fókuszál. A következő hónapokban várható a további integrációk, amelyek még szélesebb körű multimodális interakciókat tesznek lehetővé.