Multimodális lett a Gemini API fájlkeresője: képeket és szöveget is kezel
A fejlesztők így hatékonyabban strukturálhatják a strukturálatlan adatokat, ami pontosabb és ellenőrizhetőbb lekérdezéseket tesz lehetővé a Gemini Embedding 2 modell erejével.

Három jelentős frissítést vezetett be a Google a Gemini API fájlkereső eszközéhez: multimodális támogatást, egyedi metaadatokat és oldalszintű hivatkozásokat — írja a Google AI Blog. Ezek a funkciók segítenek a fejlesztőknek abban, hogy struktúrát vigyenek a strukturálatlan adatokba, hatékonyabb és ellenőrizhetőbb RAG (Retrieval-Augmented Generation) rendszereket építve.
A Gemini API fájlkeresője mostantól képeket és szöveget is képes feldolgozni a Gemini Embedding 2 modell segítségével. Ez azt jelenti, hogy az alkalmazások vizuális adatokat is megértenek, kontextuális tudatosságot biztosítva az AI-ügynököknek. Egy kreatív ügynökség például nem csak kulcsszavak alapján kereshet vizuális elemeket, hanem természetes nyelven leírt érzelmi tónus vagy vizuális stílus alapján is.
A multimodális forradalom
Az egyedi metaadatok hozzáadásával a fejlesztők pontosabban szűrhetik a kereséseket. Az unstructured adatokhoz kulcs-érték címkék csatolhatók, például „osztály: Jogi” vagy „státusz: Végleges”. A lekérdezés során alkalmazott metaadat-szűrők jelentősen csökkentik a zajt az irreleváns dokumentumokból, növelve a RAG munkafolyamatok sebességét és pontosságát — közölte Ivan Solovyev, a Google DeepMind termékmenedzsere.
Új dimenziók a keresésben
Az oldalszintű hivatkozások bevezetése növeli a megbízhatóságot. Amikor egy alkalmazás választ ad egy nagyméretű PDF-ből, a felhasználók közvetlenül ellenőrizhetik a forrást. A fájlkereső mostantól minden indexelt információhoz rögzíti az oldalszámot, így a felhasználók pontosan láthatják, honnan származik az információ, ami segíti a tényellenőrzést és növeli a bizalmat. A Gemini API dokumentációban leírtak szerint a fájlok feltöltése és keresése 2024. március 15-étől elérhető a Google Cloud Platformon.