Új AI-rendszer épít élő adatbázisokat leírás alapján — TinyFish BigSet
A BigSet egy nyílt forráskódú rendszer, amely angol nyelvű leírásokból épít strukturált, letölthető CSV vagy XLSX adatbázisokat az internetről.

A TinyFish bemutatta a BigSet nevű nyílt forráskódú multi-agent rendszert, amely az AGPL-3.0 licenc alatt érhető el. A szoftver célja, hogy leegyszerűsítse a webes adatok strukturált adatbázisokká alakításának folyamatát. A felhasználónak mindössze egy angol nyelvű leírást kell megadnia arról, mire van szüksége, a rendszer pedig automatikusan felismeri a szükséges sémát, agenseket küld az adatok összegyűjtésére, eltávolítja az ismétlődéseket, és végül egy letölthető CSV vagy XLSX fájlt állít elő — írja a MarkTechPost.
A BigSet lényegében a megadott adatigény és egy használható tábla közötti réteget tölti be. Például, ha azt írod be, hogy „YC cégek, amelyek jelenleg mérnököket keresnek, finanszírozási fázisukkal, helyszínükkel és a betöltetlen pozíciók számával”, a rendszer felismeri a szükséges oszlopokat, megtalálja a releváns entitásokat az interneten, és feltölti a sorokat. Nem kell URL-t megadni vagy kiválasztókat konfigurálni, csupán le kell írni az adatot.
Kapcsolódó: TencentDB Agent
Az adatok folyamatos frissítése
A rendszer ütemezett frissítési funkcióval is rendelkezik, így az adatbázisok automatikusan frissülhetnek. A felhasználó beállíthat egy ütemezést — 30 perc, 6 óra, 12 óra, naponta vagy hetente —, és az agensek ezen az ütemezésen futnak újra. Az adatbázis így kézi beavatkozás nélkül is naprakész marad. Az adatbázis-generálás maga 2–5 percet vesz igénybe, mivel az agensek valós webes kutatást végeznek.
Kapcsolódó: Euphony eszköz
A BigSet működésének háttere
A BigSet architektúrája egy kétszintű, strukturált ügynökrendszert használ. Először is, a Claude Sonnet modell (OpenRouter-en keresztül elérhető) következteti ki az adatbázis sémáját, beleértve az oszlopneveket, adattípusokat és az adatok keresésének helyét. Ezt követően egy orchestrator agent a TinyFish Search segítségével azonosítja a leírásnak megfelelő entitásokat és azok helyét. Végül a párhuzamosan futó sub-agentek gyűjtik be az adatokat, minden egyes agent egy sort dolgoz fel, legfeljebb 6 API-hívás keretében. A rendszer deduplikálja az eredményeket, forrásmegjelölést is biztosít, és CSV vagy XLSX formátumban exportálja a végeredményt.
Kapcsolódó: Holos AI
A BigSet önállóan telepíthető Docker segítségével. A futtatáshoz Docker és Make telepítése, valamint API kulcsok szükségesek a TinyFish (webes keresés és adatlekérés), az OpenRouter (LLM hívások) és a Clerk (felhasználói hitelesítés) szolgáltatásokhoz. A fejlesztők a GitHubon találják a teljes kódbázist, és a `make dev` paranccsal indíthatják el a rendszert, amely a szükséges adatbázisokat és szolgáltatásokat is felállítja. A rendszer 2024. március 10-én lett elindítva a GitHubon.
Kapcsolódó: WebXSkill keretrendszer