ÉlőUtoljára: 18 perceMa: 20
Eszközökfrissítve: 03:50

Új AI-rendszer épít élő adatbázisokat leírás alapján — TinyFish BigSet

A BigSet egy nyílt forráskódú rendszer, amely angol nyelvű leírásokból épít strukturált, letölthető CSV vagy XLSX adatbázisokat az internetről.

Új AI-rendszer épít élő adatbázisokat leírás alapján — TinyFish BigSet
Fotó: Fotó: Growtika / Unsplash
forrás: MarkTechPost·AI Forradalom szerk.·
Megosztás

A TinyFish bemutatta a BigSet nevű nyílt forráskódú multi-agent rendszert, amely az AGPL-3.0 licenc alatt érhető el. A szoftver célja, hogy leegyszerűsítse a webes adatok strukturált adatbázisokká alakításának folyamatát. A felhasználónak mindössze egy angol nyelvű leírást kell megadnia arról, mire van szüksége, a rendszer pedig automatikusan felismeri a szükséges sémát, agenseket küld az adatok összegyűjtésére, eltávolítja az ismétlődéseket, és végül egy letölthető CSV vagy XLSX fájlt állít elő — írja a MarkTechPost.

A BigSet lényegében a megadott adatigény és egy használható tábla közötti réteget tölti be. Például, ha azt írod be, hogy „YC cégek, amelyek jelenleg mérnököket keresnek, finanszírozási fázisukkal, helyszínükkel és a betöltetlen pozíciók számával”, a rendszer felismeri a szükséges oszlopokat, megtalálja a releváns entitásokat az interneten, és feltölti a sorokat. Nem kell URL-t megadni vagy kiválasztókat konfigurálni, csupán le kell írni az adatot.

Kapcsolódó: TencentDB Agent

Az adatok folyamatos frissítése

A rendszer ütemezett frissítési funkcióval is rendelkezik, így az adatbázisok automatikusan frissülhetnek. A felhasználó beállíthat egy ütemezést — 30 perc, 6 óra, 12 óra, naponta vagy hetente —, és az agensek ezen az ütemezésen futnak újra. Az adatbázis így kézi beavatkozás nélkül is naprakész marad. Az adatbázis-generálás maga 2–5 percet vesz igénybe, mivel az agensek valós webes kutatást végeznek.

Kapcsolódó: Euphony eszköz

A BigSet működésének háttere

A BigSet architektúrája egy kétszintű, strukturált ügynökrendszert használ. Először is, a Claude Sonnet modell (OpenRouter-en keresztül elérhető) következteti ki az adatbázis sémáját, beleértve az oszlopneveket, adattípusokat és az adatok keresésének helyét. Ezt követően egy orchestrator agent a TinyFish Search segítségével azonosítja a leírásnak megfelelő entitásokat és azok helyét. Végül a párhuzamosan futó sub-agentek gyűjtik be az adatokat, minden egyes agent egy sort dolgoz fel, legfeljebb 6 API-hívás keretében. A rendszer deduplikálja az eredményeket, forrásmegjelölést is biztosít, és CSV vagy XLSX formátumban exportálja a végeredményt.

Kapcsolódó: Holos AI

A BigSet önállóan telepíthető Docker segítségével. A futtatáshoz Docker és Make telepítése, valamint API kulcsok szükségesek a TinyFish (webes keresés és adatlekérés), az OpenRouter (LLM hívások) és a Clerk (felhasználói hitelesítés) szolgáltatásokhoz. A fejlesztők a GitHubon találják a teljes kódbázist, és a `make dev` paranccsal indíthatják el a rendszert, amely a szükséges adatbázisokat és szolgáltatásokat is felállítja. A rendszer 2024. március 10-én lett elindítva a GitHubon.

Kapcsolódó: WebXSkill keretrendszer

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom