Leveraging Multimodal LLMs for Built Environment and Housing Attribute Assessment from Street-View Imagery

Az Egyesült Államok épületeinek automatikus állapotfelmérésére fejlesztettek ki új keretrendszert kutatók, amely nagyméretű nyelvi modelleket (LLM) és Google Street View (GSV) képeket használ — írja az arXiv előnyomtatott tanulmánya.

A megközelítés lényege, hogy a Gemma 3 27B modellt emberi címkézésű adatokkal finomhangolták. A modell így erős egyezést mutat az emberi átlagos vélemény pontszámokkal (MOS), sőt, az egyéni emberi értékelőket is felülmúlja a SRCC és PLCC metrikák tekintetében a MOS benchmarkhoz képest.

A hatékonyság növelése érdekében tudásdesztillációt alkalmaztak. Ennek során a Gemma 3 27B képességeit átvitték egy kisebb, Gemma 3 4B modellbe, amely összehasonlítható teljesítményt nyújt, de háromszor gyorsabban működik. Ezt a tudást tovább desztillálták egy CNN-alapú modellbe (EfficientNetV2-M) és egy transzformerbe (SwinV2-B), amelyek közel azonos teljesítményt értek el, miközben 30-szoros sebességnövekedést mutattak.

A kutatók a LLM-ek képességeit is vizsgálták a beépített környezet és a lakhatási attribútumok széles skálájának felmérésében, egy ember-AI összehangolási tanulmány keretében. A Gemma 3 27B modell finomhangolása kulcsfontosságú volt az emberi értékelésekkel való erős egyezés eléréséhez.