DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Jag har funderat lite på kontinuerligt lärande på sistone, särskilt när det gäller långvariga agenter (och att genomföra några leksaksexperiment med MLX). Status quo med snabb kompaktion i kombination med rekursiva delagenter är faktiskt anmärkningsvärt effektivt. Det verkar som att vi kan komma ganska långt med detta. (Prompt kompaktering = när kontextfönstret närmar sig fullt, genererar modellen en kortare sammanfattning och börjar sedan från början med sammanfattningen. Rekursiva delagenter = dekomponerar uppgifter i mindre uppgifter för att hantera ändliga kontextfönster) Rekursiva delagenter kommer troligen alltid att vara användbara. Men snabb kompaktering verkar vara en lite ineffektiv (men mycket effektiv) hack. Det finns två andra alternativ jag känner till: 1. onlinefinjustering och 2. minnesbaserade tekniker. Onlinefinjustering: träna några LoRA-adaptrar på data som modellen stöter på under distributionen. Jag är generellt mindre optimistisk om detta. Förutom de tekniska utmaningarna med att distribuera anpassade modeller/adaptrar för varje användningsfall / användare finns det några grundläggande problem: - Onlinefinjustering är i grunden instabil. Om du tränar på data i måldomänen kan du katastrofalt förstöra kapaciteter som du inte riktar in dig på. Ett sätt att kringgå detta är att ha en blandad datamängd med både nya och gamla. Men det här blir ganska komplicerat ganska snabbt. - Hur ser datan ens ut för onlinefinjustering? Genererar du Q/A-par baserat på måldomänen för att träna modellen? Du har också problemet att prioritera information i datablandningen givet ändlig kapacitet. Minnesbaserade tekniker: i princip en policy för att behålla användbart minne och slänga det som inte behövs. Det känns mycket mer som hur människor behåller information: "använd den eller förlora den". Du behöver bara några få saker för att detta ska fungera: - En vräknings-/behållningspolicy. Något i stil med "behåll ett minne om det har blivit åtkommit minst en gång under de senaste 10 000 tokens". - Policyn måste vara effektivt beräknbar - En plats där modellen kan lagra och komma åt långtidsminnet. Kanske skulle en sparsamt använd KV-cache räcka. Men för effektiv åtkomst till ett stort minne kan en hierarkisk datastruktur vara bättre.

Topp

Rankning

Favoriter