Většina týmů bere evaluaci jako tabuli skóre — číslo, na které mrknete a je vám dobře nebo zle. Pokročilá myšlenka je zapojit eval zpátky do systému jako vstup, který ho přepisuje: trace jdou nezávislým rozhodčím, fixy se navrhují automaticky a jeden člověk schvaluje. Je to AI až na dno, s jedinou bránou, která jí není.
Než bot dobře odpoví, musí vědět, jakému druhu otázky čelí. Vynechte ten krok a chitchat dostane databázový dotaz, „minulý měsíc" se pošle do SQL nepřeložený a každý požadavek jede touž hloupou cestou. Náprava je levný, rozhodný první tah: klasifikuj záměr, vytáhni entity, vyřeš čas.
Vaše znalostní báze je obrovská a kontextové okno modelu maličké. Trik není ve větším okně — je to tvar přesýpacích hodin: všechno zkomprimujte předem a pak rozbalte jen to, co konkrétní otázka opravdu potřebuje.
Zkomprimovali jste znalosti do čistých indexů. Teď přichází okamžik, na kterém vše visí: dokáže bot pro danou otázku skutečně najít tu hrstku tabulek, kterou potřebuje, mezi tisícem? Minout tu pravou a nic dál vás nezachrání — takže ve fázi vyhledávání poráží recall přesnost.
Psát vrstvu asociací ručně je správné pro prvních dvanáct tabulek. Neškáluje to na tisíc — ani na nové klientské schéma každý měsíc. Řešením je nechat model navrhnout slovník ze skutečných dat a pak ho nechat člověkem zkurátorovat.
Uživatel se ptá na „zaměstnance". Vaše databáze jim říká H_OSOBA. Žádný model tu propast nepřeklene sám. Řešením je nejmocnější a nejméně okázalý artefakt celého systému: živý slovník, který mapuje lidskou řeč na vaše schéma.
Vrstva asociací naučí bota váš slovník — „zaměstnanec" znamená tahle tabulka. Některé otázky ale nejsou o slovech; jsou o vztazích a business konceptech, které žádná jednotlivá tabulka nevysloví. Tam končí plochý slovník a začíná znalostní graf.
Dejte agentovi naprostou volnost a odběhne a úkol rozbije. Zavřete ho do strnulých if-else a nezvládne nic skutečného. Produkční ideál je pevná pipeline s ostrůvky autonomie — koleje, ze kterých nemůže sjet, a skutečná rozhodnutí uvnitř nich.
Bot, který se neučí z provozu, je zamrzlý na kvalitě ze dne spuštění — a kvalita ze spuštění je to nejhorší, jaká kdy má být. Rozdíl mezi botem, který zestárne, a tím, který se každý týden ostří, je zpětnovazební smyčka, jež z každé interakce dělá signál.
Dotaz, který proběhne bez chyby, může být stejně špatně. Náprava není chytřejší model — je to smyčka: vygeneruj, osahej data, nech rozhodčího posoudit, jestli odpověď dává smysl, a vracej konkrétní selhání, dokud nedává.
Smyčka rozhodčího je o tom mít pravdu. Tohle je o předcházející otázce: co dělá bot, když si není jistý? Ti nejhorší se přesto hrnou kupředu a odpoví. Dobrý má repertoár — zeptat se, zvolit default, hedgeovat, nebo předat — a ví, po kterém tahu sáhnout.
Většina toho, co agent dělá, je triviální. Vyřešit kód, namatchovat hodnotu, vytáhnout entitu — nic z toho nepotřebuje váš nejdražší model. Odložte vyhledávání, nudnou práci pošlete levným rychlým modelům a génia si nechte na to, co je opravdu těžké.
Nejlepší zákazníci pro datového bota — nemocnice, banky — jsou ti, kteří legálně nesmějí pustit data z domu. Tohle omezení formuje všechno: kde běží model, co smí dotazovací vrstva dělat a jak dokážete, že se celek chová.