Tathmini ya Ubora wa Matokeo ya LLM Katika Uzalishaji

Mnamo Machi 2023, GPT-4 ilitambua namba tasa (prime numbers) kwa usahihi wa 97.6%. Kufikia Juni 2023, modeli hiyo hiyo ilishuka hadi usahihi wa 2.4%. Hakuna aliyebadilisha kodi. Hakuna aliyebadilisha prompt. Modeli ilibadilika tu.

Hili ndilo tatizo kuu la LLM katika uzalishaji (production). Huwezi kuidhibiti modeli. Ni utegemezi (dependency) inayobadilika (drifts). Usipopima, watumiaji wako watakuambia kuwa imeharibika.

Huwezi kutegemea hisia tu au "inaonekana vizuri kwangu." Unahitaji ishara zinazoweza kurudiwa (repeatable signals).

Programu za jadi ni za kiamri (deterministic). Kichocheo (input) kilekile huleta matokeo (output) kilekile. LLM zinavunja sheria hii. Hazina utaratibu maalum (non-deterministic) na "usahihi" mara nyingi huwa usio wazi.

Ili kudhibiti hili, unahitaji tabaka tatu za tathmini:

  • Offline evals: Endesha seti ya majaribio iliyofungwa kwenye kila mabadiliko ili kukamata upungufu wa utendaji (regressions).
  • Ukaguzi usiohitaji rejea (Reference-free checks): Tumia ishara kama utambuzi wa udanganyifu (hallucination detection) wakati huna jibu "sahihi".
  • Ufuatiliaji wa uzalishaji (Production monitoring): Angalia trafiki halisi kwa ajili ya mabadiliko (drift) na kushuka kwa ubora.

Msingi ni Golden Dataset. Usitumie sampuli za nasibu. Tumia seti iliyochujwa ya matukio magumu. Tumia input tupu, matukio ya kipekee (edge cases), na prompt za mashambulizi (adversarial prompts). Mifano 80 iliyochujwa vizuri ni bora kuliko 8,000 za nasibu.

Unapotumia LLM kama jaji, zingatia upendeleo (biases) huu:

  • Upendeleo wa nafasi (Position bias): Majaji mara nyingi hupendelea jibu la kwanza wanaloona. Rekebisha hili kwa kufanya ulinganishi katika mfuatano wote miwili.
  • Upendeleo wa maneno mengi (Verbosity bias): Majaji huwapa zawadi majibu marefu hata kama hayako wazi.
  • Upendeleo wa kujisifu (Self-enhancement bias): Modeli hupendelea maandishi kutoka familia yao wenyewe. Tumia familia tofauti za modeli ili kuhukumu matokeo.

Kwa ufuatiliaji wa wakati halisi, tumia RAG Triad kukagua:

  • Uaminifu (Faithfulness): Je, jibu linashikilia muktadha (context)?
  • Uhusiano wa jibu (Answer relevance): Je, linajibu swali?
  • Uhusiano wa muktadha (Context relevance): Je, mfumo ulipata nyaraka sahihi?

Acha kuchukulia ubora wa modeli kama sifa isiyobadilika. Ichukulie kama latency au viwango vya makosa. Inabadilika. Kazi yako ni kugundua wakati inapoacha kuwa nzuri.

Anza kidogo. Andika mifano 20 ya dhahabu (golden examples). Itumie kuzuia au kuidhinisha (gate) uwekaji wako wa programu (deploys). Ongeza kanuni rahisi za uzalishaji (production heuristics) baadaye.

Timu zinazolala vizuri si zile zenye modeli janja zaidi. Ni zile zinazojua ndani ya saa moja ikiwa modeli yao inakuwa mjinga zaidi.

Chanzo: https://dev.to/nazar_boyko/evaluating-llm-output-quality-in-production-39an

Jumuiya ya kujifunza ya hiari: https://t.me/GyaanSetuAi