𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?

Translated for your language. Read the original.

AI-assisted draft.

saa 4 zilizopita2min read

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗜𝗹𝗶𝗸𝘂𝘄𝗮 𝗦𝗮𝗵𝗶𝗵𝗶, 𝗟𝗮𝗸𝗶𝗻𝗶 𝗝𝗲, 𝗜𝗹𝗶𝗸𝘂𝘄𝗮 𝗦𝗮𝗵𝗶𝗵𝗶 Kwa 𝗦𝗮𝗯𝗮𝗯𝘂 𝗦𝗮𝗵𝗶𝗵𝗶?

Nilijenga kipimo (benchmark) ili kuona kama LLM inaweza kutafsiri mabadiliko ya kijenetiki ya kliniki (clinical genetic variants).

Matokeo ya awali yalionekana kuwa mabaya. Modeli ilipata usahihi wa asilimia 60. Karibu nikahitimisha kuwa modeli hiyo ilikuwa ya wastani na haifai kutumika.

Nilikuwa nimekosea.

Ufahamu wa kweli ulitokea tu nilipoacha kupima usahihi na kuanza kupima usalama.

Katika jenetiki ya kliniki, jibu lisilo sahihi linaweza kuwa hatari. Kuna aina mbili za makosa:

Kujizuia kwa usalama (Safe abstention): Modeli inasema "haina uhakika" wakati ukweli ni jibu la uhakika. Hii ni salama kwa sababu binadamu atachunguza.
Kosa la uhakika (Confident error): Modeli inatoa jibu kinyume (kwa mfano, kuita mabadiliko yanayosababisha ugonjwa kuwa "benign"). Hili ni kushindwa kwa hatari.

Kipimo changu kilionyesha kuwa modeli hiyo haikuwa na makosa yoyote ya uhakika. Haikufanya kosa lolote la hatari. Ilichagua tu kukaa kimya ilipokuwa haina ushahidi wa kutosha.

Nilipotumia kipimo rahisi cha usahihi, nilitaja modeli salama na iliyopimwa vizuri kama imefeli. Kipimo changu ndicho kilikuwa tatizo, si modeli.

Ikiwa unajenga vipimo kwa ajili ya nyanja zenye hatari kubwa kama vile tiba, sheria, au fedha, fuata sheria hizi:

Tenganisha kushindwa kwa usalama kutoka kwa kule kushindwa kwa hatari. Usiweke kamwe "Sijui" ya uaminifu katika kundi moja na uongo wa uhakika.
Kagua mantiki. Usahihi pekee hauonyeshi ikiwa modeli inatunga ushahidi au inafuata mantiki.
Weka ushahidi wako uwe halisi. Usiingize data za uongo kwenye majaribio yako. Ikiwa tathmini yako inatumia data za uongo, huwezi kupima ikiwa modeli inatunga mambo (hallucinates).
Rekebisha uchambuzi wako mwenyewe. Sampuli ndogo zinaweza kudanganya. Usichapishwe matokeo kabla ya kuyathibitisha kwa data kubwa zaidi.

Katika nyanja zenye hatari kubwa, modeli inayojua wakati wa kuacha ina thamani zaidi kuliko modeli inayokisia.

Kanuni (code) ipo kwenye GitHub: gbadedata/clinvar-interpretation-benchmark.

Makala kamili: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3

Jumuiya ya kujifunza ya hiari: https://t.me/GyaanSetuAi

𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗪𝗮𝘀 𝗥𝗶𝗴𝗵𝘁, 𝗕𝘂𝘁 𝗪𝗮𝘀 𝗜𝘁 𝗥𝗶𝗴𝗵𝘁 𝗳𝗼𝗿 𝘁𝗵𝗲 𝗥𝗶𝗴𝗵𝘁 𝗥𝗲𝗮𝘀𝗼𝗻?

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗔𝗹𝗶𝗴𝗻𝗺𝗲𝗻𝘁 𝗙𝗮𝗸𝗶𝗻𝗴 𝗜𝗻 𝗟𝗟𝗠𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗟𝗟𝗠 𝗩𝘂𝗹𝗻𝗲𝗿𝗮𝗯𝗶𝗹𝗶𝘁𝗶𝗲𝘀 𝟭𝟬𝟭

𝗤𝘄𝗲𝗻 𝟮.𝟱 𝟳𝗕 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲 𝗜𝘀 𝗨𝗻𝗿𝗲𝗹𝗶𝗮𝗯𝗹𝗲