Ваша LLM була правою, але чи була вона правою з правильної причини?
Я створив бенчмарк, щоб перевірити, чи може LLM інтерпретувати клінічні генетичні варіанти.
Початкові результати виглядали невтішно. Точність моделі становила 60 відсотків. Я мало не зробив висновок, що модель посередня і непридатна для використання.
Я помилявся.
Справжнє розуміння прийшло лише тоді, коли я перестав вимірювати точність і почав вимірювати безпеку.
У клінічній генетиці неправильна відповідь може бути небезпечною. Існує два типи помилок:
- Безпечна відмова: модель каже «невизначено», коли істина є однозначною. Це безпечно, оскільки людина проведе розслідування.
- Впевнена помилка: модель робить протилежний висновок (наприклад, називає варіант, що викликає захворювання, «доброякісним»). Це небезпечний провал.
Мій бенчмарк показав, що модель не припустилася жодної впевненої помилки. Вона ніколи не робила небезпечних помилок. Вона просто вирішувала мовчати, коли їй бракувало достатніх доказів.
Коли я використовував просту метрику точності, я позначив безпечну, добре калібровану модель як невдалу. Проблема була в моїй метриці, а не в моделі.
Якщо ви створюєте бенчмарки для сфер з високими ставками, таких як медицина, право або фінанси, дотримуйтесь цих правил:
- Відокремлюйте безпечні помилки від небезпечних. Ніколи не ставте чесне «я не знаю» в один ряд із впевненою брехнею.
- Аудитуйте логіку роздумів. Сама по собі точність не показує, чи вигадує модель докази, чи слідує логіці.
- Використовуйте лише реальні докази. Не впроваджуйте фейкові дані у свої тести. Якщо ваша оцінка базується на підроблених даних, ви не зможете перевірити, чи галюцинує модель.
- Калібруйте власний аналіз. Малі вибірки можуть вводити в оману. Не публікуйте результати, поки не перевірите їх на більших масивах даних.
У сферах з високими ставками модель, яка знає, коли варто зупинитися, є ціннішою за модель, яка лише вгадує.
Код доступний на GitHub: gbadedata/clinvar-interpretation-benchmark.
Повний пост: https://dev.to/gbadedata/your-llm-got-the-variant-right-but-did-it-get-it-right-for-the-right-reason-1oc3
Опціональна спільнота для навчання: https://t.me/GyaanSetuAi