𝗟𝗟𝗠-𝗔𝘀-𝗝𝘂𝗱𝗴𝗲 𝗥𝗲𝗹𝗶𝗮𝗯𝗶𝗹𝗶𝘁𝘆 𝗶𝗻 𝟮𝟬𝟮𝟲

ปัจจุบัน LLM-as-Judge เป็นกลไกหลักที่ขับเคลื่อนตารางจัดอันดับ (leaderboards) และการประเมินผลส่วนใหญ่ แต่ผลการศึกษาใหม่ 8 ฉบับจากเดือนมิถุนายน 2026 กลับเผยให้เห็นปัญหาหนึ่ง นั่นคือผู้ตัดสินเหล่านี้มักจะให้ผลลัพธ์ที่ไม่ตรงกันเองในอัตราที่พอๆ กับการโยนเหรียญหัวก้อย

หากคุณพึ่งพาการตัดสินเพียงครั้งเดียว สิ่งที่คุณเห็นอาจเป็นเพียงสัญญาณรบกวน (noise)

ข้อค้นพบสำคัญจากงานวิจัยล่าสุด:

สิ่งที่คุณควรทำ:

เลิกถามว่าผู้ตัดสินตัวไหนได้คะแนนสูงสุด แต่ให้ถามว่าเครื่องมือตัดสินตัวไหนที่ช่วยให้คุณตรวจสอบผลลัพธ์เทียบกับป้ายกำกับโดยมนุษย์จริงๆ ได้ง่ายที่สุด

Source: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca

Optional learning community: https://t.me/GyaanSetuAi