อาจระดมทุนได้ 9 ล้านดอลลาร์ เพื่อแก้ปัญหาอาการหลอนของ LLM ด้วยวิศวกรรมที่มีความแม่นยำสูง

📅3 hours ago⏱3 min read

In this article

Probably ระดมทุนได้ 9 ล้านดอลลาร์ เพื่อต่อสู้กับปัญหาการหลอนของ LLM ด้วยวิศวกรรมที่มีความแม่นยำสูง

ในขณะที่ Large Language Models (LLMs) ถูกนำมาใช้ในกระบวนการทำงานระดับมืออาชีพมากขึ้นเรื่อยๆ อุตสาหกรรมนี้ก็ต้องเผชิญกับอุปสรรคที่เกิดขึ้นอย่างต่อเนื่อง นั่นคือแนวโน้มที่แม้แต่โมเดลที่ล้ำสมัยที่สุดก็ยังเกิดอาการ "หลอน" (hallucinate) สตาร์ทอัพชื่อ Probably กำลังเผชิญหน้ากับความท้าทายนี้โดยตรง โดยสามารถระดมทุนระดับ Seed ได้ถึง 9 ล้านดอลลาร์ นำโดย Andreessen Horowitz เพื่อสร้างแนวทางที่เข้มงวดและมีความแน่นอน (deterministic) มากขึ้นในการสร้างความน่าเชื่อถือให้กับ AI

มุ่งสู่ความแม่นยำระดับ 99.99%

ภารกิจหลักของ Probably ภายใต้การนำของ Peter Elias ผู้ก่อตั้ง คือการลดช่องว่างระหว่างธรรมชาติที่มีความน่าจะเป็น (probabilistic) ของ LLM กับมาตรฐานความแม่นยำระดับ 99.99% ที่คาดหวังจากระบบที่มีความแน่นอน (deterministic) ในสภาพแวดล้อมที่มีความเสี่ยงสูง ข้อผิดพลาดทางข้อเท็จจริงเพียงจุดเดียวอาจทำให้เครื่องมือ AI ไร้ประโยชน์ เพื่อแก้ปัญหานี้ Probably จึงกำลังเปลี่ยนแนวคิดจากเดิมที่มองว่าความแม่นยำเป็นเพียงผลลัพธ์จากขนาดของโมเดลเท่านั้น และหันมาให้ความสำคัญกับ "harness engineering" แทน

ผลิตภัณฑ์เรือธงของบริษัทคือเครื่องมือด้านวิทยาศาสตร์ข้อมูล (data science) ที่ออกแบบมาเพื่อดึงข้อมูลเชิงลึกจากชุดข้อมูลที่ซับซ้อน ต่างจากแชทบอททั่วไปที่เน้นการตอบโต้แบบสนทนา เครื่องมือของ Probably จะให้คำตอบพร้อมกับการอ้างอิงที่เฉพาะเจาะจงและร่องรอยการตรวจสอบ (audit trail) ที่โปร่งใส ช่วยให้ผู้ใช้สามารถตรวจสอบตรรกะเบื้องหลังทุกผลลัพธ์ได้

สถาปัตยกรรม "Data Science Mech Suit"

แทนที่จะพึ่งพาเพียงความสามารถในการใช้เหตุผลของโมเดลขนาดมหึมา Probably ใช้สิ่งที่ Elias เรียกว่า "data science mech suit" สถาปัตยกรรมนี้ทำหน้าที่เป็นระบบควบคุม (harness system) ที่ซับซ้อน โดยผลลัพธ์เริ่มต้นของ LLM จะถูกตรวจสอบทันทีโดยตัวตรวจสอบที่มีความแน่นอน (deterministic validator)

หาก LLM ให้ผลลัพธ์ที่ไม่สอดคล้องกับชุดข้อมูลพื้นฐานอย่างสมบูรณ์ ตัวตรวจสอบจะปฏิเสธผลลัพธ์นั้น สิ่งสำคัญคือ LLM จะถูกฝึกฝนมาเพื่อรับมือกับตัวตรวจสอบนี้โดยเฉพาะ ทำให้เกิดระบบแบบวงจรปิด (closed-loop system) ที่ปรับแต่งมาเพื่อความเร็วและความถูกต้องของข้อเท็จจริง แนวทางนี้ดำเนินตามหลักการพื้นฐานที่ว่า การปรับปรุงบริบทและลดความคลุมเครือผ่านกระบวนการทางวิศวกรรม จะช่วยบังคับให้โมเดล "ทำในสิ่งที่ถูกต้อง" ได้โดยไม่จำเป็นต้องใช้พลังการประมวลผลมหาศาล (brute force)

ประสิทธิภาพผ่านโมเดลขนาดเล็กและแบบ Local

หนึ่งในนัยสำคัญทางเทคนิคที่สำคัญที่สุดของแนวทางของ Probably คือความสามารถในการใช้โมเดลที่มีขนาดเล็กกว่าและมีประสิทธิภาพมากกว่า เนื่องจาก "mech suit" จะรับหน้าที่หนักในการตรวจสอบและการปรับปรุงบริบท ระบบจึงสามารถทำงานบนโมเดลที่ "อ่อนแอกว่าโมเดลระดับแนวหน้า (frontier models) ถึงสี่ระดับ"

การเปลี่ยนแปลงนี้ส่งผลดีอย่างมหาศาลทั้งในด้านเศรษฐกิจและการดำเนินงาน:

ลดต้นทุน Token: โมเดลที่มีขนาดเล็กลงช่วยลดต้นทุนต่อการสอบถาม (per-query cost) ลงได้อย่างมาก ซึ่งเป็นปัจจัยสำคัญในขณะที่องค์กรต่างๆ กำลังมองหาวิธีเพิ่มประสิทธิภาพงบประมาณด้าน AI
การประมวลผลในเครื่อง (Local Execution): โมเดลที่มีน้ำหนักเบาเหล่านี้สามารถรันบนฮาร์ดแวร์ในเครื่องได้ เช่น คอมพิวเตอร์ตั้งโต๊ะ แทนที่จะต้องพึ่งพาการเชื่อมต่อกับศูนย์ข้อมูลที่มีราคาแพงและมีความหน่วงสูง (high-latency)
ความสามารถในการขยายตัว (Scalability): เอนจินนี้ถูกออกแบบมาให้สามารถขยายขอบเขตการใช้งานได้มากกว่าแค่ด้านวิทยาศาสตร์ข้อมูล ไปสู่ภาคส่วนที่ต้องการความแม่นยำสูง เช่น การบัญชีและบริการทางการแพทย์

การท้าทายโมเดลแรงจูงใจของห้องแล็บ AI ยักษ์ใหญ่

Elias ชี้ให้เห็นถึงความไม่สอดคล้องเชิงโครงสร้างในภูมิทัศน์ของ AI ในปัจจุบัน กล่าวคือ ห้องแล็บ AI รายใหญ่มีแรงจูงใจในการสร้างโมเดลขนาดมหึมาที่ใช้งานได้ทั่วไป ซึ่งมักต้องการการแก้ไขจากผู้ใช้บ่อยครั้ง เนื่องจากห้องแล็บเหล่านี้มักคิดค่าบริการตามการใช้งาน Token ดังนั้น ข้อผิดพลาดที่มากขึ้นและการสอบถามเพิ่มเติมที่มากขึ้นจึงอาจเป็นการเพิ่มรายได้ การมุ่งเน้นไปที่ความแม่นยำและการ "ลดความคลุมเครือ" (reducing ambiguity) ผ่านทางวิศวกรรมแทนที่จะเป็นเรื่องของขนาด ทำให้ Probably กำลังสร้างพื้นที่เฉพาะ (niche) สำหรับแอปพลิเคชัน AI ที่มีความสำคัญระดับวิกฤต (mission-critical) ซึ่งความน่าเชื่อถือคือตัวชี้วัดเพียงอย่างเดียวที่สำคัญ

สรุปประเด็นสำคัญ

การตรวจสอบแบบ Deterministic (Deterministic Validation): Probably ใช้สถาปัตยกรรมแบบ "mech suit" เพื่อตรวจสอบผลลัพธ์ของ LLM กับตัวตรวจสอบแบบ deterministic โดยตั้งเป้าความแม่นยำไว้ที่ 99.99%
วิศวกรรมที่คุ้มค่า: ด้วยการลดความคลุมเครือผ่านการทำ context engineering ที่ดีขึ้น ระบบจึงสามารถรันบนโมเดลที่มีขนาดเล็กกว่าและราคาถูกกว่ามาก ซึ่งสามารถทำงานบนฮาร์ดแวร์ในเครื่องได้
เน้นความแม่นยำเป็นอันดับแรก: เทคโนโลยีนี้ถูกออกแบบมาเพื่อนำ AI เข้าสู่กลุ่มอุตสาหกรรมที่มีความเสี่ยงสูงและต้องการความแม่นยำสูง เช่น การแพทย์และการเงิน ซึ่งการเกิดอาการหลอน (hallucinations) เป็นเรื่องที่ไม่สามารถยอมรับได้

อาจระดมทุนได้ 9 ล้านดอลลาร์ เพื่อแก้ปัญหาอาการหลอนของ LLM ด้วยวิศวกรรมที่มีความแม่นยำสูง

Probably ระดมทุนได้ 9 ล้านดอลลาร์ เพื่อต่อสู้กับปัญหาการหลอนของ LLM ด้วยวิศวกรรมที่มีความแม่นยำสูง

มุ่งสู่ความแม่นยำระดับ 99.99%

สถาปัตยกรรม "Data Science Mech Suit"

ประสิทธิภาพผ่านโมเดลขนาดเล็กและแบบ Local

การท้าทายโมเดลแรงจูงใจของห้องแล็บ AI ยักษ์ใหญ่

สรุปประเด็นสำคัญ

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

AI Red Teaming: การรักษาความปลอดภัยให้กับโมเดลภาษาขนาดใหญ่จากความเสี่ยงจากการโจมตี

𝗠𝗔 𝗣𝗿𝗼𝗼𝗳𝗕𝗲𝗻𝗰𝗵: 𝗚𝗣𝗧 𝟱.𝟱 𝗛𝗶𝘁𝘀 𝟭𝟲% 𝗼𝗻 𝗠𝗮𝘁𝗵 𝗔𝗻𝗮𝗹𝘆𝘀𝗶𝘀

มุ่งสู่การให้บริการ LLM อย่างมีประสิทธิภาพ