ปัจจุบัน AI Agents สามารถทำงานฟรีแลนซ์ในระดับมืออาชีพได้สำเร็จถึง 16%

ภูมิทัศน์ของการทำงานทางไกลกำลังเปลี่ยนแปลงไปอย่างรวดเร็วอย่างน่าตกใจ เนื่องจาก AI agents แสดงให้เห็นถึงความสามารถที่เพิ่มขึ้นในการจัดการกับงานที่ซับซ้อนและมีมูลค่าเชิงพาณิชย์ ข้อมูลใหม่เผยให้เห็นว่าอัตราการทำงานอัตโนมัติสูงสุดสำหรับงานฟรีแลนซ์ระดับมืออาชีพนั้นเพิ่มขึ้นถึงสี่เท่าภายในเวลาไม่ถึงแปดเดือน

การเติบโตอย่างรวดเร็วของ Remote Labor Index

Remote Labor Index (RLI) ซึ่งเป็นเกณฑ์มาตรฐานที่พัฒนาโดย Center for AI Safety (CAIS) ร่วมกับ Scale Labs ทำหน้าที่ติดตามความถี่ที่ AI agents สามารถทำงานโปรเจกต์ฟรีแลนซ์แบบได้รับค่าตอบแทนได้สำเร็จในระดับคุณภาพที่ลูกค้าผู้ว่าจ้างยอมรับได้ RLI แตกต่างจากเกณฑ์มาตรฐานการสร้างข้อความทั่วไป โดยจะมุ่งเน้นไปที่โดเมนที่มีความสำคัญสูง ได้แก่ 3D/CAD, สถาปัตยกรรม, กราฟิกดีไซน์, วิดีโอแอนิเมชัน, วิศวกรรมเสียง และการพัฒนาเว็บแอปพลิเคชัน

การศึกษานี้ได้วิเคราะห์โปรเจกต์จำนวน 240 รายการ ซึ่งมีมูลค่ารวม 144,000 ดอลลาร์สหรัฐ โดยรวบรวมมาจากฟรีแลนซ์ที่ผ่านการตรวจสอบแล้ว 358 ราย ผลลัพธ์แสดงให้เห็นถึงความก้าวหน้าของความสามารถอย่างมหาศาล: เมื่อเพียงแปดเดือนก่อน อัตราการทำงานอัตโนมัติสูงสุดอยู่ที่เพียง 2.5 เปอร์เซ็นต์ แต่ในปัจจุบัน ตัวเลขดังกล่าวได้พุ่งสูงขึ้นถึง 16.1 เปอร์เซ็นต์

Fable 5 ผู้นำในพรมแดนใหม่แห่งการทำงานอัตโนมัติ

ผลลัพธ์ RLI ล่าสุดชี้ให้เห็นถึงการก้าวกระโดดอย่างมีนัยสำคัญของประสิทธิภาพโมเดล โดยมี Fable 5 ก้าวขึ้นมาเป็นผู้นำในปัจจุบัน Fable 5 ทำอัตราการทำงานอัตโนมัติได้ถึง 16.1 เปอร์เซ็นต์ ซึ่งมากกว่าประสิทธิภาพของคู่แข่งที่ใกล้เคียงที่สุดอย่าง Opus 4.8 (ซึ่งทำได้ 8.3 เปอร์เซ็นต์) ถึงสองเท่า ส่วนผู้เล่นที่โดดเด่นรายอื่น ได้แก่ GPT-5.5 ซึ่งทำได้ 6.3 เปอร์เซ็นต์

ความก้าวหน้าอย่างรวดเร็วนี้ตอกย้ำถึงความสามารถที่เพิ่มขึ้นอย่างต่อเนื่องของเวิร์กโฟลว์แบบเอเจนต์เฉพาะทาง (specialized agentic workflows) เพื่อให้บรรลุผลลัพธ์เหล่านี้ สภาพแวดล้อมการทดสอบจึงใช้เครื่อง Linux เสมือนที่ติดตั้งแอปพลิเคชันระดับมืออาชีพมากกว่า 30 รายการ เช่น Blender, GIMP และ Audacity โดยเอเจนต์จะได้รับเวลาในการประมวลผลสูงสุด 24 ชั่วโมงต่อหนึ่งโปรเจกต์ และใช้ระบบ "critic loop" ซึ่งเป็น AI agent ตัวที่สองที่ทำหน้าที่ตรวจสอบและสั่งให้มีการแก้ไขงาน เพื่อเลียนแบบลักษณะการสั่งงานที่เข้มงวดของลูกค้าที่เป็นมนุษย์

ข้อจำกัดของ AI Judges และซอฟต์แวร์ระดับมืออาชีพ

แม้จะมีความก้าวหน้าเหล่านี้ แต่รายงานก็ได้ชี้ให้เห็นถึงคอขวดที่สำคัญ นั่นคือ AI agents ยังคงประสบปัญหาใน "ช่วงสุดท้าย" (last mile) ของความแม่นยำระดับมืออาชีพ ตัวอย่างเช่น ในงานด้านสถาปัตยกรรม พบว่า GPT-5.5 สามารถสร้างภาพเรนเดอร์ที่สวยงามได้ แต่โครงสร้างเรขาคณิต 3D พื้นฐานกลับยังคงมีความผิดพลาดอย่างมาก

ข้อค้นพบที่สำคัญของการศึกษานี้คือ AI judges ยังไม่สามารถแทนที่ผู้ประเมินที่เป็นมนุษย์ได้ จากการทดสอบพบว่า AI judges มีความใจดี (lenient) มากเกินไป โดยในกรณีของ GPT-5.5 คะแนนจาก AI evaluator นั้นสูงกว่าคุณภาพที่ผ่านการตรวจสอบโดยมนุษย์จริงเกือบสามเท่า ความคลาดเคลื่อนนี้เกิดขึ้นเนื่องจากการตัดสินงานระดับมืออาชีพอย่างแท้จริงนั้นต้องอาศัยความสามารถในการโต้ตอบเชิงลึกกับซอฟต์แวร์เฉพาะทาง ซึ่งเป็นด้านที่ AI agents ในปัจจุบันยังคงเผชิญกับอุปสรรคสำคัญ

ในขณะที่เอเจนต์กำลังเปลี่ยนผ่านจากการใช้งานผ่านอินเทอร์เฟซแชทแบบง่ายๆ ไปสู่การควบคุมโปรแกรมกราฟิกที่ซับซ้อน อุตสาหกรรมกำลังเผชิญกับการเปลี่ยนแปลงขั้นพื้นฐานในวิธีที่ "งาน" ถูกนิยามและดำเนินการในระบบเศรษฐกิจดิจิทัล

สรุปประเด็นสำคัญ

  • การเติบโตแบบก้าวกระโดด: อัตราการทำงานอัตโนมัติสูงสุดสำหรับงานฟรีแลนซ์ระดับมืออาชีพพุ่งจาก 2.5% เป็น 16.1% ในเวลาไม่ถึงแปดเดือน
  • ความเป็นผู้นำของโมเดล: ปัจจุบัน Fable 5 เป็นผู้นำในอุตสาหกรรมด้วยอัตราการทำงานอัตโนมัติ 16.1% ซึ่งมีประสิทธิภาพเหนือกว่า Opus 4.8 (8.3%) และ GPT-5.5 (6.3%) อย่างมีนัยสำคัญ
  • ความจำเป็นของมนุษย์: ผู้ประเมินที่เป็นมนุษย์ยังคงมีความสำคัญ เนื่องจาก AI judges มักจะให้คะแนนที่ใจดีเกินไปและขาดความสามารถในการตรวจพบข้อผิดพลาดทางโครงสร้างในไฟล์ซอฟต์แวร์เฉพาะทาง