ผมใช้ AI มาช่วยทำขั้นตอนการทำ Thumbnail แบบอัตโนมัติ และนี่คือสิ่งที่เกิดขึ้น

ผมเป็นนักพัฒนา Backend และยังทำช่อง YouTube สายเทคนิคด้วย เมื่อสัปดาห์ที่แล้ว ผมใช้เวลาถึง 4 ชั่วโมงไปกับการทำ Thumbnail เพียงรูปเดียว แต่มันกลับมีอัตราการคลิก (click-through rate) เพียง 2.4% เท่านั้น

ผมจึงตัดสินใจทดสอบทฤษฎีหนึ่งดู ว่า AI จะสามารถแทนที่กระบวนการออกแบบด้วยตัวเองได้ไหม? และเวิร์กโฟลว์แบบ text-to-thumbnail จะสามารถใช้งานได้จริงในกระบวนการผลิตคอนเทนต์หรือไม่?

ผมคิดผิดที่คิดว่ามันจะง่ายขนาดนั้น

ปัญหาที่ใหญ่ที่สุดคือเรื่อง Typography (การจัดวางตัวอักษร) ในการออกแบบ Thumbnail ข้อความต้องสามารถอ่านออกได้ภายในเวลาไม่ถึงครึ่งวินาที หากผู้ชมไม่สามารถอ่านหัวข้อของคุณได้บนหน้าจอมือถือขนาดเล็ก รูปนั้นก็ถือว่าล้มเหลว

ผมลองใช้ Prompt หลายแบบ แต่ผลลัพธ์ส่วนใหญ่คือหายนะ

  • AI เรนเดอร์คำว่า "FIX IT" ด้วยฟอนต์ที่ดูละลายจนอ่านไม่ออก
  • มันสะกดคำผิดเป็น "FIXX IT"
  • มันวางข้อความไว้ในตำแหน่งที่ตัวบอกเวลา (timestamp) ของ YouTube จะบังพอดี

ในฐานะนักพัฒนา ผมคาดหวังว่าเครื่องมือต่างๆ จะแจ้งข้อผิดพลาดออกมาอย่างชัดเจนเมื่อมันทำงานพลาด แต่ AI ทำงานพลาดต่างออกไป มันพลาดแบบเงียบๆ และสุ่มๆ ไม่มี Error Log บอกคุณ คุณแค่จะได้คำตอบที่ผิดในรูปแบบที่ต่างออกไปทุกครั้ง

ปัญหานี้อยู่ที่โครงสร้าง (Architecture) โมเดลสร้างรูปภาพไม่ใช่ Layout Engine พวกมันไม่เข้าใจเรื่อง Bounding Box หรือความชัดเจนในการอ่านข้อความ (Text legibility) พวกมันสร้างพิกเซลที่ดูเหมือนจะใช่ แต่ใช้งานจริงไม่ได้ผล

ผมได้ลองใช้ Thumbs.ai เพื่อดูว่าเครื่องมือเฉพาะทางจะช่วยแก้ปัญหานี้ได้ไหม มันถือเป็นก้าวที่พัฒนาขึ้นเพราะมันแยกพื้นหลังออกจากข้อความ ทำให้สามารถทำงานแบบแยกเลเยอร์ได้ อย่างไรก็ตาม การแนะนำฟอนต์แบบอัตโนมัติยังคงให้ความรู้สึกที่ไม่เข้ากับอารมณ์ของภาพ (Visual mood)

ผมต้องเปลี่ยนวิธีคิด (Mental model) ใหม่

เครื่องมือ Text-to-thumbnail ไม่ใช่ Build Pipeline แต่มันคือ Scaffolding Generator (เครื่องมือสร้างโครงร่าง) มันมีประโยชน์สำหรับการเริ่มต้น แต่ไม่สามารถสร้างงานที่พร้อมใช้งานจริง (Production-ready) ได้โดยไม่ต้องผ่านการตรวจสอบโดยมนุษย์

เวิร์กโฟลว์ที่ใช้งานได้จริงเป็นแบบนี้:

  • ใช้ AI สร้างภาพพื้นหลัง (Background plates) คุณภาพสูงที่ไม่มีข้อความ
  • นำภาพพื้นหลังเหล่านั้นเข้าโปรแกรมตัดต่อของคุณเอง
  • ใส่ข้อความ ฟอนต์ และเงาด้วยตัวเองแบบ Manual

วิธีนี้ใช้เวลาเพียง 4 นาที ซึ่งเร็วกว่าการไปหาซื้อภาพ Stock หรือการไดคัท (Masking) พื้นหลังที่ซับซ้อนมาก

สิ่งที่ผมค้นพบสำหรับเหล่า Creator:

  • AI ไม่ใช่สิ่งที่จะมาแทนที่การออกแบบ แต่มันคือวิธีในการสร้างวัตถุดิบ (Raw material)
  • การเรนเดอร์ข้อความในปัจจุบันยังไม่น่าเชื่อถือ ควรจัดการเรื่อง Typography ด้วยตัวเอง
  • คุณค่าที่แท้จริงอยู่ที่การสร้างพื้นหลังและการสำรวจแนวคิด (Concepts) ต่างๆ

AI สามารถเลียนแบบอารมณ์ของภาพได้ แต่ไม่สามารถลอกเลียนสูตรสำเร็จที่ใช้งานได้จริง มันแก้ปัญหาในส่วนที่ง่าย แต่ไม่ได้แก้ในส่วนที่ยาก

Source: https://dev.to/sophie_bella_5f438de0c1c3/i-tried-to-automate-my-thumbnail-pipeline-with-ai-at-3-am-heres-what-actually-happened-1be5