𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻 𝗝𝗮𝗰𝗼𝗯𝗶 𝗧𝗵𝗲𝗼𝗿𝘆 𝗟𝗶𝗻𝗸𝘀 𝗡𝗲𝘂𝗿𝗮𝗹 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲𝘀

Translated for your language. Read the original.

AI-assisted draft.

4 วันที่ผ่านมา1min read

ทฤษฎี Hamilton-Jacobi เชื่อมโยงสถาปัตยกรรมโครงข่ายประสาท (Neural Architectures)

โครงข่ายประสาท (Neural networks) มักจะให้ความรู้สึกเหมือนเป็นเพียงการรวบรวมเทคนิคต่างๆ ที่แยกจากกัน

ResNets ใช้ skip connections, Transformers ใช้ attention และ RNNs ใช้ recurrence แต่ละโมเดลมีกฎและคณิตศาสตร์เป็นของตัวเอง ซึ่งทำให้ยากที่จะมองเห็นภาพรวมที่ใหญ่กว่านั้น

งานวิจัยใหม่กำลังเปลี่ยนสิ่งนี้ โดยแสดงให้เห็นว่า ResNets, Transformers และ RNNs แท้จริงแล้วคือวัตถุทางคณิตศาสตร์ชนิดเดียวกัน และทั้งหมดล้วนเป็นไปตามสมการ Hamilton-Jacobi

นี่คือหลักการทำงาน:

Gradient descent คือวิวัฒนาการทางฟิสิกส์รูปแบบหนึ่ง
ในแต่ละขั้นตอนการฝึกฝน ค่าน้ำหนัก (weights) จะเคลื่อนที่ราวกับของไหล
ความลึก (depth), attention และ recurrence ทำหน้าที่เหมือนขั้นตอนของเวลา (time steps) ในการคำนวณ
พารามิเตอร์เพียงตัวเดียวสามารถควบคุมความราบเรียบ (smoothness) หรือความเบาบาง (sparsity) ของโมเดลได้

ทฤษฎีนี้เชื่อมโยงสี่สาขาที่แตกต่างกันเข้าด้วยกัน: โครงข่ายประสาท (neural networks), พีชคณิตเขตร้อน (tropical algebra), สมการเชิงอนุพันธ์ย่อย (PDEs) และการหาค่าที่เหมาะสมที่สุดแบบนูน (convex optimization)

เรื่องนี้สำคัญกับคุณอย่างไร?

เกณฑ์มาตรฐาน (benchmarks) ในปัจจุบันมักมุ่งเน้นไปที่ความแม่นยำ (accuracy) เป็นหลัก แต่กรอบแนวคิดนี้เสนอวิธีการสร้างโมเดลแบบใหม่ แทนที่จะเพียงแค่เพิ่มเลเยอร์ คุณสามารถปรับจูนคณิตศาสตร์เพื่อสร้างสมดุลระหว่างความราบเรียบและความเสถียรได้

ทฤษฎีนี้ยังทำนายได้ว่าโมเดลจะสามารถนำไปประยุกต์ใช้กับข้อมูลใหม่ (generalize) ได้ดีเพียงใด โดยเชื่อมโยงปริมาณข้อมูลที่คุณต้องการเข้ากับคณิตศาสตร์เฉพาะทางที่ใช้ในสถาปัตยกรรมของคุณ

ยังคงมีช่องว่างอยู่บ้าง โมเดลส่วนใหญ่ใช้ ReLU แต่คณิตศาสตร์นี้จะทำงานได้ดีที่สุดกับเลเยอร์แบบ log-sum-exp นอกจากนี้ เรายังต้องการการทดสอบในโลกความเป็นจริงเพิ่มเติม เพื่อดูว่ากฎทางฟิสิกส์เหล่านี้จะช่วยเพิ่มประสิทธิภาพได้จริงหรือไม่

เราควรเลิกมองสถาปัตยกรรมว่าเป็นเพียงเลเยอร์ประเภทต่างๆ แต่ควรเปลี่ยนมามองว่าพวกมันคือวิธีการที่แตกต่างกันในการแก้สมการเดียวกัน

Source: https://dev.to/olaughter/hamilton-jacobi-view-links-major-neural-architectures-5hln

Optional learning community: https://t.me/GyaanSetuAi

𝗛𝗮𝗺𝗶𝗹𝘁𝗼𝗻 𝗝𝗮𝗰𝗼𝗯𝗶 𝗧𝗵𝗲𝗼𝗿𝘆 𝗟𝗶𝗻𝗸𝘀 𝗡𝗲𝘂𝗿𝗮𝗹 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲𝘀

Continue reading

𝗧𝗵𝗲 𝗦𝗵𝗮𝗽𝗲 𝗼𝗳 𝗮 𝗡𝗲𝘂𝗿𝗼𝗻

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

𝗛𝗲𝘁𝗲𝗿𝗼𝗴𝗲𝗻𝗲𝗼𝘂𝘀 𝗜𝗻𝗳𝗼𝗿𝗺𝗮𝘁𝗶𝗼𝗻 𝗡𝗲𝘁𝘄𝗼𝗿𝗸 𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴

ทำไมการให้ข้อมูลป้อนกลับแบบมีโครงสร้างจึงมีความสำคัญในการฝึกฝน AI

𝗡 𝗕𝗼𝗱𝘆 𝗡𝗲𝘁𝘄𝗼𝗿𝗸𝘀 𝗟𝗲𝗮𝗿𝗻 𝗔𝘁𝗼𝗺𝗶𝗰 𝗣𝗼𝘁𝗲𝗻𝘁𝗶𝗮𝗹𝘀