LLM Quadratic Bottleneck ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ Subquadratic ਦਾ ਵੱਡਾ ਦਾਅਵਾ
AI ਉਦਯੋਗ ਮਿਆਮੀ-ਅਧਾਰਿਤ ਸਟਾਰਟਅੱਪ Subquadratic ਬਾਰੇ ਚਰਚਾ ਕਰ ਰਿਹਾ ਹੈ, ਜਿਸ ਨੇ ਦਾਅਵਾ ਕੀਤਾ ਹੈ ਕਿ ਉਸਨੇ ਇੱਕ ਅਜਿਹੀ ਗਣਿਤਕ ਸੀਮਾ ਨੂੰ ਹੱਲ ਕਰ ਲਿਆ ਹੈ ਜਿਸ ਨੇ ਲਗਭਗ ਇੱਕ ਦਹਾਕੇ ਤੋਂ Large Language Models (LLMs) ਨੂੰ ਸੀਮਤ ਕੀਤਾ ਹੋਇਆ ਹੈ। ਹਾਲਾਂਕਿ ਸ਼ੁਰੂਆਤੀ ਸ਼ੱਕ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸੀ, ਪਰ ਹਾਲ ਹੀ ਵਿੱਚ ਹੋਈ ਸੁਤੰਤਰ ਪੁਸ਼ਟੀ ਤੋਂ ਸੰਕੇਤ ਮਿਲਦਾ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਨਵਾਂ "SubQ" ਆਰਕੀਟੈਕਚਰ generative AI ਦੇ ਪੈਰਾਡਾਈਮ ਨੂੰ ਬੁਨਿਆਦੀ ਰੂਪ ਵਿੱਚ ਬਦਲ ਸਕਦਾ ਹੈ।
ਸਮੱਸਿਆ: Dense Attention ਦੀ Quadratic ਲਾਗਤ
Subquadratic ਦੇ ਦਾਅਵੇ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਸਮਝਣ ਲਈ, 2017 ਵਿੱਚ Google ਦੁਆਰਾ ਪੇਸ਼ ਕੀਤੇ ਗਏ "Transformer" ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਸਮਝਣਾ ਜ਼ਰੂਰੀ ਹੈ। ਜ਼ਿਆਦਾਤਰ ਆਧੁਨਿਕ LLMs dense attention ਨਾਮਕ ਇੱਕ ਵਿਧੀ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ, ਸੰਦਰਭ (context) ਨੂੰ ਸਮਝਣ ਲਈ ਇੱਕ ਲੜੀ ਵਿੱਚ ਹਰ ਟੋਕਨ (ਸ਼ਬਦ ਜਾਂ ਸ਼ਬਦ ਦਾ ਹਿੱਸਾ) ਨੂੰ ਦੂਜੇ ਹਰ ਟੋਕਨ ਨਾਲ ਗੁਣਾ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
ਇਹ ਇੱਕ ਵਿਸ਼ਾਲ ਕੰਪਿਊਟੇਸ਼ਨਲ ਬੋਝ ਪੈਦਾ ਕਰਦਾ ਹੈ ਜਿਸ ਨੂੰ quadratic expansion ਵਜੋਂ ਜਾਣਿਆ ਜਾਂਦਾ ਹੈ। ਜੇਕਰ ਤੁਸੀਂ ਕਿਸੇ ਟੈਕਸਟ ਦੀ ਲੰਬਾਈ ਦੁੱਗਣੀ ਕਰਦੇ ਹੋ, ਤਾਂ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲੋੜਾਂ ਲਗਭਗ ਚਾਰ ਗੁਣਾ ਵਧ ਜਾਂਦੀਆਂ ਹਨ। 10,000 ਸ਼ਬਦਾਂ ਦੇ ਦਸਤਾਵੇਜ਼ ਲਈ, ਮਾਡਲ ਨੂੰ ਲਗਭਗ 50 ਮਿਲੀਅਨ ਵੱਖ-ਵੱਖ ਗੁਣਾ ਕਰਨੀਆਂ ਪੈਂਦੀਆਂ ਹਨ। ਇਹੀ ਅਕੁਸ਼ਲਤਾ ਮੁੱਖ ਕਾਰਨ ਹੈ ਕਿ LLMs "power hogs" ਵਜੋਂ ਜਾਣੇ ਜਾਂਦੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਲੰਬੇ ਸੰਦਰਭਾਂ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਲਈ ਬਹੁਤ ਜ਼ਿਆਦਾ ਊਰਜਾ ਅਤੇ ਮਹਿੰਗੇ ਹਾਰਡਵੇਅਰ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਹੱਲ: Sparse Attention ਨਾਲ ਸਕੇਲਿੰਗ
Subquadratic ਦਾ SubQ ਮਾਡਲ dense attention ਨੂੰ ਛੱਡ ਕੇ sparse attention ਨੂੰ ਅਪਣਾਉਣ ਦਾ ਟੀਚਾ ਰੱਖਦਾ ਹੈ। ਇਸਦਾ ਮੁੱਖ ਫਲਸਫਾ ਇਹ ਹੈ ਕਿ ਹਰ ਸ਼ਬਦ ਵਿਚਕਾਰ ਸਬੰਧ ਕਿਸੇ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਸਮਝਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਨਹੀਂ ਹੁੰਦੇ। ਹਰ ਟੋਕਨ ਨੂੰ ਦੂਜੇ ਹਰ ਟੋਕਨ ਨਾਲ ਗੁਣਾ ਕਰਨ ਦੀ ਬਜਾਏ, sparse attention ਗਣਨਾ ਕਰਨ ਲਈ ਸਿਰਫ਼ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਸਬੰਧਾਂ ਦੀ ਚੋਣ ਕਰਦਾ ਹੈ।
ਹਾਲਾਂਕਿ "sparse attention" ਕੋਈ ਨਵਾਂ ਸੰਕਲਪ ਨਹੀਂ ਹੈ, ਪਰ ਪਿਛਲੇ ਯਤਨ dense-attention ਮਾਡਲਾਂ ਵਿੱਚ ਮਿਲਣ ਵਾਲੇ ਉੱਚ ਪੱਧਰ ਦੇ ਤਰਕ (reasoning) ਅਤੇ ਸੂਖਮਤਾ (nuance) ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰਦੇ ਰਹੇ ਹਨ। Subquadratic ਦਾ ਦਾਅਵਾ ਹੈ ਕਿ ਉਸਨੇ ਇਸ ਪਾੜੇ ਨੂੰ ਭਰ ਦਿੱਤਾ ਹੈ, ਅਤੇ ਇੱਕ ਅਜਿਹਾ ਮਾਡਲ ਤਿਆਰ ਕੀਤਾ ਹੈ ਜੋ ਬੁੱਧੀ ਵਿੱਚ ਰਵਾਇਤੀ ਕਮੀ ਲਿਆਂਦੇ ਬਿਨਾਂ sparse attention ਦੀ ਕੁਸ਼ਲਤਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਦਾਅਵਿਆਂ ਦੀ ਪੁਸ਼ਟੀ: Appen ਤੋਂ ਨਤੀਜੇ
ਸ਼ੁਰੂਆਤੀ ਸ਼ੱਕ ਤੋਂ ਬਾਅਦ—ਜਿੱਥੇ ਕੁਝ ਆਲੋਚਕਾਂ ਨੇ ਅਣਪਛਾਤੇ ਦਾਅਵਿਆਂ ਦੀ ਤੁਲਨਾ "AI Theranos" ਨਾਲ ਵੀ ਕੀਤੀ ਸੀ—Subquadratic ਨੇ ਇੱਕ ਪ੍ਰਮੁੱਖ AI ਮੁਲਾਂਕਣ ਫਰਮ, Appen ਤੋਂ ਤੀਜੀ-ਧਿਰ ਦੇ ਬੈਂਚਮਾਰਕ ਜਾਰੀ ਕੀਤੇ ਹਨ। Appen ਦੀ ਸੁਤੰਤਰ ਟੈਸਟਿੰਗ ਦੇ ਨਤੀਜਿਆਂ ਨੇ SubQ ਆਰਕੀਟੈਕਚਰ ਦੀ ਪੁਸ਼ਟੀ ਕੀਤੀ ਹੈ, ਅਤੇ ਇਨ੍ਹਾਂ ਖੋਜਾਂ ਨੂੰ "ਹੈਰਾਨ ਕਰਨ ਵਾਲਾ" ਅਤੇ ਇੱਕ ਸੰਭਾਵੀ "game changer" ਦੱਸਿਆ ਹੈ।
According to the startup, SubQ offers several transformative technical advantages:
- Context Window: SubQ can process up to 12 times more text at once compared to most current models, making it ideal for analyzing entire codebases or massive document libraries.
- Performance: Despite the leaner architecture, SubQ matches the performance of industry leaders like OpenAI, Google DeepMind, and Anthropic on critical tasks such as coding.
- Efficiency: The model is significantly faster, cheaper, and more energy-efficient than existing transformer-based models.
A New Era Beyond Transformers?
Subquadratic is not just looking to optimize current models; they are looking to replace the foundational architecture of the industry. CEO Justin Dangel has stated that the company believes the era of building on Transformers may be coming to an end. If SubQ can continue to prove its efficacy at scale, the transition from dense to sparse attention could represent the most significant shift in AI architecture since the invention of the Transformer itself.
Key Takeaways
- Breaking the Quadratic Barrier: SubQ uses sparse attention to avoid the exponential increase in computation required by traditional dense attention.
- Superior Context Handling: The model can process 12x more data at once, enabling deep analysis of large-scale datasets and long-form code.
- Verified Efficiency: Independent testing by Appen confirms that SubQ achieves high-tier performance (matching OpenAI and Google) at a fraction of the cost and energy.