LLM క్వాడ్రాటిక్ (Quadratic) సమస్యను పరిష్కరించడంలో Subquadratic విప్లవాత్మక విజయం

మయామికి చెందిన స్టార్టప్ Subquadratic, దాదాపు దశాబ్ద కాలంగా Large Language Models (LLMs)ను పరిమితం చేస్తున్న గణితపరమైన సమస్యను పరిష్కరించినట్లు పేర్కొనడంతో AI పరిశ్రమలో చర్చ జరుగుతోంది. ప్రారంభంలో సందేహాలు ఉన్నప్పటికీ, ఇటీవలి స్వతంత్ర ధృవీకరణల ప్రకారం, వారి కొత్త "SubQ" ఆర్కిటెక్చర్ జనరేటివ్ AI (generative AI) విధానాన్ని సమూలంగా మార్చివేసే అవకాశం ఉంది.

సమస్య: డెన్స్ అటెన్షన్ (Dense Attention) వల్ల కలిగే క్వాడ్రాటిక్ ఖర్చు

Subquadratic చేసిన ప్రకటన యొక్క ప్రాముఖ్యతను అర్థం చేసుకోవడానికి, 2017లో Google పరిచయం చేసిన "Transformer" ఆర్కిటెక్చర్‌ను అర్థం చేసుకోవాలి. చాలా ఆధునిక LLMలు dense attention అనే మెకానిజంపై ఆధారపడి ఉంటాయి. ఈ ప్రక్రియలో, సందర్భాన్ని (context) గ్రహించడానికి ఒక క్రమంలో ఉన్న ప్రతి టోకెన్ (పదం లేదా పదంలోని భాగం) మిగిలిన ప్రతి టోకెన్‌తో గుణించబడుతుంది.

ఇది క్వాడ్రాటిక్ ఎక్స్‌పాన్షన్ (quadratic expansion) అని పిలువబడే భారీ కంప్యూటేషనల్ భారాన్ని సృష్టిస్తుంది. మీరు ఒక వచనం (text) యొక్క పొడవును రెట్టింపు చేస్తే, కంప్యూటేషనల్ అవసరాలు దాదాపు నాలుగు రెట్లు పెరుగుతాయి. 10,000 పదాల పత్రం కోసం, మోడల్ దాదాపు 50 మిలియన్ల వ్యక్తిగత గుణకారాలను చేయాల్సి ఉంటుంది. ఈ అసమర్థత కారణంగానే LLMలు భారీగా విద్యుత్తును వినియోగించే "power hogs"గా పేరుగాంచాయి; పొడవైన సందర్భాలను ప్రాసెస్ చేయడానికి వీటికి అపారమైన శక్తి మరియు ఖరీదైన హార్డ్‌వేర్ అవసరమవుతాయి.

పరిష్కారం: స్పార్స్ అటెన్షన్ (Sparse Attention) తో స్కేలింగ్

Subquadratic యొక్క SubQ మోడల్, dense attention కి బదులుగా sparse attentionను ఉపయోగించాలని లక్ష్యంగా పెట్టుకుంది. ఒక పత్రాన్ని అర్థం చేసుకోవడానికి పదాల మధ్య ఉన్న ప్రతి సంబంధం అవసరం లేదనేది దీని ప్రధాన సిద్ధాంతం. ప్రతి టోకెన్‌ను మిగిలిన ప్రతి టోకెన్‌తో గుణించడానికి బదులుగా, sparse attention కేవలం అత్యంత సంబంధిత సంబంధాలను మాత్రమే ఎంచుకుని గణన చేస్తుంది.

"sparse attention" అనేది కొత్త భావన కానప్పటికీ, గత ప్రయత్నాలు dense-attention మోడళ్లలో ఉండే అధిక స్థాయి తర్కాన్ని (reasoning) మరియు సూక్ష్మతను (nuance) కొనసాగించడంలో ఇబ్బంది పడ్డాయి. ఈ అంతరాన్ని అధిగమించి, సాంప్రదాయ మేధస్సు కోల్పోకుండానే sparse attention యొక్క సామర్థ్యాన్ని అందించే మోడల్‌ను రూపొందించినట్లు Subquadratic పేర్కొంది.

ప్రకటనల ధృవీకరణ: Appen నుండి వచ్చిన ఫలితాలు

ప్రారంభ సందేహాల తర్వాత—కొంతమంది విమర్శకులు ధృవీకరించబడని ఈ ప్రకటనలను "AI Theranos"తో పోల్చినప్పటికీ—Subquadratic, ప్రముఖ AI మూల్యాంకన సంస్థ అయిన Appen నుండి వచ్చిన థర్డ్-పార్టీ బెంచ్‌మార్క్‌లను విడుదల చేసింది. Appen యొక్క స్వతంత్ర పరీక్షల ఫలితాలు SubQ ఆర్కిటెక్చర్‌ను ధృవీకరించాయి మరియు ఈ ఫలితాలను "షాకింగ్" అని మరియు సంభావ్య "game changer" అని అభివర్ణించాయి.

ఆ స్టార్టప్ ప్రకారం, SubQ అనేక విప్లవాత్మక సాంకేతిక ప్రయోజనాలను అందిస్తుంది:

  • Context Window: ప్రస్తుత మోడల్స్‌తో పోలిస్తే SubQ ఒకేసారి 12 రెట్లు ఎక్కువ వచనాన్ని (text) ప్రాసెస్ చేయగలదు, ఇది పూర్తి కోడ్‌బేస్‌లు లేదా భారీ డాక్యుమెంట్ లైబ్రరీలను విశ్లేషించడానికి అనువైనదిగా చేస్తుంది.
  • Performance: తక్కువ వనరులతో కూడిన ఆర్కిటెక్చర్ అయినప్పటికీ, కోడింగ్ వంటి కీలకమైన పనులలో SubQ, OpenAI, Google DeepMind, మరియు Anthropic వంటి పరిశ్రమ దిగ్గజాల పనితీరుతో సమానంగా ఉంటుంది.
  • Efficiency: ప్రస్తుతం ఉన్న transformer-ఆధారిత మోడల్స్ కంటే ఈ మోడల్ చాలా వేగంగా, తక్కువ ఖర్చుతో మరియు తక్కువ శక్తిని వినియోగించుకుంటూ పనిచేస్తుంది.

Transformers దాటి ఒక కొత్త శకం?

Subquadratic కేవలం ప్రస్తుత మోడల్స్‌ను మెరుగుపరచడమే కాకుండా, పరిశ్రమ యొక్క ప్రాథమిక ఆర్కిటెక్చర్‌ను భర్తీ చేయాలని లక్ష్యంగా పెట్టుకుంది. Transformers పై ఆధారపడి నిర్మించే యుగం ముగిసిపోవచ్చు అని కంపెనీ నమ్ముతున్నట్లు CEO Justin Dangel పేర్కొన్నారు. ఒకవేళ SubQ తన సామర్థ్యాన్ని పెద్ద ఎత్తున నిరూపించుకోగలిగితే, dense నుండి sparse attention కి మారడం అనేది Transformer ఆవిష్కరణ తర్వాత AI ఆర్కిటెక్చర్‌లో అత్యంత ముఖ్యమైన మార్పుగా నిలుస్తుంది.

ముఖ్య అంశాలు

  • Breaking the Quadratic Barrier: సాంప్రదాయ dense attention కి అవసరమయ్యే గణన (computation) యొక్క ఘాతాంక పెరుగుదలను నివారించడానికి SubQ sparse attention ను ఉపయోగిస్తుంది.
  • Superior Context Handling: ఈ మోడల్ ఒకేసారి 12 రెట్లు ఎక్కువ డేటాను ప్రాసెస్ చేయగలదు, దీనివల్ల భారీ డేటాసెట్‌లు మరియు సుదీర్ఘమైన కోడ్‌ను లోతుగా విశ్లేషించడం సాధ్యమవుతుంది.
  • Verified Efficiency: Appen చేసిన స్వతంత్ర పరీక్షల ప్రకారం, SubQ చాలా తక్కువ ఖర్చు మరియు శక్తితో అత్యున్నత స్థాయి పనితీరును (OpenAI మరియు Google తో సమానంగా) సాధిస్తుందని నిర్ధారించబడింది.