మల్టీ-LLM ఇంటెలిజెన్స్‌ను సమన్వయం చేయడానికి Sakana AI 'Fugu'ను విడుదల చేసింది

టోక్యో ఆధారిత Sakana AI, సంక్లిష్టమైన పనులను పరిష్కరించడానికి ప్రత్యేక నమూనాల (specialized models) సమూహాన్ని సమన్వయం చేసేలా రూపొందించిన అధునాతన మల్టీ-LLM ఆర్కెస్ట్రేటర్ 'Fugu'ను ఆవిష్కరించింది. ఒకే తెలివైన పొరగా (single intelligent layer) పనిచేస్తూ, Anthropic వంటి పరిశ్రమ దిగ్గజాల పనితీరుకు పోటీగా నిలవడమే కాకుండా, వెండర్ లాక్-ఇన్ (vendor lock-in) నుండి రక్షణ కల్పించడమే Fugu లక్ష్యం.

మార్చుకోగలిగే ఏజెంట్ పూల్ కోసం ఒక ఏకీకృత ఇంటర్‌ఫేస్

Fugu అనేది కేవలం మరొక స్టాండ్‌అలోన్ లార్జ్ లాంగ్వేజ్ మోడల్ మాత్రమే కాదు; ఇది "ఏజెంట్ పూల్"ను నిర్వహించడానికి ప్రత్యేకంగా శిక్షణ పొందిన లాంగ్వేజ్ మోడల్. వినియోగదారుడికి, ఈ వ్యవస్థ OpenAI-అనుకూలమైన API ద్వారా ఒకే అంశంగా కనిపిస్తుంది. అయితే, అంతర్గతంగా, Fugu ఎంపిక (selection), డెలిగేషన్ (delegation), ఎగ్జిక్యూషన్ (execution), చెకింగ్ (checking) మరియు సింథసిస్ (synthesis) వంటి సంక్లిష్టమైన ప్రక్రియలను నిర్వహిస్తుంది. ప్రాంప్ట్ యొక్క సంక్లిష్టతను బట్టి, Fugu సమస్యను స్వయంగా పరిష్కరించవచ్చు లేదా పనిభారాన్ని ఎదుర్కోవడానికి తన స్వంత కాపీలతో సహా ప్రత్యేక నమూనాల "టీమ్"ను డైనమిక్‌గా నియమించుకోవచ్చు.

వివిధ వృత్తిపరమైన అవసరాలను తీర్చడానికి Sakana AI రెండు విభిన్న వెర్షన్లను అందిస్తోంది:

  • Fugu Base: తక్కువ లాటెన్సీ (low latency) మరియు చాట్‌బాట్ ఇంటరాక్షన్‌లు, స్టాండర్డ్ కోడ్ రివ్యూల వంటి రోజువారీ పనుల కోసం ఆప్టిమైజ్ చేయబడింది.
  • Fugu Ultra: సైంటిఫిక్ పేపర్ రిప్రొడక్షన్, సైబర్‌సెక్యూరిటీ అనాలిసిస్ మరియు పేటెంట్ సెర్చ్‌ల వంటి అత్యంత కీలకమైన వర్క్‌ఫ్లోల కోసం గరిష్ట రీజనింగ్ క్వాలిటీతో రూపొందించబడింది.

బెంచ్‌మార్క్‌లలో ఫ్రాంటియర్ మోడల్స్‌ను అధిగమిస్తూ

Fugu Ultra యొక్క పనితీరు గణాంకాలు అద్భుతంగా ఉన్నాయి, ఇవి Anthropic యొక్క అత్యంత ఆశించబడిన Fable 5 మరియు Mythos Previewతో నేరుగా పోటీ పడేలా చేస్తున్నాయి. ముఖ్యంగా, Fugu Ultra ఈ స్కోర్‌లను Anthropic మోడల్స్ లేని పూల్‌ని ఉపయోగించి సాధించింది, అంటే ఆ ఏజెంట్లను కూడా అనుసంధానిస్తే ఇంకా మెరుగైన ఫలితాలు వచ్చే అవకాశం ఉంది.

కఠినమైన పరీక్షల్లో, Fugu Ultra పలు కీలక సాంకేతిక బెంచ్‌మార్క్‌లలో అద్భుతమైన సామర్థ్యాన్ని ప్రదర్శించింది:

  • SWE Bench Pro: Fugu Ultra 73.7 స్కోరు సాధించింది, ఇది GPT 5.5 (58.6) మరియు Gemini 3.1 Pro (54.2) కంటే గణనీయంగా ఎక్కువ.
  • LiveCodeBench: Fugu Ultra 93.2కి చేరుకుంది, ఇది Opus 4.8 (87.8) మరియు GPT 5.5 (85.3)లను అధిగమించింది.
  • Humanity's Last Exam: ఈ మోడల్ 50.0 సాధించి, Opus 4.8 (49.8) కంటే కొంచెం ముందుంది.
  • GPQA-D: Fugu Ultra 95.5 అనే ఉన్నత ప్రమాణాన్ని చేరుకుంది.

ప్రారంభ బీటా టెస్టర్లు ప్రత్యేక రంగాలలో భారీ సామర్థ్య వృద్ధిని గమనించారు. కోడ్ రివ్యూల సమయంలో, Fugu Ultra 20 కంటే ఎక్కువ బగ్‌లను గుర్తించిందని, అయితే GPT-5.5 కేవలం మూడు మాత్రమే గుర్తించిందని ఒక డెవలపర్ పేర్కొన్నారు.

AI వెండర్ లాక్-ఇన్ ప్రమాదాలను తగ్గించడం

కేవలం పనితీరు మాత్రమే కాకుండా, డిజిటల్ సార్వభౌమాధికారం (digital sovereignty) కోసం Fuguను ఒక కీలక సాధనంగా Sakana AI పరిచయం చేస్తోంది. ఎగుమతి నియంత్రణలు మరియు నియంత్రణ మార్పులు (Anthropic యొక్క ఇటీవలి పరిమితుల వంటివి) అకస్మాత్తుగా కొన్ని నిర్దిష్ట మోడళ్లపై యాక్సెస్‌ను పరిమితం చేయగల ఈ కాలంలో, ఒకే ప్రొవైడర్‌పై ఆధారపడటం అనేది ఫైనాన్స్, గవర్నెన్స్ మరియు కీలకమైన మౌలిక సదుపాయాలకు ఒక పెద్ద బలహీనతగా మారుతుంది.

Fugu మార్చుకోగలిగే ఏజెంట్ పూల్‌ను ఉపయోగిస్తుంది కాబట్టి, ఒక API అందుబాటులో లేకపోతే సంస్థలు తమ వర్క్‌ఫ్లోలను వేరే ప్రొవైడర్లకు మళ్లించగలవు. ఇది "AI సార్వభౌమాధికారం"కు పూర్తి పరిష్కారం కాకపోయినప్పటికీ (ఎందుకంటే పరిశ్రమ అంతటా విస్తృతమైన పరిమితులు ఉంటే పూల్ పరిమితం కావచ్చు), తమ AI ఆధారిత అవసరాలను వైవిధ్యపరచుకోవాలనుకునే సంస్థలకు ఇది ఒక ముఖ్యమైన రక్షణ కవచంలా పనిచేస్తుంది.

ముఖ్య అంశాలు

  • డైనమిక్ ఆర్కెస్ట్రేషన్: Fugu ఒకే APIగా పనిచేస్తూ, అంతర్గతంగా బహుళ దశల సంక్లిష్ట సమస్యలను పరిష్కరించడానికి ప్రత్యేక నమూనాల బృందాన్ని నిర్వహిస్తుంది.
  • బెంచ్‌మార్క్ ఆధిపత్యం: Fugu Ultra నేరుగా Anthropic యొక్క Fable 5 మరియు Mythosతో పోటీ పడుతూ, కోడింగ్ (SWE Bench Pro) మరియు రీజనింగ్ బెంచ్‌మార్క్‌లలో గణనీయమైన ఆధిక్యాన్ని చూపుతోంది.
  • వ్యూహాత్మక స్థితిస్థాపకత: మార్చుకోగలిగే మోడల్ పూల్ ద్వారా వినియోగదారులు AI ప్రొవైడర్లను వైవిధ్యపరచుకోవడం ద్వారా వెండర్ లాక్-ఇన్ మరియు నియంత్రణ సంబంధిత అంతరాయాల ప్రమాదాలను తగ్గించుకోవచ్చు.