AGI: మనం అక్కడికి చేరుకున్నామా?

మనం ఇంకా AGI స్థాయికి చేరుకోలేదు.

ఏడాది క్రితం, మనం Artificial General Intelligence స్థాయిని చేరుకున్నామా అని నేను అడిగాను. ఆ సమయంలో, OpenAI యొక్క o3 మోడల్ ARC-AGI-1 బెంచ్‌మార్క్‌లో ఒక ముఖ్యమైన మైలురాయిని చేరుకుంది. ఇది రీజనింగ్‌లో నిజమైన పురోగతిని చూపించింది.

కానీ ఇది గమ్యం కాదు, కేవలం ఒక మధ్యంతర దశ మాత్రమే అని నేను అప్పట్లో వాదించాను.

నేను చెప్పింది నిజమైంది.

నేటి కథ AGI రావడం గురించి కాదు. ఈ కథ మరింత ఆసక్తికరంగా ఉంది. మనం సాధారణ చాట్‌బాట్‌ల స్థాయిని దాటి ముందుకు వచ్చేశాము. మనం ఇప్పుడు ఫ్రంటియర్ రీజనింగ్ మరియు ఏజెంట్ సిస్టమ్స్ యుగంలో ఉన్నాము.

ప్రస్తుత స్థితి ఇక్కడ ఉంది:

• మోడల్స్ రీజనింగ్ మరియు కోడింగ్‌లో చాలా మెరుగ్గా ఉన్నాయి. • అవి టూల్స్‌ను ఉపయోగిస్తాయి మరియు సుదీర్ఘమైన కాంటెక్స్ట్‌లను మరింత సమర్థవంతంగా ప్రాసెస్ చేస్తాయి. • అవి ఇమేజెస్ మరియు ఆడియో వంటి మల్టీమోడల్ ఇన్‌పుట్‌లను హ్యాండిల్ చేయగలవు. • అవి మునుపటి కంటే ఆర్థికంగా మరింత ఉపయోగకరంగా ఉన్నాయి.

కానీ వాటికి ఇంకా మానవుల వంటి సర్వవ్యాప్తత (generality) లేదు.

బెంచ్‌మార్క్‌లు అసలు కథను చెబుతున్నాయి. MMLU వంటి పాత పరీక్షలు సంతృప్త స్థాయికి చేరుకున్నప్పటికీ, కొత్త పరీక్షలు లోపాలను చూపుతున్నాయి.

• ARC-AGI-1 రీజనింగ్‌లో ఒక విప్లవాత్మక మార్పు. • ARC-AGI-2 కొత్తదనం (novelty) మరియు కాంపోజిషన్ ఇంకా చాలా కష్టమని చూపుతోంది. • ARC-AGI-3 ఇంటరాక్టివ్ ఎన్విరాన్‌మెంట్లలోకి మారుతోంది, అక్కడ మోడల్స్ అనుసరణ (adapt) చేయడంలో ఇబ్బంది పడుతున్నాయి.

మోడల్స్ స్కేలింగ్ విధానంలో కూడా మార్పును మనం గమనిస్తున్నాము. ఇది ఇకపై కేవలం ఎక్కువ డేటా గురించి మాత్రమే కాదు. స్కేలింగ్ ఇప్పుడు వీటి ద్వారా జరుగుతుంది:

  • ప్రీట్రైనింగ్ స్కేల్.
  • పోస్ట్-ట్రైనింగ్ మరియు రీఇన్‌ఫోర్స్‌మెంట్ లెర్నింగ్.
  • ఇన్ఫరెన్స్-టైమ్ రీజనింగ్ మరియు టూల్ యూజ్.

ఒక ప్లాన్‌ను ఆపివేసి, కోడ్‌ను రన్ చేసి, దానిని సవరించగల మోడల్, కేవలం తదుపరి పదాన్ని అంచనా వేసే మోడల్ కంటే భిన్నమైనది. ఇదే ఏజెంటిక్ సిస్టమ్స్ యొక్క ఎదుగుదల.

అయితే, ఒక ప్రధాన లోపం ఇంకా ఉంది: విశ్వసనీయత (reliability).

విశ్వసనీయమైన టాస్క్ పూర్తి చేయడానికి పట్టే సమయం (time horizon) పెరుగుతోందని METR పరిశోధన చూపుతోంది. ఇది ప్రతి కొన్ని నెలలకు రెట్టింపు అవుతోంది. కానీ 50 నిమిషాల టాస్క్ హారిజన్ అనేది పూర్తి పని దినం కాదు. అది ఒక వారం పాటు సాగే స్వయంప్రతిపత్తి కలిగిన పరిశోధన కాదు.

మనం "సమాధానాలు ఇచ్చే మోడల్స్" నుండి "టూల్స్‌తో రీజనింగ్ చేసే మోడల్స్" వైపు మారాము.

మనం అత్యంత సామర్థ్యం కలిగిన సిస్టమ్స్‌ను నిర్మిస్తున్నాము. కానీ ఈ సిస్టమ్స్ తరచుగా విస్తృతమైనవి అయినప్పటికీ, అస్థిరంగా (brittle) ఉంటాయి. అవి గ్రాడ్యుయేట్ స్థాయి గణితాన్ని పరిష్కరించగలవు కానీ, సాధారణమైన, కొత్త రకమైన పజిల్స్‌లో విఫలమవుతాయి.

నిజాయితీతో కూడిన వాస్తవం ఏమిటంటే:

మనం ఇంకా AGI స్థాయికి చేరుకోలేదు. కానీ చాలా మంది ఊహించిన దానికంటే మనం ఆర్థికంగా విప్లవాత్మక మార్పులు తీసుకువచ్చే దానికి చాలా దగ్గరగా ఉన్నాము.

మనం జనరల్-పర్పస్ రీజనింగ్ సిస్టమ్స్‌ను నిర్మిస్తున్నాము. అవి ఆశ్చర్యకరమైన తెలివితేటలతో కనిపిస్తాయి, అయినప్పటికీ వాటికి నిజమైన మానవ అనుకూలత లేదని నిరూపించే విధంగా అవి విఫలమవుతున్నాయి.

ఆ మైలురాయి నిజమైనదే. ప్రచారం (hype) మాత్రం అతిగా ఉంది. అసలైన పని ఇప్పుడు దృఢత్వం (robustness) మరియు స్వయంప్రతిపత్తిని (autonomy) నిర్మించడం గురించి.

మూలం: https://dev.to/ernestohs/agi-are-we-there-yet-a-follow-up-1471

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi