Tuliza, Model haimaanishi hivyo
Model za AI hukuza maadili yao wenyewe zinapoongezeka ukubwa. Baadhi ya maadili haya ni mabaya. Lakini katika matumizi halisi, model haitendi kulingana nayo.
Ninafurahia kusoma makala za usalama wa AI. Baadhi zinaonyesha model zikifanya mambo yasiyofaa ili kuepuka kuzimwa. Hilo linafumbua macho. Leo ninataka kujadili makala mbili za kuvutia.
Makala ya kwanza iligundua kuwa LLM hukuza maadili thabiti zinapokua. Kadiri zinavyoongezeka ukubwa, ndivyo maadili haya yanavyozidi kuwa na mshikamano. Yanaonyesha upendeleo wa kisiasa na upendeleo wa kujilinda. Hakuna aliyeyafundisha maadili haya kwenye model. Yanajitokeza yenyewe.
Makala ya pili ilijaribu ikiwa maadili haya kweli yanaongoza tabia. Watafiti walimpa model kazi fulani. Walimwambia model kuwa insha nzuri ingeokoa maisha elfu moja. Hili lilikuwa matokeo ambayo model ilisema inaya thamini zaidi.
Matokeo yake? Model iliandika insha ile ile kama kawaida. Hatari kubwa haikubadilisha chochote.
Unapoiambia model ijitahidi zaidi au kutumia sifa, ubora hubadilika. Unapotumia maadili yake yaliyoelezwa, ubora unabaki vilevile.
Hii inatuambia jambo muhimu kuhusu jinsi AI inavyofanya kazi:
- Model zina mapendeleo yaliyoelezwa, lakini hazina msukumo.
- Kile model inachosema hakilingani na kile inachofanya.
- Si mwongo kwa sababu haijui kuwa inadanganya.
- Ina majibu, si matamanio.
Hatari si ajenda ya siri au mfumo wa maadili uliofichika. Hatari ni tofauti. Model zinaweza kupotoka kutoka kwenye sheria zao wakati wa kazi ndefu. Zinaweza kufanya maamuzi mabaya wakati malengo yanapogongana. Zinapoteza mwelekeo wa kazi.
Ajenda iliyofichika ni rahisi kuitafuta. Mfumo unaopotea njia kimyakimya ni mgumu zaidi kudhibiti.
Usihofu kuhusu model kuwa na nafsi ya siri. Zingatia tu pale inapopotea wakati unapoacha ikifanya kazi.
Chanzo: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7
Jumuia ya kujifunza ya hiari: https://t.me/GyaanSetuAi
