பாரபட்சமின்றி AI Pipelines-களை உருவாக்குங்கள்
உங்கள் AI pipeline பாரபட்சமானது என்பதைத் தெரிந்துகொள்ள ஆறு வாரங்களைச் செலவிட்டீர்கள். அது பலவீனமானது. அதைத் தணிக்கை (audit) செய்வது கடினம். சில திருத்தங்கள் வேலை செய்கின்றன. இந்தத் திருத்தங்கள் சக வல்லுநர்களால் சரிபார்க்கப்பட்டுள்ளன (peer reviewed). இந்த வாரம் அவற்றை வெளியிடுகிறீர்கள்.
வெவ்வேறு மாடல் குடும்பங்களைச் (model families) சேர்ந்த ஒரு generator மற்றும் ஒரு judge-ஐப் பயன்படுத்துங்கள். Generation-காக OpenAI-ஐப் பயன்படுத்துங்கள். Judging-காக Anthropic-ஐப் பயன்படுத்துங்கள். இது சுய விருப்பப் பாரபட்சத்தைத் (self preference bias) தடுக்கிறது. மாடல்கள் தங்களின் சொந்த பாணியையே விரும்புவதை நிறுத்திவிடும்.
ஒரு பதில் நன்றாக இருக்கிறதா என்று கேட்பதை நிறுத்துங்கள். பின்வரும் புள்ளிகளின் அடிப்படையில் மதிப்பெண்களைக் கேளுங்கள்:
- துல்லியம் (Accuracy)
- முழுமை (Completeness)
- தொனி (Tone)
- செயல்படுத்தும் திறன் (Actionability) இது பாரபட்சத்தை 31.5 சதவீதம் குறைக்கிறது.
மதிப்பெண் வழங்குவதற்கு முன், judge-ஐச் சிந்திக்க (reason) வையுங்கள். உண்மைகளைப் பட்டியலிடச் சொல்லுங்கள். ஒவ்வொரு உண்மையையும் சரிபார்க்கச் சொல்லுங்கள். அதன் பிறகு அது ஒரு மதிப்பெண்ணை வழங்குகிறது. இது துல்லியத்தில் 1.5 முதல் 13 புள்ளிகள் வரை சேர்க்கிறது.
தனித்தனி வெளியீடுகளை (single outputs) மட்டும் கண்காணிக்காதீர்கள். முழுமையான தரவுத் தொகுப்பைக் (whole population) கவனியுங்கள். மதிப்பெண் விநியோக மாற்றங்களைக் (score distribution shifts) கவனியுங்கள். இது விலகல் (drift) மற்றும் தாக்குதல்களை முன்கூட்டியே கண்டறிய உதவுகிறது.
போட்டித் தன்மையுள்ள அமைப்புகளைத் (competitive setups) தவிர்க்கவும். ஏஜெண்டுகள் (Agents) விவாதம் செய்யக்கூடாது. கூட்டுறவு அமைப்புகளைப் (cooperative setups) பயன்படுத்துங்கள். ஒரு ஏஜெண்ட் உருவாக்குகிறது (generates). ஒரு ஏஜெண்ட் இடைவெளிகளைக் கண்டறிகிறது (finds gaps). ஒரு ஏஜெண்ட் இடைவெளிகளை நிரப்புகிறது (fills gaps). இது உறுதியையும் (robustness) 68 சதவீதம் மேம்படுத்துகிறது.
உங்கள் சரிபார்ப்புப் பட்டியல்:
இந்த வாரம்:
- Prompt-களில் காரணங்களைச் சேர்க்கவும்.
- கட்டமைக்கப்பட்ட மதிப்பீட்டைப் (structured evaluation) பயன்படுத்தவும்.
- உங்கள் மாடல் குடும்பங்களைச் சரிபார்க்கவும்.
இந்த மாதம்:
- மாடல் குடும்பங்களுக்கு இடையிலான மதிப்பீட்டை (cross family evaluation) அமைக்கவும்.
- தரவுத் தொகுப்பைக் கண்காணிப்பதைத் தொடங்கவும்.
இந்த காலாண்டு:
- எதிரித் தாக்குதல்களுக்காக (adversarial attacks) சோதனை செய்யவும்.
- கூட்டுறவு வடிவமைப்பிற்கு (cooperative design) மாறவும்.
நீங்கள் இதை முழுமையாகத் தீர்க்க முடியாது. நீங்கள் பாரபட்சத்தைக் குறைப்பீர்கள். பிழைகளை விரைவாகக் கண்டறிவீர்கள். இதுவே இலக்கு.
Source: https://dev.to/sayokbose91/part-6-of-6-how-to-build-pipelines-that-dont-gaslight-themselves-dci Optional learning community: https://t.me/GyaanSetuAi