ഞാൻ എങ്ങനെ ഒരു YouTube ഫീഡ്‌ബാക്ക് ലൂപ്പ് നിർമ്മിച്ചു

ഞാൻ ഒരു ഓട്ടോമേറ്റഡ് YouTube ചാനൽ നടത്തുന്നുണ്ട്. ഓരോ ദിവസവും, ഒരു പൈപ്പ്‌ലൈൻ സ്ക്രിപ്റ്റുകൾ തയ്യാറാക്കുകയും വീഡിയോകൾ റെൻഡർ ചെയ്യുകയും ചെയ്യുന്നു.

മാസങ്ങളോളം, ഈ സിസ്റ്റം യാതൊരു വിവരങ്ങളുമില്ലാതെയാണ് പ്രവർത്തിച്ചിരുന്നത്. ഏതാണ് വിജയിച്ചതെന്നും ഏതാണ് പരാജയപ്പെട്ടതെന്നും അറിയാതെയാണ് സ്ക്രിപ്റ്റ് ജനറേറ്റർ ഉള്ളടക്കം നിർമ്മിച്ചിരുന്നത്. എനിക്ക് ഒരു ഫീഡ്‌ബാക്ക് ലൂപ്പും ഉണ്ടായിരുന്നില്ല.

കഴിഞ്ഞ ആഴ്ച, 330 വരികളുള്ള ഒരു Python സ്ക്രിപ്റ്റ് ഉപയോഗിച്ച് ഞാൻ ഇത് പരിഹരിച്ചു. ഇത് പ്രകടനവും (performance) നിർമ്മാണവും (creation) തമ്മിൽ ഒരു ക്ലോസ്ഡ് ലൂപ്പ് സൃഷ്ടിക്കുന്നു.

ഇത് എങ്ങനെയാണ് പ്രവർത്തിക്കുന്നത് എന്ന് നോക്കാം:

• ഡാറ്റാ ശേഖരണം (Data Collection): കഴിഞ്ഞ 30 വീഡിയോകൾ വായിക്കാൻ സ്ക്രിപ്റ്റ് YouTube Data API v3 ഉപയോഗിക്കുന്നു. • വർഗ്ഗീകരണം (Classification): വീഡിയോകളെ റാങ്ക് ചെയ്യാൻ ഇത് മീഡിയൻ അധിഷ്ഠിതമായ ഒരു ത്രെഷോൾഡ് (median-based threshold) ഉപയോഗിക്കുന്നു.

  • HIGH: മീഡിയന്റെ 1.5 മടങ്ങ് മുകളിൽ വ്യൂസ് ഉള്ള വീഡിയോകൾ.
  • LOW: മീഡിയന്റെ 0.6 മടങ്ങ് താഴെ വ്യൂസ് ഉള്ള വീഡിയോകൾ (72 മണിക്കൂറിൽ കൂടുതൽ പഴക്കമുള്ളവ മാത്രം).
  • അനാവശ്യ വിവരങ്ങൾ ഒഴിവാക്കാൻ മറ്റുള്ളവയെ അവഗണിക്കുന്നു. • പാറ്റേൺ മാച്ചിംഗ് (Pattern Matching): ടൈറ്റിലിലെ വാക്കുകൾ ഒത്തുനോക്കി, ട്യൂട്ടോറിയലുകൾ അല്ലെങ്കിൽ താരതമ്യങ്ങൾ (comparisons) പോലുള്ള "archetypes"-കളുമായി പ്രകടനത്തെ സ്ക്രിപ്റ്റ് ബന്ധിപ്പിക്കുന്നു. • ഹുക്ക് അനാലിസിസ് (Hook Analysis): സ്ക്രിപ്റ്റിലെ ആദ്യ വാക്ക് ഒരു ചോദ്യമാണോ, ഒരു സംഖ്യയാണോ, അതോ ഒരു വ്യക്തിപരമായ പ്രസ്താവനയാണോ എന്ന് ഇത് പരിശോധിക്കുന്നു. • ഓട്ടോമേറ്റഡ് അപ്‌ഡേറ്റുകൾ (Automated Updates): ഫലങ്ങൾ ഒരു markdown ഫയലിലേക്ക് "bias hints" ആയി എഴുതുന്നു.

അടുത്ത സ്ക്രിപ്റ്റ് എഴുതുന്നതിന് മുമ്പ് സ്ക്രിപ്റ്റ് ജനറേറ്റർ ഈ ഫയൽ വായിക്കുന്നു. ഏത് പാറ്റേണുകളാണ് വിജയിക്കുന്നതെന്നും ഏതാണ് പരാജയപ്പെടുന്നതെന്നും അത് മനസ്സിലാക്കുന്നു. നാളത്തെ മികച്ച തീരുമാനങ്ങൾ എടുക്കാൻ ഇത് ഈ വിവരങ്ങൾ ഉപയോഗിക്കുന്നു.

ഞാൻ എന്തുകൊണ്ടാണ് ഈ രീതി തിരഞ്ഞെടുത്തത്:

  • ശരാശരിക്ക് (Mean) പകരം മീഡിയൻ (Median): ഒരു വൈറൽ വീഡിയോ ശരാശരി കണക്കുകളെ തെറ്റിച്ചേക്കാം. എന്നാൽ മീഡിയൻ സ്ഥിരതയുള്ളതാണ്.
  • 72 മണിക്കൂർ നിയമം: പുതിയ വീഡിയോകൾക്ക് സമയം ആവശ്യമാണ്. ഒരു വീഡിയോ ഒരു ദിവസം മാത്രം പഴക്കമുള്ളതുകൊണ്ട് മാത്രം അതിനെ പരാജയമായി ഞാൻ കണക്കാക്കുന്നില്ല.
  • ലളിതമായ ഹ്യൂറിസ്റ്റിക്സ് (Simple Heuristics): നിലവിൽ ചിലവേറിയ LLM കോളുകൾക്ക് പകരം ആദ്യ വാക്ക് കണ്ടെത്തുന്ന രീതിയാണ് ഞാൻ ഉപയോഗിക്കുന്നത്. ഇത് വേഗതയുള്ളതും ചിലവ് കുറഞ്ഞതുമാണ്.

ഇതൊരു മാന്ത്രികവിദ്യയല്ല. സ്വന്തം ഡാറ്റയിൽ നിന്ന് പഠിക്കുന്ന ഒരു സിസ്റ്റമാണിത്.

ലക്ഷ്യം മനുഷ്യന്റെ വിവേകത്തെ മാറ്റിസ്ഥാപിക്കുക എന്നതല്ല, മറിച്ച് ജനറേറ്ററിന് മികച്ച വിവരങ്ങൾ നൽകുക എന്നതാണ്. ഓരോ 24 മണിക്കൂർ കൂടുമ്പോഴും കൂടുതൽ ബുദ്ധിശക്തിയുള്ളതാകുന്ന ഒരു സിസ്റ്റമാണ് ഞാൻ നിർമ്മിച്ചുകൊണ്ടിരിക്കുന്നത്.

Source: https://dev.to/morinaga/how-i-built-a-youtube-performance-classifier-that-adjusts-tomorrows-video-script-bias-19ba

Optional learning community: https://t.me/GyaanSetuAi