యూట్యూబ్ ఎడిటర్ల కోసం AI ఆటోమేషన్
ఒక యూట్యూబ్ వీడియోను ఆకర్షణీయంగా మార్చే కొన్ని సెకన్ల కోసం గంటల కొద్దీ ముడి ఫుటేజీని (raw footage) వెతకడం చాలా అలసటతో కూడుకున్న పని. ఏ క్షణాలు ప్రేక్షకులను ఆకట్టుకుంటాయో ఊహించడంలో స్వతంత్ర ఎడిటర్లు తరచుగా సమయాన్ని వృథా చేస్తారు. దీనివల్ల వీడియో వేగం (pacing) అసమానంగా ఉండటం మరియు మంచి అవకాశాలను కోల్పోవడం జరుగుతుంది. AI ఈ ఊహలను ఒక పునరావృతమయ్యే ప్రక్రియగా మారుస్తుంది.
త్రీ-లేయర్ ఫ్రేమ్వర్క్
హైలైట్ల ఎంపికను ఆటోమేట్ చేయడానికి అత్యంత నమ్మదగిన మార్గం త్రీ-లేయర్ పైప్లైన్ను ఉపయోగించడం.
- లేయర్ 1 అనేది ఒక విస్తృతమైన నెట్ (broad net) వంటిది. ఇది ఆడియో స్పైక్స్ (audio spikes) మరియు వేగవంతమైన మాటల వంటి తక్కువ ఖర్చుతో కూడిన సంకేతాలను ఉపయోగించి, సాధారణ స్థాయి నుండి భిన్నంగా ఉన్న భాగాలను గుర్తిస్తుంది.
- లేయర్ 2 అనేది ఒక ఖచ్చితమైన హుక్ (precision hook). ఇది ట్రాన్స్క్రిప్ట్ను లోతుగా విశ్లేషించడం ద్వారా ఆ గుర్తులను మరింత మెరుగుపరుస్తుంది. ఇది సెంటిమెంట్ అనాలిసిస్ (sentiment analysis) మరియు ఫేషియల్ ఎక్స్ప్రెషన్ స్కోరింగ్ను ఉపయోగించి, బహుళ నమ్మదగిన సంకేతాలను కలిపి ఉన్న క్షణాలను మాత్రమే ఉంచుతుంది.
- లేయర్ 3 అనేది హ్యూమన్-AI రివ్యూ. ఎడిటర్ ఆ క్రమాన్ని ధృవీకరిస్తారు మరియు తలుపు కొట్టిన శబ్దం లేదా దగ్గు వంటి తప్పుగా గుర్తించబడిన (false positives) అంశాలను తొలగిస్తారు. దీనివల్ల క్లిప్లు ఒక కథను చెబుతాయని నిర్ధారించబడుతుంది.
దీని కోసం మీరు Azure Face APIని ఒక సాధనంగా ఉపయోగించవచ్చు. ఇది ఆశ్చర్యం, సంతోషం లేదా ఏకాగ్రత వంటి భావాలను స్కోర్ చేయడానికి ఫేషియల్ ఎక్స్ప్రెషన్ డిటెక్షన్ను అందిస్తుంది.
ఒక ఆశ్చర్యకరమైన విషయం చెప్పిన తర్వాత హోస్ట్ నవ్వుతున్న రెండు గంటల పాడ్కాస్ట్ను ఎడిట్ చేస్తున్నారని ఊహించుకోండి. లేయర్ 1 ఆడియో స్పైక్ను గుర్తిస్తుంది. లేయర్ 2 ట్రాన్స్క్రిప్ట్లో నవ్వును మరియు Azure Face API నుండి సంతోషం (joy score) పెరగడాన్ని గమనిస్తుంది. మీరు దానిని టైమ్లైన్పై ఉంచే ముందు, లేయర్ 3 ఆ క్లిప్ ఒక పంచ్లైన్గా సరిపోతుందో లేదో ధృవీకరిస్తుంది.
ఇంప్లిమెంటేషన్ స్టెప్స్
ముడి ఫైల్పై వేగవంతమైన ఆడియో మరియు స్పీచ్ పాస్ నిర్వహించండి. వాల్యూమ్ లేదా నిమిషానికి మాటల సంఖ్య (words-per-minute) 20 శాతం కంటే ఎక్కువగా పెరిగే ఏ సెగ్మెంట్కైనా మార్కర్లను రూపొందించండి.
గుర్తించిన భాగాలను ట్రాన్స్క్రిప్షన్ సర్వీస్కు పంపండి. సెంటిమెంట్ స్కోరింగ్ను నిర్వహించి, ట్రిగ్గర్ పదాల కోసం వెతకండి. కనీసం రెండు సంకేతాలు సరిపోలే సెగ్మెంట్లను మాత్రమే ఉంచుకోవడానికి ఫేషియల్ ఎక్స్ప్రెషన్ స్కోరింగ్ను ఉపయోగించండి.
మార్కర్లను మీ ఎడిటింగ్ సాఫ్ట్వేర్లోకి ఇంపోర్ట్ చేయండి. తప్పుగా గుర్తించబడిన అంశాలను తొలగించడానికి వాటిని వరుసగా చూడండి. మిగిలిన క్లిప్లు ఒక స్పష్టమైన కథా క్రమాన్ని (coherent narrative beat) ఏర్పరుస్తాయని నిర్ధారించుకోవడానికి వాటిని అమర్చండి.
లేయర్డ్ విధానం శబ్దం వల్ల కలిగే గందరగోళ గుర్తింపును (noisy detection) మరియు ఖచ్చితమైన ఎంపికను వేరు చేస్తుంది. ఆడియో స్పైక్స్, మాటల వేగం, సెంటిమెంట్ పీక్స్ మరియు ఫేషియల్ ఎక్స్ప్రెషన్ స్కోర్లను కలపడం ద్వారా అత్యంత నమ్మదగిన హైలైట్లను పొందవచ్చు. తప్పులను సరిదిద్దడానికి మరియు తుది కథను రూపొందించడానికి మానవ పర్యవేక్షణ (human oversight) అవసరం.
Source: https://dev.to/ken_deng_ai/title-25n9
Optional learning community: https://t.me/GyaanSetuAi