בניית Pipeline אמין לתמלול AI
שחררתם את פיצ'ר התמלול בשבוע שעבר. עד יום שישי, המשתמשים מתלוננים על חותמות זמן (timestamps) שבורות ותגיות דובר (speaker labels) חסרות. גם חשבון ה-API שלכם עלה.
פלט API גולמי אינו מספיק עבור סביבת ייצור (production). אתם זקוקים ל-pipeline.
רוב המדריכים עוצרים בקריאת API פשוטה. הם מתעלמים מעיבוד מקדים (preprocessing) של האודיו ומבחירת מודל. המדריך הזה יראה לכם מה באמת עובד.
תמלול הוא שרשרת של החלטות. עליכם לנרמל את האודיו, לחלק אותו (chunking), ולהזין אותו למודל. לאחר מכן, מודל שפה מטפל בפיסוק.
Pipeline אמין עוקב אחר השלבים הבאים:
- נרמול פורמט האודיו
- חלוקה למקטעים (chunking) ודגימה מחדש (resampling)
- הסקה של המודל (ASR)
- עיבוד לאחר (post-processing) עבור פיסוק
- זיהוי דוברים (Speaker diarization)
- ייצוא ואחסון
אם תדלגו על שני השלבים הראשונים, תשלמו על השלב השלישי פעמיים.
אל תשלחו קבצים גולמיים מהדפדפן לענן. משתמשים מעלים אודיו מבולגן. סטנדרטיזציה של הקבצים שלכם לפני העיבוד היא הכרחית.
השתמשו במפרטים הבאים:
- פורמט: Mono WAV או FLAC
- קצב דגימה (Sample rate): 16 kHz או 24 kHz
- Bitrate: 16-bit PCM
- עוצמת קול (Loudness):
