AI וטכנולוגיה

זיהוי דוברים אוטומטי: הסוד מאחורי הקלעים

03/12/2025
7 דקות קריאה
זיהוי דוברים

אי אפשר לקרוא תמלול של פגישה עם 5 אנשים בלי לדעת מי אמר מה. טכנולוגיית זיהוי הדוברים (Diarization) פותרת את הבעיה הזו. הנה איך.

מה זה Speaker Diarization?

דיאריזציה היא התהליך שבו מערכת מחשב מנתחת קובץ אודיו ומזהה מתי דובר אחד מפסיק לדבר ודובר אחר מתחיל. בסוף התהליך, כל משפט מתויג עם זהות הדובר.

ניתוח קול

המערכת מזהה מאפיינים ייחודיים בכל קול

פילוח דוברים

קיבוץ כל הקטעים שנאמרו על ידי אותו אדם

תיוג

הוספת תווית לכל דובר (דובר 1, דובר 2...)

איך זה עובד ב-IvreetMeet?

אנחנו משתמשים במודלים מתקדמים של בינה מלאכותית שעברו אימון על מיליוני שעות של הקלטות:

  1. 1חילוץ מאפיינים: המערכת מחלצת "טביעת קול" ייחודית לכל דובר
  2. 2קיבוץ: כל קטעי הדיבור מקובצים לפי דמיון בטביעת הקול
  3. 3מיזוג עם תמלול: התוצאה משולבת עם התמלול לקבלת טקסט מחולק לפי דוברים

שמות במקום מספרים

המערכת לא יודעת את השמות האמיתיים של הדוברים, אז היא מתייגת אותם כ"דובר 1", "דובר 2" וכו'. אחרי התמלול, תוכלו לערוך את השמות ב-IvreetMeet - והמערכת תזכור אותם לפגישות הבאות!

מגבלות

זיהוי דוברים עובד טוב יותר כשהדוברים לא מדברים בו-זמנית. איכות אודיו נמוכה או הרבה דיבור חופף עלולים לפגוע ברמת הדיוק.

רוצים לראות את זה בפעולה?

העלו הקלטה עם כמה דוברים וראו איך המערכת מזהה כל אחד.