טכנולוגיה

מהירות קיצונית: 96 דקות של הקלטה מתומללות ב-77 שניות בלבד

08/12/2025
8 דקות קריאה
תשתית GPU מתקדמת לתמלול מהיר
74.7x
מהירות זמן אמת
50
רפליקות GPU
150GB
VRAM זמין
77s
ל-96 דקות אודיו

בעולם שבו רוב שירותי התמלול מתקשים להגיע למהירות של 5-10x מזמן אמת, IvreetMeet שובר את כל השיאים עם מהירות של 74.7x – תמלול הקלטה של שעה וחצי בפחות מדקה וחצי.

הארכיטקטורה שמאחורי הקלעים

לא מדובר בשרת Whisper רגיל. IvreetMeet מופעל על תשתית GPU מבוזרת ברמת Production שמעולם לא נראתה בישראל:

50 רפליקות Whisper במקביל

בזמן שרוב השירותים מריצים 1-4 רפליקות, אנחנו מפעילים 50 מודלים במקביל על אותו ה-GPU Cluster. כל רפליקה מקבלת חלק מההקלטה ומעבדת אותו בו-זמנית עם האחרות.

מנוע AI קנייני (Proprietary Engine)

פיתחנו ארכיטקטורה ייחודית המבוססת על הדור החדש של מודלי שפה (Transformers). המנוע שלנו עבר אופטימיזציה עמוקה (Quantization & Compression) ספציפית לשפה העברית, מה שמאפשר לנו להשיג דיוק חסר תקדים תוך שמירה על ביצועי זמן-אמת קיצוניים.

איך זה עובד בפועל?

  • חלוקה חכמה: הקלטה של 96 דקות מתחלקת אוטומטית ל-50 chunks (כל אחד ~115 שניות)
  • עיבוד מקבילי: כל 50 ה-chunks מועברים ל-50 רפליקות GPU שונות ומעובדים בו-זמנית
  • VAD Filter: מסנן אוטומטי של שקט ורעשי רקע לפני התמלול – חוסך זמן ומשפר דיוק
  • מיזוג חכם: כל התוצאות מתמזגות לתמלול אחד רציף עם timestamps מדויקים

זיהוי דוברים ברמה ארגונית

במקביל לתמלול, המערכת מריצה PyAnnote Diarization לזיהוי דוברים, ויוצרת טביעות קוליות (Voiceprints) באמצעות ECAPA-TDNN.

🎯 דיאריזציה

זיהוי אוטומטי של מי דיבר ומתי – גם בהקלטות עם 5+ דוברים

🔊 Voiceprints

יצירת טביעת קול ייחודית לכל דובר לזיהוי עקבי לאורך הפגישה

🧠 Speaker Clustering

מיזוג אוטומטי של דוברים כפולים וזיהוי שמות באמצעות LLM

⏱️ Timestamps

תיוג זמן מדויק לכל משפט – אפשרות לקפוץ לרגע הרלוונטי בהקלטה

יעילות VRAM יוצאת דופן

מה שהופך את המערכת ליוצאת דופן הוא הניצול האופטימלי של זיכרון:

# VRAM Usage During 96-Minute Transcription
Model size per replica: ~1.65GB
Total VRAM available: 150.02GB
VRAM used after all 50 replicas: 0.19GB
→ 99.9% efficiency through memory-mapped weights

זה לא קסם – זו הנדסת תוכנה עילית. אנחנו משתמשים בטכניקות מתקדמות של ניהול זיכרון (Memory Mapping), חישוב מקבילי (Parallel Computing), וגרפים של CUDA כדי לאפשר טעינה מיידית של מודלים והקצאת משאבים דינמית בזמן אמת.

מה זה אומר עבורכם?

  • פגישה של שעה? תקבלו תמלול מלא תוך פחות מדקה
  • הרצאה של שעתיים? תמלול + סיכום + זיהוי דוברים תוך 2 דקות
  • עשרות הקלטות ביום? התשתית מתרחבת אוטומטית לעומס

מוכנים לחוות את המהירות?

הצטרפו לאלפי משתמשים שכבר נהנים מהתמלול המהיר ביותר בישראל