סינתזת דיבור

דוגמה לשימוש בסינתזת דיבור ליצירת קטע אודיו בו מוקרא הערך Festival Speech Synthesis System בוויקיפדיה האנגלית. קטע האודיו הופק באמצעות התוכנה txt2audio

סינתזת דיבור (באנגלית: Speech synthesis) היא טכניקה להפקה מלאכותית של דיבור אנושי. מערכות סינתזת דיבור נקראות לעיתים רבות מערכות טקסט לדיבור (text-to-speech או TTS) בשל יכולתן להמיר טקסט לדיבור.

סינתזה של דיבור נעשית באמצעות שיבוץ של רכיבי דיבור המקודדים למילים ולמשפטים של ממש^[1]. לרוב סינתזת דיבור מופקת על בסיס הקלטות שונות שבוצעו בעבר של מקטעים ווקאלים שונים. עם זאת, קול אנושי אשר הומר בקודים ספרתיים מצריך מקום רב לאחסון ונשמע מלאכותי וחסר-גוון^[1].

בסינתזה של הדיבור המילים מורכבות מפונמות^[1]. דבר זה מאפשר למשפט הסינתטי לכלול גם הטיות קול והדגשות, בתנאי שהמחשב יכול לנתח את ההדגשים שבמסר בשעת הרכבתו^[1].

האיכות של תוצר מערכות סינתזת דיבור נמדד לרוב על סמך הדמיון לדיבור אנושי אמיתי, וכמו כן מסתמך גם על עד כמה התוצר הסופי מובן. תוכנות סינתזת דיבור ברמות גבוהות יכולות למלא תפקיד חשוב, למשל על ידי מתן אפשרות לאנשים לקויי ראייה או בעלי דיסלקסיה להאזין למסמכים שנכתבו במחשב. מאז שנות ה-90 של המאה ה-20 מכילות מערכות הפעלה רבות מכילות יישומי סינתזת דיבור.

שיטות פעולה

דיבור הוא אחת הדרכים הטבעיות ביותר עבור בני אדם לתקשר זה עם זה. עם התפתחות הטכנולוגיה בוצעו ניסיונות רבים להחדיר ממשקי דיבור בסביבות תקשורת בין אדם למחשב. ממשקי הדיבור נמצאים כיום בשימוש במספר מכשירים אלקטרוניים ניידים כגון טלפונים ניידים, מכשירים ביתיים, עזרים מסייעים לאנשים בעלי בעיות ראיה, ניווט וגאדג'טים להדרכה אישית. כדי לפתח את ממשקי הדיבור האיכותיים, טכנולוגיות עיבוד דיבור בתחומים שונים כגון זיהוי דיבור, עיבוד דיאלוג, הבנת דיבור, עיבוד שפה טבעית אך פיתוח סינתזת דיבור היא חלק חיוני מממשקי דיבור. סינתזת טקסט לדיבור (TTS = Text-To-Speech) היא אחת מטכנולוגיות עיבוד הדיבור המרכזיות המשמשות להעברת מידע קולי ממכונה לאדם ולהפך. מערכת ה-TTS ממירה טקסט נתון לצורה המדוברת המתאימה לו. להעברת מידע יעילה, מערכת ה-TTS צריכה להיות בעלת יכולת ליצור דיבור טבעי ומובן. למרות שהרבה גישות סינתזה הוצעו בעבר, איכות הדיבור הסינתטי עדיין לא תואמת לחלוטין את איכות הדיבור האנושי.

בדרך כלל, הפרמטרים והמשאבים המשמשים בקצה הקדמי הם ספציפיים לשפה, והשיטות והמודלים המשמשים הן בקצה הקדמי והן בקצה האחורי הם לרוב בלתי תלויים בשפה. בהשוואה לקצה הקדמי, שיטות הסינתזה האחוריות משפיעות מאוד על איכות הדיבור הסגמנטלית ומאפייני הקול השונים של הדיבור המסונתז. לפיכך, מערכות TTS מסווגות על סמך סוג שיטות הסינתזה המשמשות בקצה האחורי.

סינתזת פורמנט

סינתזת פורמנט מנסחת מערכת כללים על הפרמטרים האקוסטיים ליצירת הדיבור. הפרמטרים האקוסטיים מציינים תדרי פורמנט, משרעות ורוחב פס שלהם, כמו גם תדר בסיסי, קול וכמות רעש השאיפה. המומחים האנושיים גוזרים מערכת כללים המבוססת על ניתוח נתוני הדיבור. הכללים מציינים כיצד הפרמטרים צריכים להשתנות ביחס לזמן בהתאם לקלט מהחזית. אות העירור שמיוצג כרצף של פולסים או רעש מועבר דרך מסנן סינתזה המייצג את תדרי הפורמט^[2]. מסנן הסינתזה נבנה על ידי שימוש במספר מסננים מסדר שני כאשר כל מסנן מייצג תדר פורמנט אחד. ניתן לחבר את המסננים מסדר שני בטור או במקביל. הטבעיות של סינתזת הפורמנטים היא ירודה בשל מערכת הכללים המצומצמת שנוסחו על ידי המומחים האנושיים ובשל ערכת הגירוי הפשוטה. בפועל, קשה מאוד לפתח מערכת כללים מקיפה ליצירת דיבור איכותי. למרות החסרונות הרבים, הסינתיסייזר שמשתמש עם מתודת פורמנט יכול לשמש במכונת קריאה עבור אנשים בעלי קושי חזותי והוא מתאים ליישומים הדורשים טביעת זיכרון קטנה^[3]^[4]^[5].

סינתזה מפרקית

סינתזה מפרקית שואפת לנתח את הדיבור במונחים של מאפיינים ארטיקולטוריים של מנגנון הפקת דיבור. הם מתארים את צורת מערכת הקול ואת התנועה של מפרקי מנגנון הפקת דיבור עם הזמן^[6]^[7]. הקושי העיקרי בסינתזה מפרקית היא המורכבות בגזירת כללים מפרקים להפקת צלילי דיבור^[8]. הסינתיסייזרים המפרקים הקיימים יכולים להפיק דיבור באיכות טובה עבור צלילים מבודדים, כגון תנועות^[9]. אבל איכות הדיבור יורדת משמעותית במהלך סינתזה של דיבור רציף, עקב הבעיות במודל של השפעות הקוארטיקולציה. למרות ההתקדמות במחקר על מנגנון הפקת דיבור בסיסי בשנים האחרונות, הסינתזה המפרקית לא זכתה להצלחה רבה בהשוואה לשיטות סינתזת דיבור אחרות. לאחרונה, נעשה שימוש במאפיינים המפרקים שנגזרו מטכניקות המדידה האחרונות, כגון הדמיית תהודה מגנטית וארטיקולוגרפיה אלקטרומגנטית, בסינתיסייזרים פרמטריים סטטיסטיים של דיבור קיימים^[10]^[11].

סינתזה משורשרת

בסינתזה משורשרת, צורות גל דיבור טבעי שהוקלטו מראש מפוצלות למקטעי דיבור קטנים, ובמהלך הסינתזה, מקטעים אלו משורשרים בצורה חלקה כדי ליצור את המילים. באופן כללי, הסינתזה המשרשרת מספקת פלט דיבור באיכות גבוהה, אך לפעמים עלולים להתרחש עיוותים נשמעים בפלט עקב בחירה וצירוף של קטעי דיבור לא מתאימים. בהתאם לסוג היחידות המשמשות לשרשור, ישנם בעיקר שלושה סוגים של סינתזת שרשור, כלומר, (1) סינתזה ספציפית לתחום, (2) סינתזת דיפון ו-(3) סינתזת בחירת יחידות.

בסינתזה ספציפית לתחום, אמירת הדיבור נוצרת על ידי שרשור המילים והביטויים המוקלטים. ניתן להשתמש בגישה מסוג זה ביישומים, כגון הכרזות מתוזמנות בתחבורה ציבורית ודוחות מזג אוויר שבהם פלט הדיבור הרצוי מוגבל לתחום ספציפי קטן. איכות הדיבור המסונתז גבוהה מאוד עקב שרשור של קטעי דיבור טבעיים ארוכים. אבל החיסרון העיקרי של שיטה זו הוא שהפרוזודיה של הדיבור המסונתז אינה תואמת את הפרוזודיה של אמירת הדיבור הטבעי.

בסינתזת דיפון^[12], מסד נתונים של דיבור מוכן בקפידה כך שכל אחד מהדיפונים מופיע לפחות פעם אחת ומספר הדיפונים תלוי בשפה. במהלך הסינתזה, הדיבור מתקבל על ידי צירוף הדיפונים שנבחרו ממאגר הדיבור הקטן. מאפייני הפרוזודיה של הדיפונים שנבחרו משתנים באמצעות טכניקות עיבוד אותות מתאימות כגון Pitch Synchronous Overlap-Add (PSOLA)^[13], חפיפה מחדש של multiband resynthesis-add (MBROLA)^[14], וחיזוי ליניארי מעורר שיורית (RELP)^[15]. סינתזת הדיפון סובלת לעיתים קרובות מעיוותים נשמעים כאשר משרשרים שני דיפונים שאינם תואמים זה לזה. העיוותים הנשמעים יכולים להתרחש גם במהלך שינוי פרוזודיה של דיפונים על ידי טכניקות עיבוד אותות.

סינתזת בחירת יחידות יוצרת את הדיבור על ידי שרשור מקטעי הדיבור הטבעי שנבחרו ממסד נתונים גדול^[16]. מאגר הדיבור הגדול מכיל מופעים מרובים של כל יחידה עם הקשר ומצבים פרוזודיים משתנים. מסד הנתונים של הדיבור מפולח ליחידות שיכולות להיות באורך משתנה: חצאי פונים, פונים, דיפונים, טריפונים, הברות, מורפומות, מילים, ביטויים או אפילו משפטים. בחירת היחידה תלויה באופי השפה וביישום היעד. לאחר פילוח מסד הנתונים של הדיבור, יחידות הדיבור מתווספות לאינדקס, מקובצות ומתויגות בהתאם למאפיינים לשוניים ואקוסטיים. במהלך הסינתזה, בהתאם ליחידות היעד ולתכונות הפונטיות, ההקשריות והפרוזודיות המשויכות להן, נבחרות היחידות המתאימות ממסד הנתונים ולאחר מכן משורשרות אותן כדי ליצור את הדיבור. סינתזת בחירת היחידה יכולה לספק דיבור טבעי ומובן ביותר אם נעשה שימוש בקורפוס גדול מותאם היטב (דובר יחיד). סינתזת בחירת היחידה מתאימה ביותר ליישומים המעורבים ביצירת דיבור עם סגנון דיבור יחיד. החיסרון של סינתזה זו הוא שמטבע הדברים אינו גמיש וקשה לשנות את מאפייני הקול כגון איכות הקול, סגנון דיבור והבעה.

בתרבות

ב-2022 הודיע ג'יימס ארל ג'ונס שהוא פורש מדיבוב דארת' ויידר בזיכיון מלחמת הכוכבים, וחתם על הסכם עם לוקאספילם במסגרתו חברת סטארט-אפ מאוקראינה תסנתז את קולו באמצעות בינה מלאכותית. בטכנולוגיה זו נעשה שימוש בסדרה אובי ואן קנובי.^[17]

קישורים חיצוניים

מדיה וקבצים בנושא סינתזת דיבור בוויקישיתוף

topic/speech-synthesizer סינתזת דיבור, באתר אנציקלופדיה בריטניקה (באנגלית)

הערות שוליים

^ ¹ ² ³ ⁴ פרידמן, א. (1984). לכסיקון המחשב. תל אביב: ספריית אנשים ומחשבים.
^ W. Lawrence, The synthesis of speech from signals which have a low information rate, Communication Theory, Butterworth & Co, London, 1953
^ Pickett, J. M. (James M.), The acoustics of speech communication : fundamentals, speech perception theory, and technology, Allyn and Bacon, 1999, ISBN 0-205-19887-2
^ Cahn, Janet E. (Janet Elizabeth), Generating expression in synthesized speech, 1989
^ Allen, Jonathan, 1934-, From text to speech : the MITalk system, Cambridge University Press, 1987, ISBN 0-521-30641-8
^ George Rosen, Dynamic Analog Speech Synthesizer, The Journal of the Acoustical Society of America 30, 1958-03, עמ' 201–209 doi: 10.1121/1.1909541
^ VocalTractLab, www.vocaltractlab.de
^ Steiner, Ingmar Michael A. 1979-, Observations on the dynamic control of an articulatory synthesizer using speech production data, [Verlag nicht ermittelbar], 2010
^ K. Iskaroust, L.M. Goldsteinta, D. Whalent, M.K. Tiedetb, P.E. Rubintc, CASY: the configurable articulatory synthesizer, in Proceedings of International Congress of Phonetic Sciences (2003), pp. 185–188
^ Z.-H. Ling, K. Richmond, J. Yamagishi, R.-H. Wang, Integrating articulatory features into HMM-based parametric speech synthesis. IEEE Trans. Audio Speech Lang. Process. 17(6), 1171–1185 (2009)
^ M. Astrinaki, A. Moinet, J. Yamagishi, K. Richmond, Z.-H. Ling, S. King, T. Dutoit, MageHMM-based speech synthesis reactively controlled by the articulators, in Proceedings of International Speech Communication Association Speech Synthesis Workshop (ISCA SSW8) (2013), pp. 207–211
^ . T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken, The MBROLA project: towards a set of high quality speech synthesizers free of use for non-commercial purposes, in Proceedings of International Conference on Spoken Language (ICSLP) (1996), pp. 1393– 1396
^ E. Moulines, F. Charpentier, Pitch-synchronous waveform processing techniques for text-tospeech synthesis using diphones. Speech Commun. 9(5–6), 453–467 (1990)
^ T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken, The MBROLA project: towards a set of high quality speech synthesizers free of use for non-commercial purposes, in Proceedings of International Conference on Spoken Language (ICSLP) (1996), pp. 1393– 1396
^ H.T. Bunnell, D. Yarrington, K.E. Barner, Pitch control in diphone synthesis, in Proceedings of ESCA/IEEE Workshop on Speech Synthesis (1994), pp. 127–130
^ A.J. Hunt, A.W. Black, Unit selection in a concatenative speech synthesis system using a large speech database, in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (1996), pp. 373–376
^ קול מבוסס AI החליף את ג'יימס ארל ג'ונס בתור דארת' ויידר (ואף אחד לא שם לב), באתר Geektime.

[פרידמן1984-1] ¹ ² ³ ⁴ פרידמן, א. (1984). לכסיקון המחשב. תל אביב: ספריית אנשים ומחשבים.

[2] W. Lawrence, The synthesis of speech from signals which have a low information rate, Communication Theory, Butterworth & Co, London, 1953

[3] Pickett, J. M. (James M.), The acoustics of speech communication : fundamentals, speech perception theory, and technology, Allyn and Bacon, 1999, ISBN 0-205-19887-2

[4] Cahn, Janet E. (Janet Elizabeth), Generating expression in synthesized speech, 1989

[5] Allen, Jonathan, 1934-, From text to speech : the MITalk system, Cambridge University Press, 1987, ISBN 0-521-30641-8

[6] George Rosen, Dynamic Analog Speech Synthesizer, The Journal of the Acoustical Society of America 30, 1958-03, עמ' 201–209 doi: 10.1121/1.1909541

[7] VocalTractLab, www.vocaltractlab.de

[8] Steiner, Ingmar Michael A. 1979-, Observations on the dynamic control of an articulatory synthesizer using speech production data, [Verlag nicht ermittelbar], 2010

[9] K. Iskaroust, L.M. Goldsteinta, D. Whalent, M.K. Tiedetb, P.E. Rubintc, CASY: the configurable articulatory synthesizer, in Proceedings of International Congress of Phonetic Sciences (2003), pp. 185–188

[10] Z.-H. Ling, K. Richmond, J. Yamagishi, R.-H. Wang, Integrating articulatory features into HMM-based parametric speech synthesis. IEEE Trans. Audio Speech Lang. Process. 17(6), 1171–1185 (2009)

[11] M. Astrinaki, A. Moinet, J. Yamagishi, K. Richmond, Z.-H. Ling, S. King, T. Dutoit, MageHMM-based speech synthesis reactively controlled by the articulators, in Proceedings of International Speech Communication Association Speech Synthesis Workshop (ISCA SSW8) (2013), pp. 207–211

[12] . T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken, The MBROLA project: towards a set of high quality speech synthesizers free of use for non-commercial purposes, in Proceedings of International Conference on Spoken Language (ICSLP) (1996), pp. 1393– 1396

[13] E. Moulines, F. Charpentier, Pitch-synchronous waveform processing techniques for text-tospeech synthesis using diphones. Speech Commun. 9(5–6), 453–467 (1990)

[14] T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken, The MBROLA project: towards a set of high quality speech synthesizers free of use for non-commercial purposes, in Proceedings of International Conference on Spoken Language (ICSLP) (1996), pp. 1393– 1396

[15] H.T. Bunnell, D. Yarrington, K.E. Barner, Pitch control in diphone synthesis, in Proceedings of ESCA/IEEE Workshop on Speech Synthesis (1994), pp. 127–130

[16] A.J. Hunt, A.W. Black, Unit selection in a concatenative speech synthesis system using a large speech database, in Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (1996), pp. 373–376

[17] קול מבוסס AI החליף את ג'יימס ארל ג'ונס בתור דארת' ויידר (ואף אחד לא שם לב), באתר Geektime.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]