איתור מילות מפתח
איתור מילות מפתח (באנגלית: Keyword spotting או Word Spotting) הוא בעיה שהוגדרה לראשונה בהקשר של עיבוד וניתוח של דיבור[1][2]. בעיבוד דיבור, איתור מילות מפתח עוסק בזיהוי מילות מפתח במהלך הגייתן.
איתור מילות מפתח מוגדר גם כבעיה נפרדת, אך קשורה, בהקשר של עיבוד תמונות ומסמכים[1]. בעיבוד תמונות ומסמכים, איתור מילות מפתח הוא בעיה בה יש למצוא את כל המופעים של מילת המפתח בתוך תמונה או מסמך סרוק וזאת מבלי לפענח את התמונה או את המסמך במלואם.
בעיבוד דיבור
[עריכת קוד מקור | עריכה]העבודות הראשונות באיתור מילות מפתח הופיעו בסוף שנות ה-80.[2]
מקרה מיוחד של איתור מילות מפתח הוא איתור מילות-עירור (wake word או hot word) המשמשות בתקשורת עם עוזרים דיגיטליים אישיים כמו אלקסה או סירי כדי "להעיר" אותם כששמם נאמר.
בארצות הברית, סוכנות הביטחון הלאומית עשתה שימוש באיתור מילות מפתח לפחות מאז שנת 2006.[3] טכנולוגיה זו מאפשרת לאנליסטים לחפש מידע בכמויות גדולות של שיחות מוקלטות ולבודד אזכורים של מילות מפתח חשודות. IARPA (אנ') מימנה מחקר בנושא איתור מילות מפתח במסגרת תוכנית בבל (אנ').
כמה אלגוריתמים המשמשים למשימה זו הם:
- Sliding window (אנ')
- garbage model
- השערת K הטובים ביותר
- Iterative Viterbi decoding (אנ')
- Convolutional neural network
- רשתות קונבולוציה[4]
בעיבוד מסמכים ותמונות
[עריכת קוד מקור | עריכה]ניתן לראות באיתור מילות מפתח בתמונות מסמכים תת-בעיה של בעיית אחזור תמונות על בסיס תוכן (CBIR (אנ')). בהינתן שאילתה, המטרה היא לאחזר את המקרים הרלוונטיים ביותר של מילים מתוך אוסף של מסמכים סרוקים[1]. השאילתה יכולה להיות מחרוזת טקסט (query-by-string keyword spotting) או תמונה של מילה (query-by-example keyword spotting).
הערות שוליים
[עריכת קוד מקור | עריכה]- ^ 1 2 3 Giotis, A.P; Sfikas, G.; Gatos, B.; Nikou, C. (2017). "A survey of document image word spotting techniques". Pattern Recognition. 68: 310–332. doi:10.1016/j.patcog.2017.02.023.
- ^ 1 2 Rohlicek, J.; Russell, W.; Roukos, S.; Gish, H. (1989). "Continuous hidden Markov modeling for speaker-independent word spotting". Proceedings of the 14th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 1: 627–630.
- ^ Froomkin, Dan. "THE COMPUTERS ARE LISTENING". The Intercept. נבדק ב-20 ביוני 2015.
{{cite web}}
: (עזרה) - ^ Sainath, Tara N and Parada, Carolina (2015). "Convolutional neural networks for small-footprint keyword spotting" (PDF). Sixteenth Annual Conference of the International Speech Communication Association.
{{cite journal}}
: תחזוקה - ציטוט: multiple names: authors list (link)