בסטטיסטיקה מתמטית ובתורת האינפורמציהדיברגנץ קולבק-לייבלר (KL) (נקרא גם אנטרופיה יחסית[1]), מסומן , הוא סוג של מרחק סטטיסטי בין התפלגויות: מדד לאופן שבו התפלגות הסתברות אחת P שונה מהתפלגות הסתברות שנייה Q.[2]
מתמטית
.
ניתן לפרש את דיברגנץ קולבק-לייבלר של P מ- Q כהפתעה הצפויה משימוש בהתפלגות Q במקום ב P כאשר ההתפלגות בפועל היא P. למרות שמדובר במדד לשונות של שתי ההתפלגויות, ובמובן מסוים הוא לפיכך "מרחק", דיברגנץ קולבק-לייבלר אינו מטרי. בפרט, הוא אינו סימטרי בשתי ההתפלגויות, ואינו מקיים את אי השוויון המשולש.
הערך של דיברגנץ קולבק-לייבלר הוא תמיד מספר ממשי אי-שלילי, עם ערך 0 אם ורק אם שתי ההתפלגויות המדוברות זהות. יש לו יישומים מגוונים, הן תאורטיים כגון אפיון מערכות מידע, אקראיות של סדרות זמן רציפות ורווח מידע(אנ') בעת השוואת מודלים סטטיסטיים של הסקת מסקנות, והן מעשיים, כגון סטטיסטיקה יישומית, מכניקת נוזלים, מדעי המוח, ביואינפורמטיקה ולמידת מכונה.
במילים אחרות, זוהי התוחלת של הפרש הלוגריתמים בין ההסתברויות P ו- Q, כאשר התוחלת נלקחת באמצעות ההסתברויות P.
דיברגנץ קולבק-לייבלר מוגדר בדרך זו רק אם לכל , גורר . אחרת, הוא מוגדר כ [1]. אבל דיברגנץ קולבק-לייבלר יכול לקבל את הערך גם אם בכל התומך של ,[4][5] בתנאי שאינסופי. הערות דומות חלות גם על התפלגויות רציפות.
בְּכָל נקודה שבההוא אפס, התרומה של האיבר המתאים בסכום מתאפסת מכיוון ש
.
עבור התפלגויות P ו- Q של משתנה אקראי רציף, דיברגנץ קולבק-לייבלר מוגדר כאינטגרל[6]
קולבק נותן את הדוגמה הבאה: יהיו P ו- Q ההתפלגויות המוצגות בטבלה ובאיור להלן. P, ההתפלגות בצד שמאל של האיור, היא התפלגות בינומית עם ו . Q ההתפלגות בצד ימין של האיור, היא התפלגות אחידה בדידה עם שלוש התוצאות האפשריות, 0, 1, 2 (כלומר ), כל אחת בהסתברות .
הערך של דיברגנץ קולבק-לייבלר הוא אי-שלילית. תוצאה המכונה גם אי-שוויון גיבס. אם ורק אם כהתפלגויות.
חסם תחתון מדויק יותר לערך של דיברגנץ קולבק-לייבלר[7]
במקרה הכללי אין חסם עליון לערך של דיברגנץ קולבק-לייבלר.
דיברגנץ קולבק-לייבלר נשאר מוגדר היטב עבור התפלגויות רציפות, ובנוסף הוא אינו משתנה תחת טרנספורמציות פרמטרים. לדוגמה, אם מתבצעת טרנספורמציה ממשתנה למשתנה אזי ובאותו אופן כאשר האו הערך המוחלט של הנגזרת, או באופן כללי יותר היעקוביאן. ניתן לכתוב את דיברגנץ קולבק-לייבלק:
דיברגנץ קולבק-לייבלר הוא אדיטיבי להתפלגויות בלתי תלויות, בדיוק כמו האנטרופיה של שאנון. כלומר אם ו בלתי תלויות, ונסמן ובאותו אופן עבור ההתפלגויות הבלתי תלויות ו אזי
ניתן לפתח את (i.e. ) כטור טיילור סביב נקודת המינימום (כלומר )
נניח שתי התפלגות רב-נורמלית עם תוחלות ועם מטריצות קווריאנס (לא סינגולריות) . אם לשתי ההתפלגויות יש אותו ממד, k, אז דיברגנץ קולבק-לייבלר בין ההתפלגויות הוא:[8]
באיבר האחרון יש להשתמש בלוגריתם בבסיס הטבעי מכיוון שכל האיברים מלבד האחרון הם לוגריתמים טבעיים של ביטויים שהם גורמים של פונקציית הצפיפות או שנוצרים באופן טבעי בדרך אחרת. כדי כדי שהדיברגנץ יבטא יחידות של סיביות יש לחלק את הביטוי לעיל ב .
במימוש נומרי, רצוי לבטא את התוצאה במונחים של פירוק שולסקי כך ש ו . ואז עם פתרונות M ו- y למערכות הליניאריות המשולשות , ו נקבל
אאאאא אנטרופיה משותפת ודיברכנץ קולבק-לייבלר אאאאא מקרה מיוחד, וכמות נפוצה בהסקת וריאציה, היא האנטרופיה היחסית בין נורמה רב משתנים אלכסונית, לבין התפלגות נורמלית סטנדרטית (עם ממוצע אפס ושונות אחת):
עבור שתי התפלגות נורמלית במשתנה אחד, p ו- q האמור לעיל מפשט ל- [9]
במקרה של התפלגויות נורמליות עם אותה תוחלת, נסמן , וניתן לפשט את הביטוי לעיל[10]:
ניתן לבטא את האינפורמציה הדדית במונחי דיברגנץ קולבק-לייבלר
האינפורמציה ההדדית היא המספר הצפוי של סיביות נוספות שיש להעביר לזיהוי X ו- Y אם הם מקודדים רק באמצעות ההתפלגות השולית שלהם במקום ההתפלגות המשותפת. באותו אופן, אם ההסתברות המשותפת ידועה, זהו תוחלת מספר הסיביות הנוספות שיש לשלוח בממוצע כדי לזהות את Y אם הערך של X אינו ידוע.
אם בוחרים עבור בהתפלגות בדידה של N איברים ( ) ניתן לכתוב את האנטרופיה של P
זהו מספר הסיביות שיהיה צורך לשדר כדי לזהות את X מתוך N אפשרויות סבירות באותה מידה, בהפחתת האנטרופיה היחסית של ההתפלגות האחידה על המשתנים המקריים של X, , מההתפלגות האמיתית - כלומר פחות המספר הצפוי של סיביות שנשמרו, שהיה צריך להישלח אם הערך של X היה מקודד לפי ההתפלגות האחידה ולא את ההתפלגות האמיתית . הגדרה זו של אנטרופיה שאנון מהווה את הבסיס להכללה האלטרנטיבית של אדווין תומפסון ג'יינס להתפלגות רציפות, הצפיפות המגבילה של נקודות בדידות (בניגוד לאנטרופיה הדיפרנציאלית הרגילה), המגדירה את האנטרופיה הרציפה
ערך מורחב – אנטרופיה מותנית ניתן לנסח את האנטרופיה המותנית באמצעות דיברגנץ קולבק-לייבלר
זהו מספר הסיביות שיש להעביר כדי לזהות את X מתוך N אפשרויות סבירות באותה מידה, בהפחתת האנטרופיה היחסית של התפלגות המכפלה מההתפלגות המשותפת האמיתית - כלומר פחות המספר הצפוי של ביטים שנשמרו שהיה צריך להישלח אם הערך של X היה מקודד לפי ההתפלגות האחידה במקום ההתפלגות המותנית של X בהינתן Y.
^PANTELIMON G. POPESCU, SEVER S. DRAGOMIR,
EMIL I. SLUS¸ANSCHI, OCTAVIAN N. STAN˘ AS¸IL ˘ A, BOUNDS FOR KULLBACK-LEIBLER DIVERGENCE, Electronic Journal of Differential Equations 2016, 2016, עמ' 6–1