משפט ראו-בלקוול

משפט ראו-בלקוול הוא משפט יסודי בתורת האמידה. בהינתן אומד חסר הטיה, גרוע ככל שיהיה, המשפט מאפשר לבנות אומד עדיף, שהוא לעיתים קרובות האומד הטוב ביותר האפשרי.

המשפט נקרא על שם מגליו: קליאמפודי ראדאקרישנה ראו ודויד בלאקוול

רקע

תורת האמידה עוסקת בהתפלגות 'סודית', שהידע עליה חסר: ידוע שהיא שייכת למשפחה מוכרת של התפלגויות (כגון התפלגות מעריכית או התפלגות בינומית), אבל הפרמטרים הקובעים את ההתפלגות הפרטית (התוחלת במקרה הראשון, הסתברות ההצלחה בכל ניסוי במקרה השני) אינם ידועים. המטרה המרכזית של הסטטיסטיקאי היא לאמוד את הפרמטרים, באמצעות מדגם שהוגרל מן ההתפלגות הסודית.

משימה זו דורשת הפעלת אומד, שהוא פונקציה ניתנת לחישוב של המדגם. לאומד אסור להיות תלוי בפרמטרים, שהרי אלו אינם ידועים. כמעט בכל מקרה מחפשים אומד שיהיה חסר הטיה: התוחלת של האומד צריכה להיות שווה לערכו של הפרמטר שמבקשים לאמוד. ההשוואה בין אומדים שונים נעשית על-פי השונות שלהם: ככל שהשונות קטנה יותר, האומד מוצלח יותר (משום שהוא יציב יותר, ופחות תלוי בגורמים אקראיים).

להרחבה, ראו תורת האמידה.

סטטיסטי מספיק

דגימה מתוך התפלגות שאינה ידועה מערבת שני גורמי אי-ודאות: הפרמטר שאינו ידוע, והאקראיות המובנית בפונקציות ההתפלגות. לפעמים אפשר לפצל את חוסר הוודאות הזה באמצעות סטטיסטי, שהוא (בדיוק כמו אומד) פונקציה ניתנת לחישוב של המדגם. אם ההתפלגות המותנית של המדגם, בהינתן ערכו של הסטטיסטי, אינה תלויה עוד בפרמטר הלא-ידוע, אז הסטטיסטי נקרא סטטיסטי מספיק.

דוגמה. מספר שגיאות הכתיב בעמוד מודפס הוא משתנה מקרי בעל התפלגות פואסון. ההתפלגות המדויקת תלויה בפרמטר $\ \lambda$ , השווה לתוחלת ההתפלגות. ערכו של הפרמטר תלוי כמובן במידת ההקפדה של הסופר ושל העורך, ובטיב ההגהה וההדפסה. אם דוגמים עשרה עמודים בספר וסופרים את השגיאות בכל אחד מהם, אפשר לנסות ולאמוד את $\ \lambda$ מתוך עשרת המספרים שהתקבלו. במקרה זה, מתברר כי מספר השגיאות הכולל S מהווה סטטיסטי מספיק. כאשר מבקשים לחשב את הסיכוי לתופעה מסוימת במדגם (למשל, לכך שבעמוד השלישי יהיו שתי שגיאות), אפשר להסתפק בידיעת S; ערכו המדויק של הפרמטר לא יוסיף שום מידע לחישוב. גם ההפך נכון: את כל שאפשר להסיק על $\ \lambda$ מתוך עשרת מספרי השגיאות, אפשר להסיק כבר מן הסכום S.

משפט ראו-בלקוול

נניח ש- S הוא סטטיסטי מספיק, ו- T הוא אומד חסר הטיה עבור הפרמטר שמבקשים לאמוד. נגדיר משתנה חדש, השווה לתוחלת המותנית $\ T'=E(T|S)$ . אז:

המשתנה $\ T'$ גם הוא חסר הטיה.
$\ T'$ תלוי ב- S ותו לא.
לכל ערך של הפרמטר, השונויות מקיימות $\ V(T')\leq V(T)$ .
אם $\ T'$ אינו שווה ל- T בהסתברות 1, אז $\ V(T')<V(T)$ לפחות עבור ערכים מסוימים של הפרמטר.

הווה אומר, המקרה היחיד שבו המשתנה החדש אינו טוב יותר, הוא כאשר המשתנה החדש שווה לישן, ובפרט, כאשר המשתנה T תלוי במדגם רק דרך S.

לעובדה שמשפט ראו-בלקוול מייצר אומד חסר-הטיה התלוי רק בסטטיסטי המספיק S יש חשיבות מיוחדת. אם הסטטיסטי S הוא, בנוסף להיות מספיק, גם סטטיסטי שלם, אז משפט להמן-שפה מבטיח שהאומד $\ T'$ הוא בעל שונות מינימלית מבין כל האומדים חסרי ההטיה, וזאת באופן אחיד (על-פני כל ערכי הפרמטר).

הוכחת המשפט

עם כל חשיבותו של המשפט, ההוכחה פשוטה למדי, ומבוססת על מה שמכונה 'הפירוק האורתוגונלי' של השונות:

\ V(T)=V(E(T|S))+E(V(T|S))=V(T')+E(V(T|S))\geq V(T')

.