חריג חשוד טעות
בסטטיסטיקה, חריג חשוד טעות (באנגלית: Outlier) הוא ערך של מדידה השונה באופן קיצוני מהרוב הגדול של הערכים וחשוד כערך שהתקבל עקב שגיאת מדידה או שגיאה בהבנת התופעה הנמדדת.
מדדי חריגות
[עריכת קוד מקור | עריכה]על מנת להחליט בצורה מבוססת מידע אילו תוצאות הן חריגות, פותחו עם השנים מדדים שונים.
למשל נהוג להסתכל עד כמה תצפית חריגה במונחים של השפעה על מודל. דוגמה למדד שכזה הוא הנפה.
אפשרות אחרת היא מדידה פשוטה של מרחק ערכי משתנה של תצפית מממוצע הערכים של כלל התצפיות באותו המשתנה. מרחק זה נהוג לחשב ביחידות מתוקננות, ולהסיר תצפיות העוברות מרחק קבוע מראש כמו שתיים וחצי או שלוש סטיות תקן.
לאופן ההגדרה של תצפית חורגת יש השפעה על המסקנות המוסקות מן המידע, ולחוקרים יש שיקול דעת רחב יחסית בנושא. לפיכך, כיום בתחומים מסוימים נהוג להצהיר לפני ביצוע מחקרים על השיטה בה מוגדרים תצפיות כחריגות על מנת להימנע ממצב של פשפוש בנתונים. דרישה זו הפכה נפוצה כחלק מתגובה למשבר השחזור.
דוגמאות
[עריכת קוד מקור | עריכה]דוגמה לערך חריג שלא ברור אם הוא שגוי: לפי הערכות תוחלת החיים של ה־CIA לקראת שנת 2010[1] למדינות וישויות מדיניות (ישויות כמו "העולם", "האיחוד האירופי" ו"רצועת עזה"), תוחלת החיים המולדת במונקו היא 89.78 שנים. דהיינו ה־CIA מעריך שמי שייוולד במדינה זו ובשנה זו ימות בממוצע, חודשיים וחצי לפני שיגיע לגיל תשעים. הערכה זו נראית שגויה משום ש:
- מחיי היום יום אנו רגילים לחשוב על מוות בגיל תשעים כתופעה חריגה ולא ממוצעת
- ערך זה גבוה באופן לא שגרתי מהערך הבא אחריו. הערך הבא בטבלה נמוך מערך זה בחמש שנים בניגוד להבדלים המקובלים בין ערכים עוקבים בטבלה זו שהם כמספר חודשים.
מאידך, הערכה זו נראית נכונה משום ש:
- מרבית הערכים הגבוהים בטבלה הם ממדינות מערב אירופאיות כמו מונקו
- שלושת הערכים הבאים אחרי ערך זה הם ממדינות קטנות מאוד ועשירות מאוד כמו מונקו
- הערך הזה הוא במרחק של פחות משתי סטיות תקן מממוצע הערכים בטבלה. דהיינו, אם יש התפלגות נורמלית לתוחלת חיים בין מדינות, אזי אחד מכל עשרים ערכים אמור להיות קיצוני יותר מערך זה.
דוגמה לערך חריג שברור שהוא שגוי: דיווח על תוצאה של 1000 במבחן בגרות. דיווח כזה חייב להיות שגוי משום שהציון המקסימלי במבחני הבגרות הוא 100. ניתוח תוצאות מבחן הבגרות של שלושים נדגמים, שאחד מהם דיווח על ציון 1000, עשוי להיות מעוות מאוד. אם ממוצע הציונים של שאר 29 התלמידים הוא 70, הרי שהממוצע של כל השלושים יחדיו הוא 30/(70*29 +1000)= 101.
כאשר נתקלים בערך חריג חשוד שגיאה בעת מחקר, יש לדווח עליו ולנמק את המשך ניתוח המידע בלעדיו. הנימוק חייב לכלול הן את הסיבה לחשד שהנתון לא יכול להיות אמיתי והן את תוצאת המדד לעיוות תוצאות המחקר על ידו. מדד כזה מבוסס על חישוב ממוצע התוצאות עם ובלי הקיצון השקרי.
יש לזכור שלא כל תוצאה חריגה היא שגויה. אם 29 איש מדווחים שיש להם בארנק 70 שקלים בממוצע ואדם נוסף מדווח שיש לו 1000 שקלים בארנק, אזי הדיווח שלו אינו בהכרח שקרי. במקרה כזה, טיפול בתוצאות בלא עיוותן יכול לכלול מעבר משימוש בממוצע לשימוש בחציון או חלוקת טווח התוצאות לתת־טווחים ומציאת שכיחותם של תת־טווחים אלה. לדוגמה: החציון עשוי להיות 65 שקלים ושכיחות תת־הטווחים עשויה להיות 20 איש עם פחות מ־66 שקלים, שמונה עם 66 עד 96 שקלים ו־3 עם 97 שקלים ומעלה.
לקריאה נוספת
[עריכת קוד מקור | עריכה]קישורים חיצוניים
[עריכת קוד מקור | עריכה]- חריג חשוד טעות, באתר MathWorld (באנגלית)