ערכים חסרים
בסטטיסטיקה, ערכים חסרים (missing values) או מידע חסר (missing data) מתארים מצב בו תחת תצפית מסוימת לא קיימים נתונים באחד המשתנים הנאמדים. תופעה זו רווחת, ועלולה להיות בעלת השפעה משמעותית על המסקנות הנגזרות מן המידע שנאסף. על מנת להסיק נכונה מאוסף תצפיות המכילות ערכים חסרים, על החוקר להתייחס לחוסרים.
סוגים של ערכים חסרים
[עריכת קוד מקור | עריכה]ערכים חסרים מתחלקים לסוגים שונים הנבדלים זה מזה במנגנון היוצר אותם. פרופ' דונלד רובין[1](אנ') חילק את סוגי הערכים החסרים לשלוש במאמר שפורסם בשנת 1976 והפך לאבן דרך בתחום[2].
ערכים חסרים המתרחשים כתוצאה מהשפעה שאינה מתואמת עם משתנים שנמדדו עבור התצפיות, וגם אינה מתואמת עם משתנים שלא נמדדו נקראים חסרים לחלוטין באקראי (missing completely at random) או בראשי תיבות MCAR. במילים אחרות: ללא קשר למאפייני התצפית, הסיכוי להכיל ערכים חסרים שווה.
ערכים חסרים המתרחשים כתוצאה מהשפעה שמתואמת לחלוטין עם משתנים שנמדדו עבור התצפיות נקראים חסרים באקראי (missing at random) או בראשי תיבות MAR. במילים אחרות, חלק מהמשתנים שנמדדו מגדירים לאילו תצפיות יהיו ערכים חסרים. לדוגמה, במקום שבו משתנה מסוים גורם למשתתפי סקר לא לענות על שאלה מסוימת, מדידה של משתנה זה תוביל לידיעה עבור מי מהתצפיות יהיו נתונים חסרים הנובעים מחוסר מענה על אותה השאלה.
ערכים חסרים המתרחשים כתוצאה מהשפעה שאינה מתואמת עם משתנים שנמדדו, אלא עם משתנים שאינם נמדדו עבור התצפיות נקראים חסרים לא באקראי (missing not at random) או בראשי תיבות MNAR. במילים אחרות: הסיכוי להכיל ערכים חסרים תלוי במאפייני התצפית אך לא זמין לחוקר.
שיטות להתמודדות עם ערכים חסרים
[עריכת קוד מקור | עריכה]קיימות מספר סוגי שיטות אשר מאפשרות לחוקרים להתמודד עם ערכים חסרים.
הסוג הפשוט ביותר הוא החסרה שיטתית של המידע החסר מניתוח הנתונים. לדוגמה הסרה שיטתית מהמדגם של כל תצפית שאינה מכילה ערכים בכל המשתנים (incomplete case deletion). שיטה זו עלולה ליצור הטיה בנתונים מסוג MAR וMNAR מאחר שלתצפיות בעלות ערכים חסרים יש מאפיינים ייחודיים לעומת תצפיות ללא ערכים חסרים.
סוג אחר של שיטות מבוסס על השלמת ערכים בהתאם למודל משוער אשר יוצר את המידע, או באמצעות מדד מרכזי כמו ממוצע או חציון. עם התפתחות המחקר בתחום התגלה כי השלמת ערכים חסרים באמצעות מדדים מרכזיים אינה אסטרטגיה טובה[3] בין היתר מאחר שהיא יכולה ליצור צירופים לא ריאליסטיים של פיסות מידע (כדוגמת זכר בהריון), כמו גם משום שהיא מטה אמידה של מובהקות סטטיסטית באמצעות הקטנת שונות בצורה שאינה מוצדקת. עם התפתחות כוח המחשוב פותחו שיטות מבוססות סימולציות ממוחשבות רבות מבוססות על המידע הקיים (Data driven). לדוגמה שימוש באלגוריתם MICE - multiple imputation by chained equations[3].