משתנה איכותי
משתנה איכותי (או משתנה קטגורי) הוא משתנה בסטטיסטיקה הנמדד בסולם מדידה שמי או סולם מדידה סודר. הערכים של משתנים כאלה נקבעים בדרך כלל על ידי תכונה איכותית, כלומר תכונה שלא ניתן למדוד באופן כמותי.
דוגמאות
[עריכת קוד מקור | עריכה]סולם שמי
[עריכת קוד מקור | עריכה]דוגמאות למשתנים הנמדדים בסולם מדידה שמי:
- מין ביולוגי של אדם: זכר/נקבה
- סוג דם: A, B, AB, O
- מספר של קו אוטובוס
ניתן לקודד את הערכים של משתנים מסוג זה במספרים, אך לערך המקודד אין שום משמעות. למשל, הקידוד זכר=1, נקבה=2, אינו שונה באופן מהותי מהקידודים נקבה=1, זכר=2 או נקבה=0, זכר=1 וכדומה.
סולם סדר
[עריכת קוד מקור | עריכה]דוגמאות למשתנים הנמדדים בסולם מדידה סודר:
- דרגות בצבא: טוראי, רב-טוראי, סמל, וכן הלאה.
- רמת הסכמה עם טענה מסוימת: מסכים מאוד, מסכים, אדיש, לא מסכים, לא מסכים כלל
- במחלת הסרטן נהוג לסמן את שלבי התקדמות המחלה במספרים (בדרך כלל ספרות רומיות) כגון שלב I, שלב II וכולי. קיימים גם תתי שלבים כגון שלב IIa או IIb
מקרה מיוחד הוא משתנה ספירה. משתנה כזה בדרך כלל סופר את מספר האירועים שהתרחשו (למשל מספר הלידות שאירעו במקום מסוים במשך תקופת זמן מוגדרת), או את מספר ההצלחות בסדרת ניסויים גדולה עם הסתברות נמוכה להצלחה בכל ניסוי (למשל, מספר הזוכים בהגרלת כגון הגרלת הפאוורבול, שבה יש מספר גדול של משתתפים ולכל משתתף הסתברות זעירה לזכייה בפרס הגדול). התפלגותם של משתנים כאלה היא בדרך כלל התפלגות פואסון או התפלגות בינומית שלילית. כאן לערכים יש משמעות מספרית, כולל לערך 0, ולכן זהו למעשה משתנה הנמדד בסולם מנה. עם זאת, לעיתים נוח וכדאי לנתח משתנה כזה בשיטות ניתוח המתאימות לניתוח משתנים קטגוריים.
לעיתים יוצרים משתנה קטגורי על ידי קביעת טווחים של משתנה כמותי. על ידי כך נוצר משתנה בסולם מדידה סודר. למשל, ערך של בדיקת מעבדה כלשהי יכול להיות מסווג כ-"מתחת לנורמה", "בתחום הנורמה" או "מעל לנורמה".
שיטות לניתוח משתנים קטגוריים
[עריכת קוד מקור | עריכה]סטטיסטיקה תיאורית
[עריכת קוד מקור | עריכה]כאשר דנים בנתונים של משתנה קטגורי שמי, מדד המיקום המרכזי האפשרי היחידי עבור משתנה כזה הוא השכיח. למדידת רמת הפיזור של משתנה קטגורי שמי ניתן להשתמש במדדים כגון האנטרופיה או מדד ג'יני.[1]
כאשר מדובר בנתונים של משתנה מסולם סודר, ניתן בנוסף לחשב את החציון ושברונים נוספים, כגון רבעונים ועשירונים. ערכי האחוזונים מאפשרים גם הערכה של רמת הפיזור, אך יש לזכור כי אין משמעות למדדים המבוססים על הפרשים בין האחוזונים, כגון התחום הבין רבעוני.
קיימים מספר מדדים להערכת עוצמת הקשר הסטטיסטי בין משתנים קטגוריים לבין עצמם, או בין משתנים קטגוריים ומשתנים מסולם מדידה גבוה יותר. למדידת עצמת הקשר בין שני מדדים קטגוריים ניתן להשתמש במדדים כגון מתאם קרמר, מקדם Q שהוצג על ידי אדני יול, מקדמי המתאם הטטרהכורי והפוליכורי שפותחו על ידי קרל פירסון, ומדדים רבים נוספים.[2]
למדידת עוצמת הקשר בין שני משתנים מסולם מדידה סודר ניתן להשתמש במקדם המתאם של ספירמן, ולמדידת עוצמת הקשר בין משתנה קטגורי למשתנה כמותי ניתן להשתמש במקדם המתאם התוך-אשכולי (Intraclass correlation).
סטטיסטיקה היסקית
[עריכת קוד מקור | עריכה]קיימות שתי גישות עיקריות לניתוח היסקי של נתונים המתקבלים ממשתנים קטגוריים.
גישה אחת מתמקדת בהתפלגות של המשתנה הקטגורי, או בהתפלגות המשותפת של מספר משתנים קטגוריים. על פי גישה זו מניחים מודל התפלגותי, אומדים את הפרמטרים של המודל, ובודקים את טיב ההתאמה של המודל לנתונים.
דוגמה פשוטה לגישה זו היא מודל המניח אי תלות בין שני משתנים קטגוריים. הנחת המודל היא כי עבור שני משתנים קטגוריים, ו-, ההתפלגות המשותפת של שני המשתנים שווה למכפלת ההתפלגויות השוליות של כל אחד מהמשתנים, כלומר לכל זוג ערכים ו- שהמשתנים ו- יכולים לקבל.
ניתן לבדוק את טיב ההתאמה של מודל זה (או כל מודל אחר) לנתונים בעזרת מבחן כי בריבוע.
ייתכנו מצבים בהם ו- אינם בלתי תלויים. במקרים אלו, יש להציע מודל למבנה התלות בין המשתנים. גישה נפוצה היא המודל הלוג-ליניארי[3] שפותח על ידי איבון בישופ. גישות לא ליניאריות הוצגו על ידי ליאו גודמן.[4]
הגישה העיקרית השנייה היא יישום של מודל רגרסיה, בו המשתנה המוסבר הוא משתנה קטגורי, והמשתנים המסבירים יכולים להימדד בכל סולם מדידה. בין המודלים הנפוצים לניתוחים מסוג זה ניתן למנות את מודל הרגרסיה הלוגיסטית והרחבותיו: הרגרסיה המולטינומית והרגרסיה האורדינלית.
ראו גם
[עריכת קוד מקור | עריכה]לקריאה נוספת
[עריכת קוד מקור | עריכה]- Bishop, Y. M. M.; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. ISBN 978-0-262-02113-5. MR 0381130.
- Agresti, Alan (2007). An introduction to categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 978-0-471-22618-5.
- Agresti, Alan (2002). Categorical data analysis, 2nd Edition. John Wiley & Sons. ISBN 0-471-36093-7.
קישורים חיצוניים
[עריכת קוד מקור | עריכה]- יוסי לוי, כשפירסון ויול הסירו את הכפפות, באתר "נסיכת המדעים"
- משתנה איכותי, באתר MathWorld (באנגלית)
הערות שוליים
[עריכת קוד מקור | עריכה]- ^ אין הכוונה למדד ג'יני, המקובל בכלכלה (שמתאים רק למשתנים מסולם רווח ומעלה), אלא למדד אחר שפיתח קוראדו ג'יני (Corrado Gini), ומתאים לנתונים קטגוריים. ראו:Variabilitá e Mutuabilitá Contributo allo Studio delle Distribuzioni e delle Relazioni Statistiche, C. Cuppini, Bologna, 1912
- ^ Goodman, Leo A., and William H. Kruskal, Measures of association for cross classifications, Journal of the American statistical association, 268 49, 1954, עמ' 732–764
- ^ Agresti, Alan, Chapter 7, An introduction to categorical data analysis, 2nd edition, John Wiley & Sons, 2007, עמ' 204–243, ISBN 978-0-471-22618-5
- ^ Goodman, Leo A., The analysis of cross-classified data having ordered and/or unordered categories: association models, correlation models, and asymmetry models for contingency tables with or without missing entries, Annals Of Statistics, 1 13, 1985, עמ' 10–69