לדלג לתוכן

היסטוגרמה

מתוך ויקיפדיה, האנציקלופדיה החופשית
דוגמה להיסטוגרמה

היסטוגרמה היא צורת הצגה גרפית של נתונים. הנתונים בהיסטוגרמה מוצגים כמלבנים המייצגים מחלקות שונות (הקרויות גם קטגוריות), שאין ביניהן חפיפה, באוכלוסיית הנתונים לפי שכיחותן היחסית. בהצגה זו שטח כל מלבן מייצג את השכיחות היחסית המתאימה לו. בדרך כלל, הציר האופקי (ציר X) מייצג את הקטגוריות של הנתונים. הציר המאונך לו (ציר Y) מתאר את השכיחות. גובה המלבן, מבטא את שכיחות או צפיפות המקרים, ליחידה אחת של המשתנה הנחקר. את אותו מידע ניתן להציג גם בטבלת שכיחות, אך ההצגה הגרפית מאפשרת תפיסה אינטואיטיבית ומהירה יותר של הנתונים. המחלקות בהיסטוגרמה אינן חייבות להיות בעלות אותו הגודל, ובלבד שלא תהיה חפיפה ביניהן.

ההיסטוגרמה שימושית לתיאור משתנה רציף מסולם מדידה מרווחי או מנה.

השימוש המוקדם ביותר במונח היסטוגרמה מיוחס לסטטיסטיקאי קרל פירסון בשנת 1895.[1]

בעקבות מגנלו, אחת מהעוסקות בביוגרפיה של פירסון, מקובל לומר שמקור שמה של ההיסטוגרמה הוא בצירוף הקידומת "היסטו-" (כקיצור של היסטוריה) לסיומת -‎γράμμα ('-גְרָמֳה'), שמשמעותה דבר כתוב או מאויר. אלא שפירסון הגה שמות לסוגים רבים של דיאגרמות, ששמן מתאר אותן באופן ברור, לדעתו. מתוך כך, מתברר כי השם נובע מצירוף המילה היוונית לתורן, ἱστός (הִיסְטוֹס), במשמעות של עמודות זקופות כתורן.[2]

הגדרה פורמלית

[עריכת קוד מקור | עריכה]
היסטוגרמה רגילה (משמאל) והיסטוגרמה מצטברת של אותם הנתונים. הנתונים המוצגים הם מדגם אקראי של 10,000 נקודות מהתפלגות נורמלית עם ממוצע של 0 וסטיית תקן של 1

היסטוגרמה היא טרנספורמציה הממפה משתנים מסולם מדידה אחד (מרווחי או מנה), המהווים את המקור, ל-k משתני מחלקות (הקטגוריות). משתנה המחלקה ה-i מונה את מספר המופעים של משתנה המקור במחלקה . לאמור, בהינתן n משתנים ו-k מחלקות, ההיסטוגרמה מקיימת את התנאי הבא:

הייצוג הגרפי הוא דרך אחת לייצג היסטוגרמה, דרך נוספת היא טבלת שכיחות.

היסטוגרמה מצטברת

[עריכת קוד מקור | עריכה]

היסטוגרמה מצטברת (cumulative histogram) מורכבת ממשתנים המונים את המספר המצטבר של המופעים במחלקה נוכחית, בתוספת כל המחלקות הקודמות.

לאמור, משתנה היסטוגרמה מצטברת המורכבת מההיסטוגרמה מקיים:

בחירת גודל המחלקות ומספרן

[עריכת קוד מקור | עריכה]

ההיסטוגרמה רגישה לגודלן של המחלקות, לכן ברורה החשיבות בבחירתן הנכונה. עם זאת, אין הסכמה בקרב הסטטיסטיקאים בדבר הגודל האופטימלי של כל מחלקה. מקובלים מספר כללים מנחים, אך לא מוחלטים.

כללי אד-הוק

[עריכת קוד מקור | עריכה]

אלה כללים (שרירותיים) מקובלים המבוססים על ניסיון בלבד ועל טיבם של הנתונים. לדוגמה: ציוני מבחן בטווח 0–100 יחולקו למחלקות בגודל 10 ציונים כל אחת. נתוני שכר יחולקו למחלקות בגודל 1,000 ש"ח כל אחת, או בהתאם למדרגות המיסוי על ההכנסה וכדומה.

בחלוקה גסה, מקובל לחלק את הנתונים ללא פחות מ-5 ולא יותר מ-15 מחלקות בדרך כלל, בהתאם לנסיבות. ככל שעולה מספרם הכללי של הנתונים כך גם יחולקו ליותר מחלקות.

משנקבע רוחבה/גודלה של מחלקה - h, ניתן לחשב את מספר המחלקות k על ידי חלוקת טווח הנתונים (המרחק בין הערך הגדול ביותר לבין הערך הקטן ביותר) למקטעים שווים, לפי הנוסחה

הערה: הסוגריים לעיל מציינות את פונקציית התקרה.

כללים תאורטיים

[עריכת קוד מקור | עריכה]

קיימים כמה כללים המתבססים על התאוריה הסטטיסטית. שני הכללים הנפוצים ביותר מסתמכים על מספרם הכולל של הנתונים בלבד, והם:

  • הכלל של סטורג'ס (Sturges) לקביעת מספר הקטגוריות

n - מספר התצפיות/נתונים הכולל.

  • הכלל של טרל וסקוט (Terrell & Scott) לקביעת מספר הקטגוריות

בשני הכללים נדרש שמספר הנתונים יהיה גדול מ-30 (ישנם מקורות שמסתפקים גם במינימום של 15 נתונים). לקבוצת נתונים קטנה הכלל של טרל וסקוט מחמיר מהכלל של סטורג'ס, אך מעל כ-500 נתונים מתהפכות היוצרות והכלל של סטורג'ס הוא המחמיר מבין השניים. הכלל של סטורג'ס נפוץ יותר בשימוש בשל היותו הוותיק מבין השניים.

שני כללים מתוחכמים יותר לקביעת גודל קטגוריה:

  • הכלל של סקוט (Scott)

s - סטיית התקן המדגמית.

  • הכלל של פרידמן (או פרידמן-דיאקוניס, Freedman-Diaconis)

IQR - הטווח הבין-רבעוני.

שימושים שונים

[עריכת קוד מקור | עריכה]
היסטוגרמת בהירות

קישורים חיצוניים

[עריכת קוד מקור | עריכה]

הערות שוליים

[עריכת קוד מקור | עריכה]
  1. ^ Dodge, Yadolah. "The Concise Encyclopedia of Statistics". Springer, 2008
  2. ^ Daniel Riaño Rufilanchas, On the origin of Karl Pearson’s term “histogram”, Estadística Española 59 (192), 2017, עמ' 29–35