מודל spiked covariance

מודל ה spike covariance הוא מודל סטטיסטי המשמש בהקשר של ניתוח נתונים בממד גבוה. המודל פותח על ידי Iain M. Johnstone בשנת 2001^[1] ובוחן כיצד מספר הערכים עצמיים הגדולים - המכונים "spikes"- במטריצת השונות המשותפת (אנ') משפיעים על הערכים העצמיים של מטריצת השונות המשותפת של המדגם. (באנגלית: sample covariance matrix).

בבעיות מידול רבות נהוג לחשוב שהנתונים מושפעים ממספר רב של גורמים בלתי תלויים וכתוצאה מכך נוצרת מטריצת שונות משותפת בעלת ערכים עצמיים קרובים לאפס המעידים על חוסר תלות של המשתנים האקראים שמרכיבים את הנתונים. עם זאת, נתונים בפועל כוללים לעיתים קרובות כמה אותות או רכיבים דומיננטיים - אלה הם ה"spikes" שגורמים לערכים עצמיים מסוימים להיות גדולים יותר באופן משמעותי מאחרים.

שאלת המפתח שעליה מבקש מודל ה- spike covariance לענות היא: כיצד משפיעים הערכים העצמיים הגדולים הללו (spikes) על המבנה וההתפלגות של הערכים העצמיים של הדגימה כאשר מדובר בניתוח נתונים בממדים גבוהים. הבנה זו חיונית למשימות כגון ניתוח רכיבים עיקריים (PCA), קביעת הממד של הנתונים וזיהוי דפוסים או אותות בתוך מערכי נתונים מורכבים.

רקע תאורטי

מטריצת שונות משותפת של האוכלוסייה

(באנגלית: population covariance matrix)

בסטטיסטיקה רב משתנית (אנ') מטריצת השונות המשותפת של האוכלוסייה $\Sigma _{m}$ מתארת את השונות בין משתנים מרובים על פני האוכלוסייה. בדרך כלל כאשר מספר התצפיות (n) גדול בהרבה ממספר המשתנים (m), מטריצת השונות של המדגם (באנגלית: sample covariance matrix) מעריכה בצורה מהימנה את מטריצת השונות המשותפת של האוכלוסייה. עם זאת כאשר מספר המשתנים מתקרב למספר התצפיות, כלומר היחס בניהם מקיים : ${\frac {m}{n}}\to \gamma$ , $n\to \infty$ הערכה זו לא אמינה. מודל ה- spike covariance פותח כדי לחקור תופעה זו על ידי הכנסת ערכים עצמיים גדולים- spikes.

הגדרת המודל

במודל ה- spike covariance מניחים שלמטריצת השונות המשותפת של האוכלוסייה $\Sigma _{m}$ יש ערכים עצמיים גדולים $l_{1},l_{2},\dots ,l_{r}$ המכונים - spikes. יתר הערכים העצמיים שווים זה לזה, לרוב מנורמלים ל-1. באופן מתמטי מטריצת השונות המשותפת של האוכלוסייה $\Sigma _{m}$ יכולה להכתב כ:

$\Sigma _{m}=U\,{\text{diag}}(l_{1},\dots ,l_{r},1,\dots ,1)\,U^{\top }$

כאשר $l_{1}>l_{2}>\dots >l_{r}$ ו-U מטריצה אוניטרית.

מטעמי נוחות נוכל להניח ש $\Sigma _{m}$ אלכסונית. הנחה זו מפשטת את המודל ושומרת על מאפייניו.

כלומר נוכל להניח:

$\Sigma _{m}={\begin{bmatrix}l_{1}&0&\cdots &0&0&\cdots &0\\0&l_{2}&\cdots &0&0&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &l_{r}&0&\cdots &0\\0&0&\cdots &0&1&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &0&0&\cdots &1\end{bmatrix}}$

ייצוג הנתונים ומטריצת השונות המשותפת של המדגם

המטריצת הנתונים X

במודל ה- spike covariance הדגימות $X_{1},X_{2},\dots ,X_{n}$ יכולות להיות מוצגות כצירוף ליניארי של אותות הבסיס $s_{1},s_{2},\dots ,s_{r}$ ורעש.

כל דגימה $X_{i}$ יכולה להיות מיוצגת באופן הבא:

$X_{i}=\alpha _{i}^{1}s_{1}+\alpha _{i}^{2}s_{2}+\dots +\alpha _{i}^{r}s_{r}+\xi _{i}$

כאשר $\alpha _{i}^{j}$ מקדמים שנדגמו מהתפלגות נורמלית $\alpha _{i}^{j}\sim N(0,\sigma ^{2})$ ו $\xi _{i}$ הוא רעש מתוך ההתפלגות הסטנדרטית הנורמלית $\xi _{i}\sim N(0,I)$ .

הסיגנלים $s_{1},s_{2},\dots ,s_{r}$ הם וקטורים ב - $\mathbb {R} ^{m}$ שמייצגים את המבנה הבסיסי בנתונים.

מטריצת הנתונים $X$ נוצרת מלקיחת וקטורי הדגימות $X_{1},X_{2},\dots ,X_{n}$ כעמודות המטריצה: $X=[X_{1},X_{2},\dots ,X_{n}]={\begin{bmatrix}X_{11}&X_{12}&\cdots &X_{1n}\\X_{21}&X_{22}&\cdots &X_{2n}\\\vdots &\vdots &\ddots &\vdots \\X_{m1}&X_{m2}&\cdots &X_{mn}\end{bmatrix}}$

מטריצת הנתונים $X$ ממשמשת לחישוב מטריצת השונות המשותפת של המדגם.

מטריצת השונות המשותפת של המדגם

מטריצת השונות המשותפת של המדגם (באנגלית : sample covariance matrix) $\Sigma _{n}$ היא הערכה אמפירית של מטריצת השונות המשותפת של האוכלוסייה $\Sigma _{m}$ והיא מחושבת באופן הבא:

$\Sigma _{n}={\frac {1}{n}}XX^{\top }$

למטריצה זו תפקיד מרכזי במודל ה- spike covariance שכן הערכים עצמיים והווקטורים העצמיים שלה מספקים תובנות לגבי זיהוי וניתוח הערכים עצמיים הגדולים של מטריצת השונות המשותפת של האוכלוסייה $\Sigma _{m}$ .

נרצה לדעת האם ניתן לזהות את הממד של הסיגנל, r את הערכים העצמיים והווקטורים העצמיים של מטריצת השונות משותפת של האוכלוסייה $\Sigma _{m}$ מתוך מטריצת השונות המשותפת של המדגם $\Sigma _{n}$ .

ערכים עצמיים של מטריצת השונות המשותפת של המדגם

התפלגות הערכים העצמיים של מטריצת השונות המשותפת של המדגם $\Sigma _{n}$

בממדים גבוהים כאשר מספר הפרמטרים m ומספר הדגימות n שואפים יחד לאינסוף ומתקיים: ${\frac {m}{n}}\to \gamma$ , $n\to \infty$

$0<\gamma \leq 1$

הערכים העצמיים של מטריצת השונות משותפת של המדגם $\Sigma _{n}$ לא בהכרח מתכנסים לאלו של מטריצת השונות משותפת של האוכלוסייה $\Sigma _{m}$ ^[2]. נחלק למקרים לפי ממד הסיגנל r:

r = 0 : כאשר אין spikes כלומר $\Sigma _{m}$ היא מטריצת היחידה, הערכים עצמיים של $\Sigma _{n}$ מתפלגים לפי התפלגות התפלגות מרצ'נקו פסטור (אנ')

r > 0: קיימים ערכים עצמיים גדולים הסוטים מההתפלגות של מרצ'נקו פסטור.

מקרה זה נדון בהרחבה בפרק של מעבר פאזה של ערכים עצמיים.

מעבר פאזה של ערכים עצמיים

במודל ה- spike covariance קיים סף שבו מתרחש מעבר פאזה של הערכים העצמיים של מטריצת השונות משותפת של המדגם $\Sigma _{n}$ . מעבר הפאזה מתרחש כאשר הערכים העצמיים $l_{j}$ של מטריצת השונות המשותפת של האוכלוסייה $\Sigma _{m}$ עוברים סף ספציפי שנתון על ידי $1+{\sqrt {\gamma }}$ , כאשר $\gamma$ מייצגת את היחס בין מספר המשתנים m לבין מספר הדגימות n. מעבר הפאזה מציין את הנקודה שבה ההשפעה של הערכים העצמיים הגדולים המכונים- spikes הופכת למשמעותית מספיק כדי לגרום לשינוי בר הבחנה בערך העצמי התואם במטריצת השונות המשותפת של המדגם $\Sigma _{n}$ .

הערכים העצמיים של מטריצת המדגם $\lambda _{i}$ מתנהגים באופן הבא :

מתחת לסף ( $l_{i}\leq 1+{\sqrt {\gamma }}$ ): כאשר הערך העצמי $l_{i}$ של המטריצה $\Sigma _{m}$ הוא בסף או מתחתיו, הערך העצמי התואם לו ב $\Sigma _{n}$ - $\lambda _{i}$ נשאר עם ההתפלגות המרכזית שמתוארת לפי התפלגות מרצ'נקו פסטור כך שאינו בולט ואינו ניתן להבחנה ושיערוך. ערך עצמי זה מתכנס כמעט בוודאות ל: $\lambda _{i}\approx (1+{\sqrt {\gamma }})^{2}$

מעל הסף ( $l_{i}>1+{\sqrt {\gamma }}$ ): כאשר הערך העצמי $l_{i}$ של המטריצה $\Sigma _{m}$ הוא מעל הסף, הערך העצמי התואם לו במטריצת המדגם $\lambda _{i}$ חורג מההתפלגות הראשות ומופיע בנפרד כך שניתן להבחין בו בקלות. הערך העצמי מתכנס כמעט בוודאות ל- $\lambda _{i}\approx l_{i}+\gamma {\frac {l_{i}}{l_{i}-1}}$ .כלומר במקרה זה נקבל ערך עצמי שגדול יותר מערך המקורי. תוצאה זו מצביעה על כך שהערך העצמי בולט החוצה מההתפלגות וזה משקף גורמים בסיסיים מהותיים בנתונים.

במקרה שמעל הסף ( $l_{i}>1+{\sqrt {\gamma }}$ ): אם נרצה לקבל משערך חסר הטיה ל $\ell _{i}$ נוכל לחלץ אותו באמצעות פתרון משוואה ריבועית מהמקרה הראשון ולקבל:

$l_{i}(\lambda _{i})={\frac {\lambda _{i}+1-\gamma +{\sqrt {(\lambda _{i}+1-\gamma )^{2}-4\lambda _{i}}}}{2}}$

לסיכום נקבל התכנסות כמעט בוודאות של הערכים בעצמיים של מטריצת המדגם $\lambda _{i}$ באופן הבא^[2]^[3]:

$\lambda _{i}{\overset {a.s.}{\longrightarrow }}{\begin{cases}l_{i}+\gamma {\frac {l_{i}}{l_{i}-1}}&{\text{if }}l_{i}\geq 1+{\sqrt {\gamma }}\\(1+{\sqrt {\gamma }})^{2}&{\text{if }}l_{i}\leq 1+{\sqrt {\gamma }}\end{cases}}$

מעבר פאזה הוא תכונה מרכזית של המודל שכן הוא מאפשר להבחין בין ערכים עצמיים המשקפים מבנה משמעותי בנתונים ובין אלו שלא. הדבר חשוב במיוחד בניתוח בממדים גבוהים כגון ניותח רכיבים עיקריים שבו זיהוי הרכיבים המשמעותיים הוא חיוני.

מציאת הווקטורים העצמיים

נרצה להבין האם ניתן לחלץ את הסיגנל s עצמו מתוך $\Sigma _{n}$ .

כאשר הערך העצמי גדול מ $(1+{\sqrt {\gamma }})$ נוכל לקבל קירוב של s. נקבל אותו עם זווית לפי הקשר הבא^[3]:

$<v_{i}^{(n)},s_{j}>\to \delta _{ij}{\sqrt {\frac {1-\gamma (l_{i}-1)^{2}}{1+\gamma (l_{i}-1)^{2}}}}$

כאשר $v_{1}^{(n)},\ldots ,v_{m}^{(n)}$ הם הווקטורים העצמיים של $\Sigma _{n}$ . כלומר לא נתכנס לסיגנל אלא נקבל שיערוך שלו עם זווית זו.

כאשר הכאשר הערך העצמי קטן מ $(1+{\sqrt {\gamma }})$ לא נוכל לקבל מידע רלוונטי על $s_{j}$ המתאים.

שימושים

מודל ה spiked covariance הוא כלי יסודי בסטטיסטיקה של ממדים גבוהים ובתורת המטריצות האקראיות, במיוחד עבור ניתוח נתונים שבהם מספר המשתנים גדול בהשוואה למספר התצפיות. למודל זה יש מגוון רחב של יישומים בתחומים שונים.

ניתוח רכיבים עיקריים

ניתוח רכיבים עיקריים (PCA-ראשי תיבות באנגלית של: Principal Components Analysis) היא שיטה נפוצה לצורך מציאת ייצוג מממד נמוך למידע מממד גבוה (תהליך הנקרא הורדת ממד) ולחילוץ תכונות בניתוח נתונים סטטיסטי. בממדים גבוהים - כאשר מספר המשתנים גדול ביחס למספר התצפיות - PCA הקלאסי מתמודד עם אתגרים בשל הדומיננטיות של הרעש, שיכול לטשטש את המבנה הבסיסי האמיתי של הנתונים.

כדי להתגבר על האתגרים הללו, מודל ה-spike covariance מייצג את מטריצת השונות המשותפת של האוכלוסייה כסכום של מטריצת זהות (אשר מייצגת את הרעש) והפרעה מדרגה נמוכה (ה-"spike"). גישה זו מספקת הבנה מדויקת יותר של האופן שבו הערכים העצמיים והווקטורים העצמיים של מטריצת השונות המשותפת של המדגם מתנהגים בממדים גבוהים.

היבטים עיקריים של יישום המודל בניתוח רכיבים עיקריים:

ערכים עצמיים ווקטורים עצמיים: המודל מספק תובנות לגבי ההתפלגות האסימפטוטית של הערכים העצמיים הגדולים ביותר והווקטורים העצמיים התואמים להם של מטריצת השונות המשותפת של המדגם. תובנות אלו חיוניות להבחנה בין רכיבים עיקריים משמעותיים (אותות) לבין אלו הנובעים מרעש.

קביעת מספר הרכיבים העיקריים: באמצעות ניתוח הספקטרום של הערכים העצמיים במודל הspike covariance, סטטיסטיקאים יכולים לקבוע בצורה מהימנה את המספר האמיתי של הגורמים הבסיסיים או הרכיבים העיקריים בנתונים.

הערכה משופרת: המודל מוביל לפיתוח של אומדנים עקביים הן עבור ערכים עצמיים והן עבור וקטורים עצמיים, מה שמשפר את המהימנות של תוצאות ניתוח רכיבים עיקריים בממדים גבוהים.

הפחתת ממדיות: על ידי זיהוי מדויק של הרכיבים המשמעותיים, המודל מסייע בהפחתת ממדיות יעילה אשר חיונית להדמיה, דחיסת נתונים והפחתת מורכבות חישובית.

תרומות רבות בתחום זה כוללות:

עבודתו של ג'ונסטון (באנגלית :Iain M. Johnstone) אשר היה חלוץ במחקר הערכים העצמיים הגדולים ב-PCA תחת מודל הsike covariance. הוא פיתח את ההתפלגות האסימפטוטית של הערך העצמי הגדול ביותר והראה שהוא מתכנס להתפלגות טרייסי-וידום תחת הנחות מסוימות.^[1]

הניתוח האסימםטוטי של דביש פול (באנגלית: Debashis Paul) : פול הרחיב את ההבנה של הערכים העצמיים והווקטורים העצמיים של מטריצת השונות המשותפת של המדגם בממדים גדולים. עבודתו סיפקה תנאים שבהם הרכיבים העיקריים של מטריצת השונות הצשותפת של המדגם אומדים באופן עקבי את הרכיבים העיקריים של מטריצת השונות המשותפת של האוכלוסה.^[4]

עקביות ודלילות- ג'ונסטון ולו חקרו את העקביות והדלילות של PCA בממדים גבוהים. עבודתם עזרה לשפר את הבהירות והקלות שבה ניתן לפרש את הרכיבים העיקריים.^[5]

עיבוד אותות ותקשורת אלחוטית

בתחום עיבוד אותות ותקשורת אלחוטית, מודל ה-spike covariance משמש ככלי מרכזי לזיהוי והערכת אותות הטמונים ברעש בממדים גבוהים. באמצעות מודל יעיל של קורלציות בין ערוצים, הוא משפר את ניתוח הביצועים במערכות כגון MIMO (תקשורת) . המודל גם משפר אלגוריתמים לעיצוב אלומה (beamforming) והערכת כיוון הגעה (DOA), מה שמוביל לטכניקות עיבוד אותות מדויקות ויעילות יותר.

פיננסים

בתחום הפיננסים, מודל ה-spike covariance משמש ככלי לשיפור ההערכה של מטריצות שונות משותפת גדולות, שהן חיוניות לאופטימיזציה של תיקי השקעות ולניהול סיכונים. המודל מאפשר זיהוי מדויק יותר של גורמי שוק מרכזיים המשפיעים על תשואות הנכסים, ובכך תורם להערכת סיכונים מערכתיים באופן יעיל יותר. באמצעות התייחסות לקוצים במטריצת השונות, ניתן לשפר את הבנת המבנה הפנימי של התנודות בשוק ולהתאים את האסטרטגיות הפיננסיות בהתאם.^[6]

גנומיקה וביואינפורמטיקה

בתחום הגנומיקה וביואינפורמטיקה, מודל ה-spiked covariance משמש ככלי חשוב לניתוח נתונים גנטיים בממדים גבוהים, כגון פרופילי ביטוי גנים. המודל מסייע בזיהוי וריאציות גנטיות משמעותיות ובהבנת מבני אוכלוסייה מורכבים. בנוסף, הוא משפר שיטות של ניתוח אשכולות וסיווג במחקרים גנומיים, בכך שהוא מאפשר זיהוי מדויק יותר של דפוסים ותתי-קבוצות בתוך הנתונים.^[7]

למידת מכונה

בתחום למידת המכונה, מודל ה-spiked covariance ממלא תפקיד מרכזי בהבנת אלגוריתמים בממדים גבוהים. המודל מסייע בפיתוח שיטות אשכולות (clustering) אשר מותאמות לממדים גבוהים, על ידי מתן תובנות לגבי המבנה הפנימי של הנתונים. בנוסף, הוא מאפשר ניתוח מעמיק של בעיות כמו התאמת יתר (overfitting) ויכולת הכללה (generalization) של מודלים, ובכך משפר את הביצועים והאמינות של אלגוריתמים בלמידת מכונה.

ראו גם

מונחים קשורים למודל זה:

הערות שוליים

^ ¹ ² Johnstone, Iain M. (2001). "On the distribution of the largest eigenvalue in principal components analysis". Annals of Statistics. 29 (2): 295–327. doi:10.1214/aos/1009210544.
^ ¹ ² Jinho Baik and Jack W. Silverstein, [https://arxiv.org/pdf/math/0408165 Eigenvalues of Large Sample Covariance Matrices of Spiked Population Models], 2004, עמ' 4
^ ¹ ² David L. Donoho ,Matan Gavish Iain M. Johnstone ,, [https://arxiv.org/pdf/1311.0851 Optimal Shrinkage of Eigenvalues in the Spiked Covariance Model], 2017, עמ' 4
^ Paul, Debashis (2007). "Asymptotics of sample eigenstructure for a large dimensional spiked covariance model" (PDF). Statistica Sinica. 17 (4): 1617–1642.
^ Johnstone, Iain M.; Lu, Arthur Y. (2009). "On consistency and sparsity for principal components analysis in high dimensions". Journal of the American Statistical Association. 104 (486): 682–693. doi:10.1198/jasa.2009.0121.
^ Bun, Joël; Bouchaud, Jean-Philippe; Potters, Marc (2017). "Cleaning large correlation matrices: tools from random matrix theory". Physics Reports. 666: 1–109. doi:10.1016/j.physrep.2016.10.005.
^ Patterson, Nick; Price, Alkes L.; Reich, David (2006). "Population structure and eigenanalysis". PLoS Genetics. 2 (12): e190. doi:10.1371/journal.pgen.0020190.

[Johnstone2001-1] ¹ ² Johnstone, Iain M. (2001). "On the distribution of the largest eigenvalue in principal components analysis". Annals of Statistics. 29 (2): 295–327. doi:10.1214/aos/1009210544.

[:0-2] ¹ ² Jinho Baik and Jack W. Silverstein, [https://arxiv.org/pdf/math/0408165 Eigenvalues of Large Sample Covariance Matrices of Spiked Population Models], 2004, עמ' 4

[:1-3] ¹ ² David L. Donoho ,Matan Gavish Iain M. Johnstone ,, [https://arxiv.org/pdf/1311.0851 Optimal Shrinkage of Eigenvalues in the Spiked Covariance Model], 2017, עמ' 4

[Paul2007-4] Paul, Debashis (2007). "Asymptotics of sample eigenstructure for a large dimensional spiked covariance model" (PDF). Statistica Sinica. 17 (4): 1617–1642.

[JohnstoneLu2009-5] Johnstone, Iain M.; Lu, Arthur Y. (2009). "On consistency and sparsity for principal components analysis in high dimensions". Journal of the American Statistical Association. 104 (486): 682–693. doi:10.1198/jasa.2009.0121.

[BunBouchaudPotters2017-6] Bun, Joël; Bouchaud, Jean-Philippe; Potters, Marc (2017). "Cleaning large correlation matrices: tools from random matrix theory". Physics Reports. 666: 1–109. doi:10.1016/j.physrep.2016.10.005.

[Patterson2006-7] Patterson, Nick; Price, Alkes L.; Reich, David (2006). "Population structure and eigenanalysis". PLoS Genetics. 2 (12): e190. doi:10.1371/journal.pgen.0020190.

[1]

[2]

[3]

[4]

[5]

[6]

[7]