טיוטה:מודל spiked covariance

Hadas Yaron Goldhirsh • שיחה 16:30, 4 באוגוסט 2024 (IDT)

מודל ה spike covariance הוא מודל סטטיסטי המשמש בהקשר של ניתוח נתונים במימד גבוה. המודל פותח על ידי Iain M. Johnstone בשנת 2001 ובוחן כיצד מספר הערכים עצמיים הגדולים - המכונים "spikes"- במטריצת השונות המשותפת (אנ') משפיעים על הערכים העצמיים של מטריצת השונות המשותפת של המדגם. (באנגלית: sample covariance matrix).

בבעיות מידול רבות נהוג לחשוב שהנתונים מושפעים ממספר רב של גורמים בלתי תלויים וכתוצאה מכך נוצרת מטריצת שונות משותפת בעלת ערכים עצמיים קרובים לאפס המעידים על חוסר תלות של המשתנים האקראים שמרכיבים את הנתונים. עם זאת, נתונים בפועל כוללים לעיתים קרובות כמה אותות או רכיבים דומיננטים - אלה הם ה"spikes" שגורמים לערכים עצמיים מסוימים להיות גדולים יותר באופן משמעותי מאחרים.

שאלת המפתח שעליה מבקש מודל ה- spike covariance לענות היא: כיצד משפיעים הערכים העצמיים הגדולים הללו (spikes) על המבנה וההתפלגות של הערכים העצמיים של הדגימה כאשר מדובר בניתוח נתונים במימדים גבוהים. הבנה זו חיונית למשימות כגון ניתוח רכיבים עיקריים (PCA), קביעת המימד של הנתונים וזיהוי דפוסים או אותות בתוך מערכי נתונים מורכבים.

רקע תיאורטי

מטריצת שונות משותפת של האוכלוסייה

(באנגלית: population covariance matrix)

בסטטיסטיקה רב משתנית (אנ') מטריצת השונות המשותפת של האוכלוסיה $\Sigma _{m}$ מתארת את השונות בין משתנים מרובים על פני האוכלוסייה. בדרך כלל כאשר מספר התצפיות (n) גדול בהרבה ממספר המשתנים (m), מטריצת השונות של המדגם (באנגלית: sample covariance matrix) מעריכה בצורה מהימנה את מטריצת השונות המשותפת של האוכלוסייה. עם זאת כאשר מספר המשתנים מתקרב למספר התצפיות, כלומר היחס בניהם מקיים : ${\frac {m}{n}}\to \gamma$ , $n\to \infty$ הערכה זו לא אמינה. מודל ה- spike covariance פותח כדי לחקור תופעה זו על ידי הכנסת ערכים עצמיים גדולים- spikes.

הגדרת המודל

במודל ה- spike covariance מניחים שלמטריצת השונות המשותפת של האוכלוסייה $\Sigma _{m}$ יש ערכים עצמיים גדולים $l_{1},l_{2},\dots ,l_{r}$ המכונים - spikes. יתר הערכים העצמיים שווים זה לזה, לרוב מנורמלים ל-1. באופן מתמטי מטריצת השונות המשותפת של האוכלוסיה $\Sigma _{m}$ יכולה להכתב כ:

$\Sigma _{m}=U\,{\text{diag}}(l_{1},\dots ,l_{r},1,\dots ,1)\,U^{\top }$

כאשר $l_{1}>l_{2}>\dots >l_{r}$ ו-U מטריצה אוניטרית.

מטעמי נוחות נוכל להניח ש $\Sigma _{m}$ אלכסונית. הנחה זו מפשטת את המודל ושומרת על מאפייניו.

כלומר נוכל להניח:

$\Sigma _{m}={\begin{bmatrix}l_{1}&0&\cdots &0&0&\cdots &0\\0&l_{2}&\cdots &0&0&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &l_{r}&0&\cdots &0\\0&0&\cdots &0&1&\cdots &0\\\vdots &\vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\0&0&\cdots &0&0&\cdots &1\end{bmatrix}}$

ייצוג הנתונים ומטריצת השונות המשותפת של המדגם

המטריצת הנתונים X

במודל ה- spike covariance הדגימות $X_{1},X_{2},\dots ,X_{n}$ יכולות להיות מוצגות כצירוף לינארי של אותות הבסיס $s_{1},s_{2},\dots ,s_{r}$ ורעש.

כל דגימה $X_{i}$ יכולה להיות מיוצגת באופן הבא:

$X_{i}=\alpha _{i}^{1}s_{1}+\alpha _{i}^{2}s_{2}+\dots +\alpha _{i}^{r}s_{r}+\xi _{i}$

כאשר $\alpha _{i}^{j}$ מקדמים שנדגמו מהתפלגות נורמלית $\alpha _{i}^{j}\sim N(0,\sigma ^{2})$ ו $\xi _{i}$ הוא רעש מתוך ההתפלגות הסטנדרטית הנורמלית $\xi _{i}\sim N(0,I)$ .

הסיגנלים $s_{1},s_{2},\dots ,s_{r}$ הם וקטורים ב - $\mathbb {R} ^{m}$ שמייצגים את המבנה הבסיסי בנתונים.

מטריצת הנתונים $X$ נוצרת מלקיחת וקטורי הדגימות $X_{1},X_{2},\dots ,X_{n}$ כעמודות המטריצה: $X=[X_{1},X_{2},\dots ,X_{n}]={\begin{bmatrix}X_{11}&X_{12}&\cdots &X_{1n}\\X_{21}&X_{22}&\cdots &X_{2n}\\\vdots &\vdots &\ddots &\vdots \\X_{m1}&X_{m2}&\cdots &X_{mn}\end{bmatrix}}$

מטריצת הנתונים $X$ ממשמשת לחישוב מטריצת השונות המשותפת של המדגם.

מטריצת השונות המשותפת של המדגם

מטריצת השונות המשותפת של המדגם (באנגלית : sample covariance matrix) $\Sigma _{n}$ היא הערכה אמפירית של מטריצת השונות המשותפת של האוכלוסיה $\Sigma _{m}$ והיא מחושבת באופן הבא:

$\Sigma _{n}={\frac {1}{n}}XX^{\top }$

למטריצה זו תפקיד מרכזי במודל ה- spike covariance שכן הערכים עצמיים והוקטורים העצמיים שלה מספקים תובנות לגבי זיהוי וניתוח הערכים עצמיים הגדולים של מטריצת השונות המשותפת של האוכלוסיה $\Sigma _{m}$ .

נרצה לדעת האם ניתן לזהות את המימד של הסיגנל, r את הערכים העצמיים והוקטורים העצמיים של מטריצת השונות משותפת של האוכלוסייה $\Sigma _{m}$ מתוך מטריצת השונות המשותפת של המדגם $\Sigma _{n}$ .

ערכים עצמיים של מטריצת השונות המשותפת של המדגם

התפלגות הערכים העצמיים של מטריצת השונות המשותפת של המדגם $\Sigma _{n}$

במימדים גבוהים כאשר מספר הפרמטרים m ומספר הדגימות n שואפים יחד לאינסוף ומתקיים :

${\frac {m}{n}}\to \gamma$ , $n\to \infty$

$0<\gamma \leq 1$

הערכים העצמיים של מטריצת השונות משותפת של המדגם $\Sigma _{n}$ לא בהכרח מתכנסים לאלו של מטריצת השונות משותפת של האוכלוסייה $\Sigma _{m}$ ^[1]. נחלק למקרים לפי מימד הסיגנל r:

r = 0 : כאשר אין spikes כלומר $\Sigma _{m}$ היא מטריצת היחידה, הערכים עצמיים של $\Sigma _{n}$ מתפלגים לפי התפלגות התפלגות מרצ'נקו פסטור (אנ')

r > 0: קיימים ערכים עצמיים גדולים הסוטים מההתפלגות של מרצ'נקו פסטור.

מקרה זה נדון בהרחבה בפרק של מעבר פאזה של ערכים עצמיים.

מעבר פאזה של ערכים עצמיים

במודל ה- spike covariance קיים סף שבו מתרחש מעבר פאזה של הערכים העצמיים של מטריצת השונות משותפת של המדגם $\Sigma _{n}$ . מעבר הפאזה מתרחש כאשר הערכים העצמיים $l_{j}$ של מטריצת השונות המשותפת של האוכלוסייה $\Sigma _{m}$ עוברים סף ספציפי שנתון על ידי $1+{\sqrt {\gamma }}$ , כאשר $\gamma$ מייצגת את היחס בין מספר המשתנים m לבין מספר הדגימות n. מעבר הפאזה מציין את הנקודה שבה ההשפעה של הערכים העצמיים הגדולים המכונים- spikes הופכת למשמעותית מספיק כדי לגרום לשינוי בר הבחנה בערך העצמי התואם במטריצת השונות המשותפת של המדגם $\Sigma _{n}$ .

הערכים העצמיים של מטריצת המדגם $\lambda _{i}$ מתנהגים באופן הבא :

מתחת לסף ( $l_{i}\leq 1+{\sqrt {\gamma }}$ ): כאשר הערך העצמי $l_{i}$ של המטריצה $\Sigma _{m}$ הוא בסף או מתחתיו, הערך העצמי התואם לו ב $\Sigma _{n}$ - $\lambda _{i}$ נשאר עם ההתפלגות המרכזית שמתוארת לפי התפלגות מרצ'נקו פסטור כך שאינו בולט ואינו ניתן להבחנה ושיערוך. ערך עצמי זה מתכנס כמעט בודאות ל: $\lambda _{i}\approx (1+{\sqrt {\gamma }})^{2}$

מעל הסף ( $l_{i}>1+{\sqrt {\gamma }}$ ): כאשר הערך העצמי $l_{i}$ של המטריצה $\Sigma _{m}$ הוא מעל הסף, הערך העצמי התואם לו במטריצת המדגם $\lambda _{i}$ חורג מההתפלגות הראשות ומופיע בנפרד כך שניתן להבחין בו בקלות. הערך העצמי מתכנס כמעט בוודאות ל- $\lambda _{i}\approx l_{i}+\gamma {\frac {l_{i}}{l_{i}-1}}$ .כלומר במקרה זה נקבל ערך עצמי שגדול יותר מערך המקורי. תוצאה זו מצביעה על כך שהערך העצמי בולט החוצה מההתפלגות וזה משקף גורמים בסיסיים מהותיים בנתונים.

במקרה שמעל הסף ( $l_{i}>1+{\sqrt {\gamma }}$ ): אם נרצה לקבל משערך חסר הטייה ל $\ell _{i}$ נוכל לחלץ אותו באמצעות פתרון משוואה ריבועית מהמקרה הראשון ולקבל:

$l_{i}(\lambda _{i})={\frac {\lambda _{i}+1-\gamma +{\sqrt {(\lambda _{i}+1-\gamma )^{2}-4\lambda _{i}}}}{2}}$

לסיכום נקבל התכנסות כמעט בוודאות של הערכים בעצמיים של מטריצת המדגם $\lambda _{i}$ באופן הבא^[1]^[2]:

$\lambda _{i}{\overset {a.s.}{\longrightarrow }}{\begin{cases}l_{i}+\gamma {\frac {l_{i}}{l_{i}-1}}&{\text{if }}l_{i}\geq 1+{\sqrt {\gamma }}\\(1+{\sqrt {\gamma }})^{2}&{\text{if }}l_{i}\leq 1+{\sqrt {\gamma }}\end{cases}}$

מעבר פאזה הוא תכונה מרכזית של המודל שכן הוא מאפשר להבחין בין ערכים עצמיים המשקפים מבנה משמעותי בנתונים ובין אלו שלא. הדבר חשוב במיוחד בניתוח במימדים גבוהים כגון ניותח רכיבים עיקריים שבו זיהוי הרכיבים המשמעותיים הוא חיוני.

מציאת הוקטורים העצמיים

נרצה להבין האם ניתן לחלץ את הסיגנל s עצמו מתוך $\Sigma _{n}$ .

כאשר הערך העצמי גדול מ $(1+{\sqrt {\gamma }})$ נוכל לקבל קירוב של s. נקבל אותו עם זווית לפי הקשר הבא ^[2]:

$<v_{i}^{(n)},s_{j}>\to \delta _{ij}{\sqrt {\frac {1-\gamma (l_{i}-1)^{2}}{1+\gamma (l_{i}-1)^{2}}}}$

כאשר $v_{1}^{(n)},\ldots ,v_{m}^{(n)}$ הם הוקטורים העצמיים של $\Sigma _{n}$ . כלומר לא נתכנס לסיגנל אלא נקבל שיערוך שלו עם זווית זו.

כאשר הכאשר הערך העצמי קטן מ $(1+{\sqrt {\gamma }})$ לא נוכל לקבל מידע רלוונטי על $s_{j}$ המתאים.

שימושים

ראו גם

מונחים קשורים למודל זה:

קישורים חיצוניים

^ ¹ ² Jinho Baik and Jack W. Silverstein, [https://arxiv.org/pdf/math/0408165 Eigenvalues of Large Sample Covariance Matrices of Spiked Population Models], 2004, עמ' 4
^ ¹ ² David L. Donoho ,Matan Gavish Iain M. Johnstone ,, [https://arxiv.org/pdf/1311.0851 Optimal Shrinkage of Eigenvalues in the Spiked Covariance Model], 2017, עמ' 4

[:0-1] ¹ ² Jinho Baik and Jack W. Silverstein, [https://arxiv.org/pdf/math/0408165 Eigenvalues of Large Sample Covariance Matrices of Spiked Population Models], 2004, עמ' 4

[:1-2] ¹ ² David L. Donoho ,Matan Gavish Iain M. Johnstone ,, [https://arxiv.org/pdf/1311.0851 Optimal Shrinkage of Eigenvalues in the Spiked Covariance Model], 2017, עמ' 4

[1]

[2]

	הערך נמצא בשלבי עבודה במסגרת מיזם "עבודות ויקידמיות". נא לא לערוך ערך זה עד להסרת התבנית. הערות לערך נא להוסיף בדף השיחה.
	העבודה על הערך עתידה להסתיים בתאריך 1 באוקטובר 2024. ניתן להסיר את התבנית משחלפו שלושה שבועות מן התאריך הנקוב.	שיחה

הערך נמצא בשלבי עבודה במסגרת מיזם "עבודות ויקידמיות". נא לא לערוך ערך זה עד להסרת התבנית. הערות לערך נא להוסיף בדף השיחה.
העבודה על הערך עתידה להסתיים בתאריך 1 באוקטובר 2024. ניתן להסיר את התבנית משחלפו שלושה שבועות מן התאריך הנקוב.	שיחה