בתורת ההסתברות , אי-שוויונות ברנשטיין נותנים חסמים להסתברות שממוצע או סכום של משתנים מקריים יסטה מהתוחלת שלו. לדוגמה, אחד המקרים הפשוטים הוא עבור
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
משתניים מקריים בלתי-תלויים מהתפלגות ברנולי המקבלים את הערכים
±
1
{\displaystyle \pm 1}
בהסתברות חצי (הידועה בשם התפלגות ראדמאכר ), אזי לכל
t
>
0
{\displaystyle t>0}
מתקיים אי-השוויון:
P
(
|
1
n
∑
i
=
1
n
X
i
|
>
t
)
≤
2
exp
(
−
n
t
2
2
(
1
+
t
3
)
)
{\displaystyle \mathbb {P} \left(\left|{\frac {1}{n}}\sum _{i=1}^{n}X_{i}\right|>t\right)\leq 2\exp \left(-{\frac {nt^{2}}{2(1+{\frac {t}{3}})}}\right)}
.
אי-שוויונות ברנשטיין הוכחו ופורסמו על ידי סרגיי ברנשטיין בשנות ה-20 וה-30 של המאה ה-20[ 1] [ 2] [ 3] [ 4] . מאוחר יותר, פותחו עוד אי-שוויונות מסוג זה מספר פעמים בצורות שונות. מקרים פרטיים של אי-שוויונות ברנשטיין הם אי-שוויון צ'רנוף , אי-שוויון הופדינג ואי-שוויון אזומה (אנ' ) .
[ 5] [ 6]
לאי-שוויונות ברנשטיין קיימות גרסאות רבות, אשר כולן נועדו להציג חסם על הממוצע או סכום של משתנים אקראיים. ההנחות בבסיס כל גרסה משתנות: החל מהנחות של אי-תלות מוחלטת בין המשתנים ועד למבני תלות מורכבים יותר, וכן סוגי ההתפלגויות של המשתנים. בחלק זה יוצגו מספר גרסאות מרכזיות של אי-שוויונות אלו.
יהיו
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
משתנים מקריים בלתי-תלויים, בעלי תוחלת אפס ונניח שקיים
M
>
0
{\displaystyle M>0}
כך שמתקיים לכל
i
=
1
,
.
.
.
,
n
{\displaystyle i=1,...,n}
המאורע
|
X
i
|
≤
M
{\displaystyle \left|X_{i}\right|\leq M}
כמעט תמיד (בהסתברות 1). אזי, לכל
t
>
0
{\displaystyle t>0}
:
P
(
∑
i
=
1
n
X
i
≥
t
)
≤
exp
(
−
1
2
t
2
∑
i
=
1
n
E
[
X
i
2
]
+
1
3
M
t
)
{\displaystyle \mathbb {P} \left(\sum _{i=1}^{n}X_{i}\geq t\right)\leq \exp \left(-{\frac {{\tfrac {1}{2}}t^{2}}{\displaystyle \sum _{i=1}^{n}\mathbb {E} \left[X_{i}^{2}\right]+{\tfrac {1}{3}}Mt}}\right)}
יהיו
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
משתנים מקריים בלתי-תלויים, בעלי תוחלת אפס ונניח שקיים
L
>
0
{\displaystyle L>0}
כך שלכל
k
≥
2
{\displaystyle k\geq 2}
שלם מתקיים התנאי:
E
[
|
X
i
k
|
]
≤
1
2
E
[
X
i
2
]
L
k
−
2
k
!
{\displaystyle \mathbb {E} \left[\left|X_{i}^{k}\right|\right]\leq {\frac {1}{2}}\mathbb {E} \left[X_{i}^{2}\right]L^{k-2}k!}
.
אזי, עבור
0
≤
t
≤
1
2
L
∑
i
=
1
n
E
[
X
j
2
]
{\displaystyle 0\leq t\leq {\frac {1}{2L}}{\sqrt {\sum _{i=1}^{n}\mathbb {E} \left[X_{j}^{2}\right]}}}
:
P
(
∑
i
=
1
n
X
i
≥
2
t
∑
i
=
1
n
E
[
X
i
2
]
)
<
exp
(
−
t
2
)
{\displaystyle \mathbb {P} \left(\sum _{i=1}^{n}X_{i}\geq 2t{\sqrt {\displaystyle \sum _{i=1}^{n}\mathbb {E} \left[X_{i}^{2}\right]}}\right)<\exp(-t^{2})}
יהיו
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
משתנים מקריים בלתי-תלויים, בעלי תוחלת אפס ונניח שקיים
L
>
0
{\displaystyle L>0}
כך שלכל
k
≥
4
{\displaystyle k\geq 4}
שלם מתקיים התנאי:
E
[
|
X
i
k
|
]
≤
k
!
4
!
(
L
5
)
k
−
4
{\displaystyle \mathbb {E} \left[\left|X_{i}^{k}\right|\right]\leq {\frac {k!}{4!}}\left({\frac {L}{5}}\right)^{k-4}}
.
נסמן
A
k
=
∑
i
=
1
n
E
[
X
i
k
]
{\displaystyle A_{k}=\displaystyle \sum _{i=1}^{n}\mathbb {E} \left[X_{i}^{k}\right]}
עבור כל
k
≥
4
{\displaystyle k\geq 4}
. אזי, לכל
0
<
t
≤
5
2
A
2
4
L
{\displaystyle 0<t\leq {\frac {5{\sqrt {2A_{2}}}}{4L}}}
:
P
(
|
∑
i
=
1
n
X
i
−
A
3
t
2
3
A
2
|
≥
2
A
2
t
[
1
+
A
4
t
2
6
A
2
2
]
)
<
2
exp
(
−
t
2
)
{\displaystyle \mathbb {P} \left(\left|\sum _{i=1}^{n}X_{i}-{\frac {A_{3}t^{2}}{3A_{2}}}\right|\geq {\sqrt {2A_{2}}}\,t\left[1+{\frac {A_{4}t^{2}}{6A_{2}^{2}}}\right]\right)<2\exp(-t^{2})}
קיימות גם גרסאות לאי-שוויון ברנשטיין עבור סדרת משתנים מקריים בעלי תלות מסוימת. לדוגמה, יהיו
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
ונניח כי לכל
i
=
1
,
.
.
.
,
n
{\displaystyle i=1,...,n}
קיימים קבועים
R
1
,
.
.
.
,
R
n
,
L
{\displaystyle R_{1},...,R_{n},L}
כך שמתקיימים התנאים:
E
[
X
i
|
X
1
,
.
.
.
,
X
i
−
1
]
=
0
E
[
X
i
2
|
X
1
,
.
.
.
,
X
i
−
1
]
≤
R
i
E
[
X
i
2
]
E
[
X
i
k
|
X
1
,
.
.
.
,
X
i
−
1
]
≤
1
2
E
[
X
i
2
|
X
1
,
.
.
.
,
X
i
−
1
]
L
k
−
2
k
!
{\displaystyle {\begin{aligned}&\mathbb {E} \left[X_{i}\vert X_{1},...,X_{i-1}\right]=0\\&\mathbb {E} \left[X_{i}^{2}\vert X_{1},...,X_{i-1}\right]\leq R_{i}\mathbb {E} \left[X_{i}^{2}\right]\\&\mathbb {E} \left[X_{i}^{k}\vert X_{1},...,X_{i-1}\right]\leq {\frac {1}{2}}\mathbb {E} \left[X_{i}^{2}\vert X_{1},...,X_{i-1}\right]L^{k-2}k!\end{aligned}}}
אזי לכל
0
<
t
<
1
2
L
∑
i
=
1
n
R
i
E
[
X
i
2
]
{\displaystyle 0<t<{\frac {1}{2L}}{\sqrt {\sum _{i=1}^{n}R_{i}\mathbb {E} \left[X_{i}^{2}\right]}}}
מתקיים:
P
(
∑
i
=
1
n
X
i
≥
2
t
∑
i
=
1
n
R
i
E
[
X
i
2
]
)
<
exp
(
−
t
2
)
{\displaystyle \mathbb {P} \left(\sum _{i=1}^{n}X_{i}\geq 2t{\sqrt {\sum _{i=1}^{n}R_{i}\mathbb {E} \left[X_{i}^{2}\right]}}\right)<\exp \left(-t^{2}\right)}
יהיו
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
משתנים מקריים תת-אקספוננציאליים , בלתי-תלויים ובעלי תוחלת אפס. אזי, לכל
t
>
0
{\displaystyle t>0}
:
P
{
|
∑
i
=
1
n
X
i
|
≥
t
}
≤
2
exp
[
−
c
min
(
t
2
∑
i
=
1
n
‖
X
i
‖
ψ
1
2
,
t
max
i
=
1
,
.
.
.
,
n
‖
X
i
‖
ψ
1
)
]
{\displaystyle \mathbb {P} \left\{\left|{\displaystyle \sum _{i=1}^{n}X_{i}}\right|\geq t\right\}\leq 2\exp \left[-c\min \left({\frac {t^{2}}{{\displaystyle \sum _{i=1}^{n}}\left\Vert X_{i}\right\Vert _{\psi _{1}}^{2}}},{\frac {t}{\displaystyle \max _{i=1,...,n}\left\Vert X_{i}\right\Vert _{\psi _{1}}}}\right)\right]}
כאשר
c
{\displaystyle c}
הוא קבוע חיובי ו-
‖
⋅
‖
ψ
1
{\displaystyle \|\cdot \|_{\psi _{1}}}
היא נורמה תת-אקספוננציאלית.
יהיו
X
1
,
.
.
.
,
X
n
{\displaystyle X_{1},...,X_{n}}
משתנים מקריים תת-אקספוננציאליים, בלתי-תלויים ובעלי תוחלת אפס ויהי
a
=
(
a
1
,
.
.
.
,
a
n
)
∈
R
n
{\displaystyle a=\left(a_{1},...,a_{n}\right)\in \mathbb {R} ^{n}}
. אזי, לכל
t
≥
0
{\displaystyle t\geq 0}
:
P
(
|
∑
i
=
1
n
a
i
X
i
|
≥
t
)
≤
2
exp
[
−
c
min
(
t
2
K
2
‖
a
‖
2
2
,
t
K
‖
a
‖
∞
)
]
{\displaystyle \mathbb {P} \left(\left|{\displaystyle \sum _{i=1}^{n}a_{i}}X_{i}\right|\geq t\right)\leq 2\exp \left[-c\min \left({\frac {t^{2}}{K^{2}\left\Vert a\right\Vert _{2}^{2}}},{\frac {t}{K\left\Vert a\right\Vert _{\infty }}}\right)\right]}
.
כאשר
a
1
=
.
.
.
=
a
n
=
1
n
{\displaystyle a_{1}=...=a_{n}={\frac {1}{n}}}
, כלומר הסכום המשוקלל הוא למעשה ממוצע, אזי נקבל כמקרה פרטי:
P
(
|
1
n
∑
i
=
1
n
X
i
|
≥
t
)
≤
2
exp
[
−
c
min
(
t
2
K
2
,
t
K
)
n
]
{\displaystyle \mathbb {P} \left(\left|{\frac {1}{n}}{\displaystyle \sum _{i=1}^{n}}X_{i}\right|\geq t\right)\leq 2\exp \left[-c\min \left({\frac {t^{2}}{K^{2}}},{\frac {t}{K}}\right)n\right]}
.
כל ההוכחות מבוססות על אי-שוויון מרקוב , כאשר מפעילים על הסכום את הפונקציה
exp
(
λ
∑
i
=
1
n
X
i
)
{\displaystyle \exp \left(\lambda \sum _{i=1}^{n}X_{i}\right)}
ובוחרים בצורה אופטימלית את הפרמטר
λ
{\displaystyle \lambda }
תחת אילוצים, אם קיימים.
נסמן
S
=
∑
i
=
1
n
X
i
{\displaystyle S=\displaystyle \sum _{i=1}^{n}X_{i}}
ונפעיל את אי-שוויון מרקוב:
P
(
|
S
|
≥
t
)
=
P
(
e
λ
|
S
|
≥
e
λ
t
)
≤
e
−
λ
t
∏
i
=
1
n
E
[
e
λ
X
i
]
{\displaystyle \mathbb {P} \left(\left|S\right|\geq t\right)=\mathbb {P} \left(e^{\lambda \left|S\right|}\geq e^{\lambda t}\right)\leq e^{-\lambda t}{\displaystyle \prod _{i=1}^{n}}\mathbb {E} \left[e^{\lambda X_{i}}\right]}
כעת ניעזר בתכונה של המשפחה הזאת: עבור
λ
≤
c
max
i
=
1
,
.
.
.
,
n
‖
X
i
‖
ψ
1
{\displaystyle \lambda \leq {\frac {c}{{\displaystyle \max _{i=1,...,n}}\left\Vert X_{i}\right\Vert _{\psi _{1}}}}}
מתקיים כי
E
[
e
λ
X
i
]
≤
e
c
λ
2
‖
X
i
‖
ψ
1
2
{\displaystyle \mathbb {E} \left[e^{\lambda X_{i}}\right]\leq e^{c\lambda ^{2}\left\Vert X_{i}\right\Vert _{\psi _{1}}^{2}}}
. לכן, נקבל
P
(
|
S
|
≥
t
)
≤
exp
[
−
λ
t
+
c
λ
2
σ
2
]
{\displaystyle \mathbb {P} \left(\left|S\right|\geq t\right)\leq \exp \left[-\lambda t+c\lambda ^{2}\sigma ^{2}\right]}
כאשר
σ
2
=
∑
i
=
1
n
‖
X
i
‖
ψ
1
2
{\displaystyle \sigma ^{2}={\displaystyle \sum _{i=1}^{n}}\left\Vert X_{i}\right\Vert _{\psi _{1}}^{2}}
. כעת נרצה למזער את הביטוי כפונקציה של
λ
{\displaystyle \lambda }
תחת האילוץ. נקבל פתרון
λ
=
min
(
t
2
c
σ
2
,
c
max
i
=
1
,
.
.
.
,
n
‖
X
i
‖
ψ
1
)
{\displaystyle \lambda =\min \left({\frac {t}{2c\sigma ^{2}}},{\frac {c}{{\displaystyle \max _{i=1,...,n}}\left\Vert X_{i}\right\Vert _{\psi _{1}}}}\right)}
, נציב באי-השוויון ונקבל את הדרוש.
אי-שוויונות ברנשטיין ניתנים להכללה עבור צורות רבות של משתנים מקריים. בפרט, עבור תבניות ריבועיות של משתנים גאוסיים. הכללה זו עשויה לעזור בשליטה על הסיכון הריבועי של קבוצת מעריכים ליניאריים בבעיות רגרסיה ליניארית.
יהיו
a
=
(
a
1
,
.
.
.
,
a
p
)
,
b
=
(
b
1
,
.
.
.
,
b
p
)
{\displaystyle a=\left(a_{1},...,a_{p}\right),b=\left(b_{1},...,b_{p}\right)}
שני וקטורים ממשיים ממימד
p
{\displaystyle p}
ונסתכל על הביטוי האקראי
T
=
∑
k
=
1
p
a
k
z
k
2
+
b
k
z
k
{\displaystyle T=\sum _{k=1}^{p}a_{k}z_{k}^{2}+b_{k}z_{k}}
כאשר
z
1
,
.
.
.
,
z
p
{\displaystyle z_{1},...,z_{p}}
משתנים מקריים בלתי-תלויים ושווי-התפלגות מהתפלגות נורמלית סטנדרטית. נסמן:
a
+
=
sup
{
sup
k
=
1
,
.
.
,
p
{
a
k
}
,
0
}
{\displaystyle a^{+}=\sup \left\{\sup _{k=1,..,p}\left\{a_{k}\right\},0\right\}}
,
a
−
=
sup
{
sup
k
=
1
,
.
.
,
p
{
−
a
k
}
,
0
}
{\displaystyle a^{-}=\sup \left\{\sup _{k=1,..,p}\left\{-a_{k}\right\},0\right\}}
, אזי מתקיים עבור כל
x
>
0
{\displaystyle x>0}
:
P
(
T
≥
∑
k
=
1
p
a
k
+
2
∑
k
=
1
p
a
k
2
+
b
k
2
2
x
+
2
a
+
x
)
≤
exp
(
−
x
)
{\displaystyle \mathbb {P} \left(T\geq \sum _{k=1}^{p}a_{k}+2{\sqrt {\sum _{k=1}^{p}a_{k}^{2}+{\frac {b_{k}^{2}}{2}}}}{\sqrt {x}}+2a^{+}x\right)\leq \exp \left(-x\right)}
P
(
T
≥
∑
k
=
1
p
a
k
−
2
∑
k
=
1
p
a
k
2
+
b
k
2
2
x
−
2
a
−
x
)
≤
exp
(
−
x
)
{\displaystyle \mathbb {P} \left(T\geq \sum _{k=1}^{p}a_{k}-2{\sqrt {\sum _{k=1}^{p}a_{k}^{2}+{\frac {b_{k}^{2}}{2}}}}{\sqrt {x}}-2a^{-}x\right)\leq \exp \left(-x\right)}
נסתכל על הביטוי האקראי
T
=
z
T
A
z
+
b
T
z
{\displaystyle T=z^{T}Az+b^{T}z}
, כאשר
A
∈
R
n
×
n
{\displaystyle A\in \mathbb {R} ^{n\times n}}
,
b
∈
R
n
{\displaystyle b\in \mathbb {R} ^{n}}
ו-
z
{\displaystyle z}
הוא וקטור גאוסי סטנדרטי (כלומר כל כניסה מתפלגת נורמלית עם תוחלת 0 וסטיית תקן 1 והכניסות בלתי-תלויות). נסמן ב-
s
1
,
.
.
.
,
s
p
{\displaystyle s_{1},...,s_{p}}
את הערכים העצמיים של המטריצה הסימטרית
1
2
(
A
+
A
T
)
{\displaystyle {\frac {1}{2}}\left(A+A^{T}\right)}
ונסמן ב-
s
+
,
s
−
{\displaystyle s^{+},s^{-}}
(כפי שהוגדר בסעיף קודם). אזי מתקיים עבור כל
x
>
0
{\displaystyle x>0}
:
P
(
T
≥
tr
(
A
)
+
2
1
4
‖
A
+
A
T
‖
2
+
1
2
‖
b
‖
2
x
+
2
s
+
x
)
≤
exp
(
−
x
)
{\displaystyle \mathbb {P} \left(T\geq {\text{tr}}\left(A\right)+2{\sqrt {{\frac {1}{4}}\left\Vert A+A^{T}\right\Vert ^{2}+{\frac {1}{2}}\left\Vert b\right\Vert ^{2}}}{\sqrt {x}}+2s^{+}x\right)\leq \exp \left(-x\right)}
P
(
T
≥
tr
(
A
)
−
2
1
4
‖
A
+
A
T
‖
2
+
1
2
‖
b
‖
2
x
−
2
s
−
x
)
≤
exp
(
−
x
)
{\displaystyle \mathbb {P} \left(T\geq {\text{tr}}\left(A\right)-2{\sqrt {{\frac {1}{4}}\left\Vert A+A^{T}\right\Vert ^{2}+{\frac {1}{2}}\left\Vert b\right\Vert ^{2}}}{\sqrt {x}}-2s^{-}x\right)\leq \exp \left(-x\right)}
^ S.N.Bernstein, "On a modification of Chebyshev's inequality and of the error formula of Laplace" vol. 4, #5 (original publication: Ann. Sci. Inst. Sav. Ukraine, Sect. Math. 1, 1924)
^ Bernstein, S. N. (1937). "Об определенных модификациях неравенства Чебышева" [On certain modifications of Chebyshev's inequality]. Doklady Akademii Nauk SSSR . 17 (6): 275–277.
^ S.N.Bernstein, "Theory of Probability" (Russian), Moscow, 1927
^ J.V.Uspensky, "Introduction to Mathematical Probability", McGraw-Hill Book Company, 1937
^ Freedman, D.A. (1975). "On tail probabilities for martingales". Ann. Probab . 3 : 100–118.
^ Fan, X.; Grama, I.; Liu, Q. (2012). "Hoeffding's inequality for supermartingales". Stochastic Process. Appl . 122 : 3545–3559.
^ Fan, X.; Grama, I.; Liu, Q. (2015). "Exponential inequalities for martingales with applications" . Electronic Journal of Probability . Electron. J. Probab. 20. 20 : 1–22. arXiv :1311.6273 . doi :10.1214/EJP.v20-3496 . S2CID 119713171 .
^ High-Dimensional Probability: An Introduction with Applications in Data Science , Roman Vershynin, University of California, Irvine, June 9, 2020