EXTRÉM STATISZTIKÁK ÉS FIZIKAI ALKALMAZÁSAIK


1 EXTRÉM STATISZTIKÁK ÉS FIZIKAI ALKALMAZÁSAIK Speciálkollégium Fizikus MSc. és PhD. kurzus, 214. II...
Author:  Ervin Dudás

0 downloads 0 Views 226KB Size

Recommend Documents


Fizikai Szemle MAGYAR FIZIKAI FOLYÓIRAT
1 Fizikai Szemle MAGYAR FIZIKAI FOLYÓIRAT A Mathematikai és Természettudományi Értesítõt az Akad&eacu...

Fizikai Szemle MAGYAR FIZIKAI FOLYÓIRAT
1 Fizikai Szemle MAGYAR FIZIKAI FOLYÓIRAT A Mathematikai és Természettudományi Értesítõt az Akad&eacu...

ORVOSI FIZIKAI KÉMIA
1 ORVOSI FIZIKAI KÉMIA I. BIOFIZIKAI TERMODINAMIKA AZ ENERGIA BIOLÓGIAI HASZNOSÍTÁSÁNAK TUDOMÁNYA Oktat&aacu...

Fizikai Kémia törzsmodul
1 Fizikai Kémia törzsmodul Bevezetés a fizikai kémiai mérésekbe (óraszám: 0+0+4, kreditszá...

A napelemek fizikai alapjai
1 A napelemek fizikai alapjai Dr. Rácz Ervin Ph.D. egyetemi docens intézetigazgató-helyettes kari oktatási igazgató...

A szivárvány fizikai alapjai
1 A szivárvány fizikai alapjai Cserti József 1, Haiman Ottó 2 és Huhn Andrásné 3 Eötvös Lor...

Spektrális módszerek a fizikai geodéziában
1 Sektráli ódzerek a fizikai geodéziába A fizikai geodéziába előforduló záo feladat egold&aacu...

Radioaktív nyomjelzés a fizikai kémiában
1 Rdioktív nyojelzés fiziki kéiábn2 Rdioktív nyojelzés fiziki kéiábn3 Oldékonysá...

FIZIKAI KÉMIA IV. Lente Gábor
1 FIZIKAI KÉMIA I. Lente Gábor Ajánlott iroalom: P. W. Atkins: Fizikai kémia I-III. (ankönyvkiaó, Buaest, 2002...

1. Az izotópdiagnosztika fizikai alapjai
1 1. Az izotópdiagnosztika fizikai alapjai Semmelweis Egyetem Biofizikai és Sugárbiológiai Intézet Ionizál&o...



EXTRÉM STATISZTIKÁK ÉS FIZIKAI ALKALMAZÁSAIK Speciálkollégium Fizikus MSc. és PhD. kurzus, 2014. II. félév 3-6. előadás

1

Tartalomjegyzék 1. Bevezető

5

2. Emlékeztető: A valószínűségszámítás és a statisztikus inferencia alapjai 5 2.1. Sűrűség-, és eloszlásfüggvények egy folytonos változó esetén . . . . . . .

5

2.1.1. Sűrűségfüggvény . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

2.1.2. Integrált eloszlásfüggvény . . . . . . . . . . . . . . . . . . . . . .

7

2.2. Momentumok és kumulánsok . . . . . . . . . . . . . . . . . . . . . . . .

10

2.2.1. Generátor (karakterisztikus) függvények . . . . . . . . . . . . . .

10

2.2.2. A momentumok és a kumulánsok közötti relációk . . . . . . . . .

11

2.2.3. Különleges momentumok . . . . . . . . . . . . . . . . . . . . . .

13

2.2.4. Nemnegatív változók generátor függvénye . . . . . . . . . . . . .

14

2.2.5. Összeg eloszlása

15

. . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.3. Diszkrét változók — az említés szintjén . . . . . . . . . . . . . . . . . .

16

2.4. Néhány nevezetes eloszlás . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.4.1. Binomiális . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

2.4.2. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

2.4.3. Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

2.4.4. Gauss (normál) . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20

2.4.5. χ2 (khi négyzet) . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

2.4.6. Gausshoz tartó eloszlások . . . . . . . . . . . . . . . . . . . . . .

23

2.5. Szimultán és feltételes eloszlások . . . . . . . . . . . . . . . . . . . . . .

26

2.6. Határeloszlások . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

27

2.6.1. Stabil eloszlások . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

2.7. A statisztikus modellezés elemei . . . . . . . . . . . . . . . . . . . . . . .

34

2.7.1. Empirikus átlagok

. . . . . . . . . . . . . . . . . . . . . . . . .

34

2.7.2. Konfidencia intervallum . . . . . . . . . . . . . . . . . . . . . . .

36

3

2.7.3. Egyszerű példa: Gauss eloszlás paramétereinek meghatározása .

38

2.7.4. Hipotézis valószínűsége – Bayes elve . . . . . . . . . . . . . . . .

39

2.7.5. Példák . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

4

1.

Bevezető

Ezeken a diákon a valószínűségszámítás néhány elemét idézzük fel, ezzel az extrém érték statisztikák elméletéhez szükséges matematikai hátteret alapozzuk meg. A gyakorló feladatok általában könnyűek, nem szükséges megoldásukat beadni, de azokat a vizsgán kérdezhetem. A házi feladatok megoldása beadható, ez a vizsga részleges teljesítésének számít. A diákon hibákat felfedező hallgatók a vizsgán kedvezőbb elbírálásra számíthatnak. Felhasznált irodalom: [1] Stuart Coles: An Introduction to Statistical Modeling of Extreme Values, Springer Series in Statistics, 2001 (alkalmazott statisztikai megközelítés); [2] Rényi Alfréd: Valószínűségszámítás, Tankönyvkiadó (matematika tankönyv számos példával); [3] Filip Lindskog: The Mathematics and Fundamental Ideas of Extreme Value Theory, http://www.math.ethz.ch/∼embrechts/RM/evtnotes.pdf (matematikai kurzus jegyzet, rendkívül lényegretörő).

5

2.

2.1. 2.1.1.

Emlékeztető: A valószínűségszámítás és a statisztikus inferencia alapjai Sűrűség-, és eloszlásfüggvények egy folytonos változó esetén Sűrűségfüggvény

P (x): Valószínűség sűrűség (probability density function, PDF) – fizikai szövegben gyakran eloszlásnak (distribution) nevezik. Az [a, b] intervallum valószínűsége (mértéke) Z b dx P (x) (2.1) Prob(a ≤ x ≤ b) = a

Diszkrét érték véges súllyal: ha x0 valószínűsége 0 < p0 ≤ 1, akkor a PDF-ben fellép p0 δ(x − x0 ). Ha pl. az a-ban delta-csúcs áll, akkor a (2.1) integrálás alsó határa a − 0.

Ha a végpontokban a PDF síma, akkor mindegy, hogy az intervallum zárt vagy nyílt. Az eloszlás tartója, ahol a PDF nem zérus. 6

Változócsere: ha ismerjük x PDF-jét, akkor annak valamely y(x) függvényének PDF-jét is kifejezhetjük. Legyen y = y(x) invertálható, x = x(y), ahonnan dx(y) . Py (y)|dy| = Px (x)|dx| ⇒ Py (y) = Px (x(y)) (2.2) dy Formálisan így is eljárhatunk Z Py (y) = dx δ(y − y(x))Px (x)



dx(y) . Py (y) = Px (x(y)) dy

(2.3)

A "Dirac deltás" kifejezés az általános receptje annak, hogyan írjuk fel leszármaztatott változók eloszlását. Statisztikus fizikai számításokban gyakran alkalmazzuk. 2.1. Gyakorló feladat. Terjesszük ki a fenti formulát, ha y = y(x) nem invertálható, de szakaszonként az! Általában nem fogjuk jelölni az indexet, P (x) az x változó PDF-je. R∞ Várható értékek: hf (x)i = −∞ dx P (x)f (x), norma h1i = 1. 7

2.1.2.

Integrált eloszlásfüggvény

Integrated probability distribution function (IPDF), fizikai szövegekben integrált vagy kumulatív eloszlásnak hívják, matematikai szövegben eloszlásfüggvény, szokásosan F (x)szel jelölik. Nálunk jelölése Z x

dy P (y),

M (x) =

(2.4)

−∞

a [−∞, x] intervallum valószínűsége (mértéke). Változócsere (egy-egy értékű) My (y) = Mx (x(y)). Nyilván Prob(a ≤ x ≤ b) = M (b) − M (a). (2.5) Ha a PDF delta-csúcsot tartalmaz, annak helyén az IPDF ugrik. A várható érték számítható M (x)-szel is. Legyen a tartó a pozitív féltengely és f (x)

8

deriválható (a felírt integrálok végességét feltesszük) (Z Z X X dx M ′ (x)f (x) = M (x)f (x)|0 − hf (x)i = lim X→∞

= lim

X→∞

= lim

X→∞

f (X) −

0

dx M (x)f ′ (x)

0

0

(

(Z

)

X

Z

)

X

dx M (x)f ′ (x) 0

X ′

dx f (x) + f (0) −

Z

X ′

)

dx M (x)f (x)

0

= f (0) +

Z

0



dx (1 − M (x))f ′ (x). (2.6)

R∞ Pl. az x várható értéke hxi = 0 dx (1 − M (x)). Noha a levezetéshez használtuk, hogy M (x) deriválható, a végső képlet általánosabban igaz.

9

M(x) 1

x 0

1. ábra. Az integrált eloszlás grafikai jelentése. Ha a tartó a pozitív félegyenes, akkor a jelölt terület, ha véges, az x várható értéke. 2.2. Gyakorló feladat. Írjuk fel a várható értéket az IPDF-fel, ha az eloszlás tartója a valós tengely!

2.2. 2.2.1.

Momentumok és kumulánsok Generátor (karakterisztikus) függvények

Momentum generátor (a PDF Fourier-transzformáltja) 10



Φ(z) = e

izx

,

dn Φ(z) = hxn i = mn n d(iz) z=0

(2.7)

az n. momentum, ha ilyen létezik. Nyilván Φ(0) = 1 ⇒ m0 = 1. Ha Taylor-sorba fejthető, akkor ∞ X mn (iz)n . (2.8) Φ(z) = n! n=0 Ha az n ≤ n0 momentumok léteznek, de az n0 + 1-ik divergál, akkor a generátor z n0 rendig a részletösszeggel közelíthető. Kumuláns generátor

Ψ(z) = ln Φ(z)

=

↑ ha Taylor

∞ X cn (iz)n n! n=1

(2.9)

Vegyük észre, hogy Ψ(0) = 0.

11

2.2.2.

A momentumok és a kumulánsok közötti relációk

A generátorfüggvények Taylor-sorainak együtthatói között összefüggések találhatók. Az első három indexre könnyen beláthatjuk, hogy

Φ(z) = eΨ(z)

⇒ m1 = c 1 ,

Ψ(z) = ln Φ(z)

⇒ c 1 = m1 ,

m2 = c2 + c21 , c2 = m2 − m21 ,

m3 = c3 + 3c2 c1 + c31 , . . .

(2.10)

c3 = m3 − 3m2 m1 + 2m31 , .(2.11) ..

Magasabb indexekre mindez folytatható, de némi fáradsággal az általános reláció is felállítható. Ezt formula helyett grafikusan szemléltetjük a 2. ábrával.

12

m1

m3

m2 + 3

+

+

2. ábra. A momentumok és kumulánsok relációjának grafikus illusztrálása. Az n pontból álló halmaz segítségével az mn momentumot kifejezzük a ck , k = 1, . . . n kumulánsokkal. A k pontot tartalmazó keret ck -t jelöli, az n pont egy partíciója pedig az itt fellépő ck -k szorzatának feleltetendő meg. Az n. momentum az n pont összes lehetséges partíciója összegeként áll elő. A kombinatorikai együtthatók azt adják meg, hogy megkülönböztethető pontok esetén hányféleképp kapható ugyanolyan partíció. Harmadrendig (2.10) adódik. 2.1. Házi feladat. Fejezzük ki az n-edik momentumot a kumulánsokkal és igazoljuk a 2. ábrán bemutatott receptet. (30% )

13

2.2.3.

Különleges momentumok

A centrális momentumok m ¯ n = h(x − hxi)n i. Nyilván m ¯ 1 = 0, továbbá könnyen látható, hogy n = 2, 3 mellett ezek éppen a cn kumulánsok. 2.3. Gyakorló feladat. Állítsuk elő a m ¯ 4 és a c4 mennyiségeket a momentumokkal. Ennek révén beláttuk, hogy általában különböznek. Matematikai szövegekben szokásos jelölés: átlag E(X) = hxi = c1 , variancia Var(X) =

(x − hxi)2 = c2 . Az x − hxi átlaga zérus, a hozzá tartozó kumuláns generátorból hiányzik az n = 1 tag, egyébként azonos az x-ével. 1/2

1/2

Szórás: c2 , relatív szórás: β2 =

c4 c22

+3=

h(x−hxi)4 i c22

c2 c1

, ferdeség, skewness: β1 =

.

14

c3 3/2 , c2

lapultság, kurtosis:

2.2.4.

Nemnegatív változók generátor függvénye

Ha az x véletlen változó nemnegatív, akkor a Fourier transzformációval kapott momentum generátor (Φ(z)) helyett célszerű a valós Laplace transzformáltat használni

(2.12) G(s) = e−sx . Formálisan G(s) = Φ(is), néhol csak ezt hívják karakterisztikus függvénynek. Nyilván

(2.13) mk = xk = (−1)n G[n] (0). A kumuláns generátor H(s) = ln G(s) = Ψ(is)

ck = (−1)n H [n] (0).

(2.14)

15

2.2.5.

Összeg eloszlása

Vizsgáljuk x = x1 + x2 eloszlását. Z Z P (x) = dx1 dx2 δ(x − x1 − x2 )P1 (x1 )P2 (x2 ) = dyP1 (x − y)P2 (y) = (P1 ∗ P2 )(x),

(2.15)

ez a konvolúció. Vegyük észre, hogy P1 ∗ P2 = P2 ∗ P1 .

2.4. Gyakorló feladat. Mutassuk meg, hogy a momentum generátorok szorzódnak, Φ(z) = Φ1 (z)Φ2 (z). A kumuláns generátorok ebből következően Ψ(z) = Ψ1 (z) + Ψ2 (z).

2.3.

Diszkrét változók — az említés szintjén

Diszkrét értékkészletű esemény (k) és valószínűsége k ∼ pk ,

hfk i =

16

X k

fk pk .

(2.16)

PDF-ként előállítva Dirac delták sorát kapjuk P (x) =

X k

pk δ(x − k).

(2.17)

(−1)n G[n] (0) = hk n i .

(2.18)

Generátor pl. G(s) =

X

pk e−sk ,

k

Kockavetés generátora: G(s) = 16 (e−s + e−2s + · · · + e−6s ) =

2.4. 2.4.1.

e−s 1−e−6s 6 1−e−s ,

hki = 7/2.

Néhány nevezetes eloszlás Binomiális

n független bináris esemény, pl. p valószínűséggel „fej” és 1 − p-vel „írás”, esetén annak 17

a valószínűsége, hogy k alkalommal kapunk „fej”-et   n X n k n−k pk = p (1 − p) , pk = 1. k

(2.19)

k=0

Momentum generátor G(s)

=

n   X n

k

k=0

e−sk pk (1 − p)n−k = (1 − p(1 − e−s ))n ,

(2.20)

ahonnan a kumuláns generátor H(s)

= ln G(s) = n ln(1 − p(1 − e−s )).

(2.21)

A k várható értéke pe−s −H (s) = n 1 − p(1 − e−s ) ′



c1 = hki = −H ′ (0) = np.

(2.22)

A második kumuláns H ′′ (s) = n

p(1 − p)e−s (1 − p(1 − e−s ))2



2 c2 = k 2 − hki = H ′′ (0) = np(1 − p).

Vegyük észre, hogy nagy n mellett az átlag c1 = O(n), az akörüli ingadozások 18

(2.23) √

c2 =

√ O( n), a relatív szórás 2.4.2.



c2 c1

1

= O(n− 2 ), azaz az eloszlás az átlag skáláján kicsúcsosodik.

Poisson

A binomiálisból az n → ∞, p → 0, np → λ átmenettel kapjuk   n k λk −λ nk k n n−k p (1 − p) ≈ e = pk . p (1 − p) ≈ k k! k!

(2.24)

Pl. hosszú felezési idejű (p → 0) elem nagyszámú (n → ∞) atomjának bomlását detektáljuk meghatározott idő alatt. Általában egymástól függetlenül bekövetkező események számának eloszlása adott időn belül Poisson.

2.5. Gyakorló feladat. Állítsuk elő a G(s) = e−sk generátort, s mutassuk meg, hogy ugyanezt kapjuk a binomiális eloszlás megfelelő limeszéből is. Igazoljuk, hogy a Poisson eloszlás mindegyik kumulánsa egyaránt cj ≡ λ!

19

2.4.3.

Gamma

A formula azonos a Poissonéval, csakhogy a paraméter és a valószínűségi változó szerepe felcserélődik. Az egész k helyett megengedjük a valós a > 0 paramétert, x > 0 pedig a valószínűségi változó: xa−1 −x e . (2.25) P (x; a) = Γ(a) A fenti sűrűségfüggvény normált! A függvénytáblázatokban szokásos alak x helyett annak lineáris transzformáltját tartalmazza, ez két további paramétert enged meg. A karakterisztikus függvény Z ∞

−sx −1 dx e−x(1+s) xa−1 = (1 + s)−a , (2.26) = (Γ(a)) G(s) = e 0

ahonnan a kumuláns generátor H(s) = −a ln(1 + s) és a kumulánsok cn = a(n − 1)!. Vegyük észre a következő tulajdonságot: ha x1 és x2 rendre a1 és a2 paraméterű Gamma eloszlásúak, akkor x3 = x1 + x2 az a3 = a1 + a2 paraméterű Gamma eloszlásnak tesz eleget. 2.6. Gyakorló feladat. Számítsuk ki a Gamma eloszlás mn momentumait! 20

2.4.4.

Gauss (normál)

A másodiknál nagyobb kumulánsai zérusok, azaz Ψ(z) másodfokú, ezért Φ(z) Gaussfüggvény, s ennek P (x) Fourier-transzformáltja is Gauss. Minden magasabb momentum kifejezhető az első kettővel.

P (x) Ψ(z) M (x; m, σ)

  1 (x − m)2 = √ exp − = N (x; m, σ), 2σ 2 2πσ 1 = imz − σ 2 z 2 , 2     Z x 1 x−m √ dy N (y; m, σ) = = +1 . erf 2 σ 2 −∞

(2.27) (2.28) (2.29)

Az m = 0, σ = 1 eset a sztenderd normál eloszlás.

21

m8 = 7 . 5 . 3 . 3. ábra. Ha minden kumuláns zérus kivéve c2 , akkor a 2. ábrán illusztrált eljárás alapján

a momentumok m2n = x2n = (2n − 1)!! cn2 .

2.7. Gyakorló feladat. Mutassuk meg, hogy a binomiális eloszlásból, tetszőleges 0 < p < 1 mellett, az n, k → ∞ limeszben kapjuk az m = np, σ 2 = np(1 − p) Gaussfüggvényt (Moivre & Laplace). (1) Használjuk a Stirling formulát és tegyük fel, hogy √ z = k − np = O( n)! E feltétel jogosságát vizsgáljuk utólag. (2) Használjuk a kumuláns generátort, amely nagy n mellett közelíthető a minimuma körüli értékeivel. 2.4.5.

χ2 (khi négyzet)

Ha x1 , . . . , xk (sztenderd) normál eloszlású, akkor z = x21 + · · · + x2k eloszlása a χ2k . Ez a statisztikus modellezés szempontjából fontos, a hibák négyzetösszegének eloszlását adja, ha az egyes hibák gaussiak. 22

k = 1,

z = x2 , z ≥ 0: M1 (z)

=

P1 (z)

=

a karakterisztikus függvény pedig

G1 (s) = e

−sz

=

Z



r  z erf 2  z 1 √ exp − , 2 2πz

(2.30) (2.31)

P1 (z)e−sz dz = (1 + 2s)−1/2 .

(2.32)

0

k > 1: A k = 1 eloszlás önmagával vett konvolúciójával kapható. A generátorfüggvény Gk (s) = Gk1 (s) = (1 + 2s)−k/2 . 2.8. Gyakorló feladat. Mutassuk meg, hogy a χ2k eloszlás azonos a Gamma eloszlással az x2 változóban.

(2.33)

k 2

paraméterű

k → ∞: később látjuk, hogy Gauss-hoz tart a megfelelő skálán. 23

2.4.6.

Gausshoz tartó eloszlások

Különböző eloszlások tarthatnak a gaussihoz, midőn valamely paraméter limeszhez tart, s ezzel egyidejűleg megfelelő lineáris változócserét végzünk. A kumuláns sorfejtésből könnyen észrevehető, ha az eloszlás a gaussihoz tart. Binomiális: n → ∞. Vezessük be az x=

√ k k − hki √ = √ −p n n n

változót, s menjen n, k → ∞. Az x kumuláns generátora D √ E

iqx √ √ √ iqk/ n = −iqp n + ln e Ψx (q) = ln e = −iqp n + Hk (−iq/ n) h  √ i √ q2 1 iq/ n = −p(1 − p) + O(n− 2 ). = −iqp n + n ln 1 − p 1 − e 2

(2.34)

(2.35)

Itt Hk (s) a k binomiális eloszlású változó kumuláns generátora, amelyet (2.21) ad meg. p Tehát a határeloszlás az N (x; 0, p(1 − p)) normál. 24

2.9. Gyakorló feladat. Mutassuk meg, ha eredetileg az k − c1 x= √ c2

(2.36)

új változót vezettük volna be, akkor a sztenderd normál lenne a határeloszlás. Gamma: a → ∞ . Tudjuk, hogy ∞ X (−s)n Hx (s) = −a ln(1 + s) = a . n n=1

Bevezetve az

(2.37)

x − c1 x−a y= √ = √ c2 a

(2.38)

új változót, nyerjük ∞



X1 √ Ψy (q) = Hx (−iq/ c2 ) − iqc1 / c2 = a n n=2



iq √ a

n

.

(2.39)

25

A nagy a limeszben tehát a sztenderd normál adódik: q2 Ψy (q) = − . 2

(2.40)

Chi-négyzet (χ2k ): k → ∞ . Miután a χ2k az a = k/2 paraméterű Gamma eloszlással egyenlő, a nagy k limeszben az x − c1 y= √ (2.41) c2 változóban a sztenderd normál eloszlást kapjuk.

2.5.

Szimultán és feltételes eloszlások

Szimultán (joint, multivariate) eloszlás: P (x1 , . . . , xn ) = P (x). Qn Független változók: P (x) = i=1 Pi (xi ).

Független, azonos eloszlású (independent, identically distributed, i.i.d.) Pi (x) ≡ P (x). 26

változók:

Várható értékek: hf (x)i =

R

dn x f (x)P (x).

Kovariancia: σij = hxi xj i − hxi i hxj i.

R Redukált eloszlás (n-ről k változóra): P (x1 , . . . , xk ) = dxk+1 . . . dxn P (x). R Egy változóra a marginális eloszlás: P (xk ) = dx1 . . . dxk−1 dxk+1 . . . dxn P (x). Feltételes eloszlás (x1 eloszlása, ha x2 adott): P (x1 |x2 ) = R

P (x1 , x2 ) P (x1 , x2 ) = . P (x2 ) dx1 P (x1 , x2 )

(2.42)

A P (x1 |x2 )-ben x1 valószínűségi változó, x2 pedig paraméter, ezért az előbbiben norR mált P (x1 |x2 )dx1 = 1.

Minden eloszlás valójában feltételes, legfeljebb természetesnek tekintjük s ezért nem mondjuk ki a feltételt.

2.6.

Határeloszlások

Eddig is láttunk határeloszlásokat: a Poisson és a Gauss a binomiálisból bizonyos limeszekben adódtak. Továbbá a bevezetőben bemutatott extrém érték eloszlások is 27

határesetként adódtak megfelelő skálázással. Pn Határozzuk meg az X = i=1 xi összeg eloszlását, ha az xi -k i.i.d. változók, és 3. kumulánsuk véges. A közös kumuláns generátor tehát harmadrendig 1 1 ψ(z) = ic1 z − c2 z 2 − ic3 z 3 + . . . . 2 6

(2.43)

Korábban láttuk, hogy az összeg kumuláns generátora az egyes tagok kumuláns generátorainak összege (ld. 2.2.5. fejezet)

n n (2.44) ln eiXz = Ψ(z) = nψ(z) = nc1 iz − c2 z 2 − i c3 z 3 + . . . . 2 6 Láthatóan hXi = nc1 = n hxi , Var(X) = nc2 = nVar(x). Vezessük be az Y =

X − nc1 √ nc2

(2.45)

új változót, ennek generátorát úgy kapjuk, hogy Ψ-ből a z-vel arányos tagot elhagyjuk

28

√ és áttérünk a w = z nc2 változóra. Ekkor az n → ∞ limeszben

i nc3 1 w3 + . . . ln eiY w = Ψ(w) = − w2 − 3/2 2 6 (nc2 )



1 − w2 , 2

(2.46)

azaz a sztenderd normál eloszlást kaptuk.

A fentiekben azt mutattuk meg, hogy az X változó "ferdeség"-e zérushoz tart. A levezetéshez valójában elegendő azt feltenni, hogy a kumuláns generátor másodrendig sorbafejthető, s a maradék magasabb rendű. Tájékoztatásul a matematikai irodalomból idézzük annak szükséges és elegendő feltételét, hogy azonos eloszlású, független változók összege határesetben gaussi legyen: a P (x) PDF-re teljesüljön, hogy x → ∞ mellett R R ∞ −x 2 + x P (y)dy x −∞ Rx → 0. (2.47) 2 P (y)dy y −x 2.2. Házi feladat. (i) Mutassuk meg, hogy ha a második momentum véges, akkor (2.47) fennáll. (ii) Ha a PDF nagy y mellett y −3 szerint cseng le, akkor nincs máso29

dik momentum, de (2.47) teljesül. Határozzuk meg a kumuláns generátor vezető tagját (az egyszerűség kedvéért tegyük, fel, hogy az első kumuláns zérus), s próbáljuk meg a határeloszlást a fenti levezetéssel analóg módon kiszámítani. (15%) Különböző eloszlású, független változók összege: a j. eloszlás kumulánsai legyenek cj,n , ekkor n n X X hXi = cj,1 , Var(X) = cj,2 , (2.48) j=1

j=1

s a magasabb kumulánsokat is hasonlóan kapjuk (ha léteznek). A Ψ-ből „elhagyjuk” az p átlagot és skálázunk w = z Var(X) szerint. A kumuláns generátor P P 1 1 2 i j cj,3 j cj,4 3 P w + Ψ(w) = − w − P w4 + . . . . (2.49) 2 3/2 2 6 ( j cj,2 ) 24 ( j cj,2 ) Innen a sztenderd normál eloszlást kapjuk, ha az n → ∞ limeszben a kvadratikusnál magasabb tagok zérushoz tartanak. Ljapunov-feltétel: a második kumulánsok átlaga pozitív és a harmadiké nem divergál ("túl erős", elégséges de nem szükséges), 1X 1X cj,2 → C2 > 0, és cj,3 → C3 , |C3 | < ∞. (2.50) n j n j 30

A centrális határeloszlás tétele (central limit theorem, CLT) hagyományosan annak a rigorózus megfogalmazása, hogy bizonyos feltételek mellett nagyszámú véletlen változó összege a limitben gaussi eloszlású. Általánosítás x−3 hatványnál lassabban lecsengő PDF-ekre. Ha a kumuláns generátor ψj (z) = cj,1 iz−cj,α |z|α +. . . , ahol 0 < α < 2, rögzített, akkor a határeloszlás generátorát a Ψ(w) ≈ −|w|α (2.51) alakra skálázzuk. Ez a forma invariáns a konvolúcióval szemben, és a szimmetrikus Lévy eloszlást definiálja Z α dw Pα (x) = cos(xw) e−|w| (2.52) 2π

31

4. ábra. Szimmetrikus Lévy-sűrűségek. Gyakorlati szempontból azt mondhatjuk, ha a sűrűségfüggvény nagy |x|-re az |x|−α−1 szerint cseng le, akkor 0 < α < 2 esetén a határeloszlás az α indexű Lévy-függvény. Ha a lecsengés különböző kitevőkkel megy pozitív ill. negatív x-re, akkor a kisebbik számít. Az α = 1 mellett a határeloszlás Cauchy-féle P (x) = [π(1 + x2 )]−1 . 32

(2.53)

A képlet a Lorentz-görbe. Ha α ≥ 2, vagy a lecsengés minden hatványnál gyorsabb, beleértve azt az esetet is, amikor az eloszlás tartója korlátos, a határeloszlás gaussi. 2.6.1.

Stabil eloszlások

A centrális határeloszlásokat önmagukkal konvolválva az eredeti határeloszlást kapjuk vissza, lineáris változócsere erejéig. A követelmény általános alakja, hogy minden m, σ párhoz található olyan m′ , σ ′ , melyre     1 x−m x − m′ 1 P (x) ∗ P = ′P . (2.54) σ σ σ σ′ √ Pl. Gauss eloszlásra m′ = m, σ ′ = 1 + σ 2 , míg a Cauchy eloszlásra m′ = m, σ ′ = 1+σ. Tájékoztatásul közöljük, hogy a kumuláns generátorok nyelvén megadható a fenti feltétel általános megoldása Ψ(z) = iaz − b|z|α (1 + ic sgn(z) fα (z)) ,

(2.55)

33

ahol 0 < α ≤ 2, b > 0 és −1 ≤ c ≤ 1, továbbá  πα  tan , 2 fα (z) =  2 log |z|, π

ha α 6= 1

(2.56)

ha α = 1

A szimmetrikus Lévy határeloszlást a c = 0 esetben kapjuk. Vegyük észre, hogy centrális határeloszlásnak ki kell elégítenie a (2.54) követelményt, de innen még nem következik, hogy (2.54) minden megoldása más eloszlások határa is egyben.

2.7.

A statisztikus modellezés elemei

Adatsorok alapján azok eloszlását szeretnénk meghatározni. Valamilyen előzetes, prior feltételezésre tehetünk, pl. sejtjük az eloszlásfüggvény típusát, s ennek paramétereit számítjuk. Az is lehetséges, hogy előfeltevéssel nem élünk, s az eloszlás momentumait/kumulánsait próbáljuk becsülni.

34

2.7.1.

Empirikus átlagok

Tegyük fel, hogy az {xi }ni=1 adatok iid véletlen számok valamely eloszlás szerint. Ennek kumulánsai ci , az első kettő szokásosan jelölve c1 = m, c2 = σ 2 . Vezessük be az egzakt 2 m, σ 2 paraméterek becslése céljából az empirikus memp átlagot és σemp varianciát n

m



memp



2 σemp

1X = xi , n i=1

(2.57)

n

σ

2

1 X (xi − memp )2 , = n − 1 i=1

(n > 1).

(2.58)

Az empirikus paramétereket azért definiáltuk ily módon, mert átlagaik az egzakt értékeket adják. Hangsúlyozzuk, hogy itt általános eloszlást engedtünk meg, azaz nem csak gaussi lehet például, de természetesen Gauss-eloszlásra is fennállnak a fenti definíciók.

2 = σ 2 . A második 2.10. Gyakorló feladat. Mutassuk meg, hogy hmemp i = m, σemp egyenlőség indokolja az empirikus szórás definiáló relációjában található n − 1 osztót. Vegyük észre, hogy a fenti empirikus mennyiségek akkor is végesek, ha bármelyikük egzakt értéke végtelen. Ebben semmiféle rejtély nincs, ismételten előállítva n darab új 35

xi értéket, az empirikus paraméter átlaga az ismétlésekre véve az egzakthoz fog tartani. Ha netán emez végtelen, akkor az empirikus paraméter empirikus átlaga is divergál nagyszámú ismétlés esetén. 2 mennyiségek szórását 2.3. Házi feladat. Határozzuk meg az empirikus memp és σemp az átlagaik körül az egzakt ci kumulánsokkal kifejezve! (15% )

2.4. Házi feladat. Írjuk fel az empirikus harmadik kumulánst, melynek átlaga éppen az egzakt c3 ! (10% ) Javasoljunk empirikus formulát a ferdeségre. Ennek átlaga az egzakt ferdeség? (5% ) Adjunk formulát az empirikus lapultságra. (15% ) Mekkora az empirikus harmadik kumuláns szórása? (15% ) 2.7.2.

Konfidencia intervallum

Az empirikus paraméterek csupán becslések. Hogyan jellemezhetjük a becslések jóságát?

36

N(z;0,1)

a/2

a/2 1−a za/2

−za/2

z

5. ábra. A sztenderd normál eloszlás 1 − a konfidenciaintervalluma. Az egyes tartományok súlyai a/2, 1 − a, a/2. Konfidencia intervallum: olyan tartomány, amelybe a jósolt paraméter adott, mondjuk 1 − a valószínűséggel esik. Például, sztenderd normál eloszlás esetén az Z −za/2 a/2 = dz N (z) ≡ M (−za/2 ) (2.59) −∞

37

transzcendens egyenlet megoldása adja az 1 − a (azaz 100(1 − a)%-hoz tartozó), átlagra centrált konfidencia intervallumát: (−za/2 , za/2 ). Elnevezés: A zp az 1 − p valószínűséghez tartozó kvantilis, azaz 1 − p = M (zp ). A p kvantilise −zp . 2.7.3.

Egyszerű példa: Gauss eloszlás paramétereinek meghatározása

Ha az iid {xi }ni=1 adatsort normál eloszlás generálta, akkor adjuk meg a konfidencia intervallumokat a fentebb bevezetett empirikus paraméterek körül. Tudjuk, hogy (minden n-re) az memp normál eloszlású m, σ 2 /n kumulánsokkal, ezért az alábbi z változó sztenderd normál eloszlású memp − m √ z= ∼ N (z; 0, 1) ≡ N (z). (2.60) σ/ n Ennek alapján empirikus konfidencia intervallumot adhatunk m-re. A Gauss eloszlású empirikus átlagra 1 − a valószínűséggel teljesül √ √ m − za/2 σ/ n ≤ memp ≤ m + za/2 σ/ n. (2.61) 38

2 Innen az σemp empirikus szórást beírva kapjuk ismert memp esetén az m-re vonatkozó becslést √ √ memp − za/2 σemp / n ≤ m ≤ memp + za/2 σemp / n. (2.62)

Felhívjuk a figyelmet arra, hogy ehhez a konfidenciaintervallumhoz csupán közelítőleg tartozik az 1 − a valószínűség. A valódi valószínűség ennél kisebb, hiszen az empirikus szórás is becslésből származott.

2.5. Házi feladat. Becsüljük meg a szórás 1 − a konfidenciaintervallumát nagy n mel2 lett! Használjuk az σemp -re vonatkozóan a centrális határeloszlás tételét. Vegyük észre, hogy a (2.61)-ben szereplő egzakt szórás helyére (2.62)-ben az empirikust írtuk. Mennyire csökken ezáltal a konfidenciaintervallumhoz tartozó valószínűség 1 − a értékhez képest? (10-10%) 2.7.4.

Hipotézis valószínűsége – Bayes elve

Okozza az A (jelenség, törvény, fizikai mennyiség, paraméter érték) a B mért adatokat. Tegyük fel P (B|A)-t ismertnek, azaz ha ismerjük az okot, akkor az adatok eloszlását ki tudjuk számítani. Most azonban a fordított helyzettel állunk szemben: ismerjük B-t, 39

ennek alapján mekkora valószínűséggel tehetjük fel mögötte az A okot? Bayes formulája P (A|B) =

P (A, B) P (B|A)P (A) =P P (B) A P (B|A)P (A)

(2.63)

matematikai trivialitás, de értelme szerint a statisztikus inferencia alaprelációja. Ha ismert a B következmény, a formula megadja az azt kiváltó lehetséges A hipotézisekhez rendelhető valószínűségeket. "Input": előzetes, prior, az adatok ismerete nélküli P (A) valószínűség. Ez az eljárás érzékeny eleme, a prior valószínűség gyakran konvenció kérdése.

40

2.6. Házi feladat. Valamely részecske tömegére a Pemp (memp ) empirikus eloszlást mérik, ahol memp a kísérleti (esetleg más paramétereken keresztül visszaszámolt) tömeg. A szokásos eljárás az, hogy a Pemp (m) eloszlást tekintik egyben a valódi m tömegre vonatkozó hipotézis valószínűségének. Lehetséges lenne, hogy itt prior valószínűségeloszlás nélkül kapunk eredményt? (10%) 2.7.5.

Példák

1. Bináris kísérlet. Kísérlet kimenetele lehet p valószínűséggel „1” és 1 − p -vel „0”, azonban nem ismerjük pt. Független kísérletek sorozatából nyert adatsor, pl. 0010111010111001100010 alapján kívánjuk p-t megbecsülni. Végezzünk n kísérletet, melyekben k alkalommal kapunk 1et: az A ok most p, a B mért adat pedig k. Adott k esetén milyen valószínűséggel állíthatjuk, hogy p volt a kísérletsorozatban az „1” bekövetkezésének valószínűsége? A k binomiális eloszlást követ   n k P (B|A) = P (k|p) = p (1 − p)n−k , k

(2.64)

41

s tegyük fel, hogy a prior P (p) ≡ 1, (0 ≤ p ≤ 1). A keresett valószínűség P (A|B) = P (p|k) = R 1 0

P (k|p) dp P (k|p)

.

(2.65)

Ez a binomiális eloszlás p-re normálva. Számítsuk ki a normálási faktort Z 1 Γ(k + 1)Γ(n − k + 1) k!(n − k)! dp pk (1 − p)n−k = B(k + 1, n − k + 1) = = (2.66) Γ(n + 2) (n + 1)! 0 (itt B neve béta-függvény), ahonnan a hipotézis valószínűsége   n k P (p|k) = (n + 1) p (1 − p)n−k . k

42

(2.67)

5

4

Szimmeria: P (p|k) = P (1 − p|n − k) Ábra: n = 10 mellett a P (p|k) a k = 0, 1, 5 esetekben.

3

y

2

1

0

0.2

0.4

0.6

0.8

1

p

Az átlag és a szórás hpi =

k+1 , n+2

∆2 p =

(k + 1)(n − k + 1) . (n + 2)2 (n + 3)

(2.68)

Vegyük észre, hogy noha nk átlaga p, az átlagos p az adatok alapján nem nk mért értéke! 1 Ennek jelentősége az, hogy homogén 0 jelsorozat, azaz k = 0 esetén hpi = n+2 > 0. Ez lehet kicsi, de nem zárhatjuk ki, hogy a p pozitív volt. Homogén 1 jelek pedig 43

megengedik az egynél kisebb p-t is, hpi =

n+1 n+2

< 1.

2.11. Gyakorló feladat. Határozzuk meg a ∆p-hez tartozó konfidencia szintet! Azaz milyen valószínűséggel esik a p az átlagtól egyszeres szórás távolságon belülre? 2. Mekkora valószínűséggel kel fel holnap reggel a nap? Tegyük fel, hogy eddig n-szer ismerten felkelt (ékírás ill. hieroglifák 5000 évesek, vagy használjuk a Föld életkorát, cca. 5 Gév). Legyen a napkelte valószínűsége p, ha ezt időben állandónak és napkeltéket egymástól független eseményeknek tekintjük, akkor az előzőeket a k = n esetre alkalmazva = (n + 1)pn , 1 1 n+1 ≈ 1 − , ∆p ≈ . hpi = n+2 n n A p = 1 közelítőleg egyszeres szórásra van az átlagtól. P (p|n)

(2.69)

2.7. Házi feladat. Tegyük fel, hogy egységnyi idő alatt k radioaktív bomlást mérünk. Milyen valószínűséggel mondhatjuk, hogy a bomlási állandó λ? (10%) 3. Hamis vagy nem hamis? Egy dobókockáról annyit tudunk, hogy vagy hamis, ezesetben minden dobásra hatost 44

mutat (ólmozott, esetleg minden oldalán hatos áll), vagy "tiszta", s ekkor 1/6 valószínűséggel mutatja bármelyik oldalát. Legyen n dobás eredménye hatos, milyen valószínűséggel állíthatjuk, hogy a kocka hamis ill. tiszta? Rövid megoldás: a hamis kockával 6n féleképpen kaphattuk a hatosokat, míg a tisztával egyféleképp. A hamis ill. tiszta esetek száma osztva az összes esettel adja P (hamis) =

6n , 6n + 1

P (tiszta) =

1 . 6n + 1

Látszólag nem használtunk prior valószínűségeket, hogyan lehetséges ez? 2.8. Házi feladat. Oldjuk meg a problémát a Bayes formula alapján!(15%)

45

(2.70)

Life Enjoy

" Life is not a problem to be solved but a reality to be experienced! "

Get in touch

Social

© Copyright 2013 - 2019 TIXPDF.COM - All rights reserved.