Spørgsmål:
Hvordan kan man bevise, at den radiale basisfunktion er en kerne?
Leo
2012-09-04 02:19:15 UTC
view on stackexchange narkive permalink

Hvordan kan man bevise, at den radiale basisfunktion $ k (x, y) = \ exp (- \ frac {|| x-y || ^ 2)} {2 \ sigma ^ 2}) $ er en kerne? For så vidt jeg forstår, skal vi bevise et af følgende for at bevise dette:

  1. For ethvert sæt vektorer $ x_1, x_2, ..., x_n $ matrix $ K (x_1, x_2, ..., x_n) $ = $ (k (x_i, x_j)) _ {n \ times n} $ er positiv semidefin.

  2. En kortlægning $ \ Phi $ kan præsenteres såsom $ k (x, y) $ = $ \ langle \ Phi (x), \ Phi (y) \ rangle $.

Er der hjælp?

Bare for at forbinde det mere åbenlyst: funktionskortet diskuteres også [i dette spørgsmål] (https://stats.stackexchange.com/questions/69759/feature-map-for-the-gaussian-kernel), især [Marc Claesenssvar] (http://stats.stackexchange.com/a/69767/9964) baseret på Taylor-serien og [mine] (http://stats.stackexchange.com/a/145439/9964), der diskuterer både RKHS ogden generelle version af $ L_2 $ indlejring givet af Douglas nedenfor.
Tre svar:
Douglas Zare
2012-09-04 04:13:36 UTC
view on stackexchange narkive permalink

Zen anvendt metode 1. Her er metode 2: Kort $ x $ til en sfærisk symmetrisk Gaussisk fordeling centreret ved $ x $ i Hilbert-rummet $ L ^ 2 $. Standardafvigelsen og en konstant faktor skal justeres for at dette fungerer nøjagtigt. For eksempel i en dimension,

$$ \ int _ {- \ infty} ^ \ infty \ frac {\ exp [- (xz) ^ 2 / (2 \ sigma ^ 2)]} {\ sqrt {2 \ pi} \ sigma} \ frac {\ exp [- (yz) ^ 2 / (2 \ sigma ^ 2)} {\ sqrt {2 \ pi} \ sigma} dz = \ frac {\ exp [- (xy) ^ 2 / (4 \ sigma ^ 2)]} {2 \ sqrt \ pi \ sigma}. $$

Så brug en standardafvigelse på $ \ sigma / \ sqrt 2 $ og skaler den Gaussiske fordeling for at få $ k (x, y) = \ langle \ Phi (x), \ Phi ( y) \ rangle $. Denne sidste omskalering opstår, fordi $ L ^ 2 $ normen for en normalfordeling ikke er $ 1 $ generelt.

@Zen, Douglas Zare: tak for dine gode svar. Hvordan skal jeg vælge det officielle svar nu?
Zen
2012-09-04 02:33:16 UTC
view on stackexchange narkive permalink

Jeg bruger metode 1. Tjek Douglas Zares svar for et bevis ved hjælp af metode 2.

Jeg vil bevise tilfældet, når $ x, y $ er reelle tal, så $ k (x, y) = \ exp (- (xy) ^ 2/2 \ sigma ^ 2) $. Den generelle sag følger mutatis mutandis fra det samme argument og er værd at gøre.

Uden tab af generalitet, antag at $ \ sigma ^ 2 = 1 $.

Skriv $ k (x, y) = h (xy) $, hvor $$ h (t) = \ exp \ left (- \ frac {t ^ 2} {2} \ right) = \ mathrm {E } \ left [e ^ {itZ} \ right] $$ er den karakteristiske funktion af en tilfældig variabel $ Z $ med $ N (0,1) $ fordeling.

For reelle tal $ x_1, \ prikker, x_n $ og $ a_1, \ prikker, a_n $, vi har $$ \ sum_ {j, k = 1} ^ n a_j \, a_k \, h (x_j-x_k) = \ sum_ {j, k = 1 } ^ n a_j \, a_k \, \ mathrm {E} \ left [e ^ {i (x_j-x_k) Z} \ right] = \ mathrm {E} \ left [\ sum_ {j, k = 1} ^ n a_j \, e ^ {i x_j Z} \, a_k \, e ^ {- i x_k Z} \ right] = \ mathrm {E} \ left [\ left | \ sum_ {j = 1} ^ n a_j \, e ^ {i x_j Z} \ right | ^ 2 \ right] \ geq 0 \,, $$ hvilket indebærer at $ k $ er en positiv semidefinit funktion, aka en kerne .

For at forstå dette resulterer i større generalitet, se Bochners sætning: http://en.wikipedia.org/wiki/Positive-definite_function

Dette er en god start i den rigtige retning med to forbehold: (a) $ h (t) $ er ikke lig med den forventede forventning (tjek tegnet i eksponenten) og (b) dette ser ud til at begrænse opmærksomheden på tilfælde hvor $ x $ og $ y $ er skalarer og ikke vektorer. Jeg har opstemt i mellemtiden, fordi redegørelsen er pæn og ren, og jeg er sikker på, at du hurtigt tilslutter disse små huller. :-)
Tks! Jeg har travlt her. :-)
Undskyld mig, jeg kan virkelig ikke se, hvordan du håndterer mutatis mutandis her.Hvis du udvikler normen, inden du går til $ h $ -formularen, har du produkter, og du kan ikke bytte produkter og summe.Og jeg kan simpelthen ikke se, hvordan man udvikler normen efter at have passeret til h-formen for at få et godt udtryk.Kan du lede mig lidt derhen?:)
Dougal
2015-05-06 08:07:39 UTC
view on stackexchange narkive permalink

Jeg tilføjer en tredje metode, bare for variation: opbygning af kernen fra en række generelle trin, der er kendt for at oprette pd-kerner. Lad $ \ mathcal X $ angive domænet for kernerne nedenfor og $ \ varphi $ funktionskortene.

  • Skaleringer: Hvis $ \ kappa $ er en pd-kerne, så er $ \ gamma \ kappa $ for enhver konstant $ \ gamma > 0 $.

    Bevis: hvis $ \ varphi $ er funktionskortet for $ \ kappa $, $ \ sqrt \ gamma \ varphi $ er et gyldigt funktionskort for $ \ gamma \ kappa $.

  • Summer: Hvis $ \ kappa_1 $ og $ \ kappa_2 $ er pd-kerner, det samme er $ \ kappa_1 + \ kappa_2 $.

    Bevis: Sammenkæd funktionen, der kort $ \ varphi_1 $ og $ \ varphi_2 $, for at få $ x \ mapsto \ begin {bmatrix} \ varphi_1 (x) \\ \ varphi_2 (x) \ end {bmatrix} $.

  • Grænser: Hvis $ \ kappa_1, \ kappa_2, \ dots $ er pd-kerner , og $ \ kappa (x, y): = \ lim_ {n \ til \ infty} \ kappa_n (x, y) $ findes for alle $ x, y $, så er $ \ kappa $ pd.

    Bevis: For hver $ m, n \ ge 1 $ og hver $ \ {(x_i, c_i) \} _ {i = 1} ^ m \ subseteq \ mathcal {X} \ times \ mathbb R $ har vi den $ \ sum_ {i = 1} ^ m c_i \ kappa_n (x_i, x_j) c_j \ ge 0 $. At tage grænsen som $ n \ to \ infty $ giver den samme egenskab for $ \ kappa $.

  • Produkter: Hvis $ \ kappa_1 $ og $ \ kappa_2 $ er pd-kerner, så er $ g (x, y) = \ kappa_1 (x, y) \, \ kappa_2 (x, y) $.

    Bevis: Det følger straks fra Schur-produktteorem, men Schölkopf og Smola (2002) giver følgende pæne, elementære bevis.Lad $$ (V_1, \ dots, V_m) \ sim \ mathcal {N} \ left (0, \ venstre [\ kappa_1 (x_i, x_j) \ højre] _ {ij} \ højre) \\ (W_1, \ prikker, W_m) \ sim \ mathcal {N} \ venstre (0, \ venstre [\ kappa_2 (x_i, x_j ) \ right] _ {ij} \ right) $$ være uafhængig. Dermed $$ \ mathrm {Cov} (V_i W_i, V_j W_j) = \ mathrm {Cov} (V_i, V_j) \, \ mathrm {Cov} ( W_i, W_j) = \ kappa_1 (x_i, x_j) \ kappa_2 (x_i, x_j). $$ Kovariansmatricer skal være psd, så i betragtning af kovariansmatricen på $ (V_1 W_1, \ dots, V_n W_n) $ beviser det.

  • Beføjelser: Hvis $ \ kappa $ er en pd-kerne, er det også $ \ kappa ^ n (x, y): = \ kappa (x, y) ^ n $ for ethvert positivt heltal $ n $.

    Bevis: øjeblikkelig fra egenskaben "produkter".

  • Eksponenter: Hvis $ \ kappa $ er en pd-kerne, er det også $ e ^ \ kappa ( x, y): = \ exp (\ kappa (x, y)) $.

    Bevis: Vi har $ e ^ \ kappa (x, y) = \ lim_ {N \ til \ infty} \ sum_ {n = 0} ^ N \ frac {1} {n!} \ kappa (x, y) ^ n $; brug egenskaberne "powers", "scalings", "sums" og "limits."

  • Funktioner: Hvis $ \ kappa $ er en pd-kerne og $ f: \ mathcal X \ til \ mathbb R $, $ g (x, y): = f (x) \ kappa (x, y) f (y) $ er også.

    Bevis: Brug funktionskortet $ x \ mapsto f (x) \ varphi (x) $.

Bemærk nu, at \ begin {align *} k ( x, y) & = \ exp \ left (- \ tfrac {1} {2 \ sigma ^ 2} \ lVert x - y \ rVert ^ 2 \ right) \\ & = \ exp \ left (- \ tfrac {1 } {2 \ sigma ^ 2} \ lVert x \ rVert ^ 2 \ right) \ exp \ left (\ tfrac {1} {\ sigma ^ 2} x ^ T y \ right) \ exp \ left (- \ tfrac { 1} {2 \ sigma ^ 2} \ lVert y \ rVert ^ 2 \ right). \ End {align *} Start med den lineære kerne $ \ kappa (x, y) = x ^ T y $, anvend "skaleringer" med $ \ frac {1} {\ sigma ^ 2} $, anvend "eksponenter", og anvend "funktioner" med $ x \ mapsto \ exp \ left (- \ tfrac {1} {2 \ sigma ^ 2} \ lVert x \ rVert ^ 2 \ right) $.



Denne spørgsmål og svar blev automatisk oversat fra det engelske sprog.Det originale indhold er tilgængeligt på stackexchange, som vi takker for den cc by-sa 3.0-licens, den distribueres under.
Loading...