Top 10 Articles

Zoophilia
Liste de prières et de bénédictions juives
Pastèque
Gmail
Saola
Odnoklassniki.ru
Xeroderma pigmentosum
La maladie de Minamata
Orkut
Liste de missions de maintien de la paix des Nations Unies

News:

Divergence de Kullback-Leibler

Dans théorie des probabilités et théorie de l'information, Divergence de Kullback-Leibler[1][2][3] (aussi divergence de l'information, gain de l'information, ou entropie relative) est a non commutatif mesure de la différence entre deux distributions P et Q. de probabilité. Le kilolitre mesure la différence prévue dans le nombre de peu exigé pour coder des échantillons provenant de P en utilisant un code basé sur P, et en utilisant un code basé sur le Q. Typiquement P représente la distribution « vraie » des données, des observations, ou d'une distribution théorique calculée précise. La mesure Q représente typiquement une théorie, un modèle, une description, ou une approximation de P.

C'est un cas spécial d'une plus large classe des divergences appelées f- divergences. Bien qu'il soit intuited souvent comme a distance métrique, la divergence de kilolitre est pas un vrai métrique puisqu'il n'est pas symétrique (par conséquent « divergence » plutôt que « distance »).

Table des matières

Définition

Pour des distributions de probabilité P et Q d'a variable aléatoire discrète la divergence de kilolitre de Q de P est défini pour être

Pour des distributions P et Q d'a variable aléatoire continue les additions mènent aux intégrales, de sorte que

là où p et q dénotez les densités de P et Q.

Généralisant les deux exemples ci-dessus, si dP = pdμ et dQ = qdμ sont la probabilité mesures au-dessus d'un ensemble X, absolument continu en ce qui concerne une mesure μ puis la divergence de Kullback-Leibler de P à Q est défini As

si l'expression du côté droit existe. Si P est absolument continu en ce qui concerne Q, (qui est nécessaire si est être fini) alors , est Dérivé de Radon-Nikodym de P en ce qui concerne Q et l'expression devient

,

ce que nous identifions comme entropie de P à Q. relatif.

De même si Q est absolument continu en ce qui concerne P puis

Dans l'un ou l'autre cas, nous voyons que la divergence de Kullback Leibler ne dépend pas de la mesure auxiliaire μ

Les logarithmes dans ces formules sont pris à la base 2 si l'information est mesurée dans les unités de peu, ou à la base e si l'information est mesurée dedans nats. La plupart des formules impliquant la divergence de kilolitre se tiennent indépendamment de la base de notation.

Motivation, propriétés et terminologie

Dans la théorie de l'information, Théorème de Papier d'emballage-McMillan établit que n'importe quel code directly-decodable pour coder un message pour identifier une valeur Xi hors d'un ensemble de possibilités X peut être vu en tant que représentation d'une distribution implicite de probabilité q (xi) = 2-li plus de X, où li est la longueur du code pour Xi dans le peu. Par conséquent, le kilolitre de divergence peut être interprété comme message-longueur supplémentaire prévue par informations qui doivent être communiquées si un code qui est optimal pour une distribution (fausse) donnée Q est employé, comparé à employer un code basé sur la distribution vraie P.

Il peut voir de la définition de la divergence de Kullback-Leibler cela

là où H(P,Q) s'appelle entropie en travers de P et Q, et H(P) est entropie de P.

La divergence de Kullback-Leibler est toujours non négative,

un résultat connu sous le nom de L'inégalité de Gibbs, avec DKilolitre(P||Q) zéro si et seulement si P = Q. L'entropie H (P) place ainsi une valeur minimum pour la croix-entropie H (P, Q), le nombre prévu de peu a exigé quand en utilisant un code basé dessus Q plutôt que P; et la divergence de kilolitre représente donc le nombre prévu de peu supplémentaire qui doit être transmis pour identifier une valeur X tiré de X, si un code est correspondance utilisée à la distribution de probabilité Q, plutôt que la distribution « vraie » P.

À l'origine présenté près Solomon Kullback et Richard Leibler dans 1951 en tant que divergence dirigée entre deux distributions, ce n'est pas pareil qu'a divergence dans calcul. On pourrait être tenté pour l'appeler « distance métrique« sur l'espace des distributions de probabilité, mais ceci ne soyez pas tout correcte que la divergence de Kullback-Leibler n'est pas symétrique,

D'ailleurs, DKilolitre(P||Q) ne satisfait pas inégalité de triangle.

Suivre Renyi (1961), la limite s'appelle parfois également gain de l'information au sujet de X réalisé si P peut être employé au lieu de Q. Il s'appelle également entropie relative, pour l'usage Q au lieu de P.

La divergence de Kullback-Leibler demeure bien définie pour des distributions continues, et en outre est invariable sous des transformations de paramètre. Il peut donc voir comme par certains côtés quantité plus fondamentale que quelques autres propriétés dans la théorie de l'information (comme l'individu-information ou Entropie de Shannon), qui peut devenir non défini ou négatif pour des probabilités non-discrètes.

Relation à d'autres quantités de théorie de l'information

Plusieurs des autres quantités de théorie de l'information peuvent être interprétées comme applications de la divergence de kilolitre aux cas spécifiques.

l'individu-information,

est la divergence de kilolitre de la distribution de probabilité P (I) d'a Delta de Kronecker représentant la certitude cela i=m - c.-à-d. le nombre de peu supplémentaire qui doit être transmis pour identifier i si seulement la distribution de probabilité P (I) est disponible au récepteur, pas le fait ce i=m.

l'information réciproque,

est la divergence de kilolitre du produit P (X) P (Y) des deux probabilité marginale distributions de la distribution commune de probabilité P (X, Y) - c.-à-d. le nombre prévu de peu supplémentaire qui doit être transmis pour identifier X et Y s'ils sont codés en utilisant seulement leurs distributions marginales au lieu de la distribution commune. D'une manière equivalente, si la probabilité commune P (X, Y) est connu, c'est le nombre prévu de peu supplémentaire qui doit en moyenne être envoyé pour identifier Y si la valeur de X n'est pas déjà connu au récepteur.

Entropie de Shannon,

est le nombre de peu qui devrait être transmis pour identifier X de N possibilités également probables, moins la divergence de kilolitre de la distribution uniforme PU(x) de la distribution vraie P (X) - c.-à-d. moins le nombre prévu de peu sauvé, aurait dû être envoyée si dont la valeur X ont été codés selon la distribution uniforme PU(x) plutôt que la distribution vraie P (X).

entropie conditionnelle,

est le nombre de peu qui devrait être transmis pour identifier X de N possibilités également probables, moins la divergence de kilolitre de la distribution de produit PU(X) P (Y) de la véritable distribution commune P (X, Y) - c.-à-d. moins le nombre prévu de peu a économisé aurait dû être envoyée si dont la valeur X ont été codés selon la distribution uniforme PU(x) plutôt que la distribution conditionnelle P (X|Y) de X donné Y.

entropie en travers entre deux distributions de probabilité mesure le nombre moyen de peu nécessaire identifier un événement d'un ensemble de possibilités, si un code est employé a basé sur une distribution donnée de probabilité q, plutôt que la distribution « vraie » p. L'entropie en travers pour deux distributions p et q au-dessus de la même chose l'espace de probabilité est ainsi défini comme suit :

,

Kilolitre de divergence et mise à jour bayésienne

Dans Statistiques bayésiennes la divergence de kilolitre peut être employée comme mesure du gain de l'information en se déplaçant d'a distribution antérieure à a distribution postérieure. Si un certain nouveau fait Y=y est découvert, il peut être employé pour mettre à jour la distribution de probabilité pour X de p(X|I) à une nouvelle distribution postérieure de probabilité p(X|y) en utilisant Le théorème de Bayes:

Cette distribution a une nouvelle entropie, H (p (x|y)) = -∑ p(X|y) notation p(X|y), qui peut être moins qu'ou plus grand que l'entropie originale H (p (x|I)). Cependant, à partir du point de vue de la nouvelle distribution de probabilité on peut estimer cela pour avoir employé le code original basé dessus p(X|I) au lieu d'un nouveau code basé dessus p(X|y) aurait ajouté un nombre prévu de peu

à la longueur de message. Ceci représente donc la quantité de l'information utile, ou de gain de l'information, environ X, cela que nous pouvons estimer a été appris en découvrant Y=y.

Si un nouveau morceau de données, Y2=y2, entre plus tard, la distribution de probabilité pour X peut être mis à jour plus loin, pour donner une nouvelle meilleure conjecture p(X|y1,y2). Si on réexamine le gain de l'information pour l'usage p(X|y1) plutôt que p(X|I), il s'avère qu'il peut être plus grand ou moins que précédemment estimé :

peut être < = ou > que

et ainsi le gain combiné de l'information pas obéissez l'inégalité de triangle :

peut être < = ou > que

Chacun des peut indiquer est allumé celui moyenne, faisant la moyenne en utilisant p(y2|y1,X), les deux côtés feront la moyenne dehors.

Conception expérimentale bayésienne

Un but commun dedans Conception expérimentale bayésienne est maximiser la divergence prévue de kilolitre entre l'antérieur et le postérieur. Quand des postérieurs sont rapprochés pour être des distributions gaussiennes, une conception maximisant la divergence prévue de kilolitre s'appelle Bayes d-optimal.

L'information de discrimination

La divergence de Kullback-Leibler DKilolitre( p(X|H1) || p(X|H0)) peut également être interprété en tant que prévu l'information de discrimination pour H1 plus de H0: l'information moyenne par échantillon pour distinguer en faveur d'une hypothèse H1 contre une hypothèse H0, quand hypothèse H1 est vrai. Un autre nom pour cette quantité, donné à elle près I.J. Bon, est prévu poids d'évidence pour H1 plus de H0 être prévu de chaque échantillon.

Le poids prévu d'évidence pour H1 plus de H0 est pas les mêmes que le gain de l'information prévu par échantillon au sujet de la distribution de probabilité p(H) des hypothèses,

IG = DKilolitre( p(H|X) || p(H|I)) DKilolitre( p(X|H1) || p(X|H0) ) .

L'une ou l'autre des deux quantités peut être employée comme a fonction de service dans la conception expérimentale bayésienne, pour choisir une prochaine question optimale pour étudier : mais ils mèneront en général aux stratégies expérimentales plutôt différentes.

Sur l'échelle d'entropie de gain de l'information il y a différence très petite entre la certitude proche et la certitude absolue -- le codage selon une certitude proche exige à peine plus de peu que le codage selon une certitude absolue. D'une part, sur logit la balance implicite en poids de l'évidence, la différence entre les deux est énorme - infini peut-être ; ceci pourrait refléter la différence entre être presque sûr (à un niveau probabiliste) qui par exemple Hypothèse de Riemann est correct, comparé à être certain qu'il soit correct parce qu'on a une preuve mathématique. Ces deux balances différentes de fonction de perte pour l'incertitude soyez tous les deux utile, selon à quel point chacun reflète les circonstances particulières du problème en question.

Principe d'information minimum de discrimination

L'idée de la divergence de Kullback-Leibler comme l'information de discrimination a mené Kullback à proposer le principe de L'information minimum de discrimination (MDI) : nouveaux faits donnés, une nouvelle distribution f devrait être choisi qui est en tant que dur de distinguer de la distribution originale f0 comme possible ; de sorte que les nouvelles données produisent en tant que petit un gain de l'information DKilolitre( f || f0 ) comme possible.

Par exemple, si on avait une distribution antérieure p(X,a) plus de X et a, et plus tard appris la distribution vraie de a était u(a), la divergence de Kullback-Leibler entre la nouvelle distribution commune pour X et a, q(X|a) u(a), et la distribution antérieure plus tôt soyez :

c.-à-d. la somme de la divergence de kilolitre de p(a) la distribution antérieure pour a de la distribution mise à jour u(a), plus la valeur prévue (employant la distribution de probabilité u(a)) de la divergence de kilolitre de la distribution conditionnelle antérieure p(X|a) de la nouvelle distribution conditionnelle q(X|a). Ceci est réduit au minimum si q(X|a) = p(X|a) au-dessus de l'appui de totalité de u(a); et nous notons que ce résultat incorpore le théorème de Bayes, si la nouvelle distribution u(a) est en fait une fonction de δ représentant la certitude cela a a une valeur particulière.

MDI peut être vu comme prolongation de Laplace's Principe de raison insuffisante, et Principe d'entropie maximum de E.T. Jaynes. En particulier, c'est la prolongation normale du principe de l'entropie maximum de discret aux distributions continues, pour lesquelles l'entropie de Shannon cesse d'être si d'utile (voyez entropie différentielle), mais la divergence de kilolitre continue à être juste comme approprié.

Dans la littérature de technologie, MDI s'appelle parfois Principe de Croix-Entropie minimum (ECM) ou Minxent pour le short. Ce n'est pas entièrement utile. Réduire au minimum la divergence de kilolitre de m de p en ce qui concerne m est équivalent à réduire au minimum la croix-entropie de p et m, depuis

ce qui est approprié si on essaye de choisir une moindre approximation « atteinte au cerveau » à p. Cependant, c'est juste comme souvent pas le charger un essaye de réaliser. Au lieu de cela, juste comme souvent lui est m c'est une certaine mesure antérieure fixe de référence, et p celui-là essaye d'optimiser en réduisant au minimum DKilolitre(p||m) sujet à une certaine contrainte. Ceci a mené à une certaine ambiguïté dans la littérature, avec quelques auteurs essayant de résoudre la contradiction en redéfinissant la croix-entropie pour être DKilolitre(p||m), plutôt que H(p,m).

Rapport avec le travail disponible

Surprisals[4] ajoutez-vous où les probabilités multiplient. Le surprisal pour un événement de la probabilité p est défini comme s≡kln[1/p]. Si k est {1.1/ln2,1.38×10-23} alors le surprisal est dedans {les nats, le peu, ou le J/K} de sorte que, par exemple, il y ait peu de N de surprisal pour débarquer tout « se soit dirigé » sur un jet en l'air des pièces de monnaie de N.

Meilleur-devinez les états (par exemple. pour des atomes dans un gaz) sont impliqués par le maximum moyen-surprisal S (entropie) pour un ensemble donné de paramètres de commande (comme pression P ou volume V). Ceci contraint maximisation d'entropie, tous les deux classiquement[5] et quantum mécaniquement[6], réduit au minimum Gibbs disponibilité dans des unités d'entropie[7] A≡-klnZ où Z est une multiplicité contrainte ou fonction de cloison.

Quand la température T est fixe, de la libre-énergie (T chronomètre A) est également réduite au minimum. Ainsi si T, V et nombre des molécules N sont constants, Helmholtz libèrent l'énergie F≡U-TS (où U est énergie) est réduit au minimum pendant qu'un système « équilibre ». Si T et P sont la constante tenue (parole pendant les processus dans votre corps), Gibbs libèrent l'énergie G≡U+PV-TS est réduit au minimum à la place. Le changement de l'énergie libre dans ces conditions est une mesure de disponible travail cela pourrait être fait dans le processus. Travail ainsi disponible pour un gaz idéal à la température constante To et pression Po est W = ΔG = NkToΘ [V/vo] là où Vo = NkTo/Po et Θ [X]≡x-1-lnx≥0 (voyez également Inégalité de Gibbs).

Plus généralement[8] travail disponible relativement à un certain ambiant est obtenu en multipliant la température ambiante To par Kilolitre-divergence ou filet-surprisal ΔI≥0, défini comme valeur moyenne de kln[p/po] où po est la probabilité d'un état donné aux conditions ambiantes. Par exemple, le travail disponible en équilibrant un gaz idéal monatomic aux valeurs ambiantes de Vo et To est ainsi W=ToΔI, où Kilolitre-divergence ΔI=Nk (Θ [V/vo]+32Θ [T/To]). Les découpes résultantes de la Kilolitre-divergence constante, à la droite pour une taupe de l'argon à la température et à la pression standard, par exemple limites mises sur la conversion de chaud en froid comme dans la climatisation flamme-actionnée ou dans unpowered le dispositif pour convertir à l'eau bouillante en glace-eau discutée ici[9]. Ainsi la Kilolitre-divergence mesure la disponibilité thermo-dynamique dans le peu.

Théorie de l'information de Quantum

Pour matrices de densité P et Q sur un espace de Hilbert la divergence de kilolitre (ou entropie relative comme elle s'appelle souvent dans ce cas-ci) de P à Q est défini pour être

Dans la science de l'information de quantum il peut également être employé comme mesure de enchevêtrement dans un état.

Rapport entre les modèles et la réalité

Juste comme la Kilolitre-divergence de « ambiant de la disponibilité thermo-dynamique » de mesures réelles, la Kilolitre-divergence du « modèle de la réalité » est également utile même si les seuls indices que nous avons au sujet de la réalité sont quelques mesures expérimentales. Dans l'ancien cas la Kilolitre-divergence décrit distance à l'équilibre ou (une fois multiplié par la température ambiante) la quantité de travail disponible, alors que dans le dernier cas il vous indique au sujet des surprises que la réalité a vers le haut de sa douille ou, en d'autres termes, combien le modèle a apprendre encore.

Bien que cet outil pour évaluer modèle contre les systèmes qui sont accessibles expérimentalement puisse être appliqué dans n'importe quel domaine, son application aux modèles en écologie par l'intermédiaire de Critère de l'information d'Akaike sont en particulier bons décrits en journal[10] et un livre[11] par Burnham et Anderson. En un mot la Kilolitre-divergence d'un modèle de réalité peut être estimée, en dedans à une limite additive constante, par une fonction (comme les places additionnées) des déviations observées entre les données et les prévisions du modèle. Des évaluations d'une telle divergence pour les modèles qui partagent la même limite additive peuvent alternativement être employées pour choisir entre les modèles.

Divergence de Symmetrised

Kullback et Leibler eux-mêmes ont défini réellement la divergence comme :

ce qui est symétrique et non négatif. Cette quantité parfois a été employée pour la sélection de mode dedans classification problèmes, où P et Q sont les pdfs conditionnels d'un dispositif au-dessous de deux classes différentes.

Une alternative est donnée par l'intermédiaire de la divergence de λ,

ce qui peut être interprété comme gain prévu de l'information environ X de découvrir quelle distribution de probabilité X est tiré de, P ou Q, s'ils ont actuellement le λ de probabilités et (1 λ de −) respectivement.

Le λ de valeur = 0.5 donne Divergence de Jensen-Shannon, défini près

là où M est la moyenne des deux distributions,

DJS le bidon également soit interprété comme capacité d'un canal bruyant de l'information avec deux entrées donnant les distributions de rendement p et q. La divergence de Jensen-Shannon est à angle droit d'un métrique qui est équivalent au Hellinger métrique, et la divergence de Jensen-Shannon est également égale à un demi- le prétendu Divergence de Jeffreys (Rubner et autres., 2000 ; Jeffreys 1946).

Rapport avec la distance de Hellinger

Si P et Q sont deux mesures de probabilité, alors carré Distance de Hellinger est la quantité indiquée près

.

Noter cela ou , nous voyons cela

.

Prenant des espérances en ce qui concerne Q, nous obtenons

D'autres mesures de probabilité-distance

D'autres mesures de la distance de probabilité sont intersection d'histogramme, statistique de Chi-place, distance quadratique de forme, distance de match, Distance de Kolmogorov-Smirnov, et la distance du moteur de la terre (Rubner et autres. 2000).

Voyez également

Références

  • Fuglede B, et Topsøe F., 2004, divergence de Jensen-Shannon et enfoncer de l'espace de Hilbert, Théorie interne de l'information d'IEEE Sym.
  • Kullback, S., et Leibler, R. A., 1951, sur l'information et la suffisance, Annales des statistiques mathématiques 22: 79-86.
  • Rubner, Y., Tomasi, C., et Guibas, L. J., 2000. La distance du moteur de la terre en tant que métrique pour la récupération d'image. Journal international de la vision d'ordinateur, 40(2): 99-121.
  • Kullback, S. Théorie et statistiques de l'information. Réimpression de Douvres.

Apostilles

  1. ^ S. Kullback et R. A. Leibler (1951) sur l'information et la suffisance, Annales des statistiques mathématiques 22:79-86.
  2. ^ S. Kullback (1959) Théorie et statistiques de l'information (John Wiley et fils, NY).
  3. ^ S. Kullback (1987) la distance de Kullback-Leibler, Le statisticien américain 41:340-341.
  4. ^ Myron Tribus (1961) Thermodynamique et thermostatics (D. Van Nostrand, New York)
  5. ^ E. T. Jaynes (1957) Théorie de l'information et mécanique statistique, Revue physique 106:620
  6. ^ E. T. Jaynes (1957) Théorie de l'information et mécanique statistique II, Revue physique 108:171
  7. ^ J.W. Méthode de Gibbs (1873) A de représentation géométrique des propriétés thermo-dynamiques des substances au moyen de surfaces, réimprimées dedans Les travaux rassemblés du J. W. Gibbs, thermodynamique du volume I, E-D. W. R. Longley et R. G. Van Name (New York : Longmans, Green, 1931) pages 52 d'apostille.
  8. ^ M. Tribus et E. C. 1971) énergies et informations de McIrvine (, Américain scientifique 224:179-186.
  9. ^ P. Fraundorf (2007) Racines thermiques de complexité corrélation-basée, Complexité 13:3, 18-26
  10. ^ Kenneth P. Burnham et David R. Anderson (2001) L'information de Kullback-Leibler comme base pour l'inférence forte dans des études écologiques, Recherche de faune 28:111-119.
  11. ^ Burnham, K. P. et Anderson D. R. (2002) Choix et inférence modèles de Multimodel : Une approche Information-Théorétique pratique, deuxième édition (la Science de Springer, New York) ISBN 978-0-387-95364-9.
The original article is from Wikipedia. To view the original article please click here.
Creative Commons Licence