Top 10 de los artículos

YouTube
Gmail
Goole
GayRomeo
Números chinos
Números romanos
Orkut
Costco
Sistema porta hepático
El mundo Factbook

News:

Proceso de decisión de Markov

Procesos de decisión de Markov (MDPs) proporcione un marco matemático para modelar la toma de decisión en situaciones donde están en parte al azar los resultados y en parte bajo control del responsable. MDPs es útil para estudiar una amplia gama de problemas de la optimización solucionado vía programación dinámica y el aprender del refuerzo. MDPs era conocido por lo menos desde los años 50 (cf. Bellman 1957). Mucha investigación en el área era frezado debido a Ronald A. Howard'libro de s, Procesos dinámicos de la programación y de Markov, en 1960. Se utilizan hoy en una variedad de áreas, incluyendo la robótica, de control automatizado, economía y en la fabricación.

Un proceso de decisión de Markov es más exacto a tiempo discreto estocástico control proceso caracterizado por un sistema de estados; en cada estado hay varias acciones de las cuales el responsable debe elegir. Para un estado s y una acción a, una función de la transición del estado Pa(s) determina las probabilidades de la transición al estado siguiente. El responsable gana una recompensa por cada transición del estado. Las transiciones del estado de un MDP poseen Característica de Markov: dado el estado del MDP en el tiempo t se sabe, las probabilidades de la transición al estado en el tiempo t + 1 es la independiente de todos los estados anteriores o las acciones.

Los procesos de decisión de Markov son una extensión de Cadenas de Markov; la diferencia es la adición de las acciones (que permiten la opción) y de las recompensas (que dan la motivación). Si hubiera solamente una acción, o si la acción a tomar fuera fija para cada estado, un proceso de decisión de Markov reduciría a a Cadena de Markov.

Contenido

Definición

Un proceso de decisión de Markov es un tuple , donde

  • S es el espacio del estado,
  • A es el espacio de la acción,
  • es la probabilidad que acción a en estado s en el tiempo t conducirá al estado s' en el tiempo t + 1,
  • Ra(s,s') es la recompensa inmediata (o esperado recompensa inmediata) recibida después de la transición al estado s' de estado s con probabilidad de la transición Pa(s,s').

La meta es maximizar una cierta función acumulativa de las recompensas, típicamente la suma descontada sobre un horizonte potencialmente infinito:

donde es tipo de descuento y satisface . Está típicamente cerca de 1.

Solución

La solución a un proceso de decisión de Markov se puede expresar como a política π, una función de estados a las acciones. Observe que una vez que un proceso de decisión de Markov se combine con una política de esta manera, esto fija la acción para cada estado y la combinación que resulta se comporta como a Cadena de Markov.

La familia estándar de los algoritmos para calcular la política requiere el almacenaje para dos órdenes puestos en un índice por el estado: valor V, que contiene valores verdaderos, y política π cuál contiene acciones. En el final del algoritmo, π contendrá la solución y V(s0) contendrá la suma descontada de las recompensas que se ganarán (en promedio) siguiendo esa solución.

El algoritmo entonces tiene las dos clases siguientes de pasos, que se repiten en una cierta orden para todos los estados hasta que ocurren ningunos otros cambios.

Su orden depende de la variante del algoritmo; uno puede también hacerlos para todos los estados inmediatamente o el estado por el estado, y más a menudo a algunos estados que otros. Mientras no se excluya ningún estado permanentemente de cualquiera de los pasos, el algoritmo llegará eventual la solución correcta.

Variantes notables

Iteración del valor

En la iteración del valor (Bellman 1957), que también se llama inducción posterior, π el arsenal no se utiliza; en lugar, el valor de π (s) se calcula siempre que sea necesario.

Substituir el cálculo de π (s) en el cálculo de V(s) da el paso combinado:

Iteración de la política

En la iteración de la política (Howard 1960), el paso uno se realiza una vez, y entonces el paso dos se repite hasta que converge. Entonces el paso uno se realiza otra vez una vez y así sucesivamente.

En vez de repetir el paso dos a la convergencia, puede ser formulado y ser solucionado como sistema de ecuaciones lineares.

Esta variante tiene la ventaja que hay una condición que para definida: cuando el arsenal π no cambia en el curso de aplicar el paso 1 a todos los estados, el algoritmo se termina.

Iteración modificada de la política

En la iteración modificada de la política (Puterman y Shin 1978), el paso uno se realiza una vez, y entonces el paso dos se repite varias veces. Entonces el paso uno se realiza otra vez una vez y así sucesivamente.

El barrer dado la prioridad

En esta variante, los pasos se aplican preferencial a los estados que son de cierta manera importantes - si está basado en el algoritmo (había cambios grandes adentro V o π alrededor de esos estados recientemente) o basado en uso (esos estados están cerca del estado que comienza, o de otra manera de interés a la persona o al programa usando el algoritmo).

Extensiones

Observancia parcial

La solución arriba asume que el estado s se sabe cuando la acción debe ser tomada; si no π (s) no puede ser calculado. Cuando esta asunción no es verdad, el problema se llama un proceso de decisión de Markov o un POMDP parcialmente observable.

El aprender

Si las probabilidades son desconocidas, el problema es uno de el aprender del refuerzo.

Que este propósito es útil defina otra función, que corresponde a tomar la acción a y entonces continuando óptimo (o según cualquier política una tiene actualmente):

Mientras que esta función es también desconocido, la experiencia durante aprender se basa encendido (s,a) pares (junto con el resultado s'); es decir, “estaba en estado s e intenté hacer a y s' sucedido) “. Así, uno tiene un arsenal Q y experiencia de las aplicaciones para ponerlo al día directamente. Se conoce esto como el Q-aprender.

Extensiones de menor importancia

Estas extensiones son de menor importancia en que complican la notación, pero no diferencian ningún verdadero al problema o a su solución.

  • La recompensa puede ser una función de la acción así como el estado, R(s,a).
  • La recompensa puede ser una función del estado que resulta así como la acción y el estado, R(s,a,s').
  • El espacio de la acción puede ser diferente en cada estado, de modo que sea As más bien que A.

Notaciones alternativas

La terminología y la notación para MDPs no se colocan enteramente; hay dos corrientes principales - una acción que usa, recompensa, valor y γ, mientras que el otro utiliza control, coste-a-va el coste, y α. Además, la notación para la probabilidad de la transición varía.

en este artículo alternativa comentario
acción a control u
recompensa R coste g g es la negativa de R
valor V coste-a-vaya J J es la negativa de V
política π política μ
factor que descuenta factor que descuenta α
probabilidad de la transición Pa(s,s') probabilidad de la transición pss'(a)

Además, la probabilidad de la transición se escribe a veces Pr(s,a,s'), Pr(s' | s,a) o, raramente, ps's(a)

Referencias

  • R. Bellman. Un proceso de decisión Markovian. Diario de las matemáticas y de los mecánicos 6, 1957.
  • R. E. Bellman. Programación dinámica. Prensa de la universidad de Princeton, Princeton, NJ, 1957. Edición del libro en rústica de Dover (2003), ISBN 0486428095.
  • Ronald A. Howard Procesos dinámicos de la programación y de Markov, el M.I.T. Presione, 1960.
  • M. L. Puterman. Procesos de decisión de Markov. Wiley, 1994.
  • H.C. Tijms. Un primer curso en modelos estocásticos. Wiley, 2003.
  • Sutton, R.S. En la significación de los procesos de decisión de Markov . En el W. Gerstner, A. Germond, M. Hasler, y J. - D. Redes de los nervios artificiales de Nicoud (Eds.) -- ICANN'97, pp. 273-282. Springer.
  • Sutton, R. S. y Barto A. G. El aprender del refuerzo: Una introducción. La prensa del MIT, Cambridge, MA, 1998.
  • S. P. Meyn, 2007. Controle las técnicas para las redes complejas, Prensa de la universidad de Cambridge, 2007. ISBN-13: 9780521884419. El apéndice contiene abreviado Meyn y Tweedie.

Vea también

Acoplamientos externos

The original article is from Wikipedia. To view the original article please click here.
Creative Commons Licence