Top 10 de los artículosYouTubeGmail Goole GayRomeo Números chinos Números romanos Orkut Costco Sistema porta hepático El mundo Factbook |
News: |
Procesos de decisión de Markov (MDPs) proporcione un marco matemático para modelar la toma de decisión en situaciones donde están en parte al azar los resultados y en parte bajo control del responsable. MDPs es útil para estudiar una amplia gama de problemas de la optimización solucionado vía programación dinámica y el aprender del refuerzo. MDPs era conocido por lo menos desde los años 50 (cf. Bellman 1957). Mucha investigación en el área era frezado debido a Ronald A. Howard'libro de s, Procesos dinámicos de la programación y de Markov, en 1960. Se utilizan hoy en una variedad de áreas, incluyendo la robótica, de control automatizado, economía y en la fabricación.
Un proceso de decisión de Markov es más exacto a tiempo discreto estocástico control proceso caracterizado por un sistema de estados; en cada estado hay varias acciones de las cuales el responsable debe elegir. Para un estado s y una acción a, una función de la transición del estado Pa(s) determina las probabilidades de la transición al estado siguiente. El responsable gana una recompensa por cada transición del estado. Las transiciones del estado de un MDP poseen Característica de Markov: dado el estado del MDP en el tiempo t se sabe, las probabilidades de la transición al estado en el tiempo t + 1 es la independiente de todos los estados anteriores o las acciones.
Los procesos de decisión de Markov son una extensión de Cadenas de Markov; la diferencia es la adición de las acciones (que permiten la opción) y de las recompensas (que dan la motivación). Si hubiera solamente una acción, o si la acción a tomar fuera fija para cada estado, un proceso de decisión de Markov reduciría a a Cadena de Markov.
Contenido |
Un proceso de decisión de Markov es un tuple , donde
La meta es maximizar una cierta función acumulativa de las recompensas, típicamente la suma descontada sobre un horizonte potencialmente infinito:
donde es tipo de descuento y satisface . Está típicamente cerca de 1.
La solución a un proceso de decisión de Markov se puede expresar como a política π, una función de estados a las acciones. Observe que una vez que un proceso de decisión de Markov se combine con una política de esta manera, esto fija la acción para cada estado y la combinación que resulta se comporta como a Cadena de Markov.
La familia estándar de los algoritmos para calcular la política requiere el almacenaje para dos órdenes puestos en un índice por el estado: valor V, que contiene valores verdaderos, y política π cuál contiene acciones. En el final del algoritmo, π contendrá la solución y V(s0) contendrá la suma descontada de las recompensas que se ganarán (en promedio) siguiendo esa solución.
El algoritmo entonces tiene las dos clases siguientes de pasos, que se repiten en una cierta orden para todos los estados hasta que ocurren ningunos otros cambios.
Su orden depende de la variante del algoritmo; uno puede también hacerlos para todos los estados inmediatamente o el estado por el estado, y más a menudo a algunos estados que otros. Mientras no se excluya ningún estado permanentemente de cualquiera de los pasos, el algoritmo llegará eventual la solución correcta.
En la iteración del valor (Bellman 1957), que también se llama inducción posterior, π el arsenal no se utiliza; en lugar, el valor de π (s) se calcula siempre que sea necesario.
Substituir el cálculo de π (s) en el cálculo de V(s) da el paso combinado:
En la iteración de la política (Howard 1960), el paso uno se realiza una vez, y entonces el paso dos se repite hasta que converge. Entonces el paso uno se realiza otra vez una vez y así sucesivamente.
En vez de repetir el paso dos a la convergencia, puede ser formulado y ser solucionado como sistema de ecuaciones lineares.
Esta variante tiene la ventaja que hay una condición que para definida: cuando el arsenal π no cambia en el curso de aplicar el paso 1 a todos los estados, el algoritmo se termina.
En la iteración modificada de la política (Puterman y Shin 1978), el paso uno se realiza una vez, y entonces el paso dos se repite varias veces. Entonces el paso uno se realiza otra vez una vez y así sucesivamente.
En esta variante, los pasos se aplican preferencial a los estados que son de cierta manera importantes - si está basado en el algoritmo (había cambios grandes adentro V o π alrededor de esos estados recientemente) o basado en uso (esos estados están cerca del estado que comienza, o de otra manera de interés a la persona o al programa usando el algoritmo).
La solución arriba asume que el estado s se sabe cuando la acción debe ser tomada; si no π (s) no puede ser calculado. Cuando esta asunción no es verdad, el problema se llama un proceso de decisión de Markov o un POMDP parcialmente observable.
Si las probabilidades son desconocidas, el problema es uno de el aprender del refuerzo.
Que este propósito es útil defina otra función, que corresponde a tomar la acción a y entonces continuando óptimo (o según cualquier política una tiene actualmente):
Mientras que esta función es también desconocido, la experiencia durante aprender se basa encendido (s,a) pares (junto con el resultado s'); es decir, “estaba en estado s e intenté hacer a y s' sucedido) “. Así, uno tiene un arsenal Q y experiencia de las aplicaciones para ponerlo al día directamente. Se conoce esto como el Q-aprender.
Estas extensiones son de menor importancia en que complican la notación, pero no diferencian ningún verdadero al problema o a su solución.
La terminología y la notación para MDPs no se colocan enteramente; hay dos corrientes principales - una acción que usa, recompensa, valor y γ, mientras que el otro utiliza control, coste-a-va el coste, y α. Además, la notación para la probabilidad de la transición varía.
| en este artículo | alternativa | comentario |
|---|---|---|
| acción a | control u | |
| recompensa R | coste g | g es la negativa de R |
| valor V | coste-a-vaya J | J es la negativa de V |
| política π | política μ | |
| factor que descuenta | factor que descuenta α | |
| probabilidad de la transición Pa(s,s') | probabilidad de la transición pss'(a) |
Además, la probabilidad de la transición se escribe a veces Pr(s,a,s'), Pr(s' | s,a) o, raramente, ps's(a)
|
Custom Search
|
© Copyright 2011 WorldLingo. Reservados todos los derechos.