Top 10 de los artículosYouTubeGmail Goole GayRomeo Números chinos Números romanos Orkut Costco Sistema porta hepático El mundo Factbook |
News: |
perceptron es un tipo de red de los nervios artificial inventado adentro 1957 en Laboratorio aeronáutico de Cornell por Rosenblatt franco. Puede ser visto como la clase más simple de red de los nervios del feedforward: a clasificador linear.
Contenido |
Las aplicaciones de Perceptron matriz valores propios representar redes de los nervios del feedforward y es un clasificador terciario que traz su entrada x (a binario vector) a un valor de la salida f(x) (un solo valor binario) a través de la matriz.
donde W es un vector de pesos real-valued y es producto de punto (que computa una suma cargada). b es el “diagonal”, un término constante que no dependa de ningún valor de la entrada.
El valor de f(x) (0 o 1) se utiliza clasificar x como caso positivo o negativo, en el caso de un problema binario de la clasificación. El diagonal se puede pensar en como compensación de la función de la activación, o dar a la neurona de la salida un llano “bajo” de la actividad. Si b es negativo, después la combinación cargada de entradas debe producir un valor positivo mayor que − b para empujar la neurona del clasificador sobre los 0 umbrales. Espacial, el diagonal altera la posición (sin embargo no la orientación) del límite de la decisión.
Puesto que las entradas se alimentan directamente a la unidad de salida vía las conexiones cargadas, el perceptron se puede considerar la clase más simple de red de los nervios alimentar-delantera.
El algoritmo que aprende es igual a través de todas las neuronas, por lo tanto todo que sigue se aplica a una sola neurona en el aislamiento. Primero definimos algunas variables:
Los pesos son actualizados después de cada entrada según la regla de la actualización abajo:
Por lo tanto, el aprender se modela como el vector del peso que es actualizado después de una iteración, que ocurrirá solamente si la salida y es diferente de la salida deseada δ. Todavía en vista de una sola neurona pero de intentar incorporar iteraciones múltiples, déjenos primero definen más variables:
Cada iteración el vector del peso se pone al día como sigue
El sistema del entrenamiento Dm reputa linear separable si existe una constante positiva γ y un vector del peso W tales que para todos i. Novikoff (1962) probó que el algoritmo del perceptron converge después de un número finito de iteraciones si modem es linear separable y el número de errores se limita cerca .
Sin embargo, si no es el sistema del entrenamiento linear separable, el algoritmo en línea antedicho no está garantizado para converger.
El algoritmo del bolsillo con el trinquete (Gallant, 1990) soluciona el problema de la estabilidad del perceptron que aprende manteniendo la mejor solución considerada hasta ahora “en su bolsillo”. El algoritmo del bolsillo entonces vuelve la solución en el bolsillo, más bien que la solución pasada.
α- el perceptron más futuro utilizó una capa del proceso previo de pesos al azar fijos, con thresholded unidades de salida. Esto permitió al perceptron clasificar análogo patrones, proyectándolos en a espacio binario. De hecho, para un espacio de la proyección de la dimensión suficientemente alta, los patrones pueden llegar a ser linear separables.
Como ejemplo, considere el caso de tener que clasificar datos en dos clases. Aquí está un pequeño tal modem, consistiendo en dos puntos que vienen a partir del dos Distribuciones Gaussian.
|
Dos datos gaussian de la clase |
Un clasificador linear que funciona en el espacio original |
Un clasificador linear que funciona en una proyección alto-dimensional |
Un clasificador linear puede separar solamente cosas con a hyperplane, así que no es posible clasificar perfectamente todos los ejemplos. Por otra parte, podemos proyectar los datos en una gran cantidad de dimensiones. En este caso a matriz al azar fue utilizado proyectar los datos linear a un espacio dimensional 1000; entonces cada punto de referencias que resultaba fue transformado con función hiperbólica de la tangente. Un clasificador linear puede entonces separar los datos, según las indicaciones de la tercera figura. No obstante los datos pueden sin embargo no ser totalmente separables en este espacio, en el cual el algoritmo del perceptron no convergería. En el ejemplo demostrado, pendiente más escarpada estocástica del gradiente fue utilizado adaptar los parámetros.
Además, agregando capas no lineales entre la entrada y la salida, una puede separar todos los datos y de hecho, con bastantes datos del entrenamiento, modela cualquier función bien definida a la precisión arbitraria. Este modelo es una generalización conocida como a perceptron de múltiples capas.
Debe ser tenido presente, sin embargo, que el mejor clasificador no es necesariamente el que clasifica todos los datos del entrenamiento perfectamente. De hecho, si teníamos el constreñimiento anterior que los datos vienen de distribuciones Gaussian de la equi-variante, la separación linear en el espacio de la entrada es óptima.
Otros algoritmos del entrenamiento para los clasificadores lineares son posibles: vea, e.g., máquina del vector de la ayuda y regresión logística.
| Entrada | Inicial | Salida | Final | |||||||||||
| Umbral | Tarifa que aprende | Valores del sensor | Salida deseada | Pesos | Calculado | Suma | Red | Error | Corrección | Pesos | ||||
| TH | LR | X1 | X2 | Z | w1 | w2 | C1 | C2 | S | N | E | R | W1 | W2 |
| X1 x w1 | X2 x w2 | C1+C2 | SI (TH> DE S, 1.0) | Z-N | LR x E | R+w1 | R+w2 | |||||||
| 0.5 | 0.2 | 0 | 0 | 0 | 0.1 | 0.3 | 0 | 0 | 0 | 0 | 0 | 0 | 0.1 | 0.3 |
| 0.5 | 0.2 | 0 | 1 | 1 | 0.1 | 0.3 | 0 | 0.3 | 0.3 | 0 | 1 | 0.2 | 0.3 | 0.5 |
| 0.5 | 0.2 | 1 | 0 | 1 | 0.3 | 0.5 | 0.3 | 0 | 0.3 | 0 | 1 | 0.2 | 0.5 | 0.7 |
| 0.5 | 0.2 | 1 | 1 | 1 | 0.5 | 0.7 | 0.5 | 0.7 | 1.2 | 1 | 0 | 0 | 0.5 | 0.7 |
| 0.5 | 0.2 | 0 | 0 | 0 | 0.5 | 0.7 | 0 | 0 | 0 | 0 | 0 | 0 | 0.5 | 0.7 |
| 0.5 | 0.2 | 0 | 1 | 1 | 0.5 | 0.7 | 0 | 0.7 | 0.7 | 1 | 0 | 0 | 0.5 | 0.7 |
| 0.5 | 0.2 | 1 | 0 | 1 | 0.5 | 0.7 | 0.5 | 0 | 0.5 | 0 | 1 | 0.2 | 0.7 | 0.9 |
| 0.5 | 0.2 | 1 | 1 | 1 | 0.7 | 0.9 | 0.7 | 0.9 | 1.6 | 1 | 0 | 0 | 0.7 | 0.9 |
| 0.5 | 0.2 | 0 | 0 | 0 | 0.7 | 0.9 | 0 | 0 | 0 | 0 | 0 | 0 | 0.7 | 0.9 |
| 0.5 | 0.2 | 0 | 1 | 1 | 0.7 | 0.9 | 0 | 0.9 | 0.9 | 1 | 0 | 0 | 0.7 | 0.9 |
| 0.5 | 0.2 | 1 | 0 | 1 | 0.7 | 0.9 | 0.7 | 0 | 0.7 | 1 | 0 | 0 | 0.7 | 0.9 |
| 0.5 | 0.2 | 1 | 1 | 1 | 0.7 | 0.9 | 0.7 | 0.9 | 1.6 | 1 | 0 | 0 | 0.7 | 0.9 |
Nota: El peso inicial iguala el peso final de iteración anterior.
Aunque el perceptron se parecía inicialmente prometedor, fue probado eventual que los perceptrons no se podrían entrenar para reconocer muchas clases de patrones. Esto condujo al campo de la investigación de la red de los nervios que se estancaba por muchos años, antes de que fuera reconocido que una red de los nervios del feedforward con tres o más capas (también llamadas a perceptron de múltiples capas) energía de proceso lejos mayor tenida que perceptrons con una capa (también llamada a solo perceptron de la capa) o dos. Los solos perceptrons de la capa son solamente capaces de aprender linear separable patrones; en 1969 un libro famoso titulado Perceptrons por Marvin Minsky y Seymour Papert demostrado que era imposible que estas clases de la red aprendan XOR función. Conjeturaron (incorrectamente) que un resultado similar celebraría para un perceptron con tres o más capas. Tres años más tarde Stephen Grossberg publicó una serie de papeles que introducían las redes capaces de modelar diferencial, poner en contraste-realzando y XOR funciona. (Los papeles fueron publicados en 1972 y 1973, ve e.g.: Realce de Grossberg, del contorno, memoria a corto plazo, y constancies en la reverberación de redes de los nervios. Estudios en matemáticas aplicadas, 52 (1973), 213-257, en línea [1]). Sin embargo el texto a menudo-citado de Minsky/Papert causó una declinación significativa en interés y el financiamiento de la investigación de la red de los nervios. Tomó diez más años hasta red de los nervios la investigación experimentó un resurgimiento en los años 80. Este texto fue reimpreso en 1987 como “Perceptrons - edición ampliada” donde algunos errores en el texto original se demuestran y se corrigen.
Más recientemente, el interés en el algoritmo que aprendía del perceptron ha aumentado otra vez después de que Freund y Schapire (1998) presentaran una formulación votada del algoritmo original (que logra el margen grande) y sugirieran que uno puede aplicar truco del núcleo a él. El núcleo-perceptron no sólo puede manejar datos nonlinearly separables pero puede también ir más allá de vectores y clasificar los casos que tienen una representación emparentada (e.g. árboles, gráficos o secuencias).
|
Custom Search
|
© Copyright 2011 WorldLingo. Reservados todos los derechos.