Top 10 de los artículos

YouTube
Gmail
Goole
GayRomeo
Números chinos
Números romanos
Orkut
Costco
Sistema porta hepático
El mundo Factbook

News:

Análisis del racimo

El arracimar es clasificación de objetos en diversos grupos, o más exacto, el repartir de a modem en subconjuntos (racimos), de modo que los datos en cada subconjunto (idealmente) compartan un cierto rasgo común - a menudo proximidad según alguno definida medida de la distancia. El arracimar de los datos es una técnica común para estadístico análisis de datos, que se utiliza en muchos campos, el incluir el aprender de máquina, explotación minera de los datos, reconocimiento de patrón, análisis de imagen y bioinformatics. La tarea de cómputo de clasificar el modem en k los racimos se refieren a menudo como k- arracimando.

Además del término el arracimar de los datos (o apenas el arracimar), hay un número de términos con los significados similares, incluyendo análisis del racimo, clasificación automática, taxonomía numérica, botryology y análisis tipológico.

Contenido

Tipos de arracimar

Los algoritmos que arraciman de los datos pueden ser jerárquico o partitional. Los algoritmos jerárquicos encuentran racimos sucesivos usando racimos previamente establecidos, mientras que los algoritmos del partitional determinan todos los racimos inmediatamente. Los algoritmos jerárquicos pueden ser aglomerativos (“bottom-up”) o divisivos (“de arriba hacia abajo”). Los algoritmos aglomerativos comienzan con cada elemento como un racimo separado y los combinan en racimos sucesivamente más grandes. Los algoritmos divisivos comienzan con el sistema del conjunto y proceden a dividirlo en racimos sucesivamente más pequeños.

El arracimar de dos vías, el co-arracimar o el biclustering están arracimando los métodos donde no sólo se arraciman los objetos pero también las características de los objetos, es decir, si los datos se representan en a matriz de los datos, las filas y las columnas se arraciman simultáneamente.

Otra distinción importante es si el arracimar utiliza distancias simétricas o asimétricas. Una característica de Espacio euclidiano es que las distancias son simétricas (la distancia del objeto A a B está igual que la distancia de B a A). En otros usos (e.g., los métodos de la secuencia-alineación, consideran a Prinzie y a Furgoneta den Poel (2006)), éste no es el caso.

Medida de la distancia

Un paso importante en arracimar es seleccionar a medida de la distancia, que se determinará cómo semejanza de dos elementos se calcula. Esto influenciará la forma de los racimos, como algunos elementos pueden estar cerca de uno otro según una distancia y fomentar lejos según otra. Por ejemplo, en un espacio de 2 dimensiones, la distancia entre el punto (x=1, y=0) y el origen (x=0, y=0) es siempre 1 según las normas generalmente, pero la distancia entre el punto (x=1, y=1) y el origen pueden ser 2, o 1 si usted toma respectivamente la 1 norma, norma 2 o distancia de la infinito-norma.

Funciones de distancia comunes:

  • Distancia euclidiana (también llamado distancia como el cuervo vuela o distancia de 2 normas). Una revisión del análisis del racimo en la investigación de la psicología de la salud encontró que la medida más común de la distancia de estudios publicados en esa área de la investigación es la distancia euclidiana o la distancia euclidiana ajustada.
  • Distancia de Manhattan (también llamado norma del taxi o 1 norma)
  • norma máxima
  • Distancia de Mahalanobis corrige los datos para diversas escalas y las correlaciones en las variables
  • El ángulo entre dos vectores se puede utilizar como medida de la distancia al arracimar altos datos dimensionales. Vea Espacio interno del producto.
  • Distancia de Hamming (corrija a veces la distancia) mide el número mínimo de las substituciones requeridas para cambiar a un miembro en otro.

El arracimar jerárquico

Crear racimos

Las estructuras que arraciman jerárquicas (aglomerativas), o se rompen para arriba (divisivo), una jerarquía de racimos. La representación tradicional de esta jerarquía es a árbol (llamado a dendrogram), con los elementos individuales en un extremo y un solo racimo que contiene cada elemento en el otro. Los algoritmos aglomerativos comienzan en la tapa del árbol, mientras que los algoritmos divisivos comienzan en la raíz. (En la figura, las flechas indican arracimar aglomerativo.)

Cortar el árbol en una altura dada dará arracimar en una precisión seleccionada. En el ejemplo siguiente, el cortar después de la segunda fila rendirá los racimos {a} {b c} {d e} {f}. Cortando después de que la tercera fila rinda los racimos {a} {b c} {d e f}, que es el arracimar más grueso, con un número más pequeño de racimos más grandes.

El arracimar jerárquico aglomerativo

Por ejemplo, suponga que estos datos deben ser arracimados, y distancia euclidiana es distancia métrica.

Informaciones en bruto

El arracimar jerárquico dendrogram esté como tal:

Representación tradicional

Este método construye la jerarquía de los elementos individuales progresivamente combinando racimos. En nuestro ejemplo, tenemos seis elementos {a} {b} {c} {d} {e} y {f}. El primer paso es determinarse qué elementos a combinarse en un racimo. Generalmente, deseamos tomar los dos elementos más cercanos, según la distancia elegida.

Opcionalmente, uno puede también construir a matriz de la distancia en esta etapa, donde el número en i- fila del th j- la columna del th es la distancia entre i- th y j- elementos del th. Después, como arracimando progresa, se combinan se ponen al día las filas y las columnas como se combinan los racimos y las distancias. Esto es una manera común de poner este tipo en ejecución de arracimar, y tiene la ventaja de depositar distancias entre los racimos. Un algoritmo que arracima aglomerativo simple se describe en el solo arracimar del acoplamiento página; puede ser adaptado fácilmente a diversos tipos de acoplamiento (véase abajo).

Suponga que hemos combinado los dos elementos más cercanos b y c, ahora tenemos los racimos siguientes {a}, {b, c}, {d}, {e} y {f}, y desee combinarlos más lejos. Para hacer eso, necesitamos tomar la distancia en medio {a} y {b c}, y por lo tanto definimos la distancia entre dos racimos. Generalmente la distancia entre dos racimos y es uno del siguiente:

  • La distancia máxima entre los elementos de cada racimo (también llamado acoplamiento completo que arracima):
  • La distancia mala entre los elementos de cada racimo (también llamado el arracimar medio del acoplamiento, usado e.g. en UPGMA):
  • La suma de toda la variación del intra-racimo
  • El aumento en la variación para el racimo que es combinado (criterio de la sala)
  • La probabilidad que el candidato arracima freza de la misma función de distribución (el V-acoplamiento)

Cada aglomeración ocurre en una mayor distancia entre los racimos que la aglomeración anterior, y uno puede decidir a parar el arracimar de cualquiera cuando los racimos son demasiado lejanos aparte ser combinados (criterio de la distancia) o cuando hay un número suficientemente pequeño de los racimos (criterio del número).

El arracimar del concepto

Otra variación del acercamiento que arracima aglomerativo es el arracimar conceptual.

El arracimar de Partitional

K- medios y derivados

K- el arracimar de los medios

K- algoritmo de los medios asigna cada punto al racimo que centro (también llamado centro de figura) es el más cercano. El centro es el promedio de todos los puntos en el racimo que es, sus coordenadas es el medio aritmético para cada dimensión por separado sobre todos los puntos en el racimo…

Ejemplo: El modem tiene tres dimensiones y el racimo tiene dos puntos: X = (x1, x2, x3) y Y = (y1, y2, y3). Entonces el centro de figura Z se convierte Z = (z1, z2, z3), donde z1 = (x1 + y1) /2 y z2 = (x2 + y2) /2 y z3 = (x3 + y3)/2.

Los pasos del algoritmo son (J. MacQueen, 1967):

  • Elija el número de racimos, k.
  • Genere aleatoriamente k los racimos y determinan los centros del racimo, o los generan directamente k puntos al azar como centros del racimo.
  • Asigne cada punto al centro más cercano del racimo.
  • Recompute los nuevos centros del racimo.
  • Repita los dos pasos anteriores hasta que se resuelve un cierto criterio de la convergencia (generalmente que la asignación no ha cambiado).

Las ventajas principales de este algoritmo son su simplicidad y velocidad que permite que funcione en datasets grandes. Su desventaja es que no rinde el mismo resultado con cada uno funcionada, puesto que los racimos que resultan dependen de las asignaciones al azar iniciales. Reduce al mínimo la variación del intra-racimo, pero no se asegura de que el resultado tiene un mínimo global de variación.

Borroso c- el arracimar de los medios

En el arracimar borroso, cada punto tiene un grado de pertenecer a los racimos, como adentro lógica confusa, más bien que perteneciendo totalmente a apenas un racimo. Así, los puntos en el borde de un racimo, pueden ser en el racimo a un poco grado que puntos en el centro del racimo. Para cada punto x tenemos un coeficiente el dar del grado de ser en kracimo del th uk(x). Generalmente, la suma de esos coeficientes se define para ser 1:

Con borroso c- los medios, el centro de figura de un racimo son el medio de todos los puntos, cargado por su grado de pertenecer al racimo:

El grado de pertenecer se relaciona con lo contrario de la distancia al racimo

después los coeficientes se normalizan y fuzzyfied con un parámetro verdadero m > 1 de modo que su suma sea 1. Tan

Para m el igual a 2, éste es equivalente a normalizar el coeficiente linear para hacer su suma 1. Cuando m está cerca de 1, después arracima el centro más cercano al punto se da mucho más peso que los otros, y el algoritmo es similar a k- medios.

El borroso c- el algoritmo de los medios es muy similar a k- algoritmo de los medios:

  • Elija un número de racimos.
  • Asigne aleatoriamente a los coeficientes de cada punto para estar en los racimos.
  • La repetición hasta que ha convergido el algoritmo (es decir, el cambio de los coeficientes entre dos iteraciones no es no más que ε, el umbral dado de la sensibilidad):
    • Compute el centro de figura para cada racimo, usando el fórmula arriba.
    • Para cada punto, compute sus coeficientes de estar en los racimos, usando el fórmula arriba.

El algoritmo reduce al mínimo la variación del intra-racimo también, pero tiene los mismos problemas que k- los medios, el mínimo son un mínimo local, y los resultados dependen de la opción inicial de pesos. algoritmo de la Expectativa-maximización es un método más estadístico formalizado que incluye algunas de estas ideas: calidad de miembro parcial en clases. Tiene características mejores de la convergencia y en general se prefiere a borroso-c-significa.

Algoritmo que arracima del cuarto de galón

El cuarto de galón (umbral de la calidad) que arracima (Heyer y otros, 1999) es un método alternativo de repartir datos, inventado para arracimar del gene. Requiere más energía que computa que k- los medios, pero no requieren especificar el número de racimos a priori, y vuelve siempre el mismo resultado cuando funcionamiento varias veces.

El algoritmo es:

  • El usuario elige un diámetro máximo para los racimos.
  • Construya un racimo del candidato para cada punto incluyendo el punto más cercano, el más cercano siguiente, y así sucesivamente, hasta que el diámetro del racimo sobrepasa el umbral.
  • Excepto el racimo del candidato con la mayoría de los puntos como el primer racimo verdadero, y quite todos los puntos en el racimo de la consideración adicional.
  • Recurse con el sistema reducido de puntos.

La distancia entre un punto y un grupo de puntos se computa usando el acoplamiento completo, es decir. como la distancia máxima del punto a cualquier miembro del grupo (véase la sección “que arracima” jerárquica aglomerativa sobre distancia entre los racimos).

hashing Lugar-sensible

hashing Lugar-sensible puede ser utilizado para arracimar. Los vectores del espacio de la característica son sistemas, y el métrico usado es Distancia de Jaccard. El espacio de la característica se puede considerar alto-dimensional. permutaciones independientes minuto-sabias El esquema de LSH (a veces MinHash) entonces se utiliza para poner artículos similares en los cubos. Con apenas un sistema de métodos del hashing, hay solamente racimos de elementos muy similares. Sembrando el picadillo funciona varias veces (eg. 20), es posible conseguir racimos más grandes. [1]


métodos Gráfico-teóricos

Análisis formal del concepto es una técnica para generar los racimos de objetos y de cualidades, dados a gráfico bipartito representación de las relaciones entre los objetos y las cualidades. Otros métodos para generar racimos traslapados (a cubierta más bien que a partición) son discutidos por Jardine y Sibson (1968) y Cole y Wishart (1970).

Criterio del codo

El criterio del codo es un campo común regla del pulgar para determinarse qué número de los racimos debe ser elegido, por ejemplo para k- medios y el arracimar jerárquico aglomerativo. Debe también ser observado que la asignación inicial de las semillas del racimo tiene concerniente el funcionamiento modelo final. Así, es apropiado volver a efectuar los tiempos del múltiplo del análisis del racimo.

El criterio del codo dice que usted debe elegir un número de racimos de modo que la adición de otro racimo no agregue la suficiente información. Más exacto, si usted representa el porcentaje gráficamente de la variación explicado por los racimos contra el número de racimos, los primeros racimos agregarán mucha información (explique los muchos de la variación), pero en un cierto punto el aumento marginal caerá, dando un ángulo en el gráfico (el codo). Este codo no puede ser identificado siempre inequívoco. El porcentaje de la variación explicado es el cociente de la variación del entre-grupo a la variación total.

En el gráfico siguiente, el codo es indicado por el círculo rojo. El número de los racimos elegidos debe por lo tanto ser 4.

El arracimar espectral

Dado un sistema de los puntos de referencias A, matriz de la semejanza puede ser definido como matriz S donde Sij representa una medida de la semejanza entre los puntos . Las técnicas que arraciman espectrales hacen uso espectro de la matriz de la semejanza de los datos a realizarse reducción de la dimensionalidad para arracimar en pocas dimensiones.

Una tal técnica es Algoritmo de Shi-Malik, de uso general para segmentación de la imagen. Reparte puntos en dos sistemas (S1,S2) de acuerdo con vector propio v el corresponder al segundo-más pequeño valor propio de Matriz de Laplacian

L = ID − 1 / 2SD − 1 / 2

de S, donde D es la matriz diagonal

Dii = Sij.
j

Esto que reparte se puede hacer de varias maneras, por ejemplo tomando el punto medio m de los componentes adentro v, y poniendo todo el componente de los puntos en que v es mayor que m en S1, y el resto adentro S2. El algoritmo se puede utilizar para arracimar jerárquico en varias ocasiones repartiendo los subconjuntos de este modo.

Un algoritmo relacionado es Algoritmo de Meila-Shi, que toma vectores propios el corresponder a k el más grande valores propios de la matriz P = SD − 1 para alguno k, y entonces invoca otros (e.g. k- medios) de arracimar puntos por su respectivo k componentes en estos vectores propios.

Usos

Biología

En biología el arracimar tiene muchos usos

Estudio de mercados

El análisis del racimo es ampliamente utilizado adentro estudio de mercados al trabajar con datos multivariate de exámenes y paneles de prueba. Los investigadores de mercado utilizan análisis del racimo para repartir al general población de consumidores en segmentos de mercado y entender mejor las relaciones entre diversos grupos de los consumidores/potencial clientes.

Otros usos

Análisis de red social: En el estudio de redes sociales, el arracimar se puede utilizar para reconocer comunidades dentro de grupos de gente grandes.

Segmentación de la imagen: El arracimar se puede utilizar para dividir a digital imagen en las regiones distintas para detección de la frontera o reconocimiento del objeto.

Explotación minera de los datos: Muchos explotación minera de los datos los usos implican el repartir de artículos de datos en subconjuntos relacionados; los usos de la comercialización discutidos arriba representan algunos ejemplos. Otro uso común es la división de documentos, por ejemplo World Wide Web páginas, en géneros.

El agrupar del resultado de la búsqueda: En curso de agrupar inteligente de los archivos y de los Web site, el arracimar se puede utilizar para crear un sistema más relevante de resultados de la búsqueda comparados a los motores de búsqueda normales como Google. Hay actualmente un número de herramientas que arraciman basadas tela por ejemplo Clusty.

Optimización Slippy del mapa: Flickr el mapa de fotos y otros sitios del mapa utilizan arracimar para reducir el número de marcadores en un mapa. Esto lo hace más rápidamente y reduce la cantidad de alboroto visual.

Segmentación de IMRT: El arracimar se puede utilizar para dividir un mapa del fluence en las regiones distintas para la conversión en campos entregables en radioterapia MLC-basada.

El agrupar de los artículos de las compras: El arracimar se puede utilizar para agrupar todos los artículos de las compras disponibles en la tela en un sistema de productos únicos. Por ejemplo, todos los artículos en eBay se pueden agrupar en productos únicos. (eBay no tiene el concepto de un SKU)

Química matemática: Para encontrar semejanza estructural, el etc., por ejemplo, 3000 compuestos químicos fueron arracimados en el espacio de 90 índices topológicos.[2]

Comparaciones entre los clusterings de los datos

Ha habido varias sugerencias para una medida de semejanza entre dos clusterings. Tal medida se puede utilizar para comparar como de bien los algoritmos que arraciman de diversos datos se realizan en un sistema de datos. Muchas de estas medidas se derivan de matriz que empareja (aka matriz de la confusión), e.g., Medida del rand y el Fowlkes-Mallows Bk medidas.[3]

La variación de Meila del Marina de la información métrica es un acercamiento más reciente para la distancia que mide entre los clusterings. Utiliza información mutua y entropía para aproximar la distancia entre dos clusterings a través del enrejado de clusterings posibles.

Algoritmos

Estos últimos años el esfuerzo considerable se ha puesto en mejorar el funcionamiento del algoritmo (Z. Huang, 1998). Entre el más popular esté CLARANS (Ng y Han, 1994), DBSCAN (Ester y otros., 1996) y ABEDUL (Zhang y otros., 1996).

Vea también

En Wikiversity, usted puede aprender alrededor:

Bibliografía

  1. ^ Personalización de las noticias de Google: filtración de colaboración en línea scalable
  2. ^ Basak S.C., Magnuson V.R., Niemi C.J., R.R. real. “Semejanza estructural de Determing de productos químicos usando índices teóricos del gráfico”. Discr. Appl. Matemáticas., 19, 1988: 17-44.
  3. ^ E. B. Fowlkes y C. L. Mallows (septiembre 1983). “Un método para comparar dos Clusterings jerárquico”. Diario de la asociación estadística americana 78 (383): 553–584. 

Otros

  • Clatworthy, J., Buick, D., Hankins, M., Weinman, J., y Horne, R. (2005). El uso y la divulgación del análisis del racimo en psicología de la salud: Una revisión. Diario británico de la psicología de la salud 10: 329-358.
  • Cole, A. J. Y Wishart, D. (1970). Un algoritmo mejorado para el método de Jardine-Sibson de generación que se traslapa arracima. El diario de informática 13 (2): 156-163.
  • Éster, M., Kriegel, c. v., lijadora, J., y Xu, X. 1996. Un algoritmo densidad-basado para descubrir arracima en bases de datos espaciales grandes con ruido. Procedimientos de la 2da conferencia internacional sobre el descubrimiento y la explotación minera de los datos, Portland, Oregon, los E.E.U.U. del conocimiento: Prensa de AAAI, pp. 226–231.
  • Heyer, L.J., Kruglyak, S. y Yooseph, S., datos de la expresión que exploran: Identificación y análisis de los genes de Coexpressed, Investigación del genoma 9:1106 - 1115.
  • S. Kotsiantis, P. Pintelas, avances recientes en arracimar: Un breve examen, transacciones de WSEAS en las ciencias de la información y usos, vol. 1, no 1 (73-81), 2004.
  • Huang, Z. (1998). Las extensiones a K-significan el algoritmo para arracimar Datasets grandes con valores categóricos. Explotación minera de los datos y descubrimiento del conocimiento, 2, P. 283-304.
  • Jardine, N. Y Sibson, R. (1968). La construcción de clasificaciones jerárquicas y no jerárquicas. El diario de informática 11:177.
  • El libro de textos en línea: Teoría de información, inferencia, y algoritmos que aprenden, cerca David J.C. MacKay incluye los capítulos en k-significa arracimar, la suavidad k-significa arracimar, y derivaciones incluyendo el algoritmo del E-M y la vista variada del algoritmo del E-M.
  • MacQueen, J. B. (1967). Algunos métodos para la clasificación y el análisis de observaciones Multivariate, de procedimientos del 5to simposio de Berkeley sobre estadística matemática y de la probabilidad, Berkeley, universidad de la prensa de California, 1:281 - 297
  • Ng, R.T. y Han, J. 1994. Métodos que arraciman eficientes y eficaces para la explotación minera espacial de los datos. Procedimientos de la vigésima conferencia de VLDB, Santiago, Chile, pp. 144–155.
  • Prinzie A., D. Van den Poel (2006), La información secuencial que incorpora en la clasificación tradicional modela usando un elemento/un SAM posición-sensible. Sistemas de ayuda de decisión 42 (2): 508-526.
  • Romesburg, H. Clarles, Análisis del racimo para los investigadores, 2004, 340 pp. ISBN 1-4116-0617-5, la reimpresión de la edición 1990 publicó por Krieger Pub. Co… Una traducción japonesa de la lengua está disponible de Uchida Rokakuho que publica Co., Ltd., Tokio, Japón.
  • Sheppard, A. G. (1996). La secuencia del análisis factorial y del análisis del racimo: Diferencias en la segmentación y la dimensionalidad con el uso de las cuentas crudas y del factor. Análisis del turismo, 1 (volumen inaugural), 49-57.
  • Zhang, T., Ramakrishnan, R., y Livny, M. 1996. ABEDUL: Un método que arracima de los datos eficientes para las bases de datos muy grandes. Procedimientos de la conferencia de ACM SIGMOD, Montreal, Canadá, pp. 103–114.

Para arracimar espectral:

  • Jianbo Shi y Jitendra Malik, “normalizaron cortes y la segmentación de la imagen”, las transacciones de IEEE en análisis del patrón y la inteligencia de la máquina, 22 (8), 888-905, agosto de 2000. Disponible encendido Homepage de Jitendra Malik
  • Marina Meila y Jianbo Shi, “segmentación que aprende con la caminata al azar”, sistemas de los nervios de la tratamiento de la información, PELLIZCOS, 2001. Disponible de Homepage de Jianbo Shi
  • vea los artículos referidos aquí

Para estimar el número de racimos:

Para la discusión del criterio del codo:

  • Aldenderfer, M.S., Blashfield, R.K, Análisis del racimo, (1984), parque de Newbury (CA): Sabio.

Acoplamientos externos

The original article is from Wikipedia. To view the original article please click here.
Creative Commons Licence