Top 10 de los artículosYouTubeGmail Goole GayRomeo Números chinos Números romanos Orkut Costco Sistema porta hepático El mundo Factbook |
News: |
El arracimar es clasificación de objetos en diversos grupos, o más exacto, el repartir de a modem en subconjuntos (racimos), de modo que los datos en cada subconjunto (idealmente) compartan un cierto rasgo común - a menudo proximidad según alguno definida medida de la distancia. El arracimar de los datos es una técnica común para estadístico análisis de datos, que se utiliza en muchos campos, el incluir el aprender de máquina, explotación minera de los datos, reconocimiento de patrón, análisis de imagen y bioinformatics. La tarea de cómputo de clasificar el modem en k los racimos se refieren a menudo como k- arracimando.
Además del término el arracimar de los datos (o apenas el arracimar), hay un número de términos con los significados similares, incluyendo análisis del racimo, clasificación automática, taxonomía numérica, botryology y análisis tipológico.
Contenido |
Los algoritmos que arraciman de los datos pueden ser jerárquico o partitional. Los algoritmos jerárquicos encuentran racimos sucesivos usando racimos previamente establecidos, mientras que los algoritmos del partitional determinan todos los racimos inmediatamente. Los algoritmos jerárquicos pueden ser aglomerativos (“bottom-up”) o divisivos (“de arriba hacia abajo”). Los algoritmos aglomerativos comienzan con cada elemento como un racimo separado y los combinan en racimos sucesivamente más grandes. Los algoritmos divisivos comienzan con el sistema del conjunto y proceden a dividirlo en racimos sucesivamente más pequeños.
El arracimar de dos vías, el co-arracimar o el biclustering están arracimando los métodos donde no sólo se arraciman los objetos pero también las características de los objetos, es decir, si los datos se representan en a matriz de los datos, las filas y las columnas se arraciman simultáneamente.
Otra distinción importante es si el arracimar utiliza distancias simétricas o asimétricas. Una característica de Espacio euclidiano es que las distancias son simétricas (la distancia del objeto A a B está igual que la distancia de B a A). En otros usos (e.g., los métodos de la secuencia-alineación, consideran a Prinzie y a Furgoneta den Poel (2006)), éste no es el caso.
Un paso importante en arracimar es seleccionar a medida de la distancia, que se determinará cómo semejanza de dos elementos se calcula. Esto influenciará la forma de los racimos, como algunos elementos pueden estar cerca de uno otro según una distancia y fomentar lejos según otra. Por ejemplo, en un espacio de 2 dimensiones, la distancia entre el punto (x=1, y=0) y el origen (x=0, y=0) es siempre 1 según las normas generalmente, pero la distancia entre el punto (x=1, y=1) y el origen pueden ser 2, o 1 si usted toma respectivamente la 1 norma, norma 2 o distancia de la infinito-norma.
Funciones de distancia comunes:
Las estructuras que arraciman jerárquicas (aglomerativas), o se rompen para arriba (divisivo), una jerarquía de racimos. La representación tradicional de esta jerarquía es a árbol (llamado a dendrogram), con los elementos individuales en un extremo y un solo racimo que contiene cada elemento en el otro. Los algoritmos aglomerativos comienzan en la tapa del árbol, mientras que los algoritmos divisivos comienzan en la raíz. (En la figura, las flechas indican arracimar aglomerativo.)
Cortar el árbol en una altura dada dará arracimar en una precisión seleccionada. En el ejemplo siguiente, el cortar después de la segunda fila rendirá los racimos {a} {b c} {d e} {f}. Cortando después de que la tercera fila rinda los racimos {a} {b c} {d e f}, que es el arracimar más grueso, con un número más pequeño de racimos más grandes.
Por ejemplo, suponga que estos datos deben ser arracimados, y distancia euclidiana es distancia métrica.
El arracimar jerárquico dendrogram esté como tal:
Este método construye la jerarquía de los elementos individuales progresivamente combinando racimos. En nuestro ejemplo, tenemos seis elementos {a} {b} {c} {d} {e} y {f}. El primer paso es determinarse qué elementos a combinarse en un racimo. Generalmente, deseamos tomar los dos elementos más cercanos, según la distancia elegida.
Opcionalmente, uno puede también construir a matriz de la distancia en esta etapa, donde el número en i- fila del th j- la columna del th es la distancia entre i- th y j- elementos del th. Después, como arracimando progresa, se combinan se ponen al día las filas y las columnas como se combinan los racimos y las distancias. Esto es una manera común de poner este tipo en ejecución de arracimar, y tiene la ventaja de depositar distancias entre los racimos. Un algoritmo que arracima aglomerativo simple se describe en el solo arracimar del acoplamiento página; puede ser adaptado fácilmente a diversos tipos de acoplamiento (véase abajo).
Suponga que hemos combinado los dos elementos más cercanos b y c, ahora tenemos los racimos siguientes {a}, {b, c}, {d}, {e} y {f}, y desee combinarlos más lejos. Para hacer eso, necesitamos tomar la distancia en medio {a} y {b c}, y por lo tanto definimos la distancia entre dos racimos. Generalmente la distancia entre dos racimos y es uno del siguiente:
Cada aglomeración ocurre en una mayor distancia entre los racimos que la aglomeración anterior, y uno puede decidir a parar el arracimar de cualquiera cuando los racimos son demasiado lejanos aparte ser combinados (criterio de la distancia) o cuando hay un número suficientemente pequeño de los racimos (criterio del número).
Otra variación del acercamiento que arracima aglomerativo es el arracimar conceptual.
K- algoritmo de los medios asigna cada punto al racimo que centro (también llamado centro de figura) es el más cercano. El centro es el promedio de todos los puntos en el racimo que es, sus coordenadas es el medio aritmético para cada dimensión por separado sobre todos los puntos en el racimo…
Los pasos del algoritmo son (J. MacQueen, 1967):
Las ventajas principales de este algoritmo son su simplicidad y velocidad que permite que funcione en datasets grandes. Su desventaja es que no rinde el mismo resultado con cada uno funcionada, puesto que los racimos que resultan dependen de las asignaciones al azar iniciales. Reduce al mínimo la variación del intra-racimo, pero no se asegura de que el resultado tiene un mínimo global de variación.
En el arracimar borroso, cada punto tiene un grado de pertenecer a los racimos, como adentro lógica confusa, más bien que perteneciendo totalmente a apenas un racimo. Así, los puntos en el borde de un racimo, pueden ser en el racimo a un poco grado que puntos en el centro del racimo. Para cada punto x tenemos un coeficiente el dar del grado de ser en kracimo del th uk(x). Generalmente, la suma de esos coeficientes se define para ser 1:
Con borroso c- los medios, el centro de figura de un racimo son el medio de todos los puntos, cargado por su grado de pertenecer al racimo:
El grado de pertenecer se relaciona con lo contrario de la distancia al racimo
después los coeficientes se normalizan y fuzzyfied con un parámetro verdadero m > 1 de modo que su suma sea 1. Tan
Para m el igual a 2, éste es equivalente a normalizar el coeficiente linear para hacer su suma 1. Cuando m está cerca de 1, después arracima el centro más cercano al punto se da mucho más peso que los otros, y el algoritmo es similar a k- medios.
El borroso c- el algoritmo de los medios es muy similar a k- algoritmo de los medios:
El algoritmo reduce al mínimo la variación del intra-racimo también, pero tiene los mismos problemas que k- los medios, el mínimo son un mínimo local, y los resultados dependen de la opción inicial de pesos. algoritmo de la Expectativa-maximización es un método más estadístico formalizado que incluye algunas de estas ideas: calidad de miembro parcial en clases. Tiene características mejores de la convergencia y en general se prefiere a borroso-c-significa.
El cuarto de galón (umbral de la calidad) que arracima (Heyer y otros, 1999) es un método alternativo de repartir datos, inventado para arracimar del gene. Requiere más energía que computa que k- los medios, pero no requieren especificar el número de racimos a priori, y vuelve siempre el mismo resultado cuando funcionamiento varias veces.
El algoritmo es:
La distancia entre un punto y un grupo de puntos se computa usando el acoplamiento completo, es decir. como la distancia máxima del punto a cualquier miembro del grupo (véase la sección “que arracima” jerárquica aglomerativa sobre distancia entre los racimos).
hashing Lugar-sensible puede ser utilizado para arracimar. Los vectores del espacio de la característica son sistemas, y el métrico usado es Distancia de Jaccard. El espacio de la característica se puede considerar alto-dimensional. permutaciones independientes minuto-sabias El esquema de LSH (a veces MinHash) entonces se utiliza para poner artículos similares en los cubos. Con apenas un sistema de métodos del hashing, hay solamente racimos de elementos muy similares. Sembrando el picadillo funciona varias veces (eg. 20), es posible conseguir racimos más grandes. [1]
Análisis formal del concepto es una técnica para generar los racimos de objetos y de cualidades, dados a gráfico bipartito representación de las relaciones entre los objetos y las cualidades. Otros métodos para generar racimos traslapados (a cubierta más bien que a partición) son discutidos por Jardine y Sibson (1968) y Cole y Wishart (1970).
El criterio del codo es un campo común regla del pulgar para determinarse qué número de los racimos debe ser elegido, por ejemplo para k- medios y el arracimar jerárquico aglomerativo. Debe también ser observado que la asignación inicial de las semillas del racimo tiene concerniente el funcionamiento modelo final. Así, es apropiado volver a efectuar los tiempos del múltiplo del análisis del racimo.
El criterio del codo dice que usted debe elegir un número de racimos de modo que la adición de otro racimo no agregue la suficiente información. Más exacto, si usted representa el porcentaje gráficamente de la variación explicado por los racimos contra el número de racimos, los primeros racimos agregarán mucha información (explique los muchos de la variación), pero en un cierto punto el aumento marginal caerá, dando un ángulo en el gráfico (el codo). Este codo no puede ser identificado siempre inequívoco. El porcentaje de la variación explicado es el cociente de la variación del entre-grupo a la variación total.
En el gráfico siguiente, el codo es indicado por el círculo rojo. El número de los racimos elegidos debe por lo tanto ser 4.
Dado un sistema de los puntos de referencias A, matriz de la semejanza puede ser definido como matriz S donde Sij representa una medida de la semejanza entre los puntos . Las técnicas que arraciman espectrales hacen uso espectro de la matriz de la semejanza de los datos a realizarse reducción de la dimensionalidad para arracimar en pocas dimensiones.
Una tal técnica es Algoritmo de Shi-Malik, de uso general para segmentación de la imagen. Reparte puntos en dos sistemas (S1,S2) de acuerdo con vector propio v el corresponder al segundo-más pequeño valor propio de Matriz de Laplacian
de S, donde D es la matriz diagonal
| Dii = | ∑ | Sij. |
| j |
Esto que reparte se puede hacer de varias maneras, por ejemplo tomando el punto medio m de los componentes adentro v, y poniendo todo el componente de los puntos en que v es mayor que m en S1, y el resto adentro S2. El algoritmo se puede utilizar para arracimar jerárquico en varias ocasiones repartiendo los subconjuntos de este modo.
Un algoritmo relacionado es Algoritmo de Meila-Shi, que toma vectores propios el corresponder a k el más grande valores propios de la matriz P = SD − 1 para alguno k, y entonces invoca otros (e.g. k- medios) de arracimar puntos por su respectivo k componentes en estos vectores propios.
En biología el arracimar tiene muchos usos
El análisis del racimo es ampliamente utilizado adentro estudio de mercados al trabajar con datos multivariate de exámenes y paneles de prueba. Los investigadores de mercado utilizan análisis del racimo para repartir al general población de consumidores en segmentos de mercado y entender mejor las relaciones entre diversos grupos de los consumidores/potencial clientes.
Análisis de red social: En el estudio de redes sociales, el arracimar se puede utilizar para reconocer comunidades dentro de grupos de gente grandes.
Segmentación de la imagen: El arracimar se puede utilizar para dividir a digital imagen en las regiones distintas para detección de la frontera o reconocimiento del objeto.
Explotación minera de los datos: Muchos explotación minera de los datos los usos implican el repartir de artículos de datos en subconjuntos relacionados; los usos de la comercialización discutidos arriba representan algunos ejemplos. Otro uso común es la división de documentos, por ejemplo World Wide Web páginas, en géneros.
El agrupar del resultado de la búsqueda: En curso de agrupar inteligente de los archivos y de los Web site, el arracimar se puede utilizar para crear un sistema más relevante de resultados de la búsqueda comparados a los motores de búsqueda normales como Google. Hay actualmente un número de herramientas que arraciman basadas tela por ejemplo Clusty.
Optimización Slippy del mapa: Flickr el mapa de fotos y otros sitios del mapa utilizan arracimar para reducir el número de marcadores en un mapa. Esto lo hace más rápidamente y reduce la cantidad de alboroto visual.
Segmentación de IMRT: El arracimar se puede utilizar para dividir un mapa del fluence en las regiones distintas para la conversión en campos entregables en radioterapia MLC-basada.
El agrupar de los artículos de las compras: El arracimar se puede utilizar para agrupar todos los artículos de las compras disponibles en la tela en un sistema de productos únicos. Por ejemplo, todos los artículos en eBay se pueden agrupar en productos únicos. (eBay no tiene el concepto de un SKU)
Química matemática: Para encontrar semejanza estructural, el etc., por ejemplo, 3000 compuestos químicos fueron arracimados en el espacio de 90 índices topológicos.[2]
Ha habido varias sugerencias para una medida de semejanza entre dos clusterings. Tal medida se puede utilizar para comparar como de bien los algoritmos que arraciman de diversos datos se realizan en un sistema de datos. Muchas de estas medidas se derivan de matriz que empareja (aka matriz de la confusión), e.g., Medida del rand y el Fowlkes-Mallows Bk medidas.[3]
La variación de Meila del Marina de la información métrica es un acercamiento más reciente para la distancia que mide entre los clusterings. Utiliza información mutua y entropía para aproximar la distancia entre dos clusterings a través del enrejado de clusterings posibles.
Estos últimos años el esfuerzo considerable se ha puesto en mejorar el funcionamiento del algoritmo (Z. Huang, 1998). Entre el más popular esté CLARANS (Ng y Han, 1994), DBSCAN (Ester y otros., 1996) y ABEDUL (Zhang y otros., 1996).
Para arracimar espectral:
Para estimar el número de racimos:
Para la discusión del criterio del codo:
|
Custom Search
|
© Copyright 2011 WorldLingo. Reservados todos los derechos.