Top 10 artiklarnaSquier '51Badoo Fluid dynamik /ma/enwiki/sv/nasza-klasa.pl Fransk konjugation Odnoklassniki.ru Sora Aoi Alnico Kanokkorn Jaicheun Aggregatibacter actinomycetemcomitans |
News: |
Samla i en klunga är klassifikation av anmärker in i olika grupper, eller mer exakt, delning av a datamängd in i underdelar (samla i en klunga), så att datan i varje underdel (idealt) delar något allmänningdrag - ofta definierad närhet enligt något distansera mäter. Att samla i en klunga för data är en allmänningteknik för statistiskt dataanalys, som används i många, sätter in, däribland bearbeta med maskin att lära, bryta för data, mönstra erkännande, avbilda analys och bioinformatics. Den computational uppgiften av indelning av datamängden in i K samla i en klunga ses ofta till som K- samla i en klunga.
Förutom benämna samla i en klunga för data (eller precis samla i en klunga) finns det ett nummer av benämner med liknande betydelser, däribland samla i en klunga analys, automatisk klassifikation, numerisk taxonomy, botryology och typological analys.
Tillfredsställer |
Data som samla i en klunga algoritmer, kan vara hierarkiskt eller partitional. Hierarkiska algoritmer finner på varandra följande samla i en klunga genom att använda föregående etablerat samla i en klunga, eftersom partitionalalla algoritmer bestämmer samla i en klunga strax. Hierarkiska algoritmer kan vara agglomerative (”bottom-up”) eller skiljs (”top-down”). Agglomerative algoritmer börjar med varje beståndsdel, som ett separat samla i en klunga, och sammanfogning som de in i löpande större samla i en klunga. Skiljs algoritmer börjar med den hela uppsättningen och fortsätter att dela den in i löpande mindre samla i en klunga.
Tvåvägssamla i en klunga, co-samla i en klunga eller biclustering samla i en klunga metoder var anmärker inte endast samla i en klunga utan särdragen av anmärker också, dvs., om datan föreställs i a datamatris, ror, och kolonner samla i en klunga samtidigt.
En annan viktig skillnad är huruvida det symmetriska samla i en klungabruket, eller assymetriskt distanserar. En egenskap av Euclidean utrymme är det distanserar är symmetrisk (distansera från anmärker A till B är samma som distansera från B till A). I andra applikationer (e.g., ordna-justering metoder, ser Prinzie & Skåpbil håla Poel (2006)), är detta inte fallet.
Ett viktigt kliver, i any att samla i en klunga, är att välja a distansera mäter, som ska, bestäm hur likhet av två beståndsdelar beräknas. Detta ska påverkan som forma av samla i en klunga, som några beståndsdelar kan vara nästan en another enligt en distanserar och främjar bort enligt another. Till exempel i ett dimensionellt utrymme 2, är distansera mellan peka (x=1, y=0) och beskärningen (x=0, y=0) alltid 1 enligt de vanliga normsna, men distansera mellan peka (x=1, y=1) och beskärningen kan vara 2, eller 1, om du tar respektive den 1 normen, norm 2 eller oändlighet-normen distanserar.
Distansera vanligt fungerar:
Hierarkiska (agglomerative) samla i en klungabygganden, eller bryter upp (skilja), en hierarki av samla i en klunga. Den traditionella framställningen av denna hierarki är a tree (kallat a dendrogram) med individbeståndsdelar på en avsluta, och en singel samla i en klunga innehålla varje beståndsdel på annan. Agglomerative algoritmer börjar upptill av treen, eftersom skiljs algoritmer börjar på rota. (I figurera, pilarna indikerar agglomerative samla i en klunga.),
Klipp treen på en given höjd ska give samla i en klunga på en utvald precision. I efter exemplet samla i en klunga klipp, efter understödja har rott ska avkastning {a} {b c} {D e} {f}. Klipp, efter thirden har rott ska avkastning, samla i en klunga {a} {b c} {D e f}, som är grövre samla i en klunga, med ett mindre numrerar av större samla i en klunga.
Anta att dessa data ska samla i en klunga, och, till exempel euclidean distansera är distansera meter.
Hierarkiskt samla i en klunga dendrogram skulle var som sådan:
Denna metod bygger hierarkin från individen som beståndsdelar, genom progressively att applicera, samla i en klunga. I vårt exempel har vi sex beståndsdelar {a} {b} {c} {D} {e} och {f}. Första steg är att bestämma vilka beståndsdelar till sammanfogning i en samla i en klunga. Vanligt önskar vi att ta de två mest nära beståndsdelarna, enligt vald distanserar.
Valfritt en för can tankeskapelse a också distansera matrisen på detta arrangera, var numrera i i- th ror j- thkolonnen är distansera mellan i- th och j- thbeståndsdelar. Därefter som att samla i en klunga framsteg, ror, och kolonner appliceras, som samla i en klunga appliceras, och distanserar uppdaterat. Denna är en allmänning långt som genomför denna typ av att samla i en klunga och har gynna av caching distanserar samla i en klunga between. En enkel agglomerative samla i en klungaalgoritm beskrivas i samla i en klunga för singelsammanlänkning sida; det kan lätt anpassas till olika typer av sammanlänkningen (se nedanfört).
Anta att vi har applicerat de två mest nära beståndsdelarna b och c, har vi nu samla i en klunga efter {a}, {b, c}, {D}, {e} och {f}, och önska till sammanfogning dem vidare. För att göra det, behöver definierar vi att ta distansera between {a} och {b c} och därför distansera mellan två samla i en klunga. Vanligt samla i en klunga distansera mellan två och är en av efter:
Varje gytter uppstår på ett mer stor distanserar samla i en klunga between än det föregående gytter, och man kan avgöra att stoppa att samla i en klunga endera, när samla i en klunga är för avlägset ifrån varandra att appliceras (distansera kriteriet) eller när det finns ett tillräckligt litet, numrera av samla i en klunga (numrera kriteriet).
En annan variation av agglomerative samla i en klunga att närma sig är begreppsmässigt samla i en klunga.
K- hjälpmedelalgoritm tilldelar varje pekar till samla i en klunga vars centrerar (också kallat centroiden) är mest nearest. Centrera är det genomsnittet pekar allra i samla i en klunga - som är, dess koordinater är det arithmetic medlet för varje dimensionerar över alla pekar separat i samla i en klunga…,
Algoritmen kliver är (J. MacQueen 1967):
De huvudsakliga fördelarna av denna algoritm är dess enkelhet och rusar som låter det köra på stora datasets. Dess missgynna är att det inte avkastning det samma resultatet med kört varje, sedan resultera samla i en klunga, bero på de initiala slumpmässiga uppgifterna. Det minimerar intra-samla i en klunga variance, men ser till inte att resultatet har en global minimi av variancen.
I luddigt samla i en klunga, pekar varje har en grad av att höra hemma till samla i en klunga, som in luddig logik, i stället för höra hemma fullständigt till rättvis samla i en klunga. Således pekar på kanta av en samla i en klunga, kan vara i samla i en klunga till en lesser grad än pekar i centrera av samla i en klunga. För varje peka x vi har ett samverka ge graden av att vara i Kth samla i en klunga uK(x). Vanligt definieras summan av de koefficienter för att vara 1:
Med luddigt c- hjälpmedlet, centroiden av en samla i en klunga är medlet pekar, vägde allra vid deras grad av att höra hemma till samla i en klunga:
Graden av att höra hemma förbinds till omvändningen av distansera till samla i en klunga
därefter normaliseras fuzzyfied koefficienterna och med en verklig parameter M > 1 så att deras summa är 1. Så
För M jämliket till 2, denna är likvärdigt till normalisering det samverka linjärt för att göra deras summa 1. När M nästan är samla i en klunga 1, därefter centrerar mest nära till peka ges mycket mer väger än andra, och algoritmen är liknande till K- hjälpmedel.
Det luddigt c- hjälpmedelalgoritmen är mycket liknande till K- hjälpmedelalgoritm:
Algoritmen minimerar intra-samla i en klunga variance som väl, men har de samma problemen som K- hjälpmedlet, minimien är en lokalminimi, och resultaten beror på det initiala primat av väger. Förväntan-maximization algoritm är en mer statistisk formaliserad metod som inkluderar några av dessa idéer: det partiska medlemskap klassificerar in. Det har bättre konvergensrekvisita och i allmänhet föredras till luddig-c-hjälpmedel.
QT (kvalitets- ingång) som samla i en klunga (Heyer et al, 1999) är en alternativ metod av att dela data som uppfinns för att samla i en klunga för gen. Det kräver mer beräkning driver än K- hjälpmedlet, men kräver inte att specificera numrera av samla i en klunga en priori, och går alltid det samma resultatet tillbaka när körningen flera tider.
Algoritmen är:
Distansera mellan en peka och en grupp av pekar beräknas genom att använda den färdiga sammanlänkningen, dvs. se att ”Agglomerative hierarkiskt samla i en klunga” som ska delas upp distanserar omkring samla i en klunga between), som maximat distanserar från peka till någon medlem av gruppen (.
Locality-känslig hashing kan användas för att samla i en klunga. Särdragutrymmevektorer är uppsättningar, och använda det meter är Jaccard distanserar. Särdragutrymmet kan vara ansett kick-dimensionellt. minut-kloka oberoende permutations LSH-intrigen (ibland MinHash) är van vid satta liknande objekt in i ösregnar därefter. Med rättvis en uppsättning av hashingmetoder finns det samla i en klunga endast av mycket liknande beståndsdelar. Genom att kärna ur, fungerar pölsan flera tider (eg. 20), är det möjligheten som ska fås större, samla i en klunga. [1]
Formell begreppsanalys är en teknik för att frambringa samla i en klunga av anmärker och attribut som ges a bipartite graf föreställa förbindelsen mellan anmärker och attribut. Andra metoder för att frambringa överlappning samla i en klunga (a täcka i stället för a delning) diskuteras av Jardine och Sibson (1968) och Cole och Wishart (1970).
Armbågakriteriet är vanligt tumregel för att bestämma vad numrera av, samla i en klunga bör väljas, till exempel för K- hjälpmedel och agglomerative hierarkiskt samla i en klunga. Det bör också noteras att den initiala uppgiften av samla i en klunga frö har att uthärda på finalen som modellerar kapacitet. Således är det anslår för att köra tiderna för samla i en klungaanalysmultipeln om igen.
Armbågakriteriumnågot att säga, att du bör välja ett nummer av, samla i en klunga, så att tillfoga another samla i en klunga, tillfogar inte tillräcklig information. Mer exakt, om du graph, samla i en klunga procentsatsen av variancen som förklaras av, mot numrera av samla i en klunga, samla i en klunga första ska tillfogar mycket information (förklara en raddavariance), men på något pekar den ska marginella affärsvinsten tappar och att ge en meta i grafen (armbåga). Detta armbågar kan inte alltid otvetydigt identifieras. Den förklarade procentsatsen av variancen är förhållandet av mellan-grupperar variance till den sammanlagda variancen.
På efter grafen indikeras armbåga av det rött cirklar. Numrera av samla i en klunga valt bör därför vara 4.
Givet en uppsättning av data pekar A, likhetsmatris kan definieras som en matris S var Sij föreställer en mäta av likheten between pekar . Spektral- samla i en klungatekniker gör bruk av spectrum av likhetsmatrisen av datan som ska utföras dimensionalityförminskning för att samla i en klunga i mer få dimensionerar.
En sådan teknik är Shi-Malik algoritm, gemensamt använt för avbilda segmentation. Det delar pekar in i två uppsättningar (S1,S2) baserat på eigenvector v motsvara till detminst eigenvalue av Laplacian matris
av S, var D är den diagonala matrisen
| Dii = | ∑ | Sij. |
| j |
Detta som delar, kan göras på olika sätt, liksom, genom att ta det median- M av delarna in v, och förlägga alla pekar vars del- i v är mer stor än M i S1, och vila in S2. Algoritmen kan användas för hierarkiskt samla i en klunga, genom upprepade gånger att dela underdelarna i denna, danar.
En släkt algoritm är Meila-Shi algoritm, som tar eigenvectors motsvara till K störst eigenvalues av matrisen P = SD − 1 för något K, och åkallar därefter another (e.g. K- hjälpmedlet) som samla i en klunga, pekar vid deras respektive K delar i dessa eigenvectors.
I biologi samla i en klunga har många applikationer
Samla i en klunga analys används brett in marknadsföra forskning när arbete med multivariats- data från granskningar och testa paneler. Marknadsföra forskare som bruk samla i en klunga analys för att dela generalen befolkning av konsumenter in i marknadsföra segmenterar, och att förbättra förstå förhållandena mellan olika grupper av potentiella konsumenter/ kunder.
Samkvämet knyter kontakt analys: I studien av samkvämet knyter kontakt, kan att samla i en klunga vara van vid känner igen gemenskaper inom stora grupp människor.
Avbilda segmentation: Att samla i en klunga kan vara van vid delar a digitalt avbilda in i distinkt regioner för gränsa upptäckt eller anmärka erkännande.
Bryta för data: Många bryta för data applikationer gäller delning dataobjekt in i släkta underdelar; de marknadsföra applikationerna som över diskuteras, föreställer några exempel. En annan allmänningapplikation är uppdelningen av dokument, liksom World wide web sidor in i genrer.
Gruppera för sökanderesultat: I det processaa av intelligent gruppera av sparar, och websites som samla i en klunga kan vara van vid skapar en mer relevant uppsättning av sökanderesultat som jämförs till något liknande för det normalasökandemotorer Google. Det finns ett nummer av rengöringsduken baserat samla i en klunga bearbetar för närvarande liksom Clusty.
Slippy kartlägga optimization: Flickrs kartlägga av foto, och annat kartlägger platsbruk som samla i en klunga för att förminska numrera av markörer på en kartlägga. Detta gör det både snabbare och förminskar beloppet av visuellt hjälpmedelröra.
IMRT-segmentation: Att samla i en klunga kan vara van vid delar en fluence kartlägger in i distinkt regioner för omvandling in i deliverable sätter in i MLC-baserad utstrålningsterapi.
Gruppera av shoppingobjekt: Att samla i en klunga kan vara den van vid gruppen alla shoppingobjekt som är tillgängliga på rengöringsduken in i en uppsättning av unika produkter. Till exempel kan alla objekt på eBay grupperas in i unika produkter. (eBay inte har begreppet av en SKU),
Matematisk kemi: För att finna strukturell likhet, Etc., till exempel, samla i en klunga 3000 kemiska sammansättningar i utrymmet av 90 topologiska index.[2]
Det har finnas flera förslag för en mäta av likhet mellan två clusterings. En sådan mäta kan vara van vid jämför hur väl olika data som samla i en klunga algoritmer utför på en uppsättning av data. Många av dessa mäter härledas från matcha matrisen (aka förvirringsmatris) e.g., Randen mäter och Fowlkesen-Mallows BK mäter.[3]
MeterMarinaMeilas variation av information är ett nyare att närma sig för att mäta distanserar mellan clusterings. Det använder ömsesidig information och entropi att approximera distansera mellan två clusterings över gallret av möjlighetclusterings.
Under senare år har betydligt försök satts in i att förbättra algoritmkapaciteten (Z. Huang 1998). Bland det populärast var CLARANS (Ng och Han, 1994), DBSCAN (Ester o.a., 1996) och BJÖRK (Zhang o.a., 1996).
För spektral- samla i en klunga:
För beräkning numrera av samla i en klunga:
För diskussionen av armbågakriteriet:
|
Custom Search
|
© Copyright 2011 WorldLingo. Med förbehåll.