상위 10 개 기사

체르노빌 재해
한국 전쟁
중국 숫자
폐 계면활성제
피츠버그 공립학교
영국의 강의 명부
멕시코
히브리어 성경
슬로베니아 문학
중국

News:

산법을 K 의미한다

산법을 k 의미한다 산법은에 있다 송이 n 속성에로 근거하는 목표 k 분할, k < n. 그것은과 유사하다 기대 극대화 산법 혼합물을 위해의 Gaussians 저것에서 그들은 둘 다 자료에 있는 자연적인 송이의 센터를 찾아내는 것을 시도한다. 목표가 모양 a를 돌린ㄴ다고 추정한다 벡터 공간. 그것이 달성하는 것을 시도하는 목적은 네모로 한 오차 함수 총 안 송이 차이를, 또는 극소화하기, 위한 것이다

있는 곳에 k 송이 SI, i = 1, 2,…, k, µI 이다 중심 또는 모든 점의 점을 의미하십시오 xjSI.

산법의 일반적인 모양은 알려져 있는 반복 세렬 발견을 로 사용한다 Lloyd의 산법. Lloyd의 산법은 입력 점을 k 머리글자 세트로, 마구잡이로 분할하거나 약간 발견적인 자료를 사용해서 시작한다. 그것은 그 때 각 세트의 비열한 점, 또는 중심을, 산출한다. 그것은 가장 가까운 중심과 각 점을 관련시켜서 새로운 분할을 건설한다. 그 때 중심은 새로운 송이 및 얻어지는 집중까지 이 2개 단계의 교체 신청에 의해 반복된 산법을 위해 점이 더 이상 송이를 전환하지 않을 때 재계산된다, (또는 양자택일로 중심은 더 이상 바뀌지 않는다).

Lloyd의 산법은 동의어로 자주 사용한다 k 의미하고, 그러나 실제로 Lloyd의 산법은 해결을 위해 발견적 k 의미한다 문제를이다[1], 그러나 출발점 및 중심의 특정 조합으로, Lloyd의 산법은 실제로 틀린 응답에 한데 모아질 수 있다 (ie는 상기의 최소화 기능에 다른 최선 응답 존재한다.)

다른 변이는 존재한다[2], 그러나 Lloyd의 산법은 실제로는 극단적으로 빨리 한데 모아지기 때문에 대중적 남아 있었다. 실제로, 많은 것은 반복의 수가 전형적으로 매우 점의 수 보다는 더 적은다는 것을 관찰했다. 거기 특정 점 세트 포획을 k 의미하는 존재한ㄴ다는 것을 최근에, 그러나, 데비드 아서와 Sergei Vassilvitskii는 보여주었다 superpolynomial 시간: 2Ω (√n) 한데 모아지기 위하여.[3]

사용하는 산법이 디자인되었다는 것을 대략 k 의미한다 coresets: 원래 자료의 작은 부분 집합.

성과의 점에서 산법은 세계적인 최적 조건을 돌려보내기 위하여 보장되지 않는다. 마지막 해결책의 질은 송이의 처음 세트에 크게 달려 있고, 실제로는 세계적인 최적 조건 보다는 매우 빈약할지도 모른다.[표창장은 필요로 했다] 산법이 극단적으로 빠르기 때문에, 일반적인 방법은 몇 시간 산법을 달리고 찾아낸 제일 밀집하기 돌려보내기 위한 것이다.

의 결점은 산법이 송이의 수 다는 것을 k 의미한다 k 입력 매개변수는 이다. 부적당한 선택의 k 빈약한 결과를 가져온 일지모른다. 산법은 또한 추정한다 차이 송이 살포의 적합한 측정은 이다.

목차

산법의 논증

뒤에 오는 심상은 k 의미한다 2차원 케이스를 위한 활동에 있는 밀집하는 산법을, 설명한다. 처음 센터는 단계를 더 자세히 설명하기 위하여 무작위로 생성된다.

산법의 신청

심상 분할

밀집하는 산법이 안으로 상용된ㄴ다는 것을 k 의미한다 컴퓨터 시가 모양으로의 심상 분할. 분할의 결과는 원조하기 위하여 이용된다 국경 탐지 그리고 목표 승인. 이 문맥에서는, 기준 유클리드 거리 보통 송이 형성에서 부족하다. 대신, 무겁게 한 거리 측정 이용 화소 협조, RGB 화소 색깔 및 또는 강렬 및 심상 짜임새는 상용된다.[4]

PCA에 관계

최근에 보였다[5][6] relaxed 해결책은의 송이 지시자에 의해 지정된 밀집하기 k 의미한다, 주어진다 PCA에 의해 (기본 성분 분석) 기본 성분 및 주방향에 의해 뼘으로 잰 PCA 부분공간은 사이 종류 살포 모체에 의해 지정된 송이 중심 부분공간과 동일하다.

증진

2006년에 머리글자 센터 선택의 새로운 방법은 제시되었다 [1], 새로 녹음된 "k-means++". 아이디어는 대량 점 거의 처음에 이미 이다 방법에 있는 센터를 선정하기 위한 것이다. 저자 사용 L2 센터 선정에 있는 규범, 그러나 개요 Ln 씨를 뿌리기의 적극성을 조정하는 사용된 일지모른다.

이 씨를 뿌리는 방법은 밖으로 마지막 과실에 있는 상당한 개선을의 k 의미한다 준다. 산법에 있는 처음 선택이 상당 기간을 걸리더라도, 씨를 뿌리는 이것 후에 아주 빨리 한데 모아지고 이렇게 씨를 뿌리는 것이 실제로 계산 시간을 역시 낮춘ㄴ다는 것을 k 의미한다. 저자는 속도에 있는 10배 개선에 진짜와 합성 데이타세트를 가진 그들의 방법을 시험하고 전형적으로 2 접힌다 얻고, 특정 데이타세트를 위해 거의 과실에 있는 개선을 1000 접히십시오. 그들의 시험은 적어도 바닐라가 속도와 과실 둘 다에서 k 의미하는 것처럼 좋기 위하여 거의 반드시 새로운 방법을 보여주었다.

게다가, 저자는 그들의 산법을 위한 근사 비율을 산출한다. 이것은 바닐라로 k 의미하는 행해지지 않았 무언가이다 (그것의 몇몇 변이에). 근사 비율이 있는 k-means++ 보증 O(통나무 (k)) 곳에 k 이용된 송이의 수는 이다.

변이

네모로 한 과실 극소화 송이 기능의 세트는 또한 포함한다 K- medoids 산법, 실제적인 점의 한개이기 위하여 각 송이의 중심점을 강제하는 접근.

참고

  • J. B. MacQueen (1967년): "다변량 관측의 분류 그리고 분석을 위한 몇몇 방법", 수학 통계에 버클리 5 심포지엄의 절차 및 확율, 버클리 의 압박, 1:281 - 297 가주 대학
  • J. A. Hartigan (1975년) "밀집하는 산법". 윌에이.
  1. ^ a b D. 아서, S. Vassilvitskii: "k-means++ 주의깊은 씨를 뿌리기의 이점" 분리된 산법 (소다)에 2007년 심포지엄.
  2. ^ 능률은 밀집하는 산법을 k 의미한다: 분석과 실시, T. Kanungo, D. M. 산, N. Netanyahu, C. Piatko, R. Silverman 및 A. Y. 우, IEEE Trans. 본 분석과 인공 지능, 24 (2002년), 881-892.
  3. ^ 데비드 아서 & Sergei Vassilvitskii (2006년). "얼마나 느린 k 의미한다 방법을 인가?". 컴퓨터 기하학 (SoCG)에 2006년 심포지엄의 절차. 
  4. ^ Shapiro, Linda G. & 조지 C., Stockman. (2001). 컴퓨터 시가. 위 안장 강, NJ: 선취 홀.
  5. ^ H. Zha, C. 종소리, M. 구, X. 그와 H.D. 사이몬. "괴기한 이완 를 위한"는 밀집하기, 신경 정보 처리 체계 vol.14 (작은 조각 2001년) K 의미한다. PP. 1057-1064형의, 뱅쿠버, 캐나다. 12월. 2001.
  6. ^ Chris 종소리와 Xiaofeng 그. "기본 성분 분석을 통해 밀집하를" K 의미한다. Proc. Int'l Conf의. 기계 (ICML 2004년), PP 배우기 225-232. 2004년 7월.

외부 연결

또한 보십시오

The original article is from Wikipedia. To view the original article please click here.
Creative Commons Licence