News: |
k-намеревает алгоритм алгоритм к группа n предметы основанные на атрибутах в k перегородки, k < n. Оно подобно к алгоритм ожиданност-максимизации для смесей Gaussians в том они оба пытают найти центры естественных групп в данных. Оно предполагает предмет приписывает форму a космос вектора. Задача, котор она пытается достигнуть должна уменьшить полное отклонение intra-группы, или, приданная квадратную форму функция ошибки
где k группы Siий, I = 1, 2,…, k, и µiий будет centroid или средний пункт всех пунктов xj ∈ Siий.
Самая общяя форма алгоритма использует известное итеративного уточнения эвристическое как Алгоритм Ллойд. Алгоритм Ллойд начинает путем разделять пункты входного сигнала в комплекты инициала k, или наугад или использование некоторых эвристических данных. Оно после этого высчитывает средний пункт, или центроиду, каждого комплекта. Оно строит новую перегородку путем связывать каждый пункт с самой близкой центроидой. После этого центроиды не рассчитать заново для новых групп, и алгоритма повторенного другим применением этих 2 шагов до схождения, которое получено когда пункты no longer не переключают группы (или друг центроиды no longer не изменены).
Алгоритм Ллойд и k-намеревается часто использован синонимно, но в Ллойд реальности алгоритм эвристическим для разрешать k-намеревается проблема[1], но с некоторыми комбинациями точек отсчета и центроид, алгоритм Ллойд может в действительности сойтись к неправильному ответу (ie по-разному и оптимальный ответ к функции минимизации выше существует.)
Другие изменения существуют[2], только алгоритм Ллойд оставал популярным потому что он сходится весьма быстро in practice. В действительности, много наблюдали что число итерирований типично очень чем число пунктов. Недавн, однако, Дэвид Артур и Sergei Vassilvitskii показали что существуют некоторые комплекты пункта на которых k-намеревает взятия superpolynomial время: 2Ω (√n) сойтись.[3]
Приблизительно k-намеревает алгоритмы было конструировано используют coresets: малые подсовокупности первоначально данных.
In terms of представление не гарантированы, что возвращает алгоритм глобальный оптимальный. Качество окончательного разрешения зависит больш на первоначально комплекте групп, и может, in practice, быть гораздо плохее чем глобальный оптимальный.[цитации] В виду того что алгоритм весьма быстрый, общий метод должен побежать алгоритм несколько времен и возвратить самый лучший найденный связывать.
Drawback k-намеревается алгоритм что число групп k параметр входящего потока. Неуместный выбор k смогите произвести плохие результаты. Алгоритм также предполагает отклонение соотвествующее измерение scatter группы.
Содержание |
Following изображения демонстрируют k-намереваются связывая алгоритм в действии, в плоский случай. Первоначально центры произведены случайно для того чтобы продемонстрировать этапы более подробно.
|
Показывает первоначально хаотизированные центроиды и несколько пункты. |
Пункты связаны с самой близкой центроидой. |
Теперь центроиды двинуты к центру их соответственно групп. |
Разделы 2 & 3 повторены до тех пор пока не достигнуть целесообразный уровень схождения. |
K-намеревает связывая алгоритм общ использован внутри зрение компьютера как форма сегментация изображения. Результаты сегментации использованы для помощи обнаружение граници и опознавание предмета. В этом смысле, стандарт эвклидово расстояние будет обычно недостаточно в формировать группы. Вместо, утяжеленный использовать измерения расстояния пиксел координаты, RGB цвет and/or интенсивность пиксела, и текстура изображения общ использованы.[4]
Было показано недавн[5][6] что ослабленное разрешение k-намеревается связывать, определенный индикаторами группы, дайте PCA (анализ основного компонента) основные компоненты, и подпространство PCA spanned главным образом направлениями идентичны к подпространству группы centroid определенному матрицей scatter между-типа.
В 2006 была предложена новая дорога выбирать центры инициала [1], dubbed «k-means++». Идеей будет выбрать центры в дороге что они уже первоначально close to большие количества пунктов. Польза авторов L2 норма в выбирать центры, но генералитет Ln смогите быть использовано для того чтобы настроить агрессивность осеменять.
Этот осеменяя метод дает вне значительные улучшения в окончательной ошибке k-намеревается. Хотя первоначально выбор в алгоритме принимает значительное время, k-намеревает сходится очень быстро после этого осеменяя и таким образом осеменять фактическ понижает время вычисления слишком. Авторы испытали их метод с реальными и синтетическими datasets и получили створку типично 2 к 10ым-кратн улучшениям в скорости, и для некоторых datasets close to 1000 улучшений створки в ошибке. Их испытания почти всегда показывали новый метод для того чтобы быть по крайней мере как хороши как ваниль k-намеревается как в скорости, так и в ошибке.
Дополнительно, авторы высчитывают коэффициент приближения для их алгоритма. Это что-то не было сделано с ванилью k-намеревается (XOT4 с несколькими изменений ее). Гарантии k-means++ для того чтобы иметь коэффициент приближения O(журнал (k)) где k число используемых групп.
Комплект приданных квадратную форму функций группы ошибки уменьшая также вклюает K- medoids алгоритм, подход который принуждает центральный пункт каждой группы для того чтобы быть одним из фактических пунктов.
|
Custom Search
|
© Авторское право 2011 WorldLingo. Все права защищены.