News: |
Связывать будет классифицирование предметов в по-разному группы, или точно, разделять a комплект данных в подсовокупности (группы), TAK, CTO данные в каждой подсовокупности (идеально) будут делить некоторый общий trait - часто определенную близость согласно некоторому измерение расстояния. Связывать данных будет общий метод для статистически анализ информации, который использовано в много полей, вклюать учить машины, минирование данных, распознавания по образцу, анализ изображения и bioinformatics. Вычислительная задача классифицировать комплект данных в k группы часто refer to как k- связывающ.
Кроме термины связывать данных (или как раз связывать), будут несколько термины при подобные смысли, вклюая анализ путем разбиения на группы, автоматическое классифицирование, численная таксономия, botryology и типологический анализ.
Содержание |
Алгоритмы данных связывая могут быть иерархическо или partitional. Иерархические алгоритмы находят последовательные группы использующ ранее установленные группы, тогда как алгоритмы partitional обусловливают все группы сразу. Иерархические алгоритмы могут быть агломератовы («bottom-up») или divisive («top-down»). Агломератовые алгоритмы начинают с каждым элементом по мере того как отдельно группа и сливают их в последовательно более большие группы. Divisive алгоритмы начинают с комплектом целого и продолжают разделить его в последовательно более малые группы.
Двухсторонний связывать, co-связывать или biclustering связывайте методы где not only связаны предметы но также характеристики предметов, т.е., если данные представлены в a матрица данных, рядки и колонки связаны одновременно.
Другое важное различение использует ли связывать симметричные или асимметричные расстояния. Свойство Эвклидов космос будет что расстояния симметричны (расстояние от предмета A к B это же как расстояние от B к A). В других применениях (например, методы последовательност-выравнивания, видят Prinzie & Фургон вертеп Poel (2006)), это не будет случаем.
Важный шаг в нисколько связывать должен выбрать a измерение расстояния, который обусловит как сходство 2 элементов высчитывает. Это будет влиять на форму групп, по мере того как некоторые элементы могут быть close to одно другое согласно одному расстоянию и продвигать прочь согласно другим. Например, в габаритном космосе 2, расстоянием между пунктом (x=1, y=0) и началом (x=0, y=0) будут всегда 1 согласно обычным нормам, но расстоянием между пунктом (x=1, y=1) и началом могут быть 2, или 1 если вы принимаете соответственно 1 норму, то, норма 2 или расстояние безграничност-нормы.
Общие функции расстояния:
Иерархические связывая строения (агломератовые), или ломают вверх (divisive), иерархия групп. Традиционным представлением этой иерархии будет a вал (вызвано a dendrogram), с индивидуальными элементами на одном конце и одиночной группе содержа каждый элемент на другом. Агломератовые алгоритмы начинают вверху вал, тогда как divisive алгоритмы начинают на корне. (В рисунке, стрелки показывают агломератовый связывать.)
Резать вал на, котор дали высоте передаст связывать на выбранной точности. В following примере, резать после второго рядка произведет группы {a} {b c} {d e} {f}. Режущ после того как третий рядок произведет группы {a} {b c} {d e f}, который более грубый связывать, с более малым количеством более больших групп.
Например, предположите эти данные должен быть связанным, и эвклидово расстояние будет расстояние метрическое.
Иерархический связывать dendrogram был как такие:
Этот метод строит иерархию от индивидуальных элементов прогрессивно сливать группы. В нашем примере, мы имеем 6 элементов {a} {b} {c} {d} {e} и {f}. Первый шаг должно обусловить которые элементы, котор нужно слить в группе. Обычно, мы хотим принять 2 самых близких элемента, согласно выбранному расстоянию.
Опционно, одно может также построить a матрица расстояния на этой стадии, где номер в iий- рядок th j- колонка th будет расстоянием между iий- th и j- элементы th. После этого, как связывающ развивает, слиты уточнены рядки и колонки по мере того как группы слиты и расстояния. Это будет общяя дорога снабдить этот тип связывать, и имеет преимущество прятать расстояния в тайнике между группами. Просто агломератовый связывая алгоритм описан в одиночный связывать рычага страница; его можно легко приспособиться к по-разному типам рычага (см. ниже).
Предположите мы сливало 2 самых близких элемента b и c, мы теперь имеем following группы {a}, {b, c}, {d}, {e} и {f}, и те слить их более далее. Для того чтобы сделать то, нам нужно принять расстояние {a} и {b c}, и поэтому определяем расстояние между 2 группами. Обычно расстояние между 2 группами и одно из following:
Каждая аггломерация происходит на дистанцияа огромного размера между группами чем ранее аггломерация, и можно решить остановить связать то когда группы слишком далеки врозь быть слитым (критеря по расстояния) или когда будет достаточно малое количество групп (критери по номера).
Другое изменение агломератового связывая подхода схематический связывать.
K- алгоритм середин задает каждый пункт к группе также вызванный центр (центроидой) будет само близко. Центром будет средний всех пунктов в группе что, свои координаты будет арифметическая середина для каждого размера отдельно над всеми пунктами в группе…
Шаги алгоритма (J. MacQueen, 1967):
GLAVNыми преимуществами этого алгоритма будут своими простотой и скоростью позволяет ее побежать на больших datasets. Свой недостаток что он не производит такой же результат при побежали каждое, котор, в виду того что приводя к группы зависят на первоначально случайно назначениях. Оно уменьшает отклонение intra-группы, но не обеспечивает что результат имеет глобальный минимум отклонения.
В пушистый связывать, каждый пункт имеет STEPENь принадлежать к группам, как внутри нечеткая логика, rather than принадлежащ вполне до как раз одна группа. Таким образом, пункты на крае группы, могут быть в группе к меньшему STEPENи чем указывает в центр группы. Для каждого пункта x мы имеем коэффициент дать STEPENь быть в kгруппа th uk(x). Обычно, сумма тех коэффициентов определена для того чтобы быть 1:
С пушистой c- серединами, центроида группы будут середина всех пунктов, утяжеленная их STEPENью принадлежать к группе:
STEPENь принадлежать отнесен к inverse расстояния к группе
после этого коэффициенты нормализованы и fuzzyfied с реальным параметром m > 1 TAK, CTO их сумма будет 1. Так
Для m равный до 2, это соответствующ к нормализовать коэффициент линейно для того чтобы сделать их сумму 1. Когда m close to 1, после этого свяжите центр самый близкий к пункту дает очень больше веса чем другие, и алгоритм подобен к k- середины.
Пушистая c- алгоритм середин очень подобен к k- алгоритм середин:
Алгоритм уменьшает отклонение intra-группы также, но имеет такие же проблемы как k- серединами, минимум будут локальный минимум, и результаты зависят на первоначально выборе весов. алгоритм Ожиданност-максимизации более статистически оформленный метод вклюает некоторые из этих идей: частично членство в типах. Оно имеет более лучшие свойства схождения и вообще предпочесно к пушист-c-намеревается.
Квартой (порогом качества) связывая (Heyer et al, 1999) будет другой метод разделять данные, изобретенный для связывать гена. Оно требует больше производительности компьютера чем k- середины, но не требуют определять число групп a priori, и всегда возвращает такой же результат когда бег несколько времен.
Алгоритм является следующим:
Вычислено расстояние между пунктом и группой в составе пункты использующ вполне рычаг, т.е. как максимальное расстояние от пункта к любому члену группы (см. «агломератовый иерархический связывая» раздел о расстоянии между группами).
Местообитани-чувствительное хэширование смогите быть использовано для связывать. Векторами космоса характеристики будут комплекты, и используемое метрическое Расстояние Jaccard. Космос характеристики можно рассматривать высок-габаритно. минут-велемудрые независимо пермутирования Схема LSH (иногда MinHash) после этого использована для того чтобы положить подобные детали в ведра. С как раз одним комплектом методов хэширования, будут только группы очень подобных элементов. Путем осеменять функции хэша несколько времен (например 20), по возможности получить более большие группы. [1]
Официально анализ принципиальной схемы метод для производить группы предметов и атрибутов, котор дали a bipartite диаграмма представлять отношения между предметами и атрибутами. Другие методы для производить перекрывая группы (a крышка rather than a перегородка) обсудите Jardine и Sibson (1968) и Cole и Wishart (1970).
Критерей по локтя будет общее практический метод обусловить что число групп должно быть выбрано, например для k- середины и агломератовый иерархический связывать. Оно должно также быть замечено что первоначально назначение семян группы имеет bearing on окончательное модельное представление. Таким образом, соотвествующее re-run времена многократной цепи анализа путем разбиения на группы.
Критеря по локтя говорит что вы должны выбрать несколько группы TAK, CTO добавлять другую группу не добавит достаточно информацию. Точно, если вы изображаете диаграммой процент отклонения объясненный группами против числа групп, то первые группы добавят много информацию (объясните множество отклонения), но на некоторый этап предельное увеличение упадет, дающ угол в диаграмме (локте). Этот локоть нельзя всегда точно выраженно определить. Объясненным процентом отклонения будет коэффициент отклонения между-группы к полной дисперсии.
На following диаграмме, локоть показан красным кругом. Число выбранных групп должно поэтому быть 4.
Дали комплект частных значений a, матрица сходства смогите быть определено как матрица S где Siийj представляет измерение сходства между пунктами . Спектральные связывая методы используют спектр матрицы сходства данных, котор нужно выполнить уменьшение размерности для связывать в немногих размерах.
Один такой метод Алгоритм Shi-Malik, общ использовано для сегментация изображения. Оно разделяет пункты в 2 комплекта (S1,S2) основано на эйгенвектор v соответствовать к втор-самому малому эйгенвалю Матрица Laplacian
S, где D раскосная матрица
| Diийiий = | ∑ | Siийj. |
| j |
Это разделяя может быть сделано в различных дорогах, such as путем принимать медиану m компонентов внутри v, и устанавливающ полностью компонент пунктов которого в v будет greater than m в S1, и остальные внутри S2. Алгоритм можно использовать для иерархический связывать повторно разделять подсовокупности in this fashion.
Родственный алгоритм Алгоритм Meila-Shi, который принимает эйгенвекторы соответствовать к k само больш эйгенвалюы матрицы P = SD − 1 для некоторого k, и после этого invokes другие (например. k- середины) связать пункты их соответственно k компоненты в этих эйгенвекторах.
В биология связывать имеет много применений
Анализ путем разбиения на группы широко использовано внутри изучение рынка PRI работе с multivariate данными от обзоры и испытательные пульты. Исследователя рынка используют анализ путем разбиения на группы для того чтобы разделить генералитета населенность едоки в рыночные зоны и более лучше понять отношения между по-разному группами в составе едоки/потенциал клиенты.
Социальное сетевой анализ: В изучении социальные сети, связывать может быть использован для того чтобы узнать общины внутри большие группы в составе люди.
Сегментация изображения: Связывать можно использовать для того чтобы разделить a цифрово изображение в определенные зоны для обнаружение граници или опознавание предмета.
Минирование данных: Много минирование данных применения включают разделить детали данных в родственные подсовокупности; применения маркетинга обсуженные выше представляют некоторые примеры. Другим общим применением будет разделение документов, such as World wide web страницы, в genres.
Собирать результата поиска: In the process of толковейшая группа в составе архивы и websites, связывать может быть использован для того чтобы создать более уместный комплект результатов поиска сравненных к нормальным двигателям поиска как Google. Будут в настоящее время несколько инструменты основанные стержнем связывая such as Clusty.
Оптимизирование карты Slippy: Flickr карта фотоих и другие места карты используют связывать для уменьшения числа отметок на карте. Это делает его и более быстро и уменьшает количество визуально местных помех.
Сегментация IMRT: Связывать можно использовать для того чтобы разделить карту fluence в определенные зоны для преобразования в deliverable поля в MLC-основанный радиотерапии.
Группа в составе детали покупкы: Связывать можно использовать для того чтобы собрать все детали покупкы имеющиеся на стержне в комплект уникально продуктов. Например, все детали на eBay можно собрать в уникально продукты. (eBay не имеет принципиальную схему SKU)
Математически химия: Для того чтобы найти структурно сходство, cEtc, например, 3000 химически смесей были связаны в космосе 90 топологические индексы.[2]
Были несколько предложений для измерения сходства между 2 clusterings. Такое измерение можно использовать для того чтобы сравнить how well алгоритмы по-разному данных связывая выполняют на комплекте данных. Много из этих измерений выведены от сопрягая матрица (aka матрица запутанности), например, Измерение Rand и Fowlkes-Mallows Bk измерения.[3]
Изменением Marina Meila информации метрическим будет более недавний подход для измеряя расстояния между clusterings. Оно использует взаимная информация и энтропия приблизиться расстояние между 2 clusterings через решетку по возможности clusterings.
In recent years значительное усилие было положено в улучшать представление алгоритма (Z. Huang, 1998). Среди самого популярного находитесь CLARANS (Ng и Han, 1994), DBSCAN (Эстеры et al., 1996) и БЕРЕЗА (Zhang et al., 1996).
Для спектральный связывать:
Для оценивать количество групп:
Для обсуждения критери по локтя:
|
Custom Search
|
© Авторское право 2011 WorldLingo. Все права защищены.