Метод на групиране: описание, основни концепции, характеристики на приложението

Съдържание:

Метод на групиране: описание, основни концепции, характеристики на приложението
Метод на групиране: описание, основни концепции, характеристики на приложението
Anonim

Методът на клъстериране е задачата за групиране на набор от обекти по такъв начин, че те в една и съща група да са по-сходни един с друг, отколкото на обекти в други индустрии. Това е основната задача на извличането на данни и обща техника за статистически анализ, използвана в много области, включително машинно обучение, разпознаване на модели, разпознаване на изображения, извличане на информация, компресиране на данни и компютърна графика.

Проблем с оптимизация

използвайки метода на клъстериране
използвайки метода на клъстериране

Самият метод на клъстериране не е един специфичен алгоритъм, а обща задача, която трябва да бъде решена. Това може да се постигне с различни алгоритми, които се различават значително в разбирането какво представлява групата и как да я намираме ефективно. Използването на метода на клъстериране за формиране на метасубекти включва използването на група смалки разстояния между членовете, плътни области на пространството, интервали или определени статистически разпределения. Следователно клъстерирането може да се формулира като многоцелеви оптимизационен проблем.

Подходящите настройки на метода и параметрите (включително елементи като използваната функция за разстояние, праг на плътност или броя на очакваните клъстери) зависят от индивидуалния набор от данни и предвиденото използване на резултатите. Анализът като такъв не е автоматична задача, а итеративен процес на откриване на знания или интерактивна многоцелева оптимизация. Този метод на клъстериране включва опити за опити и грешки. Често е необходимо да се модифицира предварителната обработка на данните и параметрите на модела, докато резултатът постигне желаните свойства.

В допълнение към термина "клъстериране", има редица думи с подобни значения, включително автоматична класификация, числена таксономия, ботриология и типологичен анализ. Тънките разлики често се крият в използването на метода на клъстериране за формиране на метасубектни връзки. Докато при извличането на данни получените групи представляват интерес, при автоматичната класификация тези функции вече изпълняват дискриминационната сила.

Клъстерният анализ се основава на множество произведения на Крьобер през 1932 г. Въведен е в психологията от Зубин през 1938 г. и от Робърт Трайън през 1939 г. И тези произведения се използват от Cattell от 1943 г., за да посочат класификацията на методите за групиране на теория.

Срок

употребаметод
употребаметод

Понятието "клъстер" не може да бъде точно дефинирано. Това е една от причините, поради които има толкова много методи за клъстериране. Има общ знаменател: група обекти с данни. Различните изследователи обаче използват различни модели. И всяко от тези употреби на методи за клъстериране включва различни данни. Концепцията, открита от различни алгоритми, се различава значително по своите свойства.

Използването на метода за групиране е ключът към разбирането на разликите между инструкциите. Типичните модели на клъстери включват:

  • Centroid s. Това е, например, когато к-средните клъстериране представлява всеки клъстер с един среден вектор.
  • Модел на свързване s. Това е например йерархично клъстериране, което изгражда модели въз основа на свързаност от разстояние.
  • Модел на разпространение s. В този случай клъстерите се моделират с помощта на метода на клъстериране за формиране на метасубектни статистически разпределения. Като например многовариантно нормално разделяне, което е приложимо към алгоритъма за максимизиране на очакванията.
  • Модел с плътност s. Това са например DBSCAN (Пространствен алгоритъм за клъстериране с шум) и OPTICS (Точки на поръчка за откриване на структура), които дефинират клъстерите като свързани плътни региони в пространството на данни.
  • Модел на подпространство c. При биклъстериране (известно също като съвместно групиране или два режима), групите се моделират с двата елемента и със съответните атрибути.
  • Модел s. Някои алгоритми не го правятусъвършенствана връзка за техния метод за групиране за генериране на мета-предметни резултати и просто предоставяне на групиране на информация.
  • Модел, базиран на графика s. Клика, тоест подмножество от възли, така че всеки две връзки в ръбовата част могат да се разглеждат като прототип на формата на клъстера. Отслабването на общото търсене е известно като квази-клики. Точно същото име е представено в алгоритъма за клъстериране на HCS.
  • Невронни модели s. Най-известната мрежа без надзор е самоорганизиращата се карта. И точно тези модели обикновено могат да се характеризират като подобни на един или повече от горните методи за клъстериране за формиране на мета-субектни резултати. Той включва подпространствени системи, когато невронните мрежи прилагат необходимата форма на анализ на главни или независими компоненти.

Този термин всъщност е набор от такива групи, които обикновено съдържат всички обекти в набора от методи за клъстериране на данни. Освен това може да посочи връзката на клъстерите един към друг, като йерархия от системи, вградени една в друга. Групирането може да бъде разделено на следните аспекти:

  • Метод на твърд центроиден клъстер. Тук всеки обект принадлежи към група или е извън нея.
  • Мека или размита система. В този момент всеки обект вече принадлежи до известна степен към който и да е клъстер. Нарича се още метод за размито клъстериране на c-средни.

Възможни са и по-фини разлики. Например:

  • Строго клъстериране на дялове. Туквсеки обект принадлежи точно на една група.
  • Строго клъстериране на дялове с отклонения. В този случай обектите може също да не принадлежат към нито един клъстер и да се считат за ненужни.
  • Припокриващо се клъстериране (също алтернативно, с множество изгледи). Тук обектите могат да принадлежат на повече от един клон. Обикновено включва твърди клъстери.
  • Йерархични методи за клъстериране. Обектите, принадлежащи към дъщерна група, също принадлежат към родителската подсистема.
  • Формиране на подпространство. Макар и подобни на припокриващите се клъстери, в рамките на уникално дефинирана система, взаимните групи не трябва да се припокриват.

Инструкции

използвайки метода на клъстериране за формиране
използвайки метода на клъстериране за формиране

Както е посочено по-горе, алгоритмите за клъстериране могат да бъдат класифицирани въз основа на техния клъстерен модел. Следващият преглед ще изброи само най-ярките примери за тези инструкции. Тъй като може да има над 100 публикувани алгоритма, не всички предоставят модели за своите клъстери и следователно не могат да бъдат лесно класифицирани.

Няма обективно правилен алгоритъм за клъстериране. Но, както беше отбелязано по-горе, инструкцията винаги е в полезрението на наблюдателя. Най-подходящият алгоритъм за клъстериране за конкретен проблем често трябва да бъде избран експериментално, освен ако няма математическа причина за предпочитане на един модел пред друг. Трябва да се отбележи, че алгоритъм, проектиран за един тип, обикновено не работинабор от данни, който съдържа коренно различен предмет. Например, k-средните не могат да намерят не-изпъкнали групи.

Клъстериране, базирано на връзка

метод на клъстериране
метод на клъстериране

Този съюз е известен и с името си, йерархичния модел. Тя се основава на типичната идея, че обектите са по-свързани със съседни части, отколкото с тези, които са много по-далеч. Тези алгоритми свързват обекти, образувайки различни клъстери в зависимост от разстоянието им. Една група може да бъде описана главно с максималното разстояние, което е необходимо за свързване на различните части на клъстера. На всички възможни разстояния ще се образуват други групи, които могат да бъдат представени с помощта на дендрограма. Това обяснява откъде идва общоприетото име "йерархично клъстериране". Това означава, че тези алгоритми не предоставят единичен дял от набора от данни, а вместо това предоставят обширен ред на правомощия. Благодарение на него има изтичане един с друг на определени разстояния. В дендрограма оста y обозначава разстоянието, на което клъстерите се събират. И обектите са подредени по линията X, така че групите да не се смесват.

Клъстерирането, базирано на връзка, е цяло семейство от методи, които се различават по начина, по който изчисляват разстоянията. В допълнение към обичайния избор на функции за разстояние, потребителят също трябва да вземе решение за критерия за свързване. Тъй като клъстерът се състои от няколко обекта, има много опции за изчисляването му. Популярният избор е известен като групиране с един лост, това е методътпълна връзка, която съдържа UPGMA или WPGMA (непретеглен или претеглен ансамбъл от двойки със средноаритметично, известен също като клъстериране на средни връзки). В допълнение, йерархичната система може да бъде агломеративна (започвайки с отделни елементи и комбинирането им в групи) или разделяща (започвайки с пълен набор от данни и разбивайки го на секции)..

Разпределено клъстериране

метод на клъстериране за формиране
метод на клъстериране за формиране

Тези модели са най-тясно свързани със статистики, които се основават на разделения. Клъстерите могат лесно да бъдат определени като обекти, които най-вероятно принадлежат към едно и също разпределение. Удобна характеристика на този подход е, че той е много подобен на начина, по който се създават изкуствени набори от данни. Чрез вземане на проби от произволни обекти от разпределение.

Докато теоретичната основа на тези методи е отлична, те страдат от един ключов проблем, известен като свръхоборудване, освен ако не са наложени ограничения върху сложността на модела. По-голяма асоциация обикновено обяснява данните по-добре, което затруднява избора на правилния метод.

модел на гаусова смес

Този метод използва всички видове алгоритми за максимизиране на очакванията. Тук наборът от данни обикновено се моделира с фиксиран (за да се избегне отменянето) брой гаусови разпределения, които се инициализират на случаен принцип и чиито параметри се оптимизират итеративно, за да паснат по-добре на набора от данни. Тази система ще се доближи до локален оптимум. Ето защо няколко бягания могат да дадатразлични резултати. За да се получи най-тясно групиране, характеристиките често се приписват на гаусово разпределение, към което най-вероятно принадлежат. А за по-меките групи това не е необходимо.

Клъстерирането, базирано на разпространение, създава сложни модели, които в крайна сметка могат да уловят корелацията и зависимостта между атрибутите. Тези алгоритми обаче налагат допълнителна тежест на потребителя. За много набори от данни в реалния свят може да няма кратко дефиниран математически модел (например, ако приемем, че разпределението на Гаус е доста силно предположение).

Групиране на базата на плътност

групиране за образуване
групиране за образуване

В този пример групите са основно дефинирани като области с по-висока непроницаемост от останалата част от набора от данни. Обектите в тези редки части, които са необходими за разделяне на всички компоненти, обикновено се считат за шум и крайни точки.

Най-популярният метод за клъстериране, базиран на плътност, е DBSCAN (алгоритъм за клъстериране на пространствен шум). За разлика от много по-нови методи, той има добре дефиниран клъстерен компонент, наречен "достижимост на плътността". Подобно на клъстерирането, базирано на връзка, то се основава на точки на свързване в рамките на определени прагове на разстояние. Този метод обаче събира само онези елементи, които отговарят на критерия за плътност. В оригиналната версия, дефинирана като минималния брой други обекти в този радиус, клъстерът се състои от всичкиелементи, свързани с плътността (които могат да образуват група в свободна форма, за разлика от много други методи) и всички обекти, които са в рамките на разрешения диапазон.

Друго интересно свойство на DBSCAN е, че неговата сложност е доста ниска - изисква линеен брой заявки за диапазон към базата данни. Освен това необичайно е, че той ще намери по същество едни и същи резултати (това е детерминирано за точките на ядрото и шума, но не и за граничните елементи) при всяко изпълнение. Следователно няма нужда да го стартирате няколко пъти.

Основният недостатък на DBSCAN и OPTICS е, че те очакват известен спад в плътността, за да открият границите на клъстера. Например, в набори от данни с припокриващи се гаусови разпределения – често срещан случай на използване за изкуствени обекти – границите на клъстера, генерирани от тези алгоритми, често изглеждат произволни. Това се случва, защото плътността на групите непрекъснато намалява. И в набор от данни на гаусовата смес, тези алгоритми почти винаги превъзхождат методи като EM клъстериране, които са в състояние да моделират точно тези типове системи.

Средното изместване е подход за групиране, при който всеки обект се премества в най-плътната област в квартала въз основа на оценка на цялото ядро. В крайна сметка обектите се доближават до максимуми на локална непроницаемост. Подобно на клъстерирането на k-средни, тези "атрактори на плътност" могат да служат като представители за набор от данни. Но средната промянаможе да открие произволно оформени клъстери, подобни на DBSCAN. Поради скъпата итеративна процедура и оценката на плътността, средното изместване обикновено е по-бавно от DBSCAN или k-Means. В допълнение, приложимостта на типичния алгоритъм за смяна към данни с големи размери е трудна поради нееднородното поведение на оценката на плътността на ядрото, което води до прекомерна фрагментация на опашките на клъстера.

Рейтинг

метод на клъстериране за формиране на метасубект
метод на клъстериране за формиране на метасубект

Проверката на резултатите от клъстерирането е толкова трудна, колкото и самото клъстериране. Популярните подходи включват „вътрешно“оценяване (където системата е сведена до единична мярка за качество) и, разбира се, „външно“оценяване (където групирането се сравнява със съществуваща класификация на „основната истина“). А ръчната оценка и непряката оценка на човешкия експерт се намират чрез изследване на полезността на групирането в предвиденото приложение.

Мерките за вътрешни флагове страдат от проблема, че представляват характеристики, които сами по себе си могат да се считат за цели за клъстериране. Например, възможно е да се групират данни, дадени от коефициента на Силует, с изключение на това, че няма известен ефективен алгоритъм за това. Използвайки такава вътрешна мярка за оценка, по-добре е да сравните сходството на проблемите за оптимизация.

Външният знак има подобни проблеми. Ако има такива етикети на "основна истина", тогава няма нужда от групиране. А в практическите приложения обикновено няма такива понятия. От друга страна, етикетите отразяват само един възможен дял от набора от данни, което не означаваче няма друго (може би дори по-добро) групиране.

Така че никой от тези подходи не може в крайна сметка да прецени действителното качество. Но това изисква човешка оценка, която е силно субективна. Въпреки това тази статистика може да бъде информативна при идентифицирането на лоши клъстери. Но не бива да се отхвърля субективната оценка на даден човек.

Вътрешен знак

Когато резултатът от групиране се оценява въз основа на данни, които самите са били групирани, това се нарича този термин. Тези методи обикновено приписват най-добрия резултат на алгоритъм, който създава групи с голямо сходство вътре и ниско между групите. Един от недостатъците на използването на вътрешни критерии в клъстерната оценка е, че високите резултати не водят непременно до ефективни приложения за извличане на информация. Освен това този резултат е предубеден към алгоритми, които използват същия модел. Например, k-means клъстерирането естествено оптимизира разстоянията между характеристиките и вътрешен критерий, базиран на него, вероятно ще надцени полученото клъстериране.

Следователно тези мерки за оценка са най-подходящи за получаване на представа за ситуации, при които един алгоритъм се представя по-добре от друг. Но това не означава, че всяка информация дава по-надеждни резултати от другите. Периодът на валидност, измерен от такъв индекс, зависи от твърдението, че структурата съществува в набора от данни. Алгоритъм, разработен за някои типове, няма шанс, ако множеството съдържа радикалноразличен състав или ако оценката измерва различни критерии. Например, клъстерирането на k-средни може да намери само изпъкнали клъстери и много индекси на резултат приемат същия формат. В набор от данни с не-изпъкнали модели е неподходящо да се използват k-средни и типични критерии за оценка.

Външна оценка

С този вид групиране резултатите от клъстерирането се оценяват въз основа на данни, които не са били използвани за групиране. Тоест, като познати етикети на класове и външни тестове. Такива въпроси се състоят от набор от предварително класифицирани елементи и често се създават от експерти (хора). Като такива, референтните комплекти могат да се разглеждат като златен стандарт за оценка. Тези видове методи за оценяване измерват колко близо е клъстерирането до дадени референтни класове. Наскоро обаче се обсъжда дали това е адекватно за реални данни или само за синтетични набори с действителна основна истина. Тъй като класовете могат да съдържат вътрешна структура и съществуващите атрибути може да не позволяват разделяне на клъстери. Също така, от гледна точка на откриването на знания, възпроизвеждането на известни факти може да не доведе непременно до очаквания резултат. В специален ограничен сценарий за клъстериране, при който мета-информацията (като етикети на клас) вече се използва в процеса на групиране, не е тривиално да се запази цялата информация за целите на оценката.

Сега е ясно какво не се отнася за методите за групиране и какви модели се използват за тези цели.

Препоръчано: