Многоизмерно мащабиране: дефиниция, цели, задачи и пример

2026 Автор: Angel Austin | [email protected]. Последно модифициран: 2025-01-23 12:20:42

Многовариантното мащабиране (MDS) е инструмент за визуализиране на нивото на сходство на отделни случаи в набор от данни. Отнася се до набор от свързани методи за ориентация, използвани при визуализирането на информация, по-специално за показване на информацията, съдържаща се в матрица на разстояние. Това е форма на нелинейно намаляване на размерността. Алгоритъмът MDS има за цел да постави всеки обект в N-мерно пространство по такъв начин, че разстоянията между обектите да се запазят възможно най-добре. След това на всеки обект се присвояват координати във всяко от N измерения.

Броят на измеренията на MDS графиката може да надвишава 2 и се определя априори. Изборът на N=2 оптимизира разположението на обекта за 2D диаграмата на разсейване. Можете да видите примери за многоизмерно мащабиране на снимките в статията. Примерите със символи на руски език са особено илюстративни.

Есенция

Метод за многоизмерно мащабиране (MMS,MDS) е разширен набор от класически инструменти, който обобщава оптимизационната процедура за набор от функции на загуби и входни матрици на известни разстояния с тегла и т.н. В този контекст полезна функция за загуба се нарича стрес, която често се свежда до минимум чрез процедура, наречена мажоризиране на стреса.

Ръководство

Има няколко опции за многоизмерно мащабиране. MDS програмите автоматично минимизират натоварването, за да получат решение. Ядрото на неметричния MDS алгоритъм е двоен оптимизационен процес. Първо, трябва да се намери оптималната монотонна трансформация на близост. Второ, точките за конфигурация трябва да бъдат оптимално разположени, така че техните разстояния да съответстват на мащабираните стойности на близост, колкото е възможно по-близо.

Разширение

Разширение на метричното многоизмерно мащабиране в статистиката, където целевото пространство е произволно гладко неевклидово пространство. Където разликите са разстояния на повърхност и целевото пространство е различна повърхност. Тематични програми ви позволяват да намерите прикачен файл с минимално изкривяване на една повърхност в друга.

Стъпки

Има няколко стъпки за провеждане на изследване с помощта на многовариантно мащабиране:

Формулиране на проблема. Какви променливи искате да сравните? Колко променливи искате да сравните? За каква цел ще се използва изследването?
Получаване на входни данни. На респондентите се задават поредица от въпроси. За всяка двойка продукти от тях се иска да оценят сходството (обикновено по 7-степенна скала на Ликерт от много сходни до много различни). Първият въпрос може да бъде за Coca-Cola/Pepsi, например, следващият за бира, следващия за Dr. Pepper и т.н. Броят на въпросите зависи от броя на марките.

Алтернативни подходи

Има два други подхода. Има техника, наречена "Перцептивни данни: извлечен подход", при която продуктите се разлагат на атрибути и оценката се извършва в семантична диференциална скала. Друг метод е „подходът на данните за предпочитанията“, при който респондентите се питат за предпочитанията, а не за приликите.

Състои се от следните стъпки:

Стартиране на статистическата програма MDS. Софтуерът за извършване на процедурата се предлага в много статистически софтуерни пакети. Често има избор между метрична MDS (която се занимава с данни на ниво интервал или съотношение) и неметрична MDS (която се занимава с редови данни).
Определяне на броя на измерванията. Изследователят трябва да определи броя на измерванията, които иска да създаде на компютъра. Колкото повече измервания, толкова по-добро е статистическото съответствие, но толкова по-трудно е да се интерпретират резултатите.
Показване на резултатите и дефиниране на измервания - статистическата програма (или свързан модул) ще покаже резултатите. Картата ще показва всеки продукт (обикновено в 2D).пространство). Близостта на продуктите един до друг показва или тяхното сходство, или предпочитание, в зависимост от използвания подход. Въпреки това, как измерванията всъщност съответстват на измерванията на поведението на системата не винаги е ясно. Тук може да се направи субективна преценка за съответствие.
Проверете резултатите за надеждност и валидност - изчислете R-квадрат, за да определите пропорцията на мащабираната дисперсия на данните, която може да бъде отчетена от процедурата MDS. Квадрат R 0,6 се счита за минимално приемливо ниво. R на квадрат 0,8 се счита за добро за метрично мащабиране, докато 0,9 се счита за добро за неметрично мащабиране.

Различни тестове

Други възможни тестове са стрес-тестове от типа Kruskal, тестове за разделени данни, тестове за стабилност на данните и тестове за надеждност на повторно тестване. Пишете подробно за резултатите от теста. Заедно с картографирането трябва да се посочи поне мярка за разстояние (напр. индекс на Соренсон, индекс на Жакард) и надеждност (напр. стойност на напрежението).

Също така е много желателно да се даде алгоритъм (напр. Kruskal, Mather), който често се определя от използваната програма (понякога замествайки отчета за алгоритъма), ако сте дали начална конфигурация или сте имали произволен избор, число на измервания, резултати от Монте Карло, брой итерации, резултат за стабилност и пропорционална дисперсия на всяка ос (r-квадрат).

Визуална информация и метод за анализ на даннимногоизмерно мащабиране

Визуализацията на информацията е изследване на интерактивни (визуални) представяния на абстрактни данни за подобряване на човешкото познание. Абстрактните данни включват както цифрови, така и нечислови данни, като текстова и географска информация. Въпреки това, визуализацията на информацията се различава от научната визуализация: „тя е информационна (информационна визуализация), когато е избрано пространствено представяне, и scivis (научна визуализация), когато е дадено пространствено представяне.“

Полето на визуализацията на информацията се появи от изследване на взаимодействието човек-компютър, приложения за компютърни науки, графика, визуален дизайн, психология и бизнес методи. Той все по-често се използва като основен компонент в научни изследвания, дигитални библиотеки, извличане на данни, финансови данни, пазарни проучвания, контрол на производството и т.н.

Методи и принципи

Визуализацията на информацията предполага, че методите за визуализация и взаимодействие се възползват от богатството на човешкото възприятие, позволявайки на потребителите едновременно да виждат, изследват и разбират големи количества информация. Визуализацията на информацията има за цел да създаде подходи за предаване на абстрактни данни, информация по интуитивен начин.

Анализът на данните е неразделна част от всички приложни изследвания и решаване на проблеми в индустрията. ПовечетоОсновните подходи към анализа на данните са визуализация (хистограми, диаграми на разсейване, повърхностни графики, карти на дървета, паралелни координатни графики и т.н.), статистика (тестване на хипотези, регресия, PCA и др.), анализ на данни (съвпадение и др.)..d.) и методи за машинно обучение (клъстериране, класификация, дървета на решения и др.).

Измежду тези подходи визуализацията на информацията или визуалният анализ на данни е най-зависим от когнитивните умения на аналитичния персонал и позволява откриването на неструктурирани действащи прозрения, които са ограничени само от човешкото въображение и креативност. Анализаторът не трябва да учи никакви сложни техники, за да може да интерпретира визуализации на данни. Визуализацията на информацията също е схема за генериране на хипотези, която може и обикновено е придружена от по-аналитичен или формален анализ, като статистическо тестване на хипотези.

Проучване

Съвременното изучаване на визуализацията започва с компютърна графика, която "от самото начало се използва за изучаване на научни проблеми. Въпреки това, в първите години липсата на графична мощ често ограничава нейната полезност. Приоритетът на визуализацията започва да се развие през 1987 г., с пускането на специален софтуер за компютърна графика и визуализация в научните изчисления. Оттогава имаше няколко конференции и семинари, организирани съвместно от IEEE Computer Society и ACM SIGGRAPH".

Те обхванаха общите теми за визуализация на данни, визуализация на информация и научна визуализация,както и по-специфични области като обемно изобразяване.

Резюме

Generalized Multidimensional Scaling (GMDS) е разширение на метричното многоизмерно мащабиране, при което целевото пространство е неевклидово. Когато разликите са разстояния на една повърхност и целевото пространство е друга повърхност, GMDS ви позволява да намерите влагането на една повърхност в друга с минимално изкривяване.

GMDS е нова линия на изследване. В момента основните приложения са разпознаване на деформируеми обекти (например за 3D разпознаване на лица) и нанасяне на текстури.

Целта на многоизмерното мащабиране е да представи многоизмерни данни. Многоизмерните данни, тоест данни, които изискват повече от две или три измерения за представяне, могат да бъдат трудни за интерпретиране. Един подход за опростяване е да се приеме, че данните от интерес лежат върху вградено нелинейно многообразие във високомерно пространство. Ако колекторът има достатъчно ниско измерение, данните могат да се визуализират в пространство с ниски размери.

Много от методите за намаляване на нелинейната размерност са свързани с линейни методи. Нелинейните методи могат да бъдат най-общо класифицирани в две групи: тези, които осигуряват картографиране (или от високомерно пространство към нискомерно вграждане, или обратно), и тези, които просто осигуряват визуализация. В контекста на машинното обучение методите за картографиране могат да се разглеждат катопредварителен етап на извличане на характеристики, след което се прилагат алгоритми за разпознаване на образи. Обикновено тези, които просто дават визуализации, се базират на данни за близостта - т.е. измервания на разстояние. Многоизмерното мащабиране също е доста често срещано в психологията и други хуманитарни науки.

Ако броят на атрибутите е голям, тогава пространството на уникалните възможни низове също е експоненциално голямо. По този начин, колкото по-голямо е измерението, толкова по-трудно става да се изобрази пространството. Това причинява много проблеми. Алгоритмите, които работят с данни с големи размери, са склонни да имат много висока времева сложност. Намаляването на данните до по-малко измерения често прави алгоритмите за анализ по-ефективни и може да помогне на алгоритмите за машинно обучение да правят по-точни прогнози. Ето защо мащабирането на многоизмерните данни е толкова популярно.