Логистична регресия: модел и методи

Съдържание:

Логистична регресия: модел и методи
Логистична регресия: модел и методи
Anonim

Методи на логистична регресия и дискриминантен анализ се използват, когато е необходимо ясно да се разграничат респондентите по целеви категории. В този случай самите групи са представени от нива на един едновариантен параметър. Нека разгледаме по-отблизо модела на логистичната регресия и да разберем защо е необходим.

логистична регресия
логистична регресия

Обща информация

Пример за проблем, при който се използва логистична регресия, е класифицирането на респондентите в групи, които купуват и не купуват горчица. Диференциацията се извършва в съответствие със социално-демографските характеристики. Те включват по-специално възраст, пол, брой роднини, доходи и т.н. В операциите има критерии за диференциация и променлива. Последният кодира целевите категории, в които всъщност трябва да бъдат разделени респондентите.

Нюанси

Трябва да се каже, че обхватът на случаите, в които се прилага логистична регресия, е много по-тесен, отколкото при дискриминантния анализ. В тази връзка се разглежда използването на последния като универсален метод за диференциацияпо-предпочитан. Освен това експертите препоръчват започване на класификационни проучвания с дискриминантен анализ. И само в случай на несигурност относно резултатите, можете да използвате логистична регресия. Тази необходимост се дължи на няколко фактора. Логистичната регресия се използва, когато има ясно разбиране за вида на независимите и зависими променливи. Съответно се избира една от 3-те възможни процедури. При дискриминантния анализ изследователят винаги работи с една статична операция. Той включва една зависима и няколко независими категорични променливи с всякакъв тип скала.

Прегледи

Задачата на статистическо изследване, което използва логистична регресия, е да определи вероятността конкретен респондент да бъде причислен към определена група. Диференцирането се извършва според определени параметри. На практика според стойностите на един или повече независими фактора е възможно респондентите да бъдат класифицирани в две групи. В този случай се осъществява бинарна логистична регресия. Също така посочените параметри могат да се използват при разделяне на групи от повече от две. В такава ситуация се осъществява мултиномиална логистична регресия. Получените групи се изразяват в нива на една променлива.

логистична регресия
логистична регресия

Пример

Да кажем, че има отговори на респондентите на въпроса дали се интересуват от офертата за закупуване на парцел в предградието на Москва. Опциите са "не"и да. Необходимо е да се установи кои фактори имат преобладаващо влияние върху решението на потенциалните купувачи. За да направите това, на респондентите се задават въпроси за инфраструктурата на територията, разстоянието до столицата, площта на обекта, наличието/отсъствието на жилищна сграда и т.н. Използвайки бинарна регресия, е възможно да се разпределят респондентите в две групи. Първият ще включва тези, които се интересуват от придобиването - потенциални купувачи, а вторият, съответно, тези, които не се интересуват от подобна оферта. Освен това за всеки респондент ще бъде изчислена вероятността да бъде причислен към една или друга категория.

Сравнителни характеристики

Разликата от двете опции по-горе е в различния брой групи и вида на зависими и независими променливи. При бинарна регресия например се изследва зависимостта на дихотомен фактор от едно или повече независими условия. Освен това, последният може да има всякакъв вид мащаб. Мултиномиалната регресия се счита за вариант на тази опция за класификация. В него повече от 2 групи принадлежат към зависимата променлива. Независимите фактори трябва да имат или порядкова, или номинална скала.

Логистична регресия в spss

В статистическия пакет 11-12 беше въведена нова версия на анализа - порядък. Този метод се използва, когато зависимият фактор принадлежи към една и съща (редна) скала. В този случай се избират независими променливи от един конкретен тип. Те трябва да бъдат или редовни, или номинални. Класификацията в няколко категории се счита за най-голямауниверсален. Този метод може да се използва във всички проучвания, които използват логистична регресия. Въпреки това, единственият начин да подобрите качеството на модела е да използвате и трите техники.

проверка на качеството на адекватността и логистична регресия
проверка на качеството на адекватността и логистична регресия

Ординална класификация

Трябва да се каже, че по-рано в статистическия пакет нямаше типична възможност за извършване на специализиран анализ за зависими фактори с порядкова скала. За всички променливи с повече от 2 групи е използван мултиноминалният вариант. Сравнително наскоро въведеният порядков анализ има редица характеристики. Те отчитат спецификата на мащаба. Междувременно, в учебните помагала, редовната логистична регресия често не се разглежда като отделна техника. Това се дължи на следното: порядковият анализ няма съществени предимства пред мултиномиалния. Изследователят може да използва последното в присъствието както на редна, така и на номинална зависима променлива. В същото време самите процеси на класификация почти не се различават един от друг. Това означава, че извършването на порядков анализ няма да причини никакви затруднения.

Опция за анализ

Нека разгледаме един прост случай - бинарна регресия. Да предположим, че в процеса на маркетингово проучване се оценява търсенето на завършили определен столичен университет. Във въпросника на респондентите бяха зададени въпроси, включително:

  1. Нает ли сте? (ql).
  2. Въведете годината на дипломиране (q 21).
  3. Каква е средната стойностбал за дипломиране (ср.).
  4. Пол (q22).

Логистичната регресия ще оцени влиянието на независими фактори aver, q 21 и q 22 върху променливата ql. Казано по-просто, целта на анализа ще бъде да определи вероятната заетост на завършилите въз основа на информация за областта, годината на дипломиране и средния успех.

Индикатор за логистична сигмоидна регресия
Индикатор за логистична сигмоидна регресия

Логистична регресия

За да зададете параметри с помощта на двоична регресия, използвайте менюто Analyze►Regression►Binary Logistic. В прозореца Логистична регресия изберете зависимия фактор от списъка с налични променливи вляво. Това е ql. Тази променлива трябва да бъде поставена в полето зависимо. След това е необходимо да се въведат независими фактори в графика на Covariates - q 21, q 22, ср. След това трябва да изберете как да ги включите в анализа си. Ако броят на независимите фактори е повече от 2, тогава се използва методът за едновременно въвеждане на всички променливи, който е зададен по подразбиране, но стъпка по стъпка. Най-популярният начин е Backward:LR. Използвайки бутона Избор, можете да включите в проучването не всички респонденти, а само конкретна целева категория.

Дефиниране на категорични променливи

Бутонът Категоричен трябва да се използва, когато една от независимите променливи е номинална с повече от 2 категории. В тази ситуация в прозореца Дефиниране на категорични променливи точно такъв параметър се поставя в секцията Категорични ковариации. В този пример няма такава променлива. След това в падащия списък следва Контрастизберете елемента Deviation и натиснете бутона Change. В резултат на това от всеки номинален фактор ще се формират няколко зависими променливи. Техният брой съответства на броя на категориите на първоначалното условие.

Запазване на нови променливи

С помощта на бутона Save в главния диалогов прозорец на изследването се задава създаването на нови параметри. Те ще съдържат индикаторите, изчислени в процеса на регресия. По-специално, можете да създадете променливи, които дефинират:

  1. Принадлежност към определена класификационна категория (групово членство).
  2. Вероятност за присвояване на респондент към всяка проучвателна група (Вероятности).

При използване на бутона Опции, изследователят не получава никакви значими опции. Съответно може да се игнорира. След натискане на бутона "OK", резултатите от анализа ще се покажат в главния прозорец.

коефициент на логистична регресия
коефициент на логистична регресия

Проверка на качеството за адекватност и логистична регресия

Разгледайте таблицата Omnibus Testsof Model Coefficients. Той показва резултатите от анализа на качеството на апроксимацията на модела. Поради факта, че е зададена опция стъпка по стъпка, трябва да разгледате резултатите от последния етап (Step2). Положителен резултат ще се счита, ако се установи увеличение на показателя Хи-квадрат при преминаване към следващия етап с висока степен на значимост (Sig. < 0,05). Качеството на модела се оценява в линия Модел. Ако се получи отрицателна стойност, но тя не се счита за значима при общата висока същественост на модела, последнотоможе да се счита за практически подходящ.

Маси

Model Summary дава възможност да се оцени общият индекс на дисперсията, който се описва от конструирания модел (R Square index). Препоръчва се да се използва стойността на Nagelker. Параметърът Nagelkerke R Square може да се счита за положителен индикатор, ако е над 0,50. След това се оценяват резултатите от класификацията, при които действителните показатели за принадлежност към една или друга изследвана категория се сравняват с прогнозираните въз основа на регресионния модел. За това се използва таблицата за класификация. Също така ни позволява да направим заключения относно правилността на диференциацията за всяка разглеждана група.

логистичен регресионен модел
логистичен регресионен модел

Следната таблица дава възможност да разберете статистическата значимост на независимите фактори, въведени в анализа, както и всеки нестандартизиран коефициент на логистична регресия. Въз основа на тези показатели е възможно да се предвиди принадлежността на всеки респондент в извадката към определена група. Използвайки бутона Save, можете да въведете нови променливи. Те ще съдържат информация за принадлежността към определена класификационна категория (Predictedcategory) и вероятността да бъдат включени в тези групи (Предвидени вероятности членство). След като щракнете върху "OK", резултатите от изчисленията ще се появят в главния прозорец на Multinomial Logistic Regression.

Първата таблица, която съдържа индикатори, важни за изследователя, е Информация за модела. Високото ниво на статистическа значимост би означавало високо качество ипригодност за използване на модела при решаване на практически задачи. Друга значима таблица е Pseudo R-Square. Той ви позволява да оцените дела на общата дисперсия в зависимия фактор, който се определя от независимите променливи, избрани за анализ. Според таблицата Тестове за коефициент на вероятност можем да направим изводи за статистическата значимост на последното. Оценките на параметрите отразяват нестандартизирани коефициенти. Те се използват при конструирането на уравнението. Освен това за всяка комбинация от променливи беше определена статистическата значимост на тяхното въздействие върху зависимия фактор. Междувременно при маркетинговите изследвания често се налага респондентите да се разграничават по категории не индивидуално, а като част от целевата група. За това се използва таблицата за наблюдавани и прогнозирани честоти.

Практическо приложение

Разглежданият метод за анализ е широко използван в работата на търговците. През 1991 г. е разработен индикаторът за логистична сигмоидна регресия. Това е лесен за използване и ефективен инструмент за прогнозиране на вероятните цени, преди те да "прегреят". Индикаторът е показан на графиката като канал, образуван от две успоредни линии. Те са на еднакво разстояние от тенденцията. Ширината на коридора ще зависи единствено от времевата рамка. Индикаторът се използва при работа с почти всички активи - от валутни двойки до благородни метали.

логистична регресия в spss
логистична регресия в spss

На практика са разработени 2 ключови стратегии за използване на инструмента: за пробив иза завой. В последния случай търговецът ще се съсредоточи върху динамиката на ценовите промени в рамките на канала. Когато стойността се приближи до линията на подкрепа или съпротива, се залага на вероятността движението да започне в обратна посока. Ако цената се доближи до горната граница, тогава можете да се отървете от актива. Ако е на долната граница, тогава трябва да помислите за покупка. Стратегията за пробив включва използването на поръчки. Те са инсталирани извън границите на относително малко разстояние. Като се има предвид, че цената в някои случаи ги нарушава за кратко време, трябва да играете на сигурно и да зададете стоп загуби. В същото време, разбира се, независимо от избраната стратегия, търговецът трябва да възприеме и оцени възникналата ситуация на пазара възможно най-спокойно.

Заключение

По този начин използването на логистична регресия ви позволява бързо и лесно да класифицирате респондентите в категории според зададените параметри. Когато анализирате, можете да използвате всеки конкретен метод. По-специално, мултиномиалната регресия е универсална. Въпреки това, експертите препоръчват да се използват всички описани по-горе методи в комбинация. Това се дължи на факта, че в този случай качеството на модела ще бъде значително по-високо. Това от своя страна ще разшири обхвата на неговото приложение.

Препоръчано: