Предположенията, въплътени в статистическото моделиране, описват набор от вероятностни разпределения, някои от които се приема, че адекватно приближават разпределението. От определението се избира специфичен набор от данни. Разпределенията на вероятностите, присъщи на статистическото моделиране, са това, което отличава статистическите модели от други, нестатистически, математически модели.
Връзка с математиката
Този научен метод се корени предимно в математиката. Статистическото моделиране на системите обикновено се дава от математически уравнения, които свързват една или повече случайни променливи и евентуално други неслучайни променливи. По този начин статистическият модел е „формално представяне на теория“(Херман Адер, цитирайки Кенет Болен).
Всички тестове за статистически хипотези и всички статистически оценки са получени от статистически модели. По-общо казано, статистическите модели са част от основата на статистическите изводи.
Методи на статистикатамоделиране
Неформално статистически модел може да се разглежда като статистическо предположение (или набор от статистически предположения) с определено свойство: това предположение ни позволява да изчислим вероятността за всяко събитие. Като пример помислете за чифт обикновени шестстранни зарчета. Ще проучим две различни статистически предположения за костта.
Първото статистическо предположение представлява статистическия модел, тъй като само с едно предположение можем да изчислим вероятността за всяко събитие. Алтернативното статистическо предположение не представлява статистически модел, тъй като само с едно предположение не можем да изчислим вероятността за всяко събитие.
В горния пример с първото предположение е лесно да се изчисли вероятността за събитие. Въпреки това, в някои други примери изчислението може да бъде сложно или дори непрактично (например, може да изисква милиони години изчисление). За допускането, което представлява статистически модел, тази трудност е приемлива: извършването на изчислението не трябва да е практически осъществимо, просто теоретично възможно.
Примери за модели
Да предположим, че имаме популация от ученици с равномерно разпределени деца. Височината на детето ще бъде стохастично свързана с възрастта: например, когато знаем, че детето е на 7 години, това се отразява на вероятността детето да е високо 5 фута (около 152 см). Бихме могли да формализираме тази връзка в модел на линейна регресия, например: растеж=b0 + b1agei+ εi, където b0 е пресечната точка, b1 е параметърът, по който се умножава възрастта при получаване на прогнозата за растеж, εi е членът за грешка. Това означава, че височината е предвидена от възрастта с известна грешка.
Валиден модел трябва да съответства на всички данни. Така че права линия (heighti=b0 + b1agei) не може да бъде уравнение за модел на данни - освен ако не отговаря точно на всички точки от данни, т.е. всички точки от данни лежат перфектно на линията. Терминът за грешка εi трябва да бъде включен в уравнението, за да може моделът да отговаря на всички точки от данни.
За да направим статистически извод, първо трябва да приемем някои вероятностни разпределения за εi. Например, можем да приемем, че разпределенията на εi са гаусови, с нулева средна стойност. В този случай моделът ще има 3 параметъра: b0, b1 и дисперсията на гаусовото разпределение.
Общо описание
Статистическият модел е специален клас математически модел. Това, което отличава статистическия модел от другите математически модели е, че той е недетерминиран. Използва се за моделиране на статистически данни. По този начин, в статистически модел, дефиниран с математически уравнения, някои променливи нямат специфични стойности, а вместо това имат вероятностни разпределения; тоест някои променливи са стохастични. В примера по-горе, ε е стохастична променлива; без тази променлива моделът бешеби било детерминистично.
Статистическите модели често се използват в статистическия анализ и моделиране, дори ако физическият процес, който се моделира, е детерминистичен. Например хвърлянето на монети по принцип е детерминиран процес; но обикновено се моделира като стохастичен (чрез процес на Бернули).
Параметрични модели
Параметричните модели са най-често използваните статистически модели. По отношение на полупараметричните и непараметричните модели, сър Дейвид Кокс каза: „Те обикновено включват по-малко предположения относно структурата и формата на разпределението, но обикновено съдържат силни допускания за независимост“. Подобно на всички други споменати модели, те също често се използват в статистическия метод на математическото моделиране.
Многостепенни модели
Многостепенни модели (известни също като йерархични линейни модели, модели на вложени данни, смесени модели, произволни коефициенти, модели на произволни ефекти, модели на произволни параметри или модели на разделени) са модели на статистически параметри, които варират на повече от едно ниво. Пример е модел на постиженията на учениците, който съдържа показатели за отделни ученици, както и показатели за класни стаи, в които учениците са групирани. Тези модели могат да се разглеждат като обобщения на линейни модели (по-специално, линейна регресия), въпреки че могат да бъдат разширени и до нелинейни модели. Тези модели са станалимного по-популярен, след като достатъчна изчислителна мощност и софтуер станаха налични.
Многостепенните модели са особено подходящи за изследователски проекти, при които данните за участниците са организирани на повече от едно ниво (т.е. вложени данни). Единиците за анализ обикновено са индивиди (на по-ниско ниво), които са вложени в контекст/агрегирани единици (на по-високо ниво). Докато най-ниското ниво на данни в многостепенните модели обикновено е индивидуално, могат да се вземат предвид и повтарящи се измервания на индивиди. По този начин, многостепенните модели осигуряват алтернативен тип анализ за едновариантен или многовариантен анализ на повтарящи се мерки. Могат да се вземат предвид индивидуалните разлики в кривите на растеж. В допълнение, многостепенните модели могат да се използват като алтернатива на ANCOVA, където резултатите от зависими променливи се коригират за ковариати (напр. индивидуални разлики) преди тестване за разлики в лечението. Моделите на много нива могат да анализират тези експерименти без допускането за равномерен наклон на регресия, изискван от ANCOVA.
Многостепенните модели могат да се използват за данни с много нива, въпреки че двустепенните модели са най-често срещаните и останалата част от тази статия се фокусира върху тях. Зависимата променлива трябва да се изследва на най-ниското ниво на анализ.
Избор на модел
Избор на моделе задачата за избор от набор от кандидат-модели по дадените данни, извършена в рамките на статистическото моделиране. В най-простите случаи се взема предвид вече съществуващ набор от данни. Въпреки това, задачата може да включва и проектиране на експерименти, така че събраните данни да са добре подходящи за задачата за избор на модел. Като се имат предвид кандидат-модели със сходна предсказваща или обяснителна сила, най-простият модел вероятно ще бъде най-добрият избор (бръсначът на Окам).
Konishi & Kitagawa казват: "Повечето проблеми със статистически изводи могат да се считат за проблеми, свързани със статистическото моделиране." По подобен начин Кокс каза: „Начинът, по който се извършва преводът на предмета в статистическия модел, често е най-важната част от анализа.“
Изборът на модел може също да се отнася до проблема с избора на няколко представителни модела от голям набор от изчислителни модели за целите на вземане на решение или оптимизация при несигурност.
Графични модели
Графичен модел, или вероятностен графичен модел, (PGM) или структуриран вероятностен модел, е вероятностен модел, за който графиката изразява структурата на условна връзка между случайни променливи. Те обикновено се използват в теорията на вероятностите, статистиката (особено байесовата статистика) и машинното обучение.
Иконометрични модели
Иконометричните модели са статистически модели, използвани виконометрия. Иконометричният модел дефинира статистическите връзки, за които се смята, че съществуват между различни икономически величини, свързани с конкретно икономическо явление. Иконометричен модел може да бъде извлечен от детерминиран икономически модел, който взема предвид несигурността, или от икономически модел, който сам по себе си е стохастичен. Възможно е обаче да се използват и иконометрични модели, които не са обвързани с никаква конкретна икономическа теория.