Статистическият модел е математическа проекция, която въплъщава набор от различни предположения относно генерирането на някои извадкови данни. Терминът често се представя в много идеализирана форма.
Предположенията, изразени в статистическия модел, показват набор от разпределения на вероятностите. Много от тях са предназначени да приближат правилно разпределението, от което се извлича определен набор от информация. Вероятните разпределения, присъщи на статистическите модели, са това, което отличава проекцията от другите математически модификации.
Обща проекция
Математическият модел е описание на системата, използвайки определени понятия и език. Те се отнасят за природните науки (като физика, биология, наука за Земята, химия) и инженерни дисциплини (като компютърни науки, електротехника), както и социални науки (като икономика, психология, социология, политически науки).
Моделът може да помогне да се обясни системата иизучавайте влиянието на различни компоненти и правете прогнози за поведението.
Математическите модели могат да приемат много форми, включително динамични системи, статистически прогнози, диференциални уравнения или теоретични параметри на играта. Тези и други типове могат да се припокриват и този модел включва много абстрактни структури. Като цяло математическите прогнози могат да включват и логически компоненти. В много случаи качеството на научната област зависи от това доколко теоретично разработените математически модели се съгласуват с резултатите от многократни експерименти. Липсата на съгласие между теоретичните процеси и експерименталните измервания често води до важен напредък, тъй като се разработват по-добри теории.
Във физическите науки традиционният математически модел съдържа голям брой от следните елементи:
- Уравнения за управление.
- Допълнителни подмодели.
- Определете уравнения.
- Съставни уравнения.
- Предположения и ограничения.
- Начални и гранични условия.
- Класически ограничения и кинематични уравнения.
Формула
Статистическият модел, като правило, се задава от математически уравнения, които комбинират една или повече случайни променливи и, евентуално, други естествено срещащи се променливи. По същия начин проекцията се счита за "формалната концепция на концепция."
Всички тестове на статистически хипотези и статистически оценки се получават от математически модели.
Въведение
Неформално статистически модел може да се разглежда като предположение (или набор от предположения) със специфично свойство: позволява да се изчисли вероятността за всяко събитие. Като пример помислете за чифт обикновени шестстранни зарчета. Две различни статистически предположения за костта трябва да бъдат проучени.
Първото предположение е:
За всеки от заровете, вероятността да получите едно от числата (1, 2, 3, 4, 5 и 6) е: 1/6.
От това предположение можем да изчислим вероятността и за двата зара: 1:1/6×1/6=1/36.
По-общо, можете да изчислите вероятността за всяко събитие. Трябва обаче да се разбере, че е невъзможно да се изчисли вероятността за друго нетривиално събитие.
Само първото мнение събира статистически математически модел: поради факта, че само с едно предположение е възможно да се определи вероятността за всяко действие.
В горната извадка с първоначално разрешение е лесно да се определи възможността за събитие. С някои други примери изчислението може да е трудно или дори нереалистично (например може да изисква много години изчисления). За човек, който проектира модел за статистически анализ, подобна сложност се счита за неприемлива: изпълнението на изчисленията не трябва да бъде практически невъзможно и теоретично невъзможно.
Официална дефиниция
В математически термини статистическият модел на система обикновено се разглежда като двойка (S, P), където S енаборът от възможни наблюдения, т.е. извадковото пространство, а P е наборът от вероятностни разпределения на S.
Интуицията на това определение е следната. Предполага се, че има "вярно" разпределение на вероятностите, причинено от процеса, който генерира определени данни.
Набор
Той е този, който определя параметрите на модела. Параметризирането обикновено изисква различни стойности, за да доведе до различни разпределения, т.е.
трябва да задържи (с други думи, трябва да е инжекционно). Параметризация, която отговаря на изискването, се казва, че може да бъде идентифицирана.
Пример
Да приемем, че има известен брой ученици, които са на различна възраст. Височината на детето ще бъде стохастично свързана с годината на раждане: например, когато ученикът е на 7 години, това се отразява на вероятността за растеж, само така че лицето да е по-високо от 3 сантиметра.
Можете да формализирате този подход в модел на линейна регресия, например, както следва: височина i=b 0 + b 1agei + εi, където b 0 е пресечната точка, b 1 е параметърът, при който възрастта се умножава при получаване на наблюдение на надморската височина. Това е термин за грешка. Тоест, предполага се, че височината е предвидена от възрастта с определена грешка.
Валиден формуляр трябва да отговаря на всички информационни точки. По този начин, праволинейната посока (ниво i=b 0 + b 1agei) не е в състояние да бъде уравнение за модел на данни - ако не отговаря ясно на абсолютно всички точки. т.ебез изключение цялата информация лежи безупречно на линията. Границата на грешката εi трябва да бъде въведена в уравнението, така че формулярът да съответства на абсолютно всички елементи от информация.
За да направим статистически извод, първо трябва да приемем някои вероятностни разпределения за ε i. Например, може да се предположи, че разпределенията на ε i имат гаусова форма с нулева средна стойност. В този случай моделът ще има 3 параметъра: b 0, b 1 и дисперсията на гаусовото разпределение.
Можете официално да посочите модела като (S, P).
В този пример моделът е дефиниран чрез посочване на S и така могат да се направят някои предположения за P. Има две опции:
Този растеж може да се оцени приблизително с линейна функция на възрастта;
Че грешките в приближението се разпределят като вътре в гаусов.
Общи забележки
Статистическите параметри на моделите са специален клас математическа проекция. Какво прави един вид различен от друг? Така че статистическият модел е недетерминиран. Така в него, за разлика от математическите уравнения, определени променливи нямат определени стойности, а вместо това имат разпределение на възможностите. Това означава, че отделните променливи се считат за стохастични. В примера по-горе, ε е стохастична променлива. Без него проекцията би била детерминирана.
Изграждането на статистически модел често се използва, дори ако материалният процес се счита за детерминиран. Например хвърлянето на монети по принцип е предопределящо действие. Въпреки това, в повечето случаи това все още се моделира като стохастично (чрез процес на Бернули).
Според Кониши и Китагава има три цели за статистически модел:
- Прогнози.
- Извличане на информация.
- Описание на стохастични структури.
Размер на проекция
Да приемем, че има статистически модел за прогнозиране, Моделът се нарича параметричен, ако O има крайно измерение. В решението трябва да напишете, че
където k е положително цяло число (R означава всякакви реални числа). Тук k се нарича измерение на модела.
Като пример можем да приемем, че всички данни идват от едномерно гаусово разпределение:
В този пример размерността на k е 2.
И като друг пример може да се приеме, че данните се състоят от (x, y) точки, за които се приема, че са разпределени по права линия с гаусови остатъци (с нулева средна стойност). Тогава размерността на статистическия икономически модел е равна на 3: пресечната точка на линията, нейния наклон и дисперсията на разпределението на остатъците. Трябва да се отбележи, че в геометрията правата линия има измерение 1.
Въпреки че горната стойност технически е единственият параметър, който има измерение k, понякога се смята, че съдържа k различни стойности. Например, с едномерно гаусово разпределение, O е единственият параметър с размер 2, но понякога се смята, че съдържа двеиндивидуален параметър - средна стойност и стандартно отклонение.
Статистическият модел на процес е непараметричен, ако наборът от O стойности е безкрайномерен. Също така е полупараметричен, ако има както крайни, така и безкрайни параметри. Формално, ако k е измерение на O и n е броят на пробите, полупараметричните и непараметричните модели имат
тогава моделът е полупараметричен. В противен случай проекцията е непараметрична.
Параметричните модели са най-често използваните статистики. По отношение на полупараметричните и непараметричните прогнози, сър Дейвид Кокс заяви:
"Обикновено те включват най-малко хипотези за текстурата и формата на разпределение, но включват мощни теории за самодостатъчност."
Вложени модели
Не ги бъркайте с многостепенни проекции.
Два статистически модела са вложени, ако първият може да бъде преобразуван във втория чрез налагане на ограничения върху параметрите на първия. Например, наборът от всички гаусови разпределения има вложен набор от разпределения с нулева средна стойност:
Тоест, трябва да ограничите средната стойност в набора от всички гаусови разпределения, за да получите разпределения с нулева средна стойност. Като втори пример, квадратичният модел y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) има вграден линеен модел y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - т.е. параметър b2 е равен на 0.
И в двата примера първият модел има по-висока размерност от втория модел. Това е често, но не винаги. Друг пример е наборът от гаусови разпределения с положителна средна стойност, който има размерност 2.
Сравнение на модели
Предполага се, че има "вярно" разпределение на вероятностите в основата на наблюдаваните данни, предизвикани от процеса, който ги е генерирал.
И също така моделите могат да се сравняват един с друг, като се използва проучвателен анализ или потвърдителен. При проучвателен анализ се формулират различни модели и се прави оценка доколко добре всеки от тях описва данните. При потвърждаващ анализ формулираната по-рано хипотеза се сравнява с първоначалната. Общи критерии за това включват P 2, байесов фактор и относителна вероятност.
Мисълта на Кониши и Китагава
„Повечето проблеми в статистическия математически модел могат да се разглеждат като прогнозни въпроси. Те обикновено се формулират като сравнения на няколко фактора.”
Освен това сър Дейвид Кокс каза: "Като превод от темата, проблемът в статистическия модел често е най-важната част от анализа."