Статистическа информация: събиране, обработка, анализ

Съдържание:

Статистическа информация: събиране, обработка, анализ
Статистическа информация: събиране, обработка, анализ
Anonim

През цялата история на статистиката са правени различни опити за създаване на таксономия на нивата на измерване. Психофизикът Стенли Смит Стивънс дефинира номинална, порядкова, интервална и пропорционална скали.

Номиналните измервания нямат значителен ред на подреждане сред стойностите и позволяват всяко преобразуване едно към едно.

Регулярните размери имат неточни разлики между последователни стойности, но имат специфичен ред на тези стойности и позволяват всякаква трансформация, запазваща реда.

Интервалните измервания имат значими разстояния между точките, но нулевата стойност е произволна (както в случая на измерване на дължина и температура в Целзий или Фаренхайт) и позволява всякаква линейна трансформация.

Размерите за съотношение имат както значима нулева стойност, така и разстояния между различните измерения и позволяват всякаква трансформация на мащабиране.

Image
Image

Променливи и класификация на информацията

Защото променливитесъответстващи само на номинални или редови измервания, не могат разумно да бъдат измерени цифрово и понякога се групират като категорични променливи. Измерванията на съотношението и интервалите са групирани като количествени променливи, които могат да бъдат дискретни или непрекъснати поради численото си естество. Такива разграничения често са слабо свързани с типа данни в компютърните науки, тъй като дихотомичните категорични променливи могат да бъдат представени от булеви стойности, политомни категорични променливи с произволни цели числа в интегрален тип данни и непрекъснати променливи с реални компоненти, които включват изчисление с плаваща запетая. Но показването на типове данни за статистическа информация зависи от това коя класификация се прилага.

Статистическа информация за работниците
Статистическа информация за работниците

Други класификации

Създадени са и други класификации на статистически данни (информация). Например, Mosteller и Tukey разграничават степени, рангове, преброени дялове, бройки, суми и баланси. Нелдер по едно време описа непрекъснати преброявания, непрекъснати съотношения, корелация на броенето и категорични начини за предаване на данни. Всички тези методи за класификация се използват при събирането на статистическа информация.

Проблеми

Въпросът дали е подходящо да се прилагат различни видове статистически методи към данни, получени чрез различни процедури за измерване (събиране), се усложнява от проблеми, свързани с преобразуването на променливите и прецизната интерпретация на въпросиизследвания. „Връзката между данните и това, което описва, просто отразява факта, че определени видове статистически твърдения могат да имат стойности на истината, които не са инвариантни при определени трансформации. Дали трансформацията си струва да се обмисли зависи от въпроса, на който се опитвате да отговорите.

Пример за статистическа информация
Пример за статистическа информация

Какво е тип данни

Типът данни е основен компонент от семантичното съдържание на променлива и контролира какви видове разпределения на вероятностите могат да бъдат логически използвани за описване на променливата, разрешените операции върху нея, вида на регресионния анализ, използван за прогнозирането й, и т.н. Концепцията за тип данни е подобна на концепцията за ниво на измерване, но по-конкретна - например преброяването на данни изисква различно разпределение (поасон или бином), отколкото за неотрицателни реални стойности, но и двете попадат под едно и също ниво на измерване (коефициентна скала).

Статистическа информация за съдиите
Статистическа информация за съдиите

Везни

Направени са различни опити за създаване на таксономия на нивата на измерване за обработка на статистическа информация. Психофизикът Стенли Смит Стивънс дефинира номинални, ординални, интервални и пропорционални скали. Номиналните измервания нямат значителен ред на подреждане сред стойностите и позволяват всяко едно към едно преобразуване. Обикновените измервания имат неточни разлики между последователни стойности, но се различават по значимия ред на тези стойности и позволяватвсяка трансформация, запазваща реда. Интервалните измервания имат значими разстояния между измерванията, но нулевата стойност е произволна (както в случая на измерване на дължина и температура в Целзий или Фаренхайт) и позволява всякаква линейна трансформация. Размерите на съотношението имат както значима нулева стойност, така и разстояния между различни дефинирани измерения и позволяват всякаква трансформация на мащабиране.

Диаграма модел
Диаграма модел

Данни, които не могат да бъдат описани с едно число, често се включват в случайни вектори на реални произволни променливи, въпреки че има нарастваща тенденция да ги обработвате сами. Такива примери ще бъдат обсъдени по-долу.

Случайни вектори

Отделни елементи могат или не могат да бъдат свързани. Примери за разпределения, използвани за описване на корелирани случайни вектори, са многовариантното нормално разпределение и многовариантното t-разпределение. Като цяло може да има произволни корелации между всякакви елементи, но това често става неуправляемо над определен размер, което изисква допълнителни ограничения върху корелираните компоненти.

статистически атрибути
статистически атрибути

Случайни матрици

Случайните матрици могат да бъдат подредени линейно и да се третират като произволни вектори, но това може да не е ефективен начин за представяне на корелации между различни елементи. Някои вероятностни разпределения са специално проектирани за произволни матрици, като нормалната матрицаразпространение и разпространение на Wishart.

Случайни поредици

Понякога те се считат за същите като случайни вектори, но в други случаи терминът се прилага специално за случаи, когато всяка произволна променлива корелира само с близки променливи (както в модел на Марков). Това е специален случай на байесовата мрежа и се използва за много дълги последователности, като генни вериги или дълги текстови документи. Редица модели са специално проектирани за такива последователности, като скрити последователности на Марков.

Типична диаграма
Типична диаграма

Случайни процеси

Те са подобни на произволни поредици, но само когато дължината на последователността е неопределена или безкрайна и елементите в последователността се обработват един по един. Това често се използва за данни, които могат да бъдат описани като времеви серии. Това е вярно, когато става въпрос например за цената на акциите на следващия ден.

Заключение

Анализът на статистическата информация зависи изцяло от качеството на нейното събиране. Последното от своя страна е силно свързано с възможностите за неговата класификация. Разбира се, има много видове класификация на статистическата информация, в които читателят може да се убеди сам, когато чете тази статия. Независимо от това, наличието на ефективни инструменти и доброто владеене на математиката, както и знанията в областта на социологията, ще свършат своята работа, позволявайки ви да провеждате всяко проучване или проучване без значителни корекции за грешки. Източници на статистическа информация във форматахора, организации и други предмети на социологията, за щастие, са представени в голямо изобилие. И никаква трудност не може да застане на пътя на истинския изследовател.

Препоръчано: