Извличането на данни е Концепция, анализ на алгоритъма, цел и приложение

Съдържание:

Извличането на данни е Концепция, анализ на алгоритъма, цел и приложение
Извличането на данни е Концепция, анализ на алгоритъма, цел и приложение
Anonim

Развитието на информационните технологии носи практически резултати. Но такива задачи като намиране, анализиране и използване на информация все още не са получили ефективен висококачествен инструмент. Има анализи и количествени инструменти, те наистина работят. Но качествена революция в използването на информацията все още не се е случила.

Много преди появата на компютърните технологии, човек трябваше да обработва големи количества информация и се справяше с това според най-добрия си опит и налични технически възможности.

Развитието на знания и умения винаги е отговаряло на реални нужди и е отговаряло на текущите задачи. Извличането на данни е събирателно наименование, използвано за обозначаване на набор от методи за откриване на неизвестни досега, нетривиални, практически полезни и достъпни знания в данни, необходими за вземане на решения в различни области на човешката дейност.

Човек, интелигентност, програмиране

Човек винаги знае как да действа във всяка ситуация. Незнанието или непознатата ситуация не му пречат да вземе решение. Обективността и разумността на всяко човешко решение може да бъде поставена под въпрос, но ще бъде приета.

Интелигентността се основава на: наследствен "механизъм", придобито, активно знание. Знанието се прилага за решаване на проблеми, които възникват пред човек.

  1. Интелигентността е уникален набор от знания и умения: възможности и основа за човешкия живот и работа.
  2. Интелигентността непрекъснато се развива и човешките действия оказват влияние върху други хора.

Програмирането е първият опит за формализиране на представянето на данни и процеса на създаване на алгоритми.

Човек, интелигентност, програмиране
Човек, интелигентност, програмиране

Изкуственият интелект (AI) е загуба на време и ресурси, но резултатите от неуспешните опити от миналия век в областта на AI останаха в паметта, бяха използвани в различни експертни (интелигентни) системи и бяха трансформирани, по-специално в алгоритми (правила) и математически (логически) анализ на данни и извличане на данни.

Информация и обичайното търсене на решение

Обикновената библиотека е хранилище на знания, а печатното слово и графиките все още не са отстъпили дланта на компютърните технологии. Книгите по физика, химия, теоретична механика, дизайн, естествена история, философия, естествени науки, ботаника, учебници, монографии, трудове на учени, конферентни материали, доклади за разработката и др. са винаги актуални и надеждни.

Библиотеката е много различни източници, които се различаватформа на представяне на материала, произход, структура, съдържание, стил на представяне и др.

Библиотека: книги, списания и други печатни материали
Библиотека: книги, списания и други печатни материали

Външно всичко е видимо (четливо, достъпно) за разбиране и използване. Можете да решите всеки проблем, да поставите правилно задачата, да обосновете решението, да напишете есе или курсова работа, да изберете материал за диплома, да анализирате източници по темата на дисертация или научен и аналитичен доклад.

Всеки проблем с информацията може да бъде решен. С необходимото постоянство и умение ще се получи точен и надежден резултат. В този контекст Data Mining е напълно различен подход.

В допълнение към резултата, човек получава "активни връзки" към всичко, което е гледано в процеса на постигане на целта. Източниците, които той е използвал при решаването на проблема, могат да бъдат посочени и никой няма да оспори факта за съществуването на източника. Това не е гаранция за автентичност, но е сигурно свидетелство на кого отговорността за автентичността е „отписана“. От тази гледна точка Data Mining означава големи съмнения относно надеждността и липса на „активни“връзки.

Решавайки няколко проблема, човек постига резултати и разширява интелектуалния си потенциал до много "активни връзки". Ако нова задача „активира“вече съществуваща връзка, човекът ще знае как да я реши: няма нужда да търси нищо отново.

"Активна връзка" е фиксирана асоциация: как и какво да направите в конкретен случай. Човешкият мозък автоматично запомня всичко, което му се струва потенциално интересно, полезно.или вероятно ще са необходими в бъдеще. В много отношения това се случва на подсъзнателно ниво, но веднага щом възникне задача, която може да бъде свързана с „активна връзка“, тя незабавно изскача в ума и ще бъде получено решение без допълнително търсене на информация. Извличането на данни винаги е повторение на алгоритъма за търсене и този алгоритъм не се променя.

Редовно търсене: "художествени" проблеми

Математическа библиотека и търсенето на информация в нея е сравнително слаба задача. Намирането на един или друг начин за решаване на интеграл, изграждане на матрица или извършване на операцията по събиране на две въображаеми числа е трудоемко, но просто. Трябва да сортирате няколко книги, много от които са написани на определен език, да намерите правилния текст, да го проучите и да получите необходимото решение.

С течение на времето изброяването ще стане познато и натрупаният опит ще ви позволи да навигирате в библиотечната информация и други математически проблеми. Това е ограничено информационно пространство от въпроси и отговори. Характерна особеност: такова търсене на информация натрупва знания за решаване на подобни проблеми. Търсенето на информация на човек оставя следи („активни връзки“) в паметта му за възможни решения на други проблеми.

В художествената литература намерете отговора на въпроса: „Как са живели хората през януари 1248 г.?“много трудно. Още по-трудно е да се отговори на въпроса какво е имало по рафтовете на магазините и как е организирана търговията с храни. Дори ако някой писател ясно и директно пише за това в романа си, ако може да се намери името на този писател, тогава има съмнения относнонадеждността на получените данни ще остане. Надеждността е критична характеристика на всяко количество информация. Източникът, авторът и доказателствата, които изключват невярността на резултата са важни.

Обективни обстоятелства на конкретна ситуация

Човек вижда, чува, чувства. Някои специалисти владеят уникално чувство – интуиция. Постановката на проблема изисква информация, процесът на решаване на проблема най-често е придружен от усъвършенстване на постановката на проблема. Това е по-малкият проблем, който идва с преместването на информация в недрата на компютърната система.

Информация във виртуалното пространство
Информация във виртуалното пространство

Библиотеката и колегите от работата са косвени участници в процеса на вземане на решение. Дизайнът на книгата (източник), графиката в текста, характеристиките на разделяне на информацията в заглавия, бележки под линия по фрази, предметният индекс, списъкът с първични източници - всичко предизвиква асоциации в човек, които косвено засягат процеса на решаване проблемът.

Времето и мястото за решаване на проблема са от съществено значение. Човек е така устроен, че неволно обръща внимание на всичко, което го заобикаля в процеса на решаване на проблем. Може да бъде разсейващо или стимулиращо. Data Mining никога няма да "разбере".

Информация във виртуалното пространство

Човек винаги се е интересувал само от достоверна информация за събитие, явление, обект, алгоритъм за решаване на проблем. Човек винаги си е представял как точно може да постигне желаната цел.

Появата на компютрите и информационните системи би трябвало да улесни живота на човек, но всичко стана само по-сложно. Информацията мигрира в недрата на компютърните системи и изчезва от полезрението. За да изберете необходимите данни, трябва да създадете правилен алгоритъм или да формулирате заявка към базата данни.

Данни вътре в информационната система
Данни вътре в информационната система

Въпросът трябва да е правилен. Само тогава можете да получите отговор. Но съмненията за автентичността остават. В този смисъл Data Mining наистина е „разкопки“, това е „извличане на информация“. Ето как е модерно да се превежда тази фраза. Руската версия е технология за извличане на данни или технология за извличане на данни.

В трудовете на авторитетни специалисти задачите на Data Mining са посочени по следния начин:

  • класификация;
  • клъстериране;
  • асоциация;
  • последователност;
  • прогноза.

От гледна точка на практиката, която ръководи човек при ръчната обработка на информацията, всички тези позиции са спорни. Във всеки случай човек обработва информация автоматично и не мисли за класифициране на данни, компилиране на тематични групи от обекти (клъстериране), търсене на времеви модели (последователност) или прогнозиране на резултата.

Всички тези позиции в човешкия ум са представени от активно знание, което обхваща повече позиции и динамично използва логиката на обработка на първоначалните данни. Подсъзнанието на човек играе важна роля, особено когато е специалист в определена област на знанието.

Пример: Търговия на едро с компютърно оборудване

Задачата е проста. Има няколкодесетки доставчици на компютърно оборудване и периферни устройства. Всеки има ценоразпис във формат xls (Excel файл), който може да бъде изтеглен от официалния сайт на доставчика. Необходимо е да се създаде уеб ресурс, който чете файлове на Excel, преобразува ги в таблици на база данни и позволява на клиентите да избират желаните продукти на най-ниски цени.

Проблемите възникват незабавно. Всеки доставчик предлага своя собствена версия на структурата и съдържанието на xls файла. Можете да получите файла, като го изтеглите от уебсайта на доставчика, поръчате го по имейл или получите връзка за изтегляне през личния си акаунт, тоест като се регистрирате официално при доставчика.

Магазин за виртуални компютри
Магазин за виртуални компютри

Решението на проблема (в самото начало) е технологично просто. При зареждане на файлове (първоначални данни), за всеки доставчик се пише алгоритъм за разпознаване на файлове и данните се поставят в една голяма таблица с първоначални данни. След като всички данни бъдат получени, след като е установен механизмът за непрекъсната размяна (ежедневно, седмично или при промяна) на нови данни:

  • промяна на асортимента;
  • промени в цената;
  • уточняване на количеството на склад;
  • корекция на гаранционни условия, спецификации и др.

Тук започват истинските проблеми. Работата е там, че доставчикът може да напише:

  • ноутбук Acer;
  • ноутбук Asus;
  • лаптоп Dell.

Говорим за един и същ продукт, но от различни производители. Как да съпоставите лаптоп=лаптоп или как да премахнете Acer, Asus и Dell от продуктова линия?

Заhuman не е проблем, но как алгоритъмът ще "разбере", че Acer, Asus, Dell, Samsung, LG, HP, Sony са търговски марки или доставчици? Как да съпоставим "принтер" и принтер, "скенер" и "MFP", "копирна машина" и "MFP", "слушалки" със "слушалки", "аксесоари" с "аксесоари"?

Изграждането на дърво на категории въз основа на изходни данни (изходни файлове) вече е проблем, когато трябва да настроите всичко на автоматично.

Вземане на проби от данни: разкопки на "прясно излятите"

Решена е задачата за създаване на база данни от доставчици на компютърно оборудване. Изградено е дърво от категории, функционира обща таблица с оферти от всички доставчици.

Типични задачи за копаене на данни в контекста на този пример:

  • намерете продукт на най-ниската цена;
  • изберете артикула с най-ниска цена за доставка;
  • продуктов анализ: характеристики и цени по критерии.

В реалната работа на мениджър, използващ данни от няколко десетки доставчици, ще има много варианти на тези задачи и дори по-реални ситуации.

Например, има доставчик "А", който продава ASUS VivoBook S15: предплащане, доставка 5 дни след действителното получаване на парите. Има доставчик "В" на същия продукт от същия модел: плащане при получаване, доставка след сключване на договора в рамките на един ден, цената е един и половина пъти по-висока.

Започва копаене на данни - "разкопки". Образните изрази: „разкопки“или „извличане на данни“са синоними. Става въпрос за това как да получите причина да вземете решение.

Доставчици "A" и "B" имат история на доставки. Оценкапредплащане в първия случай срещу плащане при получаване във втория случай, като се има предвид, че неуспешната доставка във втория случай е с 65% по-висока. Рискът от неустойки от страна на клиента е по-висок/нисък. Как и какво да определите и какво решение да вземете?

От друга страна: базата данни е създадена от програмист и мениджър. Ако програмистът и мениджърът са се променили, как да определите текущото състояние на базата данни и да научите как да я използвате правилно? Вие също ще трябва да направите копаене на данни. Data Mining предлага разнообразие от математически и логически методи, които не се интересуват какъв вид данни се изследват. Това дава правилното решение в някои случаи, но не във всички.

Преместване във виртуалността и намиране на смисъл

Методите за копаене на данни стават смислени веднага щом информацията бъде записана в базата данни и изчезне от „зрителното поле“. Търговията с компютърно оборудване е интересна задача, но е просто бизнес. Колко добре е организиран в компанията зависи от нейния успех.

Климатичните промени на планетата и времето в определен град представляват интерес за всички, а не само за професионалните специалисти по климата. Хиляди сензори вземат показания за вятър, влажност, налягане, данни от изкуствени спътници на Земята и има история на данните от години и векове.

Данните за времето не са само за вземане на решение дали да носите чадър на работа или не. Технологиите за копаене на данни са безопасният полет на самолет, стабилната работа на магистрала и надеждното снабдяване с петролни продукти по море.

"Необработени" данни се изпращат към информациятасистема. Задачите на Data Mining са да ги превърне в систематизирана система от таблици, да установи връзки, да подчертае групи от хомогенни данни и да открие модели.

Климат, време и необработени данни
Климат, време и необработени данни

Математически и логически методи от времето на количествената аналитика OLAP (On-line Analytical Processing) показаха своята практичност. Тук технологията ви позволява да намерите смисъл и да не го загубите, както в примера за продажба на компютърно оборудване.

Освен това в глобалните задачи:

  • транснационален бизнес;
  • управление на въздушния транспорт;
  • изучаване на недрата на земята или социални проблеми (на държавно ниво);
  • изследване на ефекта на наркотиците върху живия организъм;
  • предсказване на последствията от изграждането на промишлено предприятие и др.

Технологиите за копаене на данни и превръщането на "безсмислени" данни в реални данни, които ви позволяват да вземате обективни решения, е единствената възможност.

Човешките възможности свършват там, където има голямо количество сурова информация. Системите за извличане на данни губят своята полезност там, където се изисква да виждат, разбират и усещат информация.

Разумно разпределение на функциите и обективност

Човек и компютър трябва да се допълват - това е аксиома. Писането на дисертация е приоритет за човек, а информационната система е помощ. Тук данните, с които разполага технологията за копаене на данни, са евристики, правила, алгоритми.

Изготвянето на седмична прогноза за времето е приоритет на информационната система. Човекът управлява данните, но базира решенията си на резултатите от изчисленията на системата. Той съчетава методи за извличане на данни, специализирана класификация на данни, ръчно управление на прилагането на алгоритми, автоматично сравнение на минали данни, математическо прогнозиране и много знания и умения на реални хора, участващи в приложението на информационната система.

Човек и компютър
Човек и компютър

Теорията на вероятностите и математическата статистика не са най-"любимите" и разбираеми области на знанието. Много специалисти са много далеч от тях, но разработените в тези области методи дават почти 100% правилни резултати. Чрез прилагане на системи, базирани на идеите, методите и алгоритмите на Data Mining, решенията могат да бъдат получени обективно и надеждно. В противен случай е просто невъзможно да се намери решение.

Фараони и мистерии от миналите векове

Историята периодично се пренаписва:

  • държави - в името на техните стратегически интереси;
  • авторитетни учени - в името на техните субективни вярвания.

Трудно е да се каже кое е истина и кое невярно. Използването на Data Mining ни позволява да решим този проблем. Например, технологията на изграждане на пирамиди е описана от летописци и изследвана от учени през различни векове. Не всички материали се намират в Интернет, не всичко е уникално тук и много данни може да нямат:

  • описан момент във времето;
  • време на писане на описанието;
  • датите, на които се основава описанието;
  • автор(и), мнения (линкове) взети под внимание;
  • потвърждение за обективност.

Bбиблиотеки, храмове и "неочаквани места" можете да намерите ръкописи от различни векове и материални свидетелства от миналото.

Интересна цел: да съберем всичко и да разкрием "истината". Характеристика на проблема: информация може да бъде получена от първото описание от летописец, по време на живота на фараоните, до сегашния век, в който този проблем е решен чрез съвременни методи от много учени.

Обосновка за използване на Data Mining: ръчният труд не е възможен. Твърде много количества:

  • източници на информация;
  • езици за представяне;
  • изследователи, описващи едно и също нещо по различни начини;
  • дати, събития и условия;
  • проблеми с корелация на термините;
  • анализът на статистическите данни по групи данни във времето може да се различава и т.н.

В края на миналия век, когато поредното фиаско на идеята за изкуствен интелект стана очевидно не само за лаика, но и за изтънчен специалист, се появи идеята: „да се пресъздаде личността“.

Например, според произведенията на Пушкин, Гогол, Чехов се формира определена система от правила, логика на поведение и се създава информационна система, която може да отговори на определени въпроси, както би могъл човек: Пушкин, Гогол или Чехов. Теоретично подобна задача е интересна, но на практика е изключително трудна за изпълнение.

Въпреки това, идеята за такава задача предполага много практична идея: „как да създадем интелигентно търсене на информация“. Интернет е много развиващи се ресурси, огромна база данни и това е чудесна възможност за прилагане на Data Mining в комбинация с човешкилогика във формата на съвместно развитие.

Машина и човек заедно
Машина и човек заедно

Машина и човек в двойка е отлична задача и несъмнен успех в областта на "информационна археология", висококачествени разкопки на данни и резултати, които ще поставят нещо под съмнение, но без съмнение ще ви позволят да придобият нови знания и ще бъдат търсени в обществото.

Препоръчано: