Видобуток даних - що це таке, визначення та поняття

Зміст:

Видобуток даних - що це таке, визначення та поняття
Видобуток даних - що це таке, визначення та поняття
Anonim

Видобуток даних - це процес пошуку великих баз даних, щоб знайти корисну інформацію, яка може бути використана для прийняття рішень. Також використовується англійський термін "видобуток даних".

Це можна розуміти як технологію та програмне забезпечення, що використовуються для пошуку моделей поведінки в базі даних. Принциповою основою цього є те, що ці моделі допомагають приймати рішення. Наприклад, це може допомогти компаніям зрозуміти моделі поведінки своїх клієнтів. Таким чином, що це сприяло б встановленню стратегій збільшення продажів або зменшення витрат.

Переваги інтелектуального аналізу даних

Основною перевагою цього процесу аналізу даних є велика кількість бізнес-сценаріїв, до яких він може бути застосований, як приклад ми маємо:

  • Прогнозування: Прогноз продажів компанії.
  • Імовірність: Вибір найкращих клієнтів для безпосереднього контакту по телефону або електронною поштою.
  • Аналіз послідовності: Аналіз товарів, які купують покупці, та перевірка взаємозв'язку між ними.

Етапи аналізу даних

У процесі видобутку даних ми можемо знайти п’ять фаз:

  • Збір цілей та даних: Перш за все - зосередитись на тому, який тип інформації ми хочемо отримати. Уявімо на прикладі, що супермаркет хоче знати, яка пора доби, де найбільша відвідуваність клієнтів. Це була б мета та інформація, яку торгівля хоче отримати в цьому випадку.
  • Обробка та управління даними: Як тільки ми знаємо дані, які хочемо зібрати, ми запускаємо їх у роботу. Це, мабуть, найскладніша фаза процесу. Ну, це вимагає вибору репрезентативної вибірки, на якій буде проводитися аналіз. Після вибору вибірки необхідно проаналізувати, який тип змінних чи модель регресії буде проводитися на вибірці.
  • Вибір моделі: Це тісно пов’язано з попередньою фазою. Йдеться про створення моделі або алгоритму, які дають нам найкращий можливий результат. Для цього необхідно провести вичерпний аналіз змінних, які повинні бути включені в модель. Це стає складним завданням, оскільки це буде залежати від типу інформації, що підлягає аналізу. Тому майнери даних проводять різні тести алгоритму, такі як: лінійна регресія, дерево рішень, часові ряди, нейронна мережа тощо.
  • Аналіз та огляд результатів: В основному це аналіз результатів, щоб побачити, чи дають вони логічне пояснення. Пояснення, що полегшує прийняття рішень на основі інформації, наданої результатами.
  • Оновлення моделі: Останнім кроком процесу буде оновлення моделі. Дуже важливо, щоб це було зроблено з часом, щоб воно не застаріло. Змінні моделі можуть стати незначними, і тому необхідний періодичний контроль моделі.