Дізнайся першим
Останні події та новини з життя KMBS дізнавайтеся у розділі KMBS Live що знаходиться у верхньому правому куті екрану
Відкрити kmbs liveДосліджувати те, як поводять себе люди, – це найскладніше, але й найкорисніше використання великих данихЗа даними треба «доглядати», тобто очищувати їх. Адже навіть якщо модель буде налаштована правильно, а на вході будуть неправильні (неочищені) дані, вона дасть неправильні результати. Так було у моїй практиці: велика компанія звернулася до мене для розробки моделі аналізу великих даних. У процесі роботи у мене виникло інтуїтивне відчуття, що з даними щось не те. Я попросив аналітика перевірити їх – і виявилося, що там дійсно є велика кількість «викидів» (outliers), бо при вивантаженні даних частина рядків чомусь замінилася на інші. Коли дані зчитує робот, він не знає їхньої природи: яких значень вони можуть досягати, з якими знаками вони можуть бути, якою може бути їхня амплітуда. А людина має певні очікування, гіпотези щодо даних. І якщо вони не проходять перевірку у процесі роботи, то намагається з’ясувати, чому так сталося. Відповідно, поки що роботи у цій сфері не можуть замінити людину. Робот діє автоматично й видає висновки, які можуть виявитися неправильними. Друга велика проблема – у тому, що в Україні ще немає культури аналітичного мислення. Компанії думають, що досить придбати потужний комп’ютер і забезпечити потік великих даних, щоб стати лідером на ринку. Але воно так не працює. Не завжди у даних міститься інформація, не завжди вони мають цінність. А ще – одні й ті самі дані не є цінними для кожної компанії. Це схоже на видобування нафти: ніхто не бурить свердловини навмання, щоб подивитися – а чи є там нафта? Якщо провести аналогію з великими даними: люди думають, що нафта є у кожній дірці й що вона однаково потрібна усім бізнесам. Як зрозуміти, які дані потрібні компанії? Є.П.: Збирання даних заради їх накопичення не має сенсу. До мене часом звертаються компанії та кажуть: «Ми вже пів року збираємо дані, підкажіть, що з них можна зробити». Але так це не працює! Спочатку треба розуміти, для чого потрібні дані, потім побудувати модель, а вже потім вона підкаже – які дані треба збирати. Для яких управлінських рішень найчастіше потрібні моделі й big data? Є.П.: Найчастіше мова йде про рішення, які збільшують продаж, підвищують ефективність. Особливо – коли є психологічна складова. Різноманітні логістично-оптимізаційні завдання, відстеження трафіку тощо – вже давно використовують big data та штучний інтелект. А от як поводять себе люди – це найскладніше, але й найкорисніше використання великих даних.
Сьогодні навіть маленька компанія зможе перевершити великих гравців, якщо формуватиме багато гіпотез і ставитиме собі багато запитаньВеликі дані вже відмінно себе показали у сільському господарстві: супутники збирають інформацію про вологість повітря, температурні режими, визначають ймовірність посухи – і це впливає на моделювання врожайності. З людською поведінкою все не так просто. Існує класичний приклад, з якого раніше починалися усі книжки з big data: про те, як мережа Target прислала дівчині рекламу товарів для вагітних ще до того, як вона дізналася, що при надії. Але згодом виявилося, що це сталося випадково. Тому цей напрям ще розвивається. Чи всі дані потрібно збирати і очищувати самостійно? Є.П.: Великі дані, які стосуються не вашої компанії, а, наприклад, сфери бізнесу, можна купувати. Але треба знати, які дані вам потрібні (знову-таки: спочатку – мета, потім модель і лише потім – дані). Інакше можна заплатити купу грошей, але навіть не окупити витрати. Обробку макроданих (скажімо, галузевих) можна віддати на аутсорс, звернувшись до профільних компаній. Але віддавати внутрішні дані на аутсорс для очищення не варто. Адже в них міститься цінність, і не можна допустити, щоб вона опинилася в чужих руках. Які види даних зараз збирають? Є.П.: Колись збирали лише цифрові дані, а зараз – і відеоінформацію (зокрема потоки машин чи людей). Такі дані можуть становити цінність для управлінських рішень, адже ми маємо розуміти споживчу поведінку та впливати на неї. Часто компанії збирають дані з пристроїв (наприклад, фітнес-браслетів та VR-окулярів), можуть навіть видавати гаджети користувачам безкоштовно за згоду відправляти їхні дані до хмари. Кого потрібно наймати у першу чергу, щоб вибудувати систему управління великими даними у компанії? Є.П.: Зараз кажуть про те, що в компанії має бути аналітичний центр. Наразі немає однозначної відповіді, яким він має бути, кому підпорядковуватися – тут все залежить від стратегічних цілей компанії. Але вже зрозуміло, що це має бути відокремлений департамент, який вирішує завдання інших підрозділів. Зокрема, вони можуть просити центр перевірити певні гіпотези. Спочатку треба підібрати лідера групи, який розумітиме цілі компанії, спілкуватиметься з топменеджментом, знатиме, куди рухається бізнес. Тоді він розумітиме, які моделі потрібні для забезпечення стратегії розвитку. Далі він формує групу аналітиків, які відповідають за різні напрями (адже один фахівець не може знати все). І потім – наймає «робочі руки», тобто дата-сайнтистів, яким аналітики ставитимуть завдання. Вони мають бути кваліфіковані: знати економетричний аналіз, відповідне ПЗ (MathLab, R, Python тощо).
Компанії думають, що досить придбати потужний комп’ютер і забезпечити потік великих даних, щоб стати лідером на ринку. Але воно так не працюєВажливо, щоб у команді була людина, яка б моніторила інновації на ринку й принаймні щомісяця доповідала про тренди: що роблять інші бізнеси, які технології вони використовують. Бо бути одинаком і розвивати свою власну аналітику, не зважаючи на інших, – небезпечно. Так ви ризикуєте пропустити щось важливе, що придумав хтось інший і що може забезпечити йому перевагу. Наступний рівень – дата-менеджери, тобто айтішники, які займатимуться складуванням даних (у себе чи в хмарі), обробляти їх (очищувати, верифікувати ). Потрібно дуже прискіпливо підійти до відповіді на запитання: які дані, з якою частотою ми будемо збирати, хто буде їх очищувати й готувати. Кожну нову порцію даних треба ретельно перевіряти. А частота надходження нових даних має бути адекватна. Не варто занадто спішити, краще сфокусуватися на якості обробки. Моделі, які розробляють аналітики, повинні бути самонавчальні. Це означає: коли ми вже створили ефективну модель, яка дійсно допомагає приймати рішення, що частіше до неї потраплятимуть нові дані, то краще вона працюватиме й то ціннішою для управлінців буде. Скільки часу займає побудова аналітичної моделі під певне бізнес-завдання? Є.П.: Аналітики схожі на футболістів, які мають «домашні заготовки». Коли тренер дає їм вказівки, вони вже розуміють, що робити. Так само аналітики мають певні заготовлені моделі для стандартних бізнес-завдань (наприклад, проведення акцій) – бібліотеку моделей. А нові дані дозволяють їх відкалібрувати й дізнатися правильні параметри, з якими, скажімо, треба запускати акції (у яких магазинах, в яких регіонах тощо). Що ще потрібно розуміти компанії, щоб отримати перевагу від використання великих даних? Є.П.: Найголовніше – розуміти, яка у вас ціль, для чого ви розвиваєте напрям бізнес-аналітики. По-друге, потрібно бути голодними до нових гіпотез, це допоможе бізнесу змінюватися. Наприклад, саме це можна спостерігати зараз у банківській сфері. Великі гравці вже розуміють, що традиційне комерційне банківництво добігає кінця, тому потрібно рухатися у напрямку фінтех і ставати лідерами у цій сфері. І починають обростати фінтех-стартапами. По-третє, аналітика не може існувати сама собою, вона завжди пов’язана з суспільними трендами. Роботизація, втрата людьми посад, пандемія – усе це впливає на аналітику. Моделі, сформовані до пандемії, можуть вже не давати якісні результати. Тому модель треба доглядати, як рослину. І, нарешті, важливо будувати архітектуру збору даних, бібліотеку моделей, йти від простого до складнішого. І не намагатися зробити все й одразу, щоб не розчаруватися. Стаття підготована в межах Digest, спільного проєкту Kyivstar та kmbs, і вперше опублікована на сайті hub.kyivstar.ua