Природа даних
Дані, що ми збираємо працюючи на проєкті можуть мати різну природу:
- Цифрові (numeric) дані одразу існують як цифрове значення, існують в певному діапазоні та мають свої одиниці вимірювання:
- Гроші (долари, гривні)
- Час (години, секунди)
- Вага (кілограми, міліграми)
- Кількість реєстрацій користувачів (штуки)
- Логічні (boolean) говорять наявність чи відсутність чогось. Такі дані вимагають інтерпретації та агрегації:
- Натискання кнопки (є сигнал / нема сигналу)
- Виникнення помилки (пройшов успішно / зробив помилку)
- Комплексні дані сповнені неоднозначними сенсами та вимагають розшифровки:
- Тексти (інформація, сенс, контекст, емоція, ключові слова та фрази)
- Поведінка (послідовність дій, як реакція на певну ситуацію)
- Розпізнавання образів (виділення кордонів певного об'єкта, порівняння з базою існуючих об'єктів, аналіз руху розпізнаного об'єкта в часі)
Приклади аналізу комплексних даних
Динаміка даних
- Статичні дані (constant/static) не змінюються за час дослідження
- Характеристики ЦА — людина не стане на 10 років старша, не втратить рівень комп'ютерної грамотності
- Швидкість роботи додатка — якщо дослідження проводиться на одному білді продукту і його не зламали, швидкість роботи має лишитися сталою
- Кількість функцій в додатку
- Кількість країн у світі
- Тривалість доби
- Динамічні (dynamic) дані, що очікувано зміняться під час дослідження
- Кількість зацікавлених користувачів під час запуску додатка
- Тривалість перегляду
- Погода на вулиці
Причини змін динамічних даних в експеріменті
- Заплановані події, що ми створюємо плануючи та запускаючи наш експеримент:
- Випуск нової функціональності
- Рекламна кампанія
- Зміна кольору кнопки
- Сезонні події, що прогнозовано повторюються з певною регулярністю:
- П’ятниця
- Зима
- Квартальна звітність
- Непередбачувані події, що важко передбачити заздалегідь:
- Медіаскандал
- Хакерські атаки
- Епідемії
Значущість змін
Події можуть викликати:
- Значні зміни – суттєве відхилення від базового значення в відсотках (наприклад 50%)
- Незначні зміни (0.01%)
Базове значення — це діапазон, що враховує регулярні незначні коливання.
В описовій (descriptive) ми можемо на графіку побачити різницю між значним та незначним відхиленням.
Референсні значення (benchmark)
Насьогодні у більшості індустрій вже є накопичені дані про типову поведінку користувачів та прийняття нового продукту. Дані можна знаходити в агрегаторах аналітики. В менш популярних індустріях — шукати в статтях.
Приклад: Діапазон типового збільшення переглядів відео з часом показано сірою смугою на графіку гугл аналітики
Приклад: Відсоток користувачів, що не приходять на заплановану зустріч в різних індустріях. Дані зібрано з різних статей у вільному доступі
Причинно-наслідкові зв’язки та кореляція
Зазвичай формуючи гіпотезу ми робимо припущення, що зміна одного параметру (наприклад розміру кнопки), вплине на інший (наприклад кількість замовлень). Вплив змін однієї величини на іншу називають кореляцією.
Та інколи зміни можуть залежати від інших факторів (наприклад дня тижня). Тому при плануванні експериментів ці фактори важливо, за можливості враховувати.
Ще бувають хибні кореляції — це коли ми бачимо кореляцію зовсім не пов'язаних між собою величин.
Підбірку таких хибних кореляцій можна подивитись тут https://www.tylervigen.com/spurious-correlations
Впевненість в результаті
Інколи, коли інструменти вимірювання не правильно налаштовані, чи є вплив інших факторів, про які ми ще не знаємо дані можуть показувати те, чого нема (false positive), і не показувати те, що є (false negative).
Чим більш ретельно спланований експеримент і чим більша вибірка, тим більш певний результат.
Повторюваність має значення. Якщо одне вимірювання/експеримент повторити кілька разів, певність виміряних даних збільшиться.