Перехресна перевірка K-Fold є техніка, за якої набір даних ділиться на «k» підмножин (згорток) для більш надійної оцінки продуктивності моделі. Кожна складка служить як даними для навчання, так і для перевірки.
У K-кратній перехресній перевірці «K» представляє кількість груп, на які розділено набір даних. Це число визначає, скільки раундів тестування проходить модель, гарантуючи, що кожен сегмент використовується як тестовий набір один раз.
k-кратна перехресна перевірка
- Виберіть кількість складок – k. …
- Розділіть набір даних на k рівних (якщо можливо) частин (їх називають складками)
- Виберіть k – 1 згортання як навчальний набір. …
- Тренуйте модель на навчальному наборі. …
- Перевірте на тестовому наборі.
- Збережіть результат перевірки.
- Повторіть кроки 3-6 тисяч разів.
V-кратна перехресна перевірка (також відома як k-кратна перехресна перевірка) випадковим чином розбиває дані на V груп приблизно однакового розміру (так звані «складки»). Повторна вибірка даних аналізу складається з V-1 складок, тоді як набір оцінки містить остаточну складку.
У перехресній перевірці K-Fold, ми розбиваємо набір даних на k підмножин (відомих як згортки), потім виконуємо навчання всіх підмножин, але залишаємо одну (k-1) підмножину для оцінки навченої моделі.. У цьому методі ми повторюємо k разів з іншою підмножиною, зарезервованою для цілей тестування.
Враховуючи навчальний набір даних, k-кратна перехресна перевірка виконується з метою заздалегідь оцінивши, наскільки добре буде працювати модель. Враховуючи рандомізацію, малоймовірно, що в циклі перехресної перевірки відбудеться різка зміна від одного запуску до наступного.