C-NN (ущільнені найближчі сусіди) 🎯: цей метод передова техніка недостатньої вибірки, яка спрямована на видалення зразків класу більшості, які знаходяться далеко від межі прийняття рішення, і збереження тих, які знаходяться близько до межі прийняття рішення.
Конденсований найближчий сусід метод недостатньої вибірки, який згущує набір більшості шляхом вибору підмножини вибірок більшості з початкового набору більшості. Параметри: data (Pandas dataframe) – Pandas dataframe, набір даних для повторної вибірки. y (str) – назва стовпця цільової змінної у фреймі даних Pandas.
Правило найближчого сусіда вибирає клас для x з припущенням, що: Це розумно? Так, якщо x' достатньо близький до x. Якби x' і x накладалися (в одній точці), вони мали б один клас.
Середнє співвідношення найближчих сусідів розраховується як спостережувана середня відстань поділена на очікувану середню відстань (з очікуваною середньою відстанню, заснованою на гіпотетичному випадковому розподілі з тією самою кількістю об’єктів, що охоплюють ту саму загальну площу).
Загалом, наближені методи найближчого сусіда можна згрупувати як:
- Деревоподібні структури даних.
- Графи сусідства.
- Методи хешування.
- Квантування.
Ось кроки алгоритму:
- Ініціалізуйте всі вершини як невідвідані.
- Виберіть довільну вершину, встановіть її як поточну вершину u. …
- Знайти найкоротше ребро, що сполучає поточну вершину u і невідвідану вершину v.
- Встановіть v як поточну вершину u. …
- Якщо всі вершини в домені відвідано, завершується.