Що таке квадрат суми в межах кластера?

Сума квадратів усередині кластера дорівнює міра мінливості спостережень у кожному кластері. Загалом, кластер із малою сумою квадратів є більш компактним, ніж кластер із великою сумою квадратів.

Помилка квадрата суми (SSE) Де d – відстань між даними та центром кластера. Сума квадратичних помилок (SSE) становить формула, що використовується для вимірювання різниці між даними, отриманими моделлю прогнозування, яка була зроблена раніше. SSE часто використовується як еталон для дослідження при визначенні оптимальних кластерів.

Сума квадратів у межах (помилка) SSwithin = ∑ [∑ (Xi – Mгрупа)2 ] Починаючи з групи 1, оцінка особи 1 (Xi) мінус середнє значення групи (Mgroup), у квадраті (2). Повторіть це для всіх у групі та додайте їх (∑). Потім повторіть це для кожної групи та додайте їх (∑), щоб отримати загальну SSwithin.

SSE буде визначено шляхом попереднього обчислення середнього значення для кожної змінної в новому кластері (що складається з 2 клітинок). Середнє значення кожної зі змінних є новим центром кластера. Потім визначається «похибка» від кожної точки до цього центру та додається (рівняння 1).

Сума квадратів вимірює відхилення точок даних від середнього значення. Більша сума квадратів вказує на більшу варіабельність, тоді як нижчий результат вказує на низьку варіабельність від середнього. Щоб обчислити суму квадратів, відніміть середнє від точок даних, зведіть різниці в квадрат і додайте їх разом.

Сума квадратів усередині кластера дорівнює міра мінливості спостережень у кожному кластері. Загалом, кластер із малою сумою квадратів є більш компактним, ніж кластер із великою сумою квадратів.