Що таке top k в llm?

Топ К вказує кількість токенів для вибірки. Наприклад, якщо ви встановите для Top K значення 3, вибірка буде здійснюватися лише з перших трьох токенів у списку: for, to та with. Примітка. Параметр Greedy декодування еквівалентний Top K = 1.

Вибірка Top-K: Вибірка Top-K передбачає вибір K найімовірніших слів із розподілу ймовірностей, а потім вибірка наступного слова лише з цієї підмножини. Приклад: уявіть собі сценарій, у якому LLM отримує запит «Столиця Франції…».

Параметр top-k ефективно контролює розмір словникового запасу, який розглядається під час створення тексту. Встановивши конкретне значення для k, користувачі можуть обмежити кількість слів, з яких модель може вибрати. Це обмеження гарантує, що згенерований текст залишається цілеспрямованим, зв’язним і релевантним контексту.

Топ-К є імовірнісна структура даних, яка дозволяє знаходити найбільш часті елементи в потоці даних. Top K — це імовірнісна структура даних у Redis Stack, яка використовується для оцінки K елементів найвищого рангу з потоку.

Точність класифікації top-k є одним із основних показників машинного навчання. тут, k зазвичай є додатним цілим числом, таким як 1 або 5, що веде до топ-1 або топ-5 навчальних цілей.

Вибірка Top-k відбирає маркери з найвищою ймовірністю, доки не буде досягнуто вказану кількість маркерів. Вибірка Top-p відбирає токени з найвищими балами ймовірності, поки сума балів не досягне вказаного порогового значення. (Вибірка Top-p також називається вибіркою ядра.)