Context Length Management (управление длиной контекста)– учёт ограничения на число токенов, которые модель может обработать за запрос. У каждой LLM есть максимальное окно контекста (например, GPT‑4 — 8K токенов). При длинных входах практикуют сжатие или разбивку текста, чтобы не превысить лимит и сохранить ключевую информацию. Например, делят большой документ на части или дают краткий пересказ перед основной задачей. Управление контекстом гарантирует, что важный контент влезет в «память» модели.
[Искусственный интеллект. Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles/929130//, свободный.]