Max Tokens (максимум токенов) – в API генеративных моделей параметр, ограничивающий длину ответа. Это максимально допустимое число токенов в выходе модели. Если сумма токенов запроса и ответа превысит лимит, выполнение оборвётся. Например, при max_tokens=500 и 3500 токенах в запросе (из общего лимита 4000) останутся лишь 500 «условных слов» на ответ. Этот параметр помогает контролировать объём генерируемого текста и затраты времени.
[Искусственный интеллект. Терминология IT. The Angmar Core. (Электронный ресурс). Режим доступа: http://habr.com›ru/articles/929130//, свободный.]