QLoRA (Quantized LoRA) – комбинированный подход: модель хранится в низкой точности (квантуется), а адаптация LoRA проводится с сохранением точности в критичных частях. Это позволяет ещё больше снизить требования к памяти при тонкой настройке.
[Искусственный интеллект.Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles/929130//, свободный.]