Soft Actor-Critic (SAC) – RL-алгоритм, комбинирующий обучение с максимизацией энтропии (случайности) в действиях. Агент обучается выбирать не только наградо-оптимальные, но и «интересные» действия, что ускоряет обучение и делает его более устойчивым к переобучению.
[Искусственный интеллект.Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles/929130//, свободный.]