AlphaZero-style Training – метод итеративной самоигры с поиском (MCTS) и обучением нейросети. Агент с нуля учится сложным играм (шахматы, го) без заранее предоставленных данных: он играет сам с собой, улучшая стратегию через симуляции и дообучение нейросети на собственных партиях (по схеме RL + самоигра).
[Искусственный интеллект.Терминология IT. The Angmar Core.(Электронный ресурс). Режим доступа: http://habr.com›ru/articles/929130//, свободный.]