发布网友
共1个回答
热心网友
职业棋手提供围棋知识和资料,程序员针对每个知识点编写程序,最关键是优化算法。
研究者们用许多专业棋局训练AI,这种方法称为监督学习,然后让AI和自己对弈,这种方法称为强化学习,每次对弈都能让AI棋力精进。然后他就能战胜冠军啦!阿尔法的核心是两种不同的深度神经网络。“策略网络”和“值网络”。它们的任务在于合作“挑选”出那些比较有前途的棋步,抛弃明显的差棋,从而将计算量控制在计算机可以完成的范围里,本质上和人类棋手所做的一样。