工智能之所以成功，也正是因为它恰好踩到了“价值”

　　强化学习就是，模拟了人类以感受奖惩学习成果的奖励机制，抽象出来的模型。深度强化学习运用神经网络、算法和强化学习模型，把各种算法运用于数据要素的提取与筛选、神经网络和强化学习模型，将所有策略路径到达目标后的最终奖励，合理分布到其每一步动作上，得到每一步动作应得的奖励，也就得到了每一步动作对于目标实现的价值。
　　强化学习主要是依据一系列策略路径完成后的得失（奖惩），探索各种策略发展路径上每一步决策或动作的利弊，从而对比确定某个事件的最佳策略发展途径。强化学习就是演绎探索各种可能策略路径上的每步动作，对于目标得失的重要性或贡献。最终发现并记住，最佳策略路径以及沿途所有动作或决策。
　　从对深度学习与强化学习的抽象中不难看到，深度学习与强化学习的实质与情感思维高度一致，它们都是围绕达成目标的要素和目标与要素间的关系（权重），进行的运算或思考。人工智能之所以成功，也正是因为它恰好踩到了“价值”，这一人类隐性情感思维的核心逻辑之上。
　　无论是深度学习还是强化学习，都是利用构成事物的各要素对于事物的意义来运算的，这一点与人类情感思维的工作模式完全吻合。神经网络模仿了人类大脑神经元的构架，而神经网络训练则模仿了，人类反复摸索要素价值的归纳过程。强化学习模型的奖励机制，与生物动作成败所获快感与痛感完全一致。
　　深度学习类似于人类对于事物构成要素及意义的反复摸索。人和其它高等动物的大脑，都具有极强的归纳能力，它们可以在反复的实践中抓住，目标在多次反复中表现出来的共性。对于任何事物，人的头脑通过五官多次反复的感知过程，可以无意识地归纳出，事物各组成要素对于事物判断的重要性。