你的位置:首页 > 信息动态 > 新闻中心
信息动态
联系我们

工智能之所以成功,也正是因为它恰好踩到了“价值”

2021/12/11 19:38:03

  强化学习就是,模拟了人类以感受奖惩学习成果的奖励机制,抽象出来的模型。深度强化学习运用神经网络、算法和强化学习模型,把各种算法运用于数据要素的提取与筛选、神经网络和强化学习模型,将所有策略路径到达目标后的最终奖励,合理分布到其每一步动作上,得到每一步动作应得的奖励,也就得到了每一步动作对于目标实现的价值。
  强化学习主要是依据一系列策略路径完成后的得失(奖惩),探索各种策略发展路径上每一步决策或动作的利弊,从而对比确定某个事件的最佳策略发展途径。强化学习就是演绎探索各种可能策略路径上的每步动作,对于目标得失的重要性或贡献。最终发现并记住,最佳策略路径以及沿途所有动作或决策。
  从对深度学习与强化学习的抽象中不难看到,深度学习与强化学习的实质与情感思维高度一致,它们都是围绕达成目标的要素和目标与要素间的关系(权重),进行的运算或思考。人工智能之所以成功,也正是因为它恰好踩到了“价值”,这一人类隐性情感思维的核心逻辑之上。
  无论是深度学习还是强化学习,都是利用构成事物的各要素对于事物的意义来运算的,这一点与人类情感思维的工作模式完全吻合。神经网络模仿了人类大脑神经元的构架,而神经网络训练则模仿了,人类反复摸索要素价值的归纳过程。强化学习模型的奖励机制,与生物动作成败所获快感与痛感完全一致。
  深度学习类似于人类对于事物构成要素及意义的反复摸索。人和其它高等动物的大脑,都具有极强的归纳能力,它们可以在反复的实践中抓住,目标在多次反复中表现出来的共性。对于任何事物,人的头脑通过五官多次反复的感知过程,可以无意识地归纳出,事物各组成要素对于事物判断的重要性。