搜索资源列表
ReinforcementLearning
- 马尔卡夫决策过程理论定义了一个数学模型,可用于随机动态系统的最优决策过程。 强化学习利用这个数学模型将一个现实中的问题变成一个数学问题。 强化学习就是:追求最大回报G 追求最大回报G就是:找到最优的策略π?。 策略π?告诉在状态s,应该执行什么行动a。 最优策略可以由最优价值方法v?(s)或者q?(s,a)决定(The Markov decision process theory defines a mathematical model that can be used for the
K-order Markov Chain in Mobile Social Networks
- 针对移动社交网络中节点中心性预测问题,提出基于K阶马尔科夫链的中心性预测方法。在真实移动社交数据集的中计算信息熵分析节点中心性的过去与未来规律性,研究了节点中心性的可预测性。利用节点中心性的历史信息,构建状态转移概率矩阵,预测节点未来中心性值, 并通过分析真实值与预测值之间的误差评估了这些预测方法的性能。结果表明,当阶数K=2时,与四种基于时窗的中心性预测方法比较,基于K阶马尔科夫链的预测模型在MIT数据集和Infocom 06数据集中虽不在个体上优于已提出的预测方法,但在整体上达到了优化。(w
Hidden-Markov
- 通过规定转移概率,构造的隐马尔可夫信道状态转移,生成接受序列,接收端接收到的接受序列(By specifying the transition probability, the state transition of the hidden Markov channel is constructed, and the receiving sequence is generated. The receiving sequence is received by the receiving end.)