4.1 DQN 最优动作价值函数的用途 假如我们知道 Q ⋆ Q_⋆ Q⋆,我们就能用它做控制。 我们希望知道 Q ⋆ Q_⋆ Q⋆,因为它就像是先知一般,可以预见未来,在 t t t 时刻就预见 t t t 到 n n n时刻之间的累计奖励的期望。假如…
LEC 3 A basic abstract model for a biological neuron
1. Weights of connections
Neuron gets fired if it has received from the presynaptic neurons 突触前神经元 a summary impulse 脉冲, which is above a certain threshold.
Signal from a single synapse突触 ma…