论文: Zoph & Le. Neural architecture search with reinforcement learning. In ICLR, 2017.
使用RNN来生成神经网络结构,然后使用RL强化学习来训练RNN,目前该方法已经过时了
第一步预测某一层卷积核数量:

第二步:
将第一步p的变成one-hot向量:a1,然后通过一个嵌入层变成x1作为第二步的输入,输出filter的大小。

第三步:预测步长

至此,第一个卷积的超参数就获得了。



因为目标函数不可微,所以只能使用强化学习来训练rnn:



