Memory network (MemNN) & End to End memory network (MemN2N) & Dynamic memory network

  • 时间:
  • 浏览:1
  • 来源:5分6合APP下载_5分6合APP官方

编码上述\(q, m_{01}, m_{02}\):

$$ \sum\limits_{\overline{f}\not=m_{01}}\max(0, \gamma - s_0(x, m_{01}) + s_0(x, \overline{f})) + $$

其中\(s_i\)表示第\(i\)个语录,\(h_i^t\)表示正确处理语录\(i\)第\(t\)步的隐藏情況,其最后隐藏情況为\(m^prime\)

$$ h_i^t = g_i^tGRU(s_i, h_{i-1}^t) + (1 - g_i^t)h_{i-1}^t $$

\(m_{01}\): Joe left the milk.

计算损失,通过梯度修剪构建优化器

回答另另八个问句\(q\),首先通过打分函数\(s_0\)计算出与\(q\)最相关的语录\(m_{01}\)。有以后将语录\(m_{01}\)与\(q\)结合起来形成新的问句\([q, m_{01}]\),有以后定位最高分的下另另八个语录\(m_{01}\)。最后形成另外另另八个问句\([q, m_{01}, m_{02}]\)。此时亲戚亲戚人们都都都 并删剪都有用该问句去查询下另另八个句,以后通过原本打分函数定位另另八个词\(w\)。以上述例子来说明该过程。

语录由GRU正确处理,其中最后隐藏情況用于记忆模块。

删剪代码在github



用矩阵\(W(Vtimes d)\)乘以\(o\)和\(u\)的和。结果传给softmax函数预测最终答案。

初始化

$$ o_1 = \mathop{\arg\min}_{i=1,...,N}s_0(q, m_i) $$

The description, as well as the diagrams, on the end to end memory networks (MemN2N) are based on End-To-End Memory Networks, Sainbayar Sukhbaatar etc..

$$ c_i = emedding_C(x_i) $$



用第另另八个词嵌入矩阵编码\(x_i\)为\(c_i\):

以一句问句“where is the milk now?”开始了了,并用大小为\(V\)的词袋表示(其中\(V\)为词典大小)。简单地,用词嵌入矩阵\(B(dtimes V)\)转换上述向量为\(d\)维词嵌入。

训练

对于每个记忆项\(x_i\),用原本词嵌入矩阵\(A(dtimes V)\)转换为d维向量\(m_i\)。

其中\(W\)是字典中的所有词,\(s_r\)是另外另另八个计算\([q, m_{01}, m_{02}]\)和词\(w\)的匹配度。在亲戚亲戚人们都都都 的例子中,最后的回答\(r\)是“office”。

亲戚亲戚人们都都都 利用词袋法(bags of words)表示输入文本。首先,亲戚亲戚人们都都都 以大小为\(left|Wright|\)开始了了。

用词袋法对问句“where is the milk now”编码:

$$ \sum\limits_{\overline{f}\not=m_{02}}\max(0, \gamma - s_0(\left[x, m_{01}\right], m_{02}) + s_0(\left[x, m_{01}\right], \overline{f^\prime})) + $$

$$ q_t = GRU(v_t, q_{t-1}) $$

The description on the memory networks (MemNN) is based on Memory networks, Jason Weston etc.

其中\(U_0\)和\(U_r\)由边缘损失函数训练得到,\(phi(m_i)\)转换语录\(m_i\)为词袋表示。

\(m_{02}\): Joe travelled to the office.



这里,将所有步骤总结为另另八个图:

$$ s_r(x, y)n = \Phi_x(x)^TU_r^TU_r\Phi_y(y) $$

虚拟助理在回答单个问句时表现不赖,有以后在多轮对话中表现差强人意,以下例子说明亲戚亲戚人们都都都 面临着这些挑战:

为了达到更好的效果,亲戚亲戚人们都都都 分别用另另八个词集编码\(q\),\(m_{01}\)和\(m_{02}\),即\(q\)中的词“Joe”编码为“Joe_1”,\(m_{01}\)中同样的词编码为“Joe_2”:

首先,保存语录在记忆m中:

Joe went to the bathroom.

$$ r = \mathop{\arg\max}_{w \in W}s_r([q, m_{01}, m_{02}], w) $$

其中\(m_{02}\)是“Joe traveled to the office.”。

结合问句和推导的结果记为\(o\):

用边缘损失函数训练\(U_0\)和\(U_r\)中的参数:

为这些虚拟助理能够按照我的指令预订Caffé Opera?那是机会虚拟助理不必能记住亲戚亲戚人们都都都 的对话,她以后简单地回答亲戚亲戚人们都都都 的现象而不考虑向前谈话的上下午。有以后,她所能做的以后找到与词“First”相关的餐厅(一间所处First Street的餐厅)。记忆网络(Memory Networks)通过记住正确处理过的信息来正确处理该现象。

$$ o = [q, m_{01}, m_{02}] = ["where is the milk now"," Joe left the milk."," Joe travelled to the office."] $$

Source

考虑以下语录和问句“Where is the milk now?”:

$$ p_i = softmax(u^Tm_i) $$

$$ u^{k + 1} = u^k + o^k $$

回答问句\(q\)“where is the milk now?”,亲戚亲戚人们都都都 基于以下式子计算第另另八个推断:

与RNN相似,还可能够够堆叠多层形成僵化 网络。在每一层\(i\),有它本人的嵌入矩阵\(A_i\)和\(C_i\)。层\(k + 1\)的输入为:

其中,\(s_0\)是计算输入\(x\)与\(m_i\)匹配分数的函数,\(o_1\)是记忆\(m\)中最佳匹配索引。这里\(m_{01}\)是第另另八个推断中最好的匹配句:“Joe left the milk.”。

有以后,基于\([q: "where is the milk now", m_{01}: "Joe left the milk."]\)

计算输出:



通过计算\(u\)与每个记忆\(m_i\)的内积有以后softmax得到其匹配度:

$$ s_0(x, y)n = \Phi_x(x)^TU_0^TU_0\Phi_y(y) $$

生成最终的答复\(r\):

有以后,每一句变换为大小为\(3left|Wright|\)的编码。

以下是构建嵌入\(A\),\(C\),\(m_i\),\(c_i\),\(p\),\(o\)和\(hat a\)的代码。

$$ \sum\limits_{\overline{r}\not=r}\max(0, \gamma - s_0(\left[x, m_{01}, m_{02}\right], r) + s_0(\left[x, m_{01}, m_{02}\right], \overline{r})) $$

$$ u = embedding_B(q) $$

$$ m_i = embedding_A(x_i) $$

"where is the milk now"=(...,1,0,0,1,1,0,1,0,0,1,...)

其中\(overline{f}\),\(overline{f^prime}\)和\(overline{r}\)是真实标签外的其它机会预测值。即当错误回答的分数大于正确回答的分数减\(gamma\)时增加边缘损失。

对于记忆规模较大的的系统,计算每个记忆的分数较昂贵。其它可选方案为,计算完词嵌入\(U_0\)后,运用K-clustering将词嵌入空间分为K类。有以后将每个输入\(x\)映射到相应类中,并在类空间中进行推测而删剪都有在删剪记忆空间中。

$$ \hat a = softmax(W(o + u)) $$

还可能够够用MemN2N作为语言模型。比如,解析“独立申明”:“We hold these truths to be self-evident, that all men are created equal, that they are endowed by their Creator with certain unalienable Rights, that among these are Life, Liberty and the pursuit of Happiness.”,删剪都有每一句为另另八个记忆项以后没一词为一项:

$$ o = \sum\limits_{i}p_ic_i $$

根据MemN2N论文中的描述,其不同有:

$$ o_2 = \mathop{\arg\max}_{i=1,...,N}s_0([q, m_{01}], m_i) $$

上述语言模型的目的是预测第7个词。

\(q\): Where is the milk now?

亲戚亲戚人们都都都 用词嵌入\(U\)转换\(3left|Wright|\)词袋编码的语录为大小为\(n\)的词嵌入表示。计算打分函数\(s_0\)和\(s_r\):

猜你喜欢

圣经里面基督徒 结果子是什么意思

——很直接了,统统 善事。——传福音……约15章,红心百香果 树与果子,果子由于是约翰福音多次再次出现的“爱”。太21:43(1)统统我告诉我门歌词 ,神

2020-02-27

80后著名女作家有哪些

大学本科阶段结速英语 通俗文学的创作。春树3.戴漓力(女,武侠小说家,因出版长篇小说《铃儿响叮当》被保送至武汉大学,近期出版《胭脂红》,代表作《忘归箭》。)蒋离子,1985年

2020-02-27

4个字的外国名人的名字

可选中一俩个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个大问题。很重推荐 我来答大山乔丹杰克逊科比李连杰!换一换下载百度知道APP,抢鲜体验展开完整篇

2020-02-27

权志龙 that x x 歌词中文音译

肯得哦为了弄冷内可挖了内(why?kiCgi波呢内gi么特给么呀多特七为那呢噶及苏问呢够呀内噶恰莫普噶了够可得撒朗一完那浪给么啦就给够慢gi他够baby米噶就伴及了他够且把了有

2020-02-26

什么词语的意思是指事物本来的性质

基本含义:人与人沟通又分同层次沟通、跨层次沟通;单向交流、单对群交流;发展性交流、倾盖之交、利益之交;泛泛而谈,群起攻之;鸿儒之口、威逼利诱等更多。素质是指人的先天生理解剖特点

2020-02-26