果冻传媒老狼一卡二卡,亚洲麻豆AV成本人无码网站,性一交一乱一乱一视频国产福利精品自拍

TensorFlow文本摘要生成 - 基于注意力的序列到序列模型

更新時間：2017-04-06 11:26:59 點擊次數(shù)：2911次

1 相關背景

維基百科對自動摘要生成的定義是, “使用計算機程序對一段文本進行處理, 生成一段長度被壓縮的摘要, 并且這個摘要能保留原始文本的大部分重要信息”. 摘要生成算法主要分為抽取型(Extraction-based)和概括型(Abstraction-based)兩類. 傳統(tǒng)的摘要生成系統(tǒng)大部分都是抽取型的, 這類方法從給定的文章中, 抽取關鍵的句子或者短語, 并重新拼接成一小段摘要, 而不對原本的內容做創(chuàng)造性的修改. 這類抽取型算法工程上已經有很多開源的解決辦法了, 例如Github上的項目sumy, pytextrank, textteaser等. 本文重點講概括型摘要生成系統(tǒng)的算法思想和tensorflow實戰(zhàn), 算法思想源于A Neural Attention Model for Abstractive Sentence Summarization這篇論文. 本文希望幫助讀者詳細的解析算法的原理, 再結合github上相關的開源項目textsum講解工程上的實際應用.本文由PPmoney大數(shù)據(jù)算法團隊撰寫，PPmoney是國內領先的互聯(lián)網(wǎng)金融公司，旗下PPmoney理財總交易額超過700億元。此外，若對TensorFlow的使用技巧和方法感興趣，歡迎閱讀本團隊負責人黃文堅所著的《TensorFlow實戰(zhàn)》。

2 算法原理

下面對A Neural Attention Model for Abstractive Sentence Summarization這篇文章, 的算法原理進行講解. 我們將這個模型簡稱為NAM. 主要分為模型訓練(train)和生成摘要(decode)兩部分講解.

2.1 模型訓練(train)

NAM這個模型是純數(shù)據(jù)驅動, 我們喂給它的訓練集數(shù)據(jù)是由一系列{正文: 摘要}對組成. 假設正文是x=[x1,...,xM], M是正文詞符的數(shù)量, 對應的摘要為y=[y1,...,yN], N是摘要單詞的數(shù)量.
對于給定的數(shù)據(jù), 我們希望給定x生成摘要為y的概率大, 即maxθlogp(y|x;θ), θ是模型的參數(shù). 但這個很難求解, 實際中我們用序列化的方式實例化這個目標, 原來的目標函數(shù)變?yōu)?

maxθ\sumi=0N?1logp(yi+1|x,yc;θ)

這里

yi+1是要預測的下一個詞,

yc?y[i?C+1,...,i]是已知的序列,

C是已知序列窗口的長度. 后面會提到, 這個窗口的位置也是注意力關注的位置, 在后面的訓練過程中會根據(jù)學習到的權重調整不同位置注意力的概率大小. 這個窗口是隨著

i的迭代來滑動的.
參數(shù)說明:

y: 參考摘要所有單詞向量組成的序列

x: 正文的所以單詞向量組成的序列

i: 當前評估函數(shù)所對應的位置

yc: 當前訓練的窗口對應的局部摘要序列

yi+1: 模型要預測的下一個單詞

下面我們舉一個例子來說明訓練的過程:
這里寫圖片描述
我們希望根據(jù), 當前局部摘要序列yc和全部的正文信息x, 來預測下一個單詞yi+1. 我們希望模型預測下一個單詞為yi+1的概率大, 并且希望所有單詞都盡可能的預測準確, 在公式上表現(xiàn)為∑N?1i=0logp(yi+1|x,yc;θ)大. 窗口C會從摘要的起始位置滑動到終止位置, 當i<C時, yc超出摘要的部分用起始符號<s>來補全.
我們感興趣的分布p(yi+1|x,yc;θ)是基于輸入語句x的條件語言模型. 這里我們直接將原始的分布, 參數(shù)化為一個神經網(wǎng)絡. 這個神經網(wǎng)絡既包括了一個神經概率語言模型(neural probabilistic language model), 也包括了一個編碼器(這個編碼器就是一個條件摘要模型).
通過包含編碼器并且聯(lián)合訓練這兩個組塊, 我們根據(jù)當前yc對x的不同內容投入不同的關注度, 進而的到更好的結果. 模型結構如下圖所示:
這里寫圖片描述

模型整體的網(wǎng)絡結構圖(具有一個額外的編碼器單元):
右側分支: 僅根據(jù)當前的序列yc預測下一個單詞是yi+1的概率, E是詞嵌入, y? ′c -> h包括加權和激活函數(shù)的操作.
左側分支: 使用yc和x生成隱層的下一個輸出, yc會對encoder產生影響, 讓encoder更多的關注x中與yc有關的內容.
聯(lián)合輸出: 終結合右側的神經語言模型和左側attention-based編碼器的輸出, 求下一個詞是yi+1的概率.
基于注意力模型的編碼器enc31的網(wǎng)絡結構圖:
左側分支: F是詞嵌入矩陣, x? -> xˉ是做了一下平滑處理.
右側分支: G是詞嵌入矩陣, 根據(jù)當前的y′c, 對x? 的不同位置投入不同的注意力, 并形成一個加權向量.
聯(lián)合輸出: 此時p已經攜帶了注意力的信息, 用p對平滑后的xˉ再做加權, 得到encoder的輸出.
下面兩幅圖分別是對整體結構和編碼器結構的展開:

感興趣的同學可以結合原文中的公式理解:
上圖(a)中對應的公式:

p(yi+1|x,yc;θ)\proptoexp(Vh+Wenc(x,yc)),yc~=[Eyi?C+1,...,Eyi],h=tanh(Uyc~)

參數(shù)是:

θ=(E,U,V,W),

E∈?D×V, 是一個詞嵌入矩陣;

U∈?(CD)×H,V∈?V×H,W∈?V×H, 是權重矩陣.
上圖(b)中對應的公式:

enc3(x,yc)=pTxˉ,p\proptoexp(x? Pyc~'),x? =[Fx1,...,FxM],yc~'=[Gyi?C+1,...,Gyi],?i,xˉi=\sumq=i?Qi+Qx? i/Q

這里

G∈?D×V是一個內容的嵌入,

P∈?H×(CD)是一個新的權重矩陣參數(shù),

Q是一個平滑窗口.
Mini-batch訓練
這個模型是純數(shù)據(jù)驅動的, 只要給它{正文: 摘要}訓練集就能完成訓練. 一旦我們已經定義了局部條件模型

p(yi+1|x,yc;θ), 我們就能估計參數(shù)來小化摘要集合的負對數(shù)似然函數(shù). 假設訓練集由

J個輸入-摘要對組成

(x(1),y(1)),...,(x(J),y(J)). 負對數(shù)似然函數(shù)作用到摘要的每一個詞, 即

NLL(θ)=?\sumj=1Jlogp(y(j)|x(j);θ)=?\sumj=1J\sumi=1N?1logp(y(j)i+1|x(j),yc;θ)

我們通過使用mini-batch和隨機梯度下降小化NLL.

2.2 Beam Search生成摘要(decode)

我們現(xiàn)在回到生成摘要的問題. 回顧前面, 我們的目標是找到:

y?=argmaxy\in\sumi=0N?1logp(yi+1|x,yc;θ)

是長度為

N的序列

y組成的集合, 如果字典中的單詞數(shù)量是

V的話, 我們要生成的這個摘要就有

VN種可能性. 因為我們這里已經做了處理, 只根據(jù)前面的

C個已經預測出的單詞

yc來預測下一個詞

yi+1. 這樣算法復雜度變成了

O(NVC). 但是即使是這樣, 這個算法也太復雜了.
使用維特比譯碼需要

O(NVC).復雜度獲得精確的解. 然而在實際中

V太大使得問題難解. 一個替代方法是使用貪婪解來近似獲得argmax, 只保證每次前進的一小步是概率大的.
在精確解和貪婪解方法之間取一個折中, 就是beam-search束搜索解碼器(Algorithm1), 它在保持全量字典

V的同時, 在輸出摘要的每一個位置上將自己限制在

K個潛在的假設內. 這種beam-search方法在神經機器翻譯模型NMT也很常用. Beam search算法展示如下:
這里寫圖片描述

參數(shù)說明:

N: 摘要的長度

K: beam的尺寸

V: 字典里所有單詞的數(shù)量

C: 關注的詞序列的長度

Beam search案例

下面舉一個簡單的例子來說明beam search算法的運行過程. 在這個例子里, 摘要長度N=4, beam的大小K=6, 注意力窗口大小C=2, 模型理想的結果是‘i am a chinese’. Beamsearch的每一次迭代都從字典V里找K個大的可能.
這里寫圖片描述
Step1: 預測前C個詞的時候窗口溢出的部分需要進行padding操作, 預測第1個詞的時候我們選出K個詞符.

Step2: 預測第2個詞的時候, 我們選出新的K個詞符, 對應K條備選路徑. 前一階段概率低的路徑和詞符, 被拋棄掉.
這里寫圖片描述
Step3: 重復前面的過程.

Step4: 每次beam search不一定能選出不同的K個詞, 但是每次beam search都找到優(yōu)的前K個路徑, 路徑可以有重疊.

Step5: 迭代N次, 終選出可能性大的一條詞序列路徑

下面是對Beam Search算法的詳細分析, 對原文的Algorithm 1逐條進行解釋.

Beam Search算法分析

π[0]是可以用規(guī)定好的起始符號<s>來初始化. 在訓練和生成摘要時, 窗口Q和C沿著文本滑動如果超出范圍, 用起始符號<s>做padding.
如果模型是abstraction-based, 輸出y的備選集合是整個字典, 如果希望摘要的單詞全部從原文中抽取, 那么詞典由輸入正文x的所有單詞構成.
我們會設定一個大輸出長度N, 算法會進行N輪迭代.
1. 現(xiàn)已有K個假設, 每一個假設都對應一條路徑; 對每一個假設, 我們從字典S(有V個單詞)中選出K個單詞作為備選.
2. 在字典中尋找, 搜索其他單詞, 如果計算的到的state值比當前集合中的任意一個大, 就把它保留下來.
3. 當每一個假設都遍歷完整個字典S, 就會產生K×K條路徑, 我們在這些路徑中選擇概率大的K個路徑作為下一次迭代的基礎.(每一條路徑都保留了之前i?1個節(jié)點對應的單詞)
當N次迭代進行完后, 我們只剩下了K條路徑, 后在從這其中選出1條概率大的即可.
路徑所經歷的所有節(jié)點即為摘要的單詞. 如果這中間遇到了停止符<e>, 摘要就是從<s>到<e>, 如果沒有<e>出現(xiàn), 摘要的大長度就是N.

Beam Search的運算復雜度從O(NVC)變成了O(KNV), 因為V>>N和K, 加速效果非常顯著. 束搜索依據(jù)已經計算好的路徑以及當前的V個備選值, 計算出優(yōu)的K的值. 新的K個優(yōu)值都保留著相應路徑上之前的所有的節(jié)點.

3 TensorFlow程序實戰(zhàn)

NAM模型的程序早是由開源的torch版本的程序. 近谷歌開源了TensorFlow版本的摘要生成程序textsum, Github上的項目. textsum的核心模型就是基于注意力的seq2seq(sequence-to-sequence)模型, textsum使用了LSTM和深度雙向RNN.
Github上的textsum首頁給出了此項目在Bazel環(huán)境下的運行方式. 如果你不想通過Bazel運行, 你可以直接在seq2seq_attention.py中設定運行參數(shù). 設定完參數(shù)后, 直接運行Python seq2seq_attention.py即可. 參數(shù)設定如下圖所示:
這里寫圖片描述
除了上述項目運行時所需的必要參數(shù), 模型參數(shù)也在seq2seq_attention.py中設定, 如下圖所示, 包括學習率, 小學習率(學習率會衰減但不會低于小學習率), batch size, train模式encoder的RNN層數(shù), 輸入正文詞匯數(shù)上限, 輸出摘要詞匯數(shù)上限, 小長度限制, 隱層節(jié)點數(shù), word embedding維度, 梯度截取比例, 每一個batch隨機分類采樣的數(shù)量.
這里寫圖片描述
Git項目textsum給的toy數(shù)據(jù)集太小, vocab也幾乎不可用(一些常見的單詞都沒有覆蓋到). 如果希望獲得好的效果, 需要自己整理可用的數(shù)據(jù)集.
主要文件說明:
- seq2seq_attention.py: 主程序, 選擇程序的運行模式, 設定參數(shù), 建立模型, 啟動tensorflow
- seq2seq_attention_model.py: 建立attention-based seq2seq model, 包括算法的encoder, decoder和attention模塊, 都在Seq2SeqAttentionModel中完成.
- seq2seq_attention_decode.py: 讀取數(shù)據(jù), 調用beam_search解碼
beam_search.py: beam search算法的核心程序

textsum程序解析

Google開源的textsum項目的具體算法是基于Hinton 2014年的Grammar as a Foreign Language這篇論文, 下面給出textsum工程中attention-based seq2seq模型的整體結構圖, 圖中所使用的名字與程序中的變量名一致, Seq2SeqAttentionModel是一個類, 定義在seq2seq_attention_model.py中; attention_decoder是一個函數(shù), 定義在/tensorflow/contrib/legacy_seq2seq/python/ops/seq2seq.py中.
為了方便理解, 簡單解釋一下圖中出現(xiàn)的符號,
這里寫圖片描述
個符號表示從x1,x2到y(tǒng)的線性變換, 紅色變量是訓練過程要學習出來的.

attention機制比較復雜也比較重要, 我們對這部分細化一下來看. attention decoder結構圖如下:

下圖是對attention模塊的細化:

符號說明:
這里寫圖片描述

為什么attention這個模塊會起到效果呢? 因為attention模塊會根據(jù)decoder當前時刻的LSTM單元的狀態(tài), 來調整對attention_states(encoder輸出)的注意力. Attention_states不同位置獲得的關注不一樣. 這樣我們就更大程度地, 關注了原文中, 對當前輸出更為有用的信息, 輸出結果也就更準確了. Attention模塊輸出結果和decoder模塊原本的輸出聯(lián)合起來, 得到終的輸出結果.

本站文章版權歸原作者及原出處所有。內容為作者個人觀點，并不代表本站贊同其觀點和對其真實性負責，本站只提供參考并不構成任何投資及應用建議。本站是一個個人學習交流的平臺，網(wǎng)站上部分文章為轉載，并不用于任何商業(yè)目的，我們已經盡可能的對作者和來源進行了通告，但是能力有限或疏忽，造成漏登，請及時聯(lián)系我們，我們將根據(jù)著作權人的要求，立即更正或者刪除有關內容。本站擁有對此聲明的最終解釋權。