国产成_人_综合_亚洲_国产,特黄熟妇丰满人妻无码,ASIAN日本JAVA少妇乱子另类

知乎全力挺進AI，算法大賽打響反擊今日頭條的槍？

更新時間：2017-09-01 09:13:18 點擊次數：2636次

知乎和今日頭條，你能想象兩者有一天會一言不合就相互 diss 嗎？

近幾天，知乎大V@惡魔奶爸的一條朋友圈成了今日頭條旗下“悟空問答”和知乎之間 battle 全面爆發的導火索。

今日頭條今年一口氣簽了300多個知乎大V，剛把我也簽了，而且是給錢的，年收入比普通白領高。簽完以后所有內容不可以再發知乎。優質的內容創作者被搶完了，所以知乎的質量每況愈下...

知乎聯合創始人張亮則表示：“至少在過去一年時間里，我都很希望有倆人趕緊離開知乎，一個是‘惡魔奶爸’，另一個是‘霍老爺’。”

火藥味十足。

然而，今日頭條和知乎之間的“戰爭”不僅僅是這么簡單，在內容分發的技術上，以及AI人才的爭奪上，兩者也之間也展開了“競賽”，而這場競賽的表現形式之一就是“算法大賽”。

大家都知道，今日頭條挖來了微軟亞研院的前常務副院長馬維英，掌管其人工智能實驗室。實際上，知乎也在悄悄布局。

據AI科技大本營了解，知乎已經組建了一個機器學習團隊，而本次算法大賽的負責人張瑞便是機器學習團隊中的一員，曾經就職于百度和豌豆莢的張瑞。據介紹，張瑞在獲得北京郵電大學碩士學位后一直從事搜索引擎及自然語言處理方向的研發工作。

既然兩者都有數據，也有需求，那么通過舉辦算法大賽來為自己提供新思路，順便擴大影響力并招攬人才也就在情理之中了。

知乎看山杯機器學習挑戰賽

2016 年，今日頭條聯合中國人工智能學會聯合、IEEE 中國舉辦了一場為期三個月 BYTE CUP國際機器學習競賽。此次比賽的任務是建立模型，預測專家可能回答某一問題的概率，旨在更有效率地將頭條問答中普通人的問題推送給愿意回答的專家。

今年 5 月 15 日，知乎算法團隊聯合中國人工智能學會、 IEEE 計算機協會和 IEEE 中國代表處，發起「知乎看山杯機器學習挑戰賽」。大賽以語義分析應用為賽題，對知乎上的內容進行精準的自動化話題標注，以提升知乎的用戶體驗和提高內容分發效率。

可以看出，兩者的賽題都是跟提高問答內容的分發效率直接相關的。要知道，今日頭條的問答頻道于 2016 年 7 月 14 日才在頭條 App 內正式上線。因此，雖然知乎的算法大賽來的晚了些，但也算得上是反擊今日頭條的槍。

8 月 15日，創新工場、搜狗和今日頭條又宣布共同發起“AI Challenger 全球 AI 挑戰賽”，首屆挑戰賽將于 9 月 4 日正式拉開帷幕。

不過，AI Challenger 大賽還未開始，知乎的比賽結果已經于昨日（8 月 30 日）新鮮出爐：來自北京郵電大學模式識別實驗室的 init 團隊成功奪魁。

雖然知乎并不是家舉行算法大賽的中國公司，但是這場比賽對國內的 AI 社區來說，依然有著積極的示范作用。至少，比攜程大數據比賽的口碑要好得多。

讓我們來一起回顧下這場比賽。

背景簡介

目前，知乎上的內容分發的一個重要途徑是通過關注關系生成的 Feed 流。關注關系可能是基于人，也可能是基于「話題」標簽；從用戶關注的話題標簽為用戶推薦內容，會更加契合用戶對不同領域、不同類型的知識的需求。因此，對知乎上的內容進行精準的自動化話題標注，對提升知乎的用戶體驗和提高內容分發效率有非常重要的支撐作用。同時，對文本的語義進行理解和自動標注，尤其是在標簽數量巨大、標簽之間具有一定的相互關聯關系的場景下的 tagging，也是目前自然語言處理的一個前沿研究方向。

任務描述

參賽者需要根據知乎給出的問題及話題標簽的綁定關系的訓練數據，訓練出對未標注數據自動標注的模型。

標注數據中包含 300 萬個問題，每個問題有 1 個或多個標簽，共計1999 個標簽。每個標簽對應知乎上的一個「話題」，話題之間存在父子關系，并通過父子關系組織成一張有向無環圖（DAG）。

由于涉及到用戶隱私及數據安全等問題，本次比賽不提供問題、話題描述的原始文本，而是使用字符編號及切詞后的詞語編號來表示文本信息。同時，鑒于詞向量技術在自然語言處理領域的廣泛應用，比賽還提供字符級別的 embedding 向量和詞語級別的 embedding 向量。

評測方法

知乎提供包含 217360 個問題的評測數據集，參賽者需要在這些問題上運行訓練出的模型進行預測，并標注 Top 5 的話題標簽，此外，預測出的話題標簽之間存在順序。

預測出的 5 個話題標簽按照預測得分，從大到小排序。
話題標簽默認是不重復的。遇到重復的話題標簽，只保留次出現，并且其后的標簽遞補。去重后不滿 5 個標簽的，其余位置默認為 -1，-1 不和任何話題標簽匹配。多于 5 個話題標簽的，從第六位往后忽略。
評測標準：

準確率(Precision): 預測出的標簽命中了標注標簽中的任何一個即視為正確。終的準確率為每個位置上的準確率按位置加權。準確率評測的公式如下： `math Precision = \sum_{pos \in \{1,2,3,4,5\}} \frac {Precision@pos} {log_{pos + 1}} `

召回率(Recall): 預測出的 Top 5 標簽中對原有標簽的覆蓋量。

終評價指標為 Precision 和 Recall 的調和平均數。即：

比賽結果

獲獎選手是評審團隊根據參賽隊伍所提交的模型在驗證數據集上的表現( 成績及排名鏈接-https://biendat a.com/competition/zh ihu/leaderboard/ )，而終篩選確認。

為了驗證結果，在獲獎隊伍提交其方法說明及可復現的代碼和模型數據后，評審團隊逐一評審了獲獎隊伍的方法及代碼，并且隨機抽取其中一些隊伍提交的模型，使用另外一份驗證數據集進行了結果的驗證。本次比賽共有 7 支隊伍獲獎，獲獎名單如下：

一等獎一名，獎金 40,000 元，獲獎隊伍是來自北京郵電大學的 init 團隊；

二等獎兩名，獎金 10,000 元，獲獎隊伍是：

來自北京郵電大學的 Koala 團隊；
來自中科院計算所、Google 和百度的 YesOfCourse 團隊；

三等獎四名，獎金 5,000 元，獲獎隊伍是：

來自 Microsoft 和北京大學的 NLPFakers 團隊；
來自武漢大學、倫敦大學學院(University College London)的 Gower Street & 81 Road 團隊；
來自北京郵電大學的 ye 團隊；
來自鄭州鐵路局、同花順公司、電子科技大學中山學院的 Yin & Bird 團隊。

比賽亮點

知乎張瑞表示，所有獲獎的 7 支隊伍，都無一例外地使用了各種結構的深度神經網絡(Deep Nerual Network，DNN)，而傳統的文本分類方法，例如支持向量機(Support Vector Machine，SVM)或者樸素貝葉斯(Naive Bayes)等方法，則使用較少。這也許說明，在一定程度上，深度神經網絡已經成為 NLP 領域的主流方法。

init 團隊：TextCNN + TextRNN + RCNN，共享 Embedding 進行聯合學習，在模型集成方面，使用多模型、等權重的 Bagging 方法進行集成；在數據預處理方面，使用 delete 和 shuffle 進行數據增強；
Koala 團隊：FastText + TextCNN + TextRNN，使用 boosting 的思想對神經網絡進行逐層訓練，各個網絡之間使用加權平均的 bagging 方式；
YesOfCourse 團隊：使用 TextCNN + LSTM/GRU + RCNN 作為基模型，并且利用 GBRank 融合多個神經網絡的輸出；
NLPFakers 團隊：使用 TextCNN + RNN + RCNN 作為基模型，利用線性加權進行模型集成；在神經網絡訓練中使用了 attention 機制；
Gower Street & 81 Road 團隊：使用 RNN 神經網絡作為基礎模型，并且將 Query-TopicTitle 的相似度與神經網絡進行聯合訓練。終使用 Bagging with Ensemble Selection 作為模型集成策略；
ye 團隊：使用 TextCNN + BiGRU 作為基礎模型，利用帶有權重搜索的 bagging 作模型集成策略；
Yin&Bird 團隊：利用 LSTM 和 Bayes 方法作為基礎模型，并且利用 stacking 方法進行模型集成。

在對問題進行建模時，所有參賽隊伍都將問題轉化成了「文本多分類」或者「文本標簽預測」的問題。在訓練過程中，大多數團隊都選用了交叉熵(Cross Entropy)作為損失函數。所有的參賽隊伍都應用了集成學習的思想，利用多個模型的相互補充來提高成績。同時選手們還針對自己對問題的理解對問題進行了非常多的優化，出現了一些很有亮點的優化方法。

例如：

名的 init 團隊，在數據增強方面進行了富有創意的工作。init 團隊在進行模型訓練的時候，通過 delete 和 shuffle 機制來避免訓練結果的過擬合，同時保證模型的差異性。init 團隊在提交的評審材料中提到，僅僅通過數據增強機制，訓練出來的多模型結果通過等權重的 bagging 方式得到的結果已經能夠獲得優于第二名結果的表現。

第二名的 Koala 團隊，在進行神經網絡訓練的時候，使用了逐層 boosting 的方法，來提升單個神經網絡模型的表現；根據其描述，這個優化可以使多層神經網絡的表現提升 1.5 個百分點左右。

第三名的 YesOfCourse 團隊將 tag precition 過程轉化成了一個 Recall-Rarank 的兩步問題；使用大量的神經網絡模型來進行召回，并且將神經網絡對標簽的預測得分作為 GBRank 的特征輸入，并且使用 Pairwise 的方式來對標簽的排序進行優化，選擇排序后的前 5 個標簽作為模型的輸出。從 YesOfCourse 團隊提交的說明中看出，使用 Recall + Rerank 模型得到的結果，相對于 Non-Linear NN Ensemble 的結果，有千分之二以上的提升；同時，YesOfCourse 還嘗試使用了多種 Loss Function 和多種 attention 機制來保證模型間的差異性。

第五名的 Gower Street & R1 Road 團隊，則將數據提供的 topic 的標題信息利用了起來，使用 RNN + Question-Topic Similarity 信息進行模型的聯合訓練。將單模型的結果從 0.415 提升到了 0.419，并且使用 20 個模型的 ensemble，終取得了 0.432 的好成績。

算法大賽的未來

張瑞表示，關于這個問題本身，知乎很早就啟動了相關的研究，例如 word2vec + CNN，LSTM 等，已經有一個相對成熟的版本在線上運行。

“我們絕不是「花小錢來騙大家的技術」。”張瑞稱，“我們對參賽者抱有非常大的期待。相信通過比賽，大家能夠從一些我們之前想不到的地方提出一些獨特的見解，碰撞出一些思維的火花，對我們工作的進一步改進有很大啟發。我們也非常希望參賽者們借助比賽，提升自己對自然語言處理領域的興趣和能力，讓大賽對彼此都能雙贏?！?/span>

不過，目前AI領域具影響力的大賽基本都是國外的，除了語言因素和發展的先后之外，高質量數據集的缺乏也是一大掣肘。張瑞在專欄上寫道，“”

據張瑞介紹，除了這次比賽的文本標簽數據集外，他們還將發布一些與知乎密切相關的數據集和機器學習任務，例如內容推薦、社交網絡鏈接預測等數據集，這些數據集會在經過嚴格脫敏和審核后，陸續開放。

在算法越來越難以取得突破性進展的今天，高質量數據集的重要性進一步凸顯。相對于那些大公司，高校學者和獨立的開發者想要獲得研究數據，更是難上加難。

與此同時，不論是知乎的“看山杯”，還是今日頭條和創新工場、搜狗一起聯合舉行的“AI Challenger”，都通過算法比賽間接地為 AI 社區貢獻了大量的數據。

因此，不管這些公司的初衷是為了擴大影響力，還是為了招攬人才，至少這是一個好的開始。

本站文章版權歸原作者及原出處所有。內容為作者個人觀點，并不代表本站贊同其觀點和對其真實性負責，本站只提供參考并不構成任何投資及應用建議。本站是一個個人學習交流的平臺，網站上部分文章為轉載，并不用于任何商業目的，我們已經盡可能的對作者和來源進行了通告，但是能力有限或疏忽，造成漏登，請及時聯系我們，我們將根據著作權人的要求，立即更正或者刪除有關內容。本站擁有對此聲明的最終解釋權。

上一篇：如何用TensorFlow預測時間序列：TFTS庫詳細教程
下一篇：深入解析Spark中的RPC

知乎全力挺進AI，算法大賽打響反擊今日頭條的槍？

沙克云

定制

關于

知乎全力挺進AI，算法大賽打響反擊今日頭條的槍？

沙克云

定制

關于

知乎全力挺進AI，算法大賽打響反擊今日頭條的槍？