今日頭條今年一口氣簽了300多個知乎大V,剛把我也簽了,而且是給錢的,年收入比普通白領高。簽完以后所有內容不可以再發知乎。優質的內容創作者被搶完了,所以知乎的質量每況愈下...
今年 5 月 15 日,知乎算法團隊聯合中國人工智能學會、 IEEE 計算機協會和 IEEE 中國代表處,發起「知乎看山杯機器學習挑戰賽」。大賽以語義分析應用為賽題,對知乎上的內容進行精準的自動化話題標注,以提升知乎的用戶體驗和提高內容分發效率。
預測出的 5 個話題標簽按照預測得分,從大到小排序。
話題標簽默認是不重復的。遇到重復的話題標簽,只保留次出現,并且其后的標簽遞補。去重后不滿 5 個標簽的,其余位置默認為 -1,-1 不和任何話題標簽匹配。多于 5 個話題標簽的,從第六位往后忽略。
評測標準:
準確率(Precision): 預測出的標簽命中了標注標簽中的任何一個即視為正確。終的準確率為每個位置上的準確率按位置加權。準確率評測的公式如下: `math Precision = \sum_{pos \in \{1,2,3,4,5\}} \frac {Precision@pos} {log_{pos + 1}} `
召回率(Recall): 預測出的 Top 5 標簽中對原有標簽的覆蓋量。
終評價指標為 Precision 和 Recall 的調和平均數。即:
來自北京郵電大學的 Koala 團隊;
來自中科院計算所、Google 和百度的 YesOfCourse 團隊;
來自 Microsoft 和北京大學的 NLPFakers 團隊;
來自武漢大學、倫敦大學學院(University College London)的 Gower Street & 81 Road 團隊;
來自北京郵電大學的 ye 團隊;
來自鄭州鐵路局、同花順公司、電子科技大學中山學院的 Yin & Bird 團隊。
init 團隊:TextCNN + TextRNN + RCNN,共享 Embedding 進行聯合學習,在模型集成方面,使用多模型、等權重的 Bagging 方法進行集成;在數據預處理方面,使用 delete 和 shuffle 進行數據增強;
Koala 團隊:FastText + TextCNN + TextRNN,使用 boosting 的思想對神經網絡進行逐層訓練,各個網絡之間使用加權平均的 bagging 方式;
YesOfCourse 團隊:使用 TextCNN + LSTM/GRU + RCNN 作為基模型,并且利用 GBRank 融合多個神經網絡的輸出;
NLPFakers 團隊:使用 TextCNN + RNN + RCNN 作為基模型,利用線性加權進行模型集成;在神經網絡訓練中使用了 attention 機制;
Gower Street & 81 Road 團隊:使用 RNN 神經網絡作為基礎模型,并且將 Query-TopicTitle 的相似度與神經網絡進行聯合訓練。終使用 Bagging with Ensemble Selection 作為模型集成策略;
ye 團隊:使用 TextCNN + BiGRU 作為基礎模型,利用帶有權重搜索的 bagging 作模型集成策略;
Yin&Bird 團隊:利用 LSTM 和 Bayes 方法作為基礎模型,并且利用 stacking 方法進行模型集成。
名的 init 團隊,在數據增強方面進行了富有創意的工作。init 團隊在進行模型訓練的時候,通過 delete 和 shuffle 機制來避免訓練結果的過擬合,同時保證模型的差異性。init 團隊在提交的評審材料中提到,僅僅通過數據增強機制,訓練出來的多模型結果通過等權重的 bagging 方式得到的結果已經能夠獲得優于第二名結果的表現。
第二名的 Koala 團隊,在進行神經網絡訓練的時候,使用了逐層 boosting 的方法,來提升單個神經網絡模型的表現;根據其描述,這個優化可以使多層神經網絡的表現提升 1.5 個百分點左右。
第三名的 YesOfCourse 團隊將 tag precition 過程轉化成了一個 Recall-Rarank 的兩步問題;使用大量的神經網絡模型來進行召回,并且將神經網絡對標簽的預測得分作為 GBRank 的特征輸入,并且使用 Pairwise 的方式來對標簽的排序進行優化,選擇排序后的前 5 個標簽作為模型的輸出。從 YesOfCourse 團隊提交的說明中看出,使用 Recall + Rerank 模型得到的結果,相對于 Non-Linear NN Ensemble 的結果,有千分之二以上的提升;同時,YesOfCourse 還嘗試使用了多種 Loss Function 和多種 attention 機制來保證模型間的差異性。
第五名的 Gower Street & R1 Road 團隊,則將數據提供的 topic 的標題信息利用了起來,使用 RNN + Question-Topic Similarity 信息進行模型的聯合訓練。將單模型的結果從 0.415 提升到了 0.419,并且使用 20 個模型的 ensemble,終取得了 0.432 的好成績。
在算法越來越難以取得突破性進展的今天,高質量數據集的重要性進一步凸顯。相對于那些大公司,高校學者和獨立的開發者想要獲得研究數據,更是難上加難。
與此同時,不論是知乎的“看山杯”,還是今日頭條和創新工場、搜狗一起聯合舉行的“AI Challenger”,都通過算法比賽間接地為 AI 社區貢獻了大量的數據。
本站文章版權歸原作者及原出處所有 。內容為作者個人觀點, 并不代表本站贊同其觀點和對其真實性負責,本站只提供參考并不構成任何投資及應用建議。本站是一個個人學習交流的平臺,網站上部分文章為轉載,并不用于任何商業目的,我們已經盡可能的對作者和來源進行了通告,但是能力有限或疏忽,造成漏登,請及時聯系我們,我們將根據著作權人的要求,立即更正或者刪除有關內容。本站擁有對此聲明的最終解釋權。