每個詞在單獨隔離時都至少有一個意思。但是,這個意思可能隨著上下文環境甚至是時間的推移而改變。由中性詞語構成的句子可能飽含敵意,比如“只有白人擁有權力”;同樣地,貌似粗魯的句子可能會在語境中表示中性的語意,比如這句“Fuck what, fuck whatever y’all been wearing”,它其實只是Kanye West的一句歌詞而已。
通常人類都很善于分析這些語法,但機器就沒那么輕松了。去年六月,Facebook推出一款文本分類引擎DeepText,幫助機器根據上下文情境解釋單詞。
DeepText采用了“詞匯嵌入”的概念,模仿人腦語言區的工作方式。當系統遇到新單詞時會像人類一樣思考,并試圖從上下文的其他單詞推斷含義,從而達到為評論分類并阻攔垃圾郵件的效果。
DeepText是用作內部溝通而開發出來的,它可以讓Facebook的工程師快速整理大量的文本,創建分類規則,然后開發產品來幫助用戶。
在了解了DeepText的強大功能之后,2012年被Facebook收購的instagram的高管們仿佛看到了一個機會,來應對instagram面臨的一個非常棘手的問題:垃圾郵件。人們使用Instagram是為了拍攝照片,但是由于有人老是發微商廣告,有人求互粉,還有人只是沒完沒了地重復“succ”這個詞,很多人會選擇不用instagram。
Instagram的步是招聘一組男性和女性,對平臺上的評論進行分類,確定是不是垃圾郵件。人類訓練機器來完成單調甚至是令人沮喪的任務,但是機器終會做得更好。
在受聘人員整理了大量的垃圾郵件后,四分之三的數據被輸入到DeepText中。然后,Instagram的工程師們開始創建算法,試圖對垃圾郵件進行分類。系統分析了每句話的語義,并把來源考慮進去。
然后,這些算法利用了五分之一的數據進行測試以觀察機器與人類的匹配程度,這些測試數據并沒有輸入到DeepText。終,Instagram對這一結果感到滿意,該公司于去年10月悄然推出了這款產品。隨著算法的運行,垃圾郵件逐漸消失。
Instagram不會透露該工具減少了多少垃圾郵件,也不會揭秘該系統是如何運作的。因為向一個垃圾郵件發送者展示你的防御能力,他們會想出如何反擊。但Kevin Systrom(Instagram的CEO)還是很高興的。
事實上,他如此高興以至于他決定了將DeepText應用到一個更復雜的問題上使用:消除負面評論。或者,更具體地說,消除那些違反Instagram社區準則的評論,或者再具體地說,正如該公司的一位發言人所說,“in spirit”。他說這些準則就像是為社會媒體平臺制定的憲法。Instagram發布了一個1200字的公開版本,公開要求人們永遠尊重他人,并且擁有一種更長的私人設置,員工可以使用它作為指導。
另外一個受聘團隊開始工作。一個人查看評論,并確定是否符合準則。如果不符合,他就會將其歸類為一種類似于欺凌、種族主義或性騷擾的行為。評分者都至少是雙語者,他們分析了大約200萬條評論,每條評論至少被評為2次。
訓練后的DeepText可以將這些評論分為“霸凌”“種族歧視”“性騷擾”等類別。在本系統上線前,評估人員至少用了200多萬條評論讓它進行學習,而每一條評論至少學習兩次,來保證系統的準確性。
目前系統僅能處理英語評論,但Instagram計劃將垃圾消息過濾器擴展到9種語言,包括英語、西班牙語、葡萄牙語、法語、德語、日語、俄語、阿拉伯語和漢語。也就是說,它將會被更廣泛地應用。
本站文章版權歸原作者及原出處所有 。內容為作者個人觀點, 并不代表本站贊同其觀點和對其真實性負責,本站只提供參考并不構成任何投資及應用建議。本站是一個個人學習交流的平臺,網站上部分文章為轉載,并不用于任何商業目的,我們已經盡可能的對作者和來源進行了通告,但是能力有限或疏忽,造成漏登,請及時聯系我們,我們將根據著作權人的要求,立即更正或者刪除有關內容。本站擁有對此聲明的最終解釋權。