摘要:廣告和新聞推薦的共同和不同點:相同點,它們都可以視為都可看做一個點擊率(ctr)估計的任務;不同點,推薦產生的點擊率可能是廣告的10到100倍,同時在特征描述上,廣告通常細粒度特征,推薦對應的則是相對粗粒度。
今晚(北京時間7月30日)20:30,繼“ YARN or Mesos?Spark痛點探討”、“ Mesos資源調度與管理的深入分享與交流”、“ 主流SQL on Hadoop框架選擇”和“ Hadoop/Spark在七牛數據平臺的實戰(稍后放出分享詳情)”之后,CSDN Spark微信用戶群將進行第五次討論,屆時李滔與大家分享“推薦算法和Spark實現”實戰,并與用戶互動。

李滔 搜狐大數據中心技術經理
李滔,中國科技大學博士畢業。曾就職于理光北京研究所以及Teradata公司。在理光期間設計了理光相機的代人臉檢測/對焦系統。之后在Teradata公司從事大規模數據挖掘的算法設計開發,基于Teradata Aster的Map/Reduce和圖計算平臺設計實現了多種機器學習/數據挖掘算法并成功應用于商業實踐。目前在搜狐大數據中心用戶推薦部從事推薦和廣告算法研發工作。目前關注的技術方向為廣告技術、并行計算和大數據分析。
廣告和新聞推薦的共同和不同點:相同點,它們都可以視為都可看做一個點擊率(ctr)估計的任務,其特征都包含了用戶、商品、上下文三個維度,同時點擊率也是動態變化的;不同點,推薦產生的點擊率可能是廣告的10到100倍,同時在特征描述上,廣告通常是細粒度特征,而推薦對應的則是相對粗粒度。

在廣告系統架構中,推薦有很多類似的地方,上面是用戶的廣告請求,包括一些時時交易的請求會從上面過來。同時,整個系統分為左、中、右3個部分:左邊主要是關于離線模型,像用戶地位,用戶定向,這些主要是從日志數據、歷史點擊數據提煉出來,比如用戶的喜好,或者是一些地理信息這些。這一類型的數據會送到下面,這個離線模型會用來做廣告點擊率的預估。右邊是實時流處理部分,做一些短期行為和長期行為對比,其中會有一個模塊,通過用戶實時的短期行為估計他的定向。這里重要的是有一個廣告的實時索引,因為對像搜狐這樣的門戶來講,廣告主的數量比較大,可能對每一條廣告過來之后做一個實時排序,結合這個頁面的信息,還有用戶的信息,然后通過一個索引檢索出可能是用戶感興趣的廣告。這部分可能的侯選的廣告會進入到黃色的部分,排序好了之后會綜合考慮到廣告的點擊率和廣告主的出價。排序得到結果之后,下面有一個模塊,這個模塊主要是做廣告投放策略控制,比如現在是出基本廣告還是出展示廣告。
本站文章版權歸原作者及原出處所有 。內容為作者個人觀點, 并不代表本站贊同其觀點和對其真實性負責,本站只提供參考并不構成任何投資及應用建議。本站是一個個人學習交流的平臺,網站上部分文章為轉載,并不用于任何商業目的,我們已經盡可能的對作者和來源進行了通告,但是能力有限或疏忽,造成漏登,請及時聯系我們,我們將根據著作權人的要求,立即更正或者刪除有關內容。本站擁有對此聲明的最終解釋權。