自從互聯(lián)網(wǎng)商業(yè)化發(fā)展以來(lái),不論是新聞客戶(hù)端、視頻網(wǎng)站或是電商平臺……所有的平臺,都是把自己默認為一個(gè)優(yōu)秀的飼養員,它按照自己的想法,把內容(飼料)Push(喂)給用戶(hù)。
這些飼養員都是受過(guò)訓練的專(zhuān)業(yè)人士,行話(huà)叫做---由網(wǎng)站編輯為用戶(hù)設置議程,按照大多數用戶(hù)的口味挑選內容。
后來(lái)編輯實(shí)在忙不過(guò)來(lái),采用機器幫忙---最簡(jiǎn)單的機器方式則是“熱門(mén)推薦”,比如按照點(diǎn)擊量或其它數據來(lái)做排序。
飼養員模式最大的問(wèn)題是不知道食客胃口如何,這會(huì )導致兩個(gè)顯著(zhù)的后果:一是食客不滿(mǎn)意,用戶(hù)個(gè)性化需求不能得到滿(mǎn)足;二是自身資源浪費,大量長(cháng)尾資源長(cháng)期得不到曝光,增加沉沒(méi)成本。
有人發(fā)現了機器的好處。機器可以是根據用戶(hù)特征來(lái)推薦內容。正如一個(gè)高明的廚子可以根據每一個(gè)食客的口味提供飯菜,如果機器足夠聰明,在一定程度上可以解決所有用戶(hù)的個(gè)性化需求。這豈不是內容產(chǎn)業(yè)的C2M?
準確的說(shuō),這是內容分發(fā)的C2M,它以單個(gè)用戶(hù)為對象進(jìn)行溝通,跳出了大眾傳播/分眾傳播窠臼,是不是足以革了所有的搜索引擎和門(mén)戶(hù)網(wǎng)站的命?
這種智能化的內容C2M有深刻的時(shí)代背景。今天,你已經(jīng)站在時(shí)代邊緣,眼睜睜的看著(zhù)AI技術(shù)點(diǎn)燃了IOT的引線(xiàn),接下來(lái)你將發(fā)現自己無(wú)可拒絕的進(jìn)入下一個(gè)信息核爆的時(shí)代:信息終端爆炸、信息規模爆炸、信息平臺爆炸……
在信息高速公路上,你開(kāi)過(guò)的車(chē),你走過(guò)的路,全都變了規則,你所熟悉的一切的基于飼養員模式的知識框架都面臨顛覆。
在這個(gè)時(shí)代,飼養員模式已經(jīng)失靈了,聰明的機器將成為最大的變量。
第一個(gè)出現的場(chǎng)景是人類(lèi)生產(chǎn)內容,機器分發(fā)內容。
下一個(gè)出現的場(chǎng)景是機器生產(chǎn)內容,機器分發(fā)內容。
內容產(chǎn)業(yè)面臨C2M革命,行不行?
“當然不行,機器很蠢?!比绻氵@樣想,那么很遺憾,你注定是看不到明天的太陽(yáng)了。
“當然行?!比绻氵@么想,那么祝賀你掉進(jìn)坑里了。
真實(shí)的情況,你可能意想不到。
一、內容C2M之路本質(zhì)是走向個(gè)體化溝通
作為一個(gè)獨立的研究方向,推薦系統的源頭可以追溯到90年代初的協(xié)同過(guò)濾算法,中期的代表則是傳統的機器學(xué)習算法,比如Netflix大賽所推動(dòng)的隱語(yǔ)義模型,現在則是更加復雜的深度學(xué)習模型。
近些年,深度學(xué)習突飛猛進(jìn),使得機器推薦變成了整個(gè)互聯(lián)網(wǎng)的太陽(yáng)。在新技術(shù)的推動(dòng)下,個(gè)性化溝通也變得更加可行,而且越來(lái)越接近單用戶(hù)溝通。
(一)協(xié)同過(guò)濾蹣跚起步
按照百科詞條解釋?zhuān)瑓f(xié)同過(guò)濾是利用用戶(hù)群體的喜好來(lái)為你推薦感興趣的信息,這些用戶(hù)要么興趣相投、要么具有共同經(jīng)驗,然后網(wǎng)站結合你的反饋(如評分),進(jìn)行過(guò)濾分析,進(jìn)而幫助別人篩選信息。
當然,用戶(hù)喜好不一定局限于特別感興趣的信息,特別不感興趣信息的紀錄也相當重要。協(xié)同過(guò)濾表現出了出色的效果,開(kāi)始在互聯(lián)網(wǎng)行業(yè)稱(chēng)王稱(chēng)霸。
起先,協(xié)同過(guò)濾應用于郵件過(guò)濾。
1992年,施樂(lè )公司的科學(xué)家提出了Tapestry系統。這是最早應用協(xié)同過(guò)濾系統的設計,主要是解決Xerox公司在Palo Alto的研究中心資訊過(guò)載的問(wèn)題。這個(gè)研究中心的員工每天會(huì )收到非常多的電子郵件卻無(wú)從篩選分類(lèi),于是研究中心便發(fā)展這項實(shí)驗性的郵件系統來(lái)幫助員工解決這項問(wèn)題。
接著(zhù),協(xié)同過(guò)濾思路開(kāi)始應用于內容推薦。
1994年,美國Minnesota的GroupLens項目組創(chuàng )辦了一個(gè)新聞篩選系統,這個(gè)系統可以幫助新聞的閱聽(tīng)者過(guò)濾其感興趣的新聞內容,閱聽(tīng)者看過(guò)內容后給一個(gè)評比的分數,系統會(huì )將分數記錄起來(lái)以備未來(lái)參考之用,假設前提是閱聽(tīng)者以前感興趣的東西在未來(lái)也會(huì )有興趣閱聽(tīng),若閱聽(tīng)者不愿揭露自己的身分也可以匿名進(jìn)行評分。作為最老牌的內容推薦研究團隊,GroupLens于1997年創(chuàng )建了電影推薦系統MovieLens,還有性質(zhì)相近的音樂(lè )推薦系統Ringo,以及影音推薦系統Video Recommender等等。
后來(lái),出現了另一個(gè)里程碑——電子商務(wù)推薦系統。
1998年,亞馬遜的林登和他的同事申請的基于物品的協(xié)同過(guò)濾(item-to-item)技術(shù)專(zhuān)利,是亞馬遜早期使用的經(jīng)典算法,一度引爆流行。
協(xié)同過(guò)濾算不算人工智能?從技術(shù)的角度來(lái)看,它也屬于A(yíng)I范疇。但必須指出的是協(xié)同過(guò)濾算法比較弱智,無(wú)論是基于用戶(hù)的協(xié)同過(guò)濾,還是基于物品的協(xié)同過(guò)濾,推薦效果總是差強人意。
怎樣通過(guò)一個(gè)成體系的方法論來(lái)引導推薦系統的不斷優(yōu)化?如何才能把復雜的現實(shí)因素糅合到推薦結果中?攻城獅們一度非常非常頭大,重賞之下必有勇夫,后來(lái),終于有人發(fā)現了更加靈活的思路。
(二)傳統機器學(xué)習開(kāi)始加速
2006年,Netflix宣布舉辦Netflix Prize。Netflix是一家老牌的在線(xiàn)影片租賃網(wǎng)站,舉辦大賽的目的旨在解決電影評分預測問(wèn)題的機器學(xué)習和數據挖掘問(wèn)題。主辦方為此下了血本,宣稱(chēng)對于那些能夠將Netflix的推薦系統Cinematch的準確率提升10%的個(gè)人或團隊,獎勵100萬(wàn)美元!
Netflix在自家blog上披露了許多龐大的數據,舉例如下:
我們有幾十億的用戶(hù)評分數據,并且以每天幾百萬(wàn)的規模在增長(cháng)。
我們的系統每天產(chǎn)生幾百萬(wàn)的播放點(diǎn)擊,并且包含很多特征,例如:播放時(shí)長(cháng)、播放時(shí)間點(diǎn)和設備類(lèi)型。
我們的用戶(hù)每天將幾百萬(wàn)部視頻添加到他們的播放列表。
顯然,在這些海量數據面前,我們已經(jīng)不能靠由純人工或者小型系統建立起來(lái)的分類(lèi)標準對整個(gè)平臺用戶(hù)喜好進(jìn)行標準化。
比賽開(kāi)始一年后,Korbell的團隊以8.43%的提升贏(yíng)得了第一個(gè)階段獎。他們付出了超過(guò)2000個(gè)小時(shí)的努力,融合了107種算法。其中兩種最有效的算法:矩陣分解(通常被叫做SVD,奇異值分解)和局限型玻爾茲曼機(RBM)。
矩陣分解作為協(xié)同過(guò)濾的補充,核心是將一個(gè)非常稀疏的用戶(hù)評分矩陣R分解為兩個(gè)矩陣:User特性的矩陣P和Item特性的矩陣Q,并用已知的數據構建這些向量,使用它們來(lái)預測未知的項。該算法在有效提高計算精度的同時(shí),還能夠加入各種建模元素,使更多元化的信息融合進(jìn)來(lái),更好地利用大量數據。
然而矩陣分解也有不足。不足之處在于,矩陣分解和協(xié)同過(guò)濾算法一樣,都屬于監督學(xué)習范疇,粗糙且簡(jiǎn)單,適用于小型系統。擺在網(wǎng)絡(luò )巨頭們面前的問(wèn)題是,如果需要建立一個(gè)大型推薦系統,協(xié)同過(guò)濾和矩陣分解則會(huì )花費較長(cháng)的時(shí)間。怎么辦?
于是,一些攻城獅將眼光轉移到無(wú)監督學(xué)習中。無(wú)監督學(xué)習中的聚類(lèi)算法的本質(zhì)是識別用戶(hù)組,并對這個(gè)組內的用戶(hù)推薦相同的內容。當我們擁有足夠的數據,最好使用聚類(lèi)作為第一步,來(lái)縮減協(xié)同過(guò)濾算法中相關(guān)鄰居的選擇范圍。
隱語(yǔ)義模型運用了聚類(lèi)分析方法,其一大優(yōu)勢是既可以做評分預測,又可以同時(shí)對文本內容建模,使得通過(guò)內容來(lái)進(jìn)行推薦的效果得到較大提升。
傳統的分析方式在對用戶(hù)打標簽,并根據標簽映射到結果的兩個(gè)步驟中準確度不高。比如用戶(hù)填寫(xiě)的年齡不一定真實(shí),或者并非所有青少年都喜歡漫畫(huà)。而隱語(yǔ)義模型的核心,是超越這些表層語(yǔ)義標簽的維度,通過(guò)機器學(xué)習技術(shù),挖掘用戶(hù)行為中更深層的潛在關(guān)聯(lián),使得推薦精度更高。
Netflix Prize百萬(wàn)美元武林大賽號令之下,天下英才頻出。2009年達到了一個(gè)高峰,成為推薦系統領(lǐng)域最標致性的事件,這次比賽吸引了眾多專(zhuān)業(yè)人士投身于推薦系統領(lǐng)域的研究,也讓這項技術(shù)從專(zhuān)業(yè)圈子滲透到了商業(yè)領(lǐng)域,引發(fā)了熱烈的討論并逐漸勾起了主流網(wǎng)站的垂涎,基于內容的推薦、基于知識的推薦、混合推薦、基于信任網(wǎng)絡(luò )的推薦等等走上了快速發(fā)展的通道。
這些推薦引擎與協(xié)同過(guò)濾不同,例如基于內容的推薦是建立在項目的內容信息上作出推薦的,而不需要依據用戶(hù)對項目的評價(jià)意見(jiàn),更多地需要用機器學(xué)習的方法從關(guān)于內容的特征描述的事例中得到用戶(hù)的興趣資料。內容過(guò)濾主要采用自然語(yǔ)言處理、人工智能、概率統計和機器學(xué)習等技術(shù)進(jìn)行過(guò)濾。
百萬(wàn)美元花得值不值?據2016年的Netflix用戶(hù)數據:注冊會(huì )員6500萬(wàn)人,每天觀(guān)看視頻的總時(shí)長(cháng)1億個(gè)小時(shí)。Netflix說(shuō),每年靠這套系統能夠節省10億美元。
(三)深度學(xué)習帶來(lái)“無(wú)人駕駛”
近些年來(lái),用戶(hù)的大痛點(diǎn)出現。智能手機的普及,讓龐大的信息量和狹小的閱讀屏幕成為一對難以化解的矛盾,用戶(hù)閱讀場(chǎng)景不再是固守于電腦屏幕,而是向移動(dòng)化碎片化轉變,搜索引擎失靈了,人工推薦忙不過(guò)來(lái),機器推薦也不夠用了,這種轉變對大內容平臺簡(jiǎn)直是生死考驗。能滿(mǎn)足需求則生,不滿(mǎn)足則死。
面對這一問(wèn)題,YouTube和Facebook提出了新解決思路:運用深度學(xué)習,制造聰明的機器。近十年來(lái),深度學(xué)習已經(jīng)取得了巨大的飛躍,對于解決大數據量更有優(yōu)勢。
如果說(shuō)人工內容推薦如同司機開(kāi)車(chē),那么深度學(xué)習所帶來(lái)的內容推薦,則如無(wú)人駕駛汽車(chē)。在這種技術(shù)是利用用戶(hù)數據來(lái)“感知”用戶(hù)喜好,其推薦系統基本可以分為數據層、觸發(fā)層、融合過(guò)濾層和排序層,當數據層生成和存儲的數據進(jìn)入候選層后,也就觸發(fā)了核心的推薦任務(wù)。
以YouTube為例,其最新公開(kāi)的推薦系統算法由兩個(gè)神經(jīng)網(wǎng)絡(luò )組成,一個(gè)用于候選生成,一個(gè)用于排序。首先,以用戶(hù)的瀏覽歷史為輸入,候選生成網(wǎng)絡(luò )可以顯著(zhù)減小可推薦的視頻數量,從龐大的庫中選出一組最相關(guān)的視頻。
這樣生成的候選視頻與用戶(hù)的相關(guān)性最高,再進(jìn)一步對用戶(hù)評分進(jìn)行預測。這個(gè)網(wǎng)絡(luò )的目標,只是通過(guò)協(xié)同過(guò)濾提供更廣泛的個(gè)性化。排序網(wǎng)絡(luò )的任務(wù)則是仔細分析候選內容,精選出少量最優(yōu)選擇。具體操作為根據視頻描述數據和用戶(hù)行為信息,使用設計好的目標函數為每個(gè)視頻打分,將得分最高的視頻呈獻給用戶(hù)。
在這種模式下,機器全然接管了平臺。在深度學(xué)習的持續訓練下,機器越來(lái)越聰明,與人打交道的智商會(huì )逐漸提升,在某種意義上也逐漸承擔起看門(mén)狗的責任。
二、內容產(chǎn)業(yè)是否即將被C2M顛覆
世界之大無(wú)奇不有,美國得克薩斯州科珀斯—克里斯蒂市一家銀行的一臺自動(dòng)取款機(ATM)竟然在11日吐出了字條,上面寫(xiě)著(zhù)“救我”,這條新聞很快傳遍中文網(wǎng)絡(luò ),成為許多網(wǎng)站的頭條。
你需要從N個(gè)網(wǎng)站上看到一模一樣的文章嗎?
這些冗余的信息消耗了你的精力和流量,就像你打開(kāi)任何一個(gè)電視頻道,都能看到許多方便面廣告一樣,讓人很難從大量的信息中快速找到自己想要的內容。
如何解決用戶(hù)信息冗余的尷尬?
過(guò)去曾經(jīng)有許多不成功的技術(shù)方案,個(gè)人門(mén)戶(hù)曇花一現,RSS訂閱不成氣候,跨站跟蹤上不了臺面。能引領(lǐng)未來(lái)者,只有C2M。
C2M模式可以像今日頭條這樣應用于全網(wǎng),也可以像Facebook那般基于巨頭的平臺。其核心就在于基于用戶(hù)行為習慣、特征和訴求,對海量的信息進(jìn)行提取、分揀然后傳遞給用戶(hù),這是克服痛點(diǎn)的秘密。
但質(zhì)疑的聲音也不少。比如有觀(guān)點(diǎn)認為,協(xié)同過(guò)濾這樣的推薦容易讓用戶(hù)形成信息繭房、無(wú)法識別閱讀場(chǎng)景、即時(shí)性差、耗時(shí)長(cháng)等缺點(diǎn),而今日頭條這樣的模式也常常被詬病,還要應付難以捕捉的用戶(hù)興趣、用戶(hù)數據的隱私和管理等多項挑戰。
支持和質(zhì)疑各執一端,孰是孰非?未來(lái)雖有兩大機遇,但是目前要跨越三座大山。
1.支持的理由如下:
①千人千面,眾口可調。
個(gè)性化的內容推薦機制能夠根據用戶(hù)的喜好為其推薦信息。通過(guò)各種算法,通過(guò)分析用戶(hù)的歷史行為,對比相關(guān)用戶(hù)和相關(guān)物品猜測用戶(hù)可能喜歡的內容,列出候選集并進(jìn)行驗證,用戶(hù)可以得到較為準確的內容,使信息分發(fā)做到千人千面,實(shí)現內容與用戶(hù)的精準連接,而不是傳統意義上的千人一面般的投放。
②海里撈針,提高效率
個(gè)性化推薦省去了用戶(hù)在海量信息中進(jìn)行提取和搜尋的環(huán)節。用戶(hù)無(wú)需在海量信息中摸針,在一定程度上為用戶(hù)去除了部分無(wú)用信息,縮小了用戶(hù)信息搜索的范圍,提高了用戶(hù)的閱讀效率。
③投其所好,增強粘性
不斷為用戶(hù)推薦適合他的內容能夠增加用戶(hù)粘性。個(gè)性化推薦技術(shù)通過(guò)算法進(jìn)行用戶(hù)感興趣的內容的精準推薦,幫助用戶(hù)快捷發(fā)現感興趣的內容,當你看完一個(gè)內容后,會(huì )立馬給你推薦相關(guān)的東西,可以增加用戶(hù)粘性,提高用戶(hù)體驗。
④挖掘長(cháng)尾,打破兩極
個(gè)性化推薦能夠通過(guò)相關(guān)算法幫助用戶(hù)挖掘長(cháng)尾內容,避免兩極分化的馬太效應。當A用戶(hù)喜歡比較冷門(mén)的長(cháng)尾內容,而B(niǎo)用戶(hù)又有跟A用戶(hù)有相同或相似的興趣和行為習慣時(shí),系統就能夠把A用戶(hù)喜歡的冷門(mén)內容推薦給B用戶(hù),這樣就使冷門(mén)內容得到更多的曝光,幫助用戶(hù)發(fā)現更多的長(cháng)尾內容,避免內容生產(chǎn)生態(tài)兩極分化。
⑤雙向交流,深度優(yōu)化
基于用戶(hù)進(jìn)行個(gè)性化推薦是對用戶(hù)進(jìn)行深度分析和交流的結果,提升了用戶(hù)的交互式體驗。傳統的人工推薦是遍地撒網(wǎng)地推薦,沒(méi)有對用戶(hù)進(jìn)行細致地劃分和篩選,機器推薦以用戶(hù)特點(diǎn)和習慣為基礎進(jìn)行推薦,用戶(hù)能夠得到雙向的交流和溝通,用戶(hù)的行為也能對下一步的推薦產(chǎn)生影響,在一定程度上得到了反饋,提升了用戶(hù)的交互式體驗。
⑥分門(mén)別類(lèi),運營(yíng)細化
個(gè)性化推薦也有利于平臺對內容進(jìn)行分類(lèi),從而利于平臺精細化管理和運營(yíng)。信息時(shí)使得平臺不斷涌現,各種形式的內容越來(lái)越豐富,用戶(hù)手機端展示的區域有限,個(gè)性化推薦能夠使商家更好地針對不同客戶(hù)對內容進(jìn)行分類(lèi),有利于精細化運營(yíng)。
2.質(zhì)疑的觀(guān)點(diǎn)主要有:
①畫(huà)地為牢,思維設限
個(gè)性化新聞體驗容易讓思想裹足不前。個(gè)性化推薦的結果是基于用戶(hù)的歷史數據和歷史行為,基于相似用戶(hù)或者相似物品進(jìn)行的推薦,在一定程度上將用戶(hù)感興趣的內容固定在一個(gè)特定的閉環(huán)里,在為用戶(hù)篩選信息的同時(shí)也為用戶(hù)隔斷了很多信息。個(gè)性化推薦的內容采集自你的興趣,又決定了你的興趣。因此,無(wú)法接觸“新”事物自然就不能培養新的興趣,容易讓用戶(hù)越來(lái)越狹隘。
②人心變幻,機器何解
機器推薦無(wú)法識別閱讀場(chǎng)景的變化而帶來(lái)的需求的變化,無(wú)法感知用戶(hù)為什么需要閱讀,難以匹配人類(lèi)情感的復雜程度。例如在某一個(gè)階段,我們因為大家都在討論某件事而去關(guān)注這件事,但這并不意味著(zhù)我們對類(lèi)似的事情都感興趣。
③審美下線(xiàn),好壞難分
個(gè)性化推薦的難度對推薦內容的質(zhì)量帶來(lái)了挑戰。以往評價(jià)一篇文章的好壞對編輯來(lái)說(shuō)都沒(méi)那么容易,如今機器推薦很容易忽略質(zhì)量這一維度。機器算法不準確會(huì )使標題黨內容混雜出現,機器推薦可能會(huì )把一篇沒(méi)有價(jià)值的文章推薦的很高,也有可能把真正有價(jià)值的文章埋沒(méi)掉,機器推薦只能從外部數據來(lái)衡量你的文章有沒(méi)有價(jià)值,目前還沒(méi)有辦法從內容的本質(zhì)上分析有沒(méi)有價(jià)值。
④耗時(shí)較長(cháng),總慢半拍
基于海量數據的個(gè)性化推薦行為耗時(shí)較長(cháng),即時(shí)性較差。如新聞推薦存在及時(shí)性問(wèn)題,需要不斷更新,通過(guò)分析用戶(hù)的歷史行為、對比類(lèi)似用戶(hù)等數據分析工作耗時(shí)較長(cháng),不易在第一時(shí)間形成推薦結果。并且協(xié)同過(guò)濾等方法還存在冷啟動(dòng)的問(wèn)題,即在用戶(hù)體驗之初,并未形成成熟的歷史數據時(shí),需要經(jīng)過(guò)很長(cháng)的時(shí)間收集用戶(hù)點(diǎn)擊日志數據,從而產(chǎn)生推薦。
⑤熱點(diǎn)共通,個(gè)體趨同
并不是所有的用戶(hù)都彼此相等,但協(xié)同過(guò)濾方法不考慮用戶(hù)之間的個(gè)體差異。例如,我們觀(guān)察到娛樂(lè )新聞不斷推薦給大多數用戶(hù),即使用戶(hù)不點(diǎn)擊娛樂(lè )的故事。原因是,娛樂(lè )新聞一般都是非常流行的,因此總是從一個(gè)用戶(hù)的“鄰居”的娛樂(lè )故事足夠的點(diǎn)擊進(jìn)行推薦。
3.未來(lái)的機遇在哪里?
未來(lái)的機遇在于兩大推動(dòng)力:業(yè)界對長(cháng)尾金礦的商業(yè)動(dòng)力;用戶(hù)強烈的個(gè)性化需求的推動(dòng)。
①長(cháng)尾金礦
個(gè)性化推薦能夠幫助用戶(hù)發(fā)現更多優(yōu)質(zhì)的長(cháng)尾內容,提高平臺商業(yè)價(jià)值。一般平臺用戶(hù)訪(fǎng)問(wèn)的只局限在熱門(mén)的10%左右的內容,很多小眾的、冷門(mén)的內容卻沉在數據庫中不易被發(fā)現,我們將其稱(chēng)之為長(cháng)尾內容。
按長(cháng)尾理論,由于成本和效率的因素,當商品儲存流通展示的場(chǎng)地和渠道足夠寬廣,商品生產(chǎn)成本急劇下降以至于個(gè)人都可以進(jìn)行生產(chǎn),并且商品的銷(xiāo)售成本急劇降低時(shí),幾乎任何以前看似需求極低的產(chǎn)品,只要有賣(mài),都會(huì )有人買(mǎi)。個(gè)性化推薦能夠通過(guò)協(xié)同過(guò)濾中基于用戶(hù)的推薦技術(shù)將小眾喜歡的長(cháng)尾內容擴散開(kāi)來(lái),充分挖掘長(cháng)尾內容,產(chǎn)生長(cháng)尾金礦。
②時(shí)代剛需
我們所處的時(shí)代已經(jīng)變化了。經(jīng)過(guò)20年發(fā)展,互聯(lián)網(wǎng)變成了移動(dòng)互聯(lián)網(wǎng),現在即將融合AI進(jìn)入IOT時(shí)代,終端和信息正在以核爆的態(tài)勢發(fā)生急劇膨脹,用戶(hù)在海量的數據中想要找到他們需要的信息將變得越來(lái)越難。在這種情況下,傳統的搜索引擎已經(jīng)力不從心。早先最具代表性的就是分類(lèi)目錄的雅虎和搜索引擎的谷歌,已經(jīng)進(jìn)入死胡同,想要通過(guò)搜索引擎去了解一個(gè)陌生領(lǐng)域的知識,效率極低!
要滿(mǎn)足時(shí)代剛需,希望在于個(gè)性化推薦。機器需要盡可能的了解用戶(hù),并且根據用戶(hù)的數據,主動(dòng)推薦讓用戶(hù)有興趣和需求的信息。目前這20來(lái)年,雖說(shuō)取得了一點(diǎn)點(diǎn)成就,但僅僅是唐僧取經(jīng)邁出了第一步,還有很長(cháng)的路要走。
4.當下需要跨越的三座大山
個(gè)性化推薦在發(fā)展過(guò)程中面臨很多諸如難以預測用戶(hù)興趣、用戶(hù)相關(guān)數據涉及隱私以及數據的處理難度等問(wèn)題,都給個(gè)性化推薦帶來(lái)了很大的威脅和挑戰。
第一座山,準確。
用戶(hù)的興趣易受多重因素影響而不斷變化,這對個(gè)性化推薦來(lái)說(shuō)是個(gè)不可避免的挑戰。個(gè)性化推薦系統的基礎部分是用戶(hù)興趣建模,用戶(hù)興趣建模的質(zhì)量直接決定了個(gè)性化推薦的質(zhì)量。但是用戶(hù)興趣隨時(shí)都會(huì )受到社交、場(chǎng)景、環(huán)境等多重因素影響,用戶(hù)興趣地不斷變化使得根據以往數據預測用戶(hù)未來(lái)傾向的工作變得很難,也會(huì )影響推薦結果的準確性。
第二座山,隱私。
對以用戶(hù)數據為基礎進(jìn)行的個(gè)性化推薦來(lái)說(shuō),如何保護用戶(hù)隱私是個(gè)不小的難題。傳統的內容推薦系統對用戶(hù)的頁(yè)面訪(fǎng)問(wèn)記錄進(jìn)行數據挖掘,找出用戶(hù)的訪(fǎng)問(wèn)習慣,然后在服務(wù)器端根據用戶(hù)需求進(jìn)行信息篩選,試圖為用戶(hù)提供信息推薦服務(wù)和垃圾信息過(guò)濾服務(wù)。但如何能在保護用戶(hù)隱私的同時(shí),又為用戶(hù)提供更準確的內容推薦服務(wù)是一個(gè)不小的挑戰。
第三座山,價(jià)值觀(guān)。
除了三座大山外,還有一個(gè)問(wèn)題也值得重視?,F在的機器推薦等于“沒(méi)有三觀(guān)”、“沒(méi)有審美”,在中文圈運營(yíng),由于眾所周知的原因,一定會(huì )遇到相當的挑戰。
流量造假和作弊是比較明顯的例子。比如有網(wǎng)友告訴筆者說(shuō):網(wǎng)上經(jīng)??吹揭恍┮曨l學(xué)習人數幾萬(wàn)、幾十萬(wàn),數字大的得令我們懷疑人生,結果測試了一下,頁(yè)面刷新一次人數就加三而新課程加幾十,瞬間明了。半夜測試某些視頻直播,對著(zhù)墻拍,從啟動(dòng)直播十分鐘直播粉絲還能蹭蹭往上漲,進(jìn)一個(gè)真粉絲時(shí)人數又一波漲,作弊一時(shí)爽,但心里不踏實(shí)。
曾經(jīng)有企業(yè)在智能推薦的客戶(hù)端上投過(guò)一些非常垂直大號的廣告,有的效果真好,有的造假太明顯---在閱讀量瞬間破萬(wàn)的時(shí)候帶過(guò)來(lái)的流量,還不如自己閱讀破千的號效果好。如此種種,數據是正經(jīng)的,就看用它的人正經(jīng)不正經(jīng)了。
未來(lái),個(gè)性化推薦如何在技術(shù)和管理上繼續革新,人工智能因素的參與能否改善現存的諸多問(wèn)題,為用戶(hù)產(chǎn)生更優(yōu)質(zhì)的推薦結果將成為一個(gè)重要課題。
三、巨頭正在開(kāi)辟的技術(shù)路線(xiàn)
其實(shí),無(wú)論支持還質(zhì)疑有多么大,個(gè)性化推薦已經(jīng)引得無(wú)數巨頭競折腰。
目前在市場(chǎng)上,依然是新老技術(shù)各占一方地盤(pán),新派深度學(xué)習技術(shù)快速崛起,咄咄逼人;老派技術(shù)也在不斷優(yōu)化,以防不測。新老技術(shù)之爭,是當下的一個(gè)熱點(diǎn),也是決定未來(lái)發(fā)展的兩大路線(xiàn)。
(一)老派技術(shù)認為:傳統推薦技術(shù)可以自我完善
1.Google新聞的套路,不斷優(yōu)化
Google新聞是一個(gè)在線(xiàn)信息門(mén)戶(hù)站點(diǎn),它聚集數千家信息源的新聞報道(在將相似新聞分組后)并以個(gè)性化的方法展現給登錄用戶(hù)。由于文章和用戶(hù)數量巨大,以及給定的響應時(shí)間要求,純粹的基于記憶的方法是不適用的,需要一種可擴展的算法,因此Google新聞組合使用了基于模型和基于記憶的技術(shù)。
Google新聞的套路依然是協(xié)同過(guò)濾的底子。它在個(gè)性化推薦方面采用的是基于模型和基于記憶的技術(shù)相結合的協(xié)同過(guò)濾技術(shù)。根據《推薦系統》一書(shū)的介紹,基于模型的那部分依賴(lài)兩種聚類(lèi)技術(shù):
①概率潛在語(yǔ)義索引(PLSI):協(xié)同過(guò)濾的“第二代”概率技術(shù),為了識別出有相似想法的用戶(hù)和相關(guān)物品的聚類(lèi),引入了隱藏變量,對應每個(gè)用戶(hù)—物品對的有限狀態(tài)集合,能適應用戶(hù)可能同時(shí)對多個(gè)主題感興趣的情況。
②MinHash:根據兩個(gè)用戶(hù)瀏覽過(guò)物品的交集將兩者放入相同的聚類(lèi)(哈希桶)。為了讓這種哈希過(guò)程具有可擴展性,采用了一種特殊方法尋找近鄰,并采用Google自己的MapReduce技術(shù)在幾個(gè)機群之間分發(fā)計算任務(wù)。
基于記憶的方法主要是分析“伴隨瀏覽量”?!鞍殡S瀏覽量”指的是一篇文章在預先定義的一段時(shí)間內被相同用戶(hù)瀏覽過(guò)。預測時(shí)需要遍歷活躍用戶(hù)最近的歷史數據和從內存里獲取鄰近的文章。運行時(shí),預先設定集合里候選物品的綜合推薦評分是這三種方法(MinHash、PLSI和伴隨瀏覽)獲得的分數的線(xiàn)性組合計算值,然后再根據計算值的高低進(jìn)行推薦結果的輸出。
2.Linkedin為四個(gè)場(chǎng)景開(kāi)發(fā)的系統
Linkedin主要是通過(guò)自主研發(fā)設計的協(xié)同過(guò)濾推薦平臺Browsemap實(shí)現個(gè)性化推薦。Browsemap是Linkedin開(kāi)發(fā)的一個(gè)實(shí)現了物品協(xié)同過(guò)濾推薦算法的泛化平臺,該平臺可支持Linkedin中所有實(shí)體的推薦,包括求職者、招聘貼、企業(yè)、社會(huì )群體(如學(xué)校等)、搜索詞等,若要通過(guò)該平臺實(shí)現某個(gè)新的實(shí)體協(xié)同過(guò)濾推薦,開(kāi)發(fā)者要做的工作僅僅包括:相關(guān)行為日志的接入、編寫(xiě)Browsemap DSL配置文件和調整相關(guān)過(guò)期參數等簡(jiǎn)單工作。
論文指出,Browsemap平臺在Linkedin最常用的有四個(gè)推薦場(chǎng)景:給求職者推薦公司、相似公司推薦、相似簡(jiǎn)歷推薦和搜索詞推薦等等。
①給求職者推薦公司:通過(guò)Browsemap實(shí)現基于物品的協(xié)同過(guò)濾,計算用戶(hù)和潛在意向公司的相似度值,得到相關(guān)公司特征;將相關(guān)公司特征和用戶(hù)/公司內容特征(包括用戶(hù)位置、工作經(jīng)驗;企業(yè)產(chǎn)品、相關(guān)描述)一起分析得到最終的偏好分值。
②相似公司推薦:與給求職者推薦公司有兩點(diǎn)不同:一是內容特征相似度變?yōu)楣井?huà)像之間的相似度;二是基于多種用戶(hù)行為構建browsemap。
③相似簡(jiǎn)歷(用戶(hù))推薦:通過(guò)公司詳情頁(yè)瀏覽行為和用戶(hù)畫(huà)像特征實(shí)現該部分推薦。同時(shí)將相似簡(jiǎn)歷的屬性用于補足簡(jiǎn)歷的缺失屬性,得到該用戶(hù)的虛擬簡(jiǎn)歷。
④搜索詞推薦提供了四種關(guān)聯(lián)方式:一是協(xié)同過(guò)濾:在計算搜索詞間相關(guān)性時(shí)會(huì )加入時(shí)間和空間因素;二是基于推薦搜索詞搜索結果的點(diǎn)擊率;三是基于搜索詞之間的重合度;四是基于推薦搜索詞的點(diǎn)擊率。但實(shí)驗結果表明協(xié)同過(guò)濾的結果最好,甚至也好于將這四種方式綜合的結果。
3.今日頭條的三個(gè)階段
作為國內當紅的個(gè)性化推薦產(chǎn)品,今日頭條技術(shù)經(jīng)歷了三個(gè)階段:
早期階段,以非個(gè)性化推薦為主,重點(diǎn)解決熱文推薦和新文推薦,這個(gè)階段對于用戶(hù)和新聞的刻畫(huà)粒度也比較粗,并沒(méi)有大規模運用推薦算法。
中期階段,以個(gè)性化推薦算法為主,主要基于協(xié)同過(guò)濾和內容推薦兩種方式。協(xié)同過(guò)濾技術(shù)思想和前文介紹的并無(wú)差別?;趦热萃扑]的方式,則是先對新聞進(jìn)行刻畫(huà),然后利用用戶(hù)的正反饋(如點(diǎn)擊,閱讀時(shí)長(cháng)、分享、收藏、評論等)和負反饋(如不感興趣等)建立用戶(hù)和新聞標簽之間的聯(lián)系,從而來(lái)進(jìn)行統計建模。
當前階段,以大規模實(shí)時(shí)機器學(xué)習算法為主,用到的特征達千億級別,能做到分鐘級更新模型。架構分為兩層:檢索層,有多個(gè)檢索分支,拉出用戶(hù)感興趣的新聞候選;打分層,基于用戶(hù)特征、新聞特征、環(huán)境特征三大類(lèi)特征使用實(shí)時(shí)學(xué)習進(jìn)行建模打分。值得一提的是,實(shí)際排序時(shí)候并不完全按照模型打分排序,會(huì )有一些特定的業(yè)務(wù)邏輯綜合在一起進(jìn)行最終排序并吐給用戶(hù)。
頭條為何能取得成功?文章分析,很多人會(huì )說(shuō)是頭條的個(gè)性化推薦技術(shù)做得好,其實(shí)不盡然。原因在于,今日頭條的個(gè)性化推薦也是經(jīng)歷著(zhù)復雜的演變過(guò)程:從人工推薦到機器推薦再到最終不斷迭代算法和技術(shù),反復的進(jìn)行驗證,日益完善。
(二)新派技術(shù)認為:深度學(xué)習才是明智選擇
新派技術(shù)主要指采用了深度學(xué)習的個(gè)性化推薦系統。
深度學(xué)習是機器學(xué)習中一種基于對數據進(jìn)行表征學(xué)習的方法。觀(guān)測值(例如一幅圖像)可以使用多種方式來(lái)表示,如每個(gè)像素強度值的向量,或者更抽象地表示成一系列邊、特定形狀的區域等。而使用某些特定的表示方法更容易從實(shí)例中學(xué)習任務(wù)(例如,人臉識別或面部表情識別)。深度學(xué)習的好處是用非監督式或半監督式的特征學(xué)習和分層特征提取高效算法來(lái)替代手工獲取特征。
當常規推薦算法已經(jīng)無(wú)法及時(shí)地分析處理體量較大的數據并準確地針對獨立用戶(hù)做出推薦時(shí),具備相應技術(shù)水平的公司開(kāi)始利用深度學(xué)習解決海量?jì)热莘治鐾扑]的痛點(diǎn)。我們以較早開(kāi)始引入深度學(xué)習的YouTube、Facebook為例進(jìn)行分析。
1.YouTube的神經(jīng)網(wǎng)絡(luò )
YouTube的推薦系統是是世界上規模最大、最復雜的推薦系統之一。YouTube的全球用戶(hù)已經(jīng)超過(guò)十億,每秒上傳的視頻長(cháng)度以小時(shí)計。視頻“語(yǔ)料”庫存日益增長(cháng),就需要一個(gè)推薦系統及時(shí)、準確地將用戶(hù)感興趣的視頻不斷推薦給用戶(hù)。
相比其他商業(yè)推薦系統,Youtube推薦系統面臨三個(gè)主要的挑戰:
①規?!,F有絕大多數可行的推薦算法,在處理YouTube級別的海量視頻就力不從心了。
②新鮮度。YouTube視頻“語(yǔ)料”庫不僅僅是儲量巨大,每時(shí)每刻上傳的新增視頻也是源源不斷。推薦系統要及時(shí)針對用戶(hù)上傳的內容進(jìn)行分析建模,同時(shí)要兼顧已有視頻和新上傳視頻的平衡。
③噪聲。由于用戶(hù)行為的稀疏性和不可觀(guān)測的影響因素,用戶(hù)的歷史記錄本質(zhì)上難以預測。
為了解決這些問(wèn)題,YouTube推薦系統將研究重點(diǎn)轉移到深度學(xué)習,使用Google Brain開(kāi)發(fā)的TensorFlow(Google研發(fā)的第二代人工智能學(xué)習系統)系統為推薦系統帶來(lái)了開(kāi)發(fā)測試上的靈活性。
YouTube推薦系統主要由兩個(gè)深度神經(jīng)網(wǎng)絡(luò )組成:第一個(gè)神經(jīng)網(wǎng)絡(luò )用來(lái)生成候選視頻列表;第二個(gè)神經(jīng)網(wǎng)絡(luò )用來(lái)對輸入視頻列表打分排名,以便將排名靠前的視頻推薦給用戶(hù)。
候選視頻生成是依靠協(xié)同過(guò)濾算法產(chǎn)生一個(gè)寬泛的針對用戶(hù)的個(gè)性化推薦候選名單。排名神經(jīng)網(wǎng)絡(luò )是基于第一個(gè)候選生成網(wǎng)絡(luò )的列表,提供更精細的區分細化,從來(lái)達到較高的推薦命中率。通過(guò)定義目標函數來(lái)提供一系列描述視頻和用戶(hù)的特征,排名網(wǎng)絡(luò )則根據目標函數來(lái)給每一個(gè)視頻打分。分數最高的一組視頻就被推薦給用戶(hù)。
正是YouTube海量級別的視頻才產(chǎn)生了深度學(xué)習的需要,有效彌補了協(xié)同過(guò)濾存在地處理數據耗時(shí)長(cháng)等問(wèn)題。
2.Facebook邁出的一大步
Facebook近10年來(lái)一直沿用其N(xiāo)ewsfeed功能實(shí)現個(gè)性化推薦。2006年9月份,NewsFeed(信息流)問(wèn)世,同時(shí)問(wèn)世的還有MiniFeed(個(gè)人動(dòng)態(tài))。NewsFeed是一個(gè)系統自動(dòng)整合生成的內容信息流,它自行來(lái)決定我們讀到哪些新聞、動(dòng)態(tài)、事件。它所覆蓋的范圍,其信息推送的精準度,以及其影響力遠超過(guò)我們的想象,可以說(shuō)NewsFeed是Facebook在人工智能上所走的一大步。
Facebook是如何利用深度學(xué)習來(lái)評價(jià)內容和用戶(hù)的呢?
第一,在檢視文本方面,Facebook使用“自然語(yǔ)言處理”技術(shù)來(lái)掃描每個(gè)人發(fā)的“狀態(tài)”和“日志”,以便“真正理解文本的語(yǔ)義”,不僅如此還要將它們評級。日志在掃描的過(guò)程中,系統會(huì )自動(dòng)識別出“過(guò)度標題黨”或者“過(guò)度商業(yè)化”的內容,而且這樣的內容在NewFeed里面是越來(lái)越少見(jiàn)到了。
第二,在內容翻譯上,當在處理非英語(yǔ)的語(yǔ)言時(shí),Facebook工程師專(zhuān)門(mén)開(kāi)發(fā)了一個(gè)深度學(xué)習平臺,每一天會(huì )對100多種語(yǔ)言所寫(xiě)成的文本進(jìn)行分析,翻譯。比如當一個(gè)朋友以德語(yǔ)發(fā)表了一條動(dòng)態(tài)時(shí),NewsFeed會(huì )以英語(yǔ)體現出來(lái)給一個(gè)美國的朋友,營(yíng)造了一個(gè)能夠跨過(guò)語(yǔ)言障礙的,人人實(shí)現互聯(lián)互通的數字虛擬環(huán)境。
第三,在識別物體方面,Facebook也在利用深度學(xué)習技術(shù)來(lái)識別照片和視頻里面的物體,不僅如此,它還能進(jìn)一步地去探究誰(shuí)有可能對這些照片感興趣,或者這些照片跟哪些用戶(hù)相關(guān)聯(lián),從而推薦給目標用戶(hù)。
(三)深度學(xué)習之困境
深度學(xué)習能打遍天下無(wú)敵手嗎?
至少目前來(lái)看,深度學(xué)習只是在Speech和Image這種比較“淺層”的智能問(wèn)題上效果是比較明顯的,而對于語(yǔ)言理解和推理這些問(wèn)題效果就有點(diǎn)失分,也許未來(lái)的深度神經(jīng)網(wǎng)絡(luò )可以更“智能”的解決這個(gè)問(wèn)題,但目前還差點(diǎn)火候。
深度學(xué)習在推薦系統領(lǐng)域的研究與應用還處于早期階段。即使深度學(xué)習被認為能夠解決協(xié)同過(guò)濾的冷啟動(dòng)、數據處理較慢的問(wèn)題,但是風(fēng)光之下,它也有自己的難言之隱。
第一,成本太高。數據對深度學(xué)習的進(jìn)一步發(fā)展和應用至關(guān)重要。然而過(guò)分倚重有標注的大數據也恰恰是深度學(xué)習的局限性之一。數據收集是有成本的,而且標注成本已經(jīng)開(kāi)始水漲船高,這就使得深度學(xué)習的成本過(guò)高。而且對于體量較小、數據較少的眾多小公司來(lái)說(shuō),即使有能力用深度學(xué)習改善個(gè)性化推薦結果,也面臨著(zhù)沒(méi)有數據支撐的尷尬境地。
第二,降低成本的方案有沒(méi)有?有,但是難以實(shí)現。深度學(xué)習分為有監督學(xué)習和無(wú)監督學(xué)習,大量無(wú)監督數據的獲取成本卻是微乎其微的。目前一般用的都是監督學(xué)習,但本質(zhì)上基于監督學(xué)習的大多數推薦模型都很難徹底規避現存問(wèn)題從而提高推薦質(zhì)量。無(wú)監督學(xué)習由于無(wú)需對數據進(jìn)行加標簽等原因成本較有監督學(xué)習較低,但目前深度學(xué)習對無(wú)監督數據的學(xué)習能力嚴重不足,因此深度學(xué)習在推薦系統中的應用仍處于早期階段。
新老派兩大力量相互抗爭、相互促進(jìn)但又相互交融。傳統推薦技術(shù)在深度學(xué)習的沖擊下不斷完善,深度學(xué)習帶著(zhù)趕超傳統推薦技術(shù)的強勢勁頭不斷革新但也面臨著(zhù)發(fā)展窘境。但正是在多個(gè)平臺的這種自我發(fā)展和革新的過(guò)程中,新老派的界限也變得越來(lái)越模糊,越來(lái)越走向融合。即使堅持完善傳統推薦技術(shù)的公司也開(kāi)始慢慢涉足到深度學(xué)習的領(lǐng)域中,深度學(xué)習發(fā)展較為成熟的新派也并沒(méi)有完全摒棄老派技術(shù),那么,未來(lái)到底何派為王?
四.未來(lái)鹿死誰(shuí)手?
內容C2M,本質(zhì)上是對人心的一種洞察和預測。技術(shù)與人心的斗法,并非一朝一夕便能奏功。人類(lèi)思想的根本特征在于“意識”,即個(gè)體理解自己與他人的心理狀態(tài),包括情緒意圖、期望、思考和信念等,并借此信息預測和解釋他人行為的一種能力。
但是,當前的人工智能領(lǐng)域中存在著(zhù)一個(gè)很?chē)乐氐膯?wèn)題:人們誤解了深度學(xué)習模型的工作機理,并高估了網(wǎng)絡(luò )模型的能力。
通過(guò)深度學(xué)習,我們可以訓練出一個(gè)模型,它可以根據圖片內容生成文字描述。這個(gè)過(guò)程被視作機器“理解”了圖片和它生成的文字。當某個(gè)圖像存在輕微改變,導致模型開(kāi)始產(chǎn)生相當荒謬的字幕時(shí),結果就會(huì )讓人非常驚訝—模型失靈了。機器能找出一只貓,但機器仍然不能識別跟貓相關(guān)的所有信息。
回顧歷史不難發(fā)現,技術(shù)一直追求的目標,與其說(shuō)是讓機器替代人類(lèi),而不如說(shuō)是制造聰明的機器來(lái)提高效率。協(xié)同過(guò)濾技術(shù)的發(fā)展便是個(gè)明顯的例子。
最近幾年來(lái),互聯(lián)網(wǎng)巨頭制造“聰明的機器”的積極性異常高漲,也是效率使然。根據微軟研究院的估計,亞馬遜網(wǎng)站上大約30%的頁(yè)面瀏覽來(lái)自于推薦系統;Netflix首席產(chǎn)品官聲稱(chēng)80%以上的電影觀(guān)看來(lái)自于推薦系統,并稱(chēng)Netflix推薦系統的價(jià)值每年高達十億美元;據阿里巴巴披露數字,2013年當天由推薦直接引導的成交總額為56.8億元。今日頭條則將公司核心業(yè)務(wù)架構在推薦引擎上,是當今最重視推薦技術(shù)的公司之一……
在內容C2M發(fā)展歷程中,盡管深度學(xué)習存在許多不足,但深度學(xué)習主導未來(lái)是大概率事件。我們看到代表著(zhù)傳統推薦技術(shù)和深度學(xué)習的新老派在相互促進(jìn)和相互融合,在全球流量前20的平臺中,雖然有不少公司依然沿用采用協(xié)同過(guò)濾技術(shù),比如Google新聞,LinkedIn等,但是其中一些公司也已經(jīng)準備甚至已經(jīng)采用深度學(xué)習等技術(shù)來(lái)改進(jìn)自身不足。而YouTube、Facebook等先行者已開(kāi)始享受深度學(xué)習的紅利。
從飼養員模式到聰明的機器,內容產(chǎn)業(yè)的C2M已然成勢,顛覆日,不遠了。
我們可以相信,雖然深度學(xué)習還存在著(zhù)一些制約因素,但是,隨著(zhù)AI技術(shù)和產(chǎn)業(yè)的強勁發(fā)展,技術(shù)上的瓶頸終究會(huì )被突破。
需要警惕的是,在C2M跨越了準確、隱私兩座大山后,人類(lèi)通過(guò)AI掌握了新的力量,掌握者的欲望和野心,也應該受到一定的控制,尤其是價(jià)值觀(guān)問(wèn)題,將顯得越發(fā)重要。