亚洲先锋影音人AV成_免费A级毛片一分钟_人人爽人人爽人人插_日韩少妇极品熟妇人妻潮喷

沃卡惠移動(dòng)端logo

算法在畫像平臺(tái)建設(shè)中的應(yīng)用

2024-05-09 09:45:014636

算法在用戶畫像建設(shè)中的應(yīng)用

一、畫像平臺(tái)建設(shè)背景

首先和大家分享下畫像平臺(tái)的建設(shè)背景。

1.傳統(tǒng)的畫像平臺(tái)

傳統(tǒng)的思路來(lái)看,建設(shè)用戶畫像平臺(tái)依賴數(shù)倉(cāng)建模能力,整合多業(yè)務(wù)線數(shù)據(jù),構(gòu)建準(zhǔn)確的用戶畫像;還需要數(shù)據(jù)挖掘,理解用戶行為、興趣和需求,提供算法側(cè)的能力;最后,還需具備數(shù)據(jù)平臺(tái)能力,高效存儲(chǔ)、查詢和共享用戶畫像數(shù)據(jù),提供畫像服務(wù)。業(yè)務(wù)自建畫像平臺(tái)和中臺(tái)類型畫像平臺(tái)主要區(qū)別在于,業(yè)務(wù)自建畫像平臺(tái)服務(wù)單條業(yè)務(wù)線,按需定制;中臺(tái)平臺(tái)服務(wù)多條業(yè)務(wù)線,建模復(fù)雜,提供更為通用的能力。

2.畫像建設(shè)的背景

用戶畫像平臺(tái)建設(shè)主要源于以下幾種業(yè)務(wù)需求:

個(gè)性化推薦:業(yè)務(wù)方需要基于用戶畫像做千人千面的內(nèi)容分發(fā)。

精細(xì)化運(yùn)營(yíng):產(chǎn)品運(yùn)營(yíng)需要畫像平臺(tái)提供人群洞察、人群圈選等功能對(duì)不同人群做更精細(xì)的運(yùn)營(yíng)活動(dòng)。

用戶價(jià)值增長(zhǎng):粗放式流量增長(zhǎng)已經(jīng)過(guò)去,如何利用畫像平臺(tái)做好存量用戶價(jià)值增長(zhǎng)是相當(dāng)迫切的需求。

3.萬(wàn)象

在當(dāng)前業(yè)務(wù)需求和外部環(huán)境挑戰(zhàn)下,我們提出了 UA+CDP+MA 這一套用戶畫像平臺(tái)解決方案。通過(guò) OneID 服務(wù)構(gòu)建用戶畫像基礎(chǔ)數(shù)據(jù),結(jié)合流量和人群洞察,利用算法智能生成人群,并匹配物料進(jìn)行精準(zhǔn)營(yíng)銷。同時(shí)監(jiān)測(cè)效果并回收數(shù)據(jù),優(yōu)化策略迭代人群。為業(yè)務(wù)方提供智能化增長(zhǎng)解決方案,實(shí)現(xiàn)精準(zhǔn)運(yùn)營(yíng)和業(yè)務(wù)增長(zhǎng)。

二、算法在畫像平臺(tái)建設(shè)中的作用

算法側(cè)在用戶畫像平臺(tái)的建設(shè)主要包括兩個(gè)方面,一個(gè)是標(biāo)簽體系的建設(shè),另一個(gè)是平臺(tái)能力的構(gòu)建。

1.標(biāo)簽體系的建設(shè)

萬(wàn)象標(biāo)簽體系包含社會(huì)屬性、地理位置、行為習(xí)慣、偏好屬性、用戶分層等多個(gè)分類,一共有1500余個(gè)標(biāo)簽。我們根據(jù)生產(chǎn)方式分為兩種類型:

事實(shí)類標(biāo)簽:數(shù)倉(cāng)同學(xué)利用統(tǒng)計(jì)或者規(guī)則,通過(guò)SQL等開(kāi)發(fā)生產(chǎn)。

算法類標(biāo)簽:算法團(tuán)隊(duì)通過(guò)數(shù)據(jù)挖掘等手段加工生產(chǎn)。

2.算法類標(biāo)簽舉例

算法類標(biāo)簽可根據(jù)數(shù)據(jù)源和粒度分類。如性別、年齡、業(yè)務(wù)傾向等標(biāo)簽,數(shù)據(jù)源一般為結(jié)構(gòu)化數(shù)據(jù),常作為分類任務(wù)處理,模型可選用 XGBoost、DeepFM 等。還有租房目的標(biāo)簽,需要從用戶瀏覽的帖子文本中識(shí)別用戶目的,這類標(biāo)簽數(shù)據(jù)源為非結(jié)構(gòu)化數(shù)據(jù),可以用文本分類等方式處理。在我們的內(nèi)容偏好標(biāo)簽中,如用戶在不同業(yè)務(wù)的帖子偏好 topN,則需要構(gòu)建離線的推薦流程生產(chǎn)這類標(biāo)簽。

3.以內(nèi)容偏好標(biāo)簽為例解釋標(biāo)簽的流程

以內(nèi)容類偏好標(biāo)簽為例,生產(chǎn)該標(biāo)簽需建立離線推薦流程。面對(duì)百萬(wàn)甚至更多的帖子,我們首先通過(guò)召回階段進(jìn)行初步篩選,采用熱門、規(guī)則、協(xié)同過(guò)濾等方法,如圖卷積神經(jīng)網(wǎng)絡(luò)(LightGCN)和雙塔(DSSM)模型等。然后,基于召回的帖子,利用 Pointwise 方式通過(guò) CTR 模型進(jìn)行排序。最終產(chǎn)出用戶最感興趣的 Top N 帖子。在實(shí)際應(yīng)用中,以 push 場(chǎng)景為例,可以從 Top 1 帖子中提取關(guān)鍵屬性,生成個(gè)性化文案。同時(shí),落地頁(yè)可以是 Top 1 帖子的詳情頁(yè)或 Top N 帖子的列表頁(yè)。

在生產(chǎn)內(nèi)容偏好類標(biāo)簽時(shí),考慮到業(yè)務(wù)的地域和類目特性,用戶在推薦中通常只對(duì)特定地域或類目的帖子感興趣。因此,在向量化召回(如使用 EGES 模型)時(shí),可能會(huì)出現(xiàn)大量異地或非本類目的帖子。為解決這一問(wèn)題,我們將城市信息以 16 進(jìn)制表示,將 0 替換為 -1,然后將此編碼直接拼接到之前生成的向量中,這樣做可以確保同城市或同類目的帖子在相似度計(jì)算中具有最大相似性,從而提高召回和推薦的準(zhǔn)確性。

在排序階段,利用多模態(tài)信息,包括文本內(nèi)容,以提升推薦的準(zhǔn)確性。例如帖子標(biāo)題作為文本特征,可以采用 BERT、M3E 等預(yù)訓(xùn)練模型進(jìn)行 embedding 表示。然而,由于帖子數(shù)量龐大,這對(duì)計(jì)算資源構(gòu)成了挑戰(zhàn)。為解決這一問(wèn)題,我們采用了 Spark NLP,這是一個(gè)基于 Apache Spark Machine Learning 的自然語(yǔ)言處理庫(kù)。盡管原生庫(kù)中沒(méi)有中文的 BERT 模型,但通過(guò)一些轉(zhuǎn)換,我們成功地將其應(yīng)用于大規(guī)模離線推理。

在用戶畫像平臺(tái)的功能建設(shè)中,算法同樣發(fā)揮著核心作用。以智能運(yùn)營(yíng)能力為例,我們利用流量地圖識(shí)別不同業(yè)務(wù)之間的相關(guān)性,為業(yè)務(wù)方提供運(yùn)營(yíng)建議或結(jié)論。業(yè)務(wù)方可以根據(jù)這些建議直接通過(guò)智能圈人功能生成運(yùn)營(yíng)人群包,并對(duì)接到相應(yīng)渠道進(jìn)行投放。投放效果可以通過(guò)平臺(tái)進(jìn)行監(jiān)測(cè),并根據(jù)效果數(shù)據(jù)進(jìn)行迭代優(yōu)化,從而不斷提升運(yùn)營(yíng)效果。

算法是如何發(fā)揮作用的呢?接下來(lái)分幾個(gè)環(huán)節(jié)來(lái)介紹。首先是流量地圖這一塊。我們利用 OLAP 數(shù)據(jù)挖掘和數(shù)據(jù)可視化技術(shù),深入分析APP用戶在不同業(yè)務(wù)之間的瀏覽情況。通過(guò)分析和加工這些數(shù)據(jù),可以展示出用戶在不同業(yè)務(wù)之間的流轉(zhuǎn)路徑,為運(yùn)營(yíng)團(tuán)隊(duì)提供直觀的用戶行為視圖。在這個(gè)過(guò)程中,算法不僅可以幫助我們識(shí)別出用戶的行為模式,還可以通過(guò)關(guān)聯(lián)分析等技術(shù),挖掘出不同業(yè)務(wù)之間的相關(guān)性。這些相關(guān)性為我們提供了寶貴的運(yùn)營(yíng)建議,支持運(yùn)營(yíng)團(tuán)隊(duì)進(jìn)行交叉運(yùn)營(yíng)。

在得到運(yùn)營(yíng)建議后,運(yùn)營(yíng)團(tuán)隊(duì)可以通過(guò)智能圈人功能來(lái)圈選目標(biāo)人群。為了實(shí)現(xiàn)這一目標(biāo),運(yùn)營(yíng)團(tuán)隊(duì)需要首先配置個(gè)性化運(yùn)營(yíng)目標(biāo),明確目標(biāo)是拉新、促活還是促轉(zhuǎn)等。接著,需要設(shè)定期望達(dá)到的效果,包括人群包的大小和預(yù)期的投放效果等。此外,運(yùn)營(yíng)團(tuán)隊(duì)還需要選擇適合的投放渠道,以確保目標(biāo)人群能夠接收到相關(guān)的運(yùn)營(yíng)活動(dòng)信息。

生成人群包的過(guò)程對(duì)于運(yùn)營(yíng)團(tuán)隊(duì)來(lái)說(shuō)是一個(gè)黑盒。為了解決這個(gè)問(wèn)題,我們提供了更多關(guān)于算法原理和步驟的解釋和說(shuō)明,以便運(yùn)營(yíng)團(tuán)隊(duì)更好地理解和應(yīng)用該技術(shù)。同時(shí),我們提供了更多的可視化工具和界面,幫助運(yùn)營(yíng)團(tuán)隊(duì)直觀地查看和分析人群包的特征和效果。

在生成人群包的過(guò)程中,我們主要采用了 Look-alike技術(shù)。在該技術(shù)的演進(jìn)上,我們經(jīng)歷了幾個(gè)階段,前期借鑒 Yahoo 的方案,將人群包的產(chǎn)出分為召回和排序模塊。召回模塊,首先構(gòu)建所有用戶的特征向量,然后采用 minHash 和局部敏感哈希技術(shù)進(jìn)行特征向量的壓縮,并通過(guò)類似聚類分桶的方法實(shí)現(xiàn)了近似于 k-NN 的檢索,快速計(jì)算種子用戶與候選人群之間的兩兩相似度,選取 topN 作為每個(gè)種子用戶的召回人群。在排序階段,首先使用 Information Value 進(jìn)行特征篩選,然后基于篩選后的特征計(jì)算分值,最后根據(jù)分值進(jìn)行排序,最終產(chǎn)出人群包。整個(gè)過(guò)程中,算法起到了關(guān)鍵作用,確保了人群包的準(zhǔn)確性和有效性。

除了基于相似度的方案,同樣基于機(jī)器學(xué)習(xí)的方式也有不錯(cuò)的效果。在實(shí)際應(yīng)用中,用戶可以通過(guò)場(chǎng)景圈人或種子人群上傳兩種方式發(fā)起請(qǐng)求。區(qū)別在于種子人群由用戶上傳還是我們自動(dòng)挖掘。在拿到種子人群,也就是正樣本后,我們需要選擇負(fù)樣本,可以暴力的全局隨機(jī)負(fù)采樣,也可以用 PU learning 或者 TSA 等算法完成負(fù)樣本的選取。接下來(lái)是特征選擇階段,分為兩種方案,一種是提前預(yù)制人工挑選的特征,經(jīng)過(guò)固定的特征工程,可以使用 DeepFM 等模型完成訓(xùn)練和 CTR 的預(yù)估,根據(jù) CTR 選擇 TopN 作為人群包;還有一種方案是我們使用全量的標(biāo)簽作為特征,通過(guò) IV 值和相關(guān)性自動(dòng)化挑選和剔除特征,然后使用 AutoML 框架完成特征工程、模型訓(xùn)練,最后對(duì)App的人群池進(jìn)行推理,并根據(jù)TopN產(chǎn)出人群包,對(duì)接到渠道進(jìn)行觸達(dá),最后回收投放效果數(shù)據(jù)來(lái)完成樣本選擇迭代。

上述方案有一些值得關(guān)注的點(diǎn),首先是樣本的迭代,回收效果數(shù)據(jù)時(shí),不僅需要對(duì)曝光數(shù)據(jù)進(jìn)行篩選,同時(shí)需要對(duì)未曝光數(shù)據(jù),也就是 Exposure Bias 做 Debias 處理。同時(shí)迭代后的效果需要離線評(píng)估驗(yàn)證,保證迭代的效果。此外,特征方面也需要考慮穿越問(wèn)題,特別是拉新場(chǎng)景,需要考慮特征選擇的時(shí)間因素。

隨著在運(yùn)營(yíng)場(chǎng)景中積累的數(shù)據(jù)越來(lái)越多,我們開(kāi)始嘗試?yán)眠@些數(shù)據(jù)進(jìn)行離線實(shí)驗(yàn),以優(yōu)化我們的迭代方案。其中之一就是基于騰訊微信的 Look-alike 方式,它采用元學(xué)習(xí)的方法。具體來(lái)說(shuō),這種方法通過(guò)構(gòu)建一個(gè)泛化模型,在離線階段完成模型的構(gòu)建,然后在在線階段利用少量的數(shù)據(jù)集進(jìn)行定制化模型的訓(xùn)練,并進(jìn)行推理工作。這種方式能夠解決樣本量相對(duì)較少時(shí),模型容易出現(xiàn)過(guò)擬合的問(wèn)題。多場(chǎng)景多目標(biāo)的人群擴(kuò)散,也是我們下一步迭代的方向之一。

三、畫像平臺(tái)應(yīng)用案例

1.個(gè)性化資源位投放

個(gè)性化資源位的投放,在App資源位包含開(kāi)屏、banner 位、浮窗、fees 流卡片等等,都有用到 58 用戶畫像平臺(tái)相應(yīng)的功能,比如用價(jià)運(yùn)營(yíng)通過(guò)畫像平臺(tái)的標(biāo)簽圈選能力去產(chǎn)出人群包為其推送特定的內(nèi)容,完成千人千面的精細(xì)化運(yùn)營(yíng)。

2.個(gè)性化 push 推送

我們的畫像平臺(tái)與的 push 平臺(tái)也完全打通,運(yùn)營(yíng)同學(xué)可以通過(guò)萬(wàn)象圈選或者 Look-alike 等形式創(chuàng)建人群,配置個(gè)性化文案,通過(guò) push 觸達(dá)用戶,達(dá)成運(yùn)營(yíng)目的。

3.搜索推薦

搜索推薦是基于用戶畫像最常見(jiàn)的應(yīng)用。新車、二手車這兩個(gè)業(yè)務(wù)方?jīng)]有算法人員,但是又想做一些個(gè)性化的應(yīng)用,因此接入了前文中提到的內(nèi)容偏好類標(biāo)簽。首頁(yè)的新車推薦,相關(guān)推薦等資源位都用到了內(nèi)容偏好 TopN 標(biāo)簽。在二手車的搜索位置上,搜索框的提示語(yǔ)以及搜索發(fā)現(xiàn)頁(yè)的相關(guān)車系也用到了這一標(biāo)簽。相比于之前通過(guò)規(guī)則的方式,通過(guò)接入內(nèi)容偏好標(biāo)簽作為項(xiàng)目初期的解決方案,也取得了很好的效果。

四、展望與總結(jié)

當(dāng)前畫像平臺(tái)已經(jīng)具備了業(yè)界通用的畫像平臺(tái)能力,并且通過(guò)算法加持,實(shí)現(xiàn)了智能運(yùn)營(yíng)等能力。不僅提升了業(yè)務(wù)方運(yùn)營(yíng)效果,在為用戶提供個(gè)性化服務(wù)的同時(shí)也帶來(lái)了更好的用戶體驗(yàn)。接下來(lái),還將與業(yè)務(wù)方深度合作,探索更多的應(yīng)用場(chǎng)景,在合作的過(guò)程當(dāng)中進(jìn)行總結(jié)和提煉、優(yōu)化與創(chuàng)新,升級(jí)技術(shù)以應(yīng)對(duì)各種需求和挑戰(zhàn),我們期待為用戶和企業(yè)創(chuàng)造更大的價(jià)值。