快手雙邊市場的復雜實驗設計問題
一、問題背景
1、雙邊市場實驗介紹
雙邊市場,即平臺,包含生產者與消費者兩方參與者,雙方相互促進。比如快手有視頻的生產者,視頻的消費者,兩種身份可能存在一定程度重合。
雙邊實驗是在生產者和消費者端組合分組的實驗方式。
雙邊實驗具有以下優(yōu)點:
(1)可以同時檢測新策略對兩方面的影響,例如產品 DAU 和上傳作品人數變化。雙邊平臺往往有跨邊網絡效應,讀者越多,作者越活躍,作者越活躍,讀者也會跟著增加。
(2)可以檢測效果溢出和轉移。
(3)幫助我們更好得理解作用的機制,AB實驗本身不能告訴我們原因和結果之間的關系,只能告訴我們所作事情會得出什么樣的影響以及數據變化。但是生產端與消費端之間的作用機制,就需要更加復雜的實驗設計和更多的實驗指標才能把這些問題看清楚。
2、雙邊實驗的例子
這里通過一個直播美顏的例子,幫助大家進一步理解雙邊實驗。
假設在直播場景中加上美顏的效果。從表格中橫著看,兩行的實驗的觀眾組,控制觀眾是否可以看到直播美顏前后的差異。表格中的列表示主播有沒有美顏對實際的影響。將以上兩方面結合,當且僅當實驗組主播對照實驗組觀眾時,才給視頻開美顏功能。實際另外三個組無法看到美顏功能。但是 BC 看不到美顏,和 D 看不到美顏存在區(qū)別。AD 的區(qū)別是常規(guī)的 AB 實驗的常見場景。本場景通過雙邊設計可以觀察到觀眾側是否存在溢出。
針對主播美沒有美顏功能,若不存在觀眾溢出,則 BD 應該數據表現一致,但實際上,數據 BD 若存在差異,如果主播沒有美顏功能,觀眾在其他主播側看到美顏功能,則實際效果就存在了正影響或者負影響。同理,主播側的溢出也可以通過此種雙邊實驗,更好理解實驗中的作用機制,和實驗雙方是否存在溢出。
二、激勵策略的挑戰(zhàn)
供給側-消費側生態(tài)體系內部,業(yè)務時長有政策性流量扶持的需求,這就是激勵策略,主要包括以下三種場景:
(1)運營引入優(yōu)質作者,但不確定作者在平臺上的數據表現;
(2)某些業(yè)務需要挖掘特定類型作者,給一些宏觀調控上的流量扶持,予以更強的流量分發(fā)力度;
(3)平臺意志場景下,按照某種特定方向發(fā)展,認為改變流量分配方式強化某些對應內容供給。
在以上場景下往往并非網絡學習的方式,而是通過人為的角度對平臺流量做宏觀的調控。針對關注相對長期的,需要觀察學習效應(促生產等),時間片輪轉之類的方法不太試用。例如如下場景:給一類定向流量的作者流量的支持,來研究這樣的流量在長期場景下,互動以及生產是否可以長久。
首先是作者側的擠占:大多數此類實驗,平臺的總曝光數量有限,平臺扶持的場景下,實驗組作者曝光增加,不被扶持的對照組曝光量減少。若作者側冷啟動曝光提升幅度比讀者側冷啟動曝光幅度更大,就證明存在擠占情況。
根據上圖根據實驗組對照組關系以及開展各組曝光相對基線 diff,可以看出,隨著實驗開始對作者 boost 最后會通過推薦系統不僅傳遞給用戶組 B 也會傳遞給用戶組 A,并且作者 B 用戶 B,作者 B 用戶 A 的曝光 diff 是基本趨于一致的。傳統實驗一直致力于對此種策略扭曲的流量情況矯正。
SUTVA 假設,個體 i 在實驗過程中只與自身被分配在實驗組或者對照組相關,與實驗體系下其他節(jié)點在哪個分組無關,不論其他節(jié)點是合作關系還是競爭關系。SUTVA 是 AB 實驗得到有效結論最基礎的假設。
實際雙邊網絡違背了 SUTVA 假設。
在短視頻場景下,如果把每一種記錄策略看作一種排序算法。不同的激勵策略代表短視頻的不同排序結果。上圖 RC 代表對照組,RT_25% 實驗組流量是 25% 時的算法排序組合,RT 代表實驗組實驗推全 100% 算法排序組合。BCDE 為實驗目標用戶類型,即被選中的激勵作者作品。而 D 為當實驗推量 25% 時,正好落在實驗組中。假設通過推薦加權的方式實驗,D 的排序直接排到前面位置。若策略增加至 100%,BCDE 均被加權,這種情況,D 作品卻排序反而下降。這種場景就是實驗組擠占,以及出現擠占的原因。
三、可選解決方案
1、方案1:逐步擴量
實驗組排序 gap 會隨著實驗組數據比例擴大而逐漸接近,擠占的效應隨著對照組流量減少而減少。
【先發(fā)優(yōu)勢】實驗過程中發(fā)現,針對流量扶持的場景下,相等扶持力度,先扶持作者會始終保持流量優(yōu)勢。更早的扶持和加速發(fā)掘過程本身邏輯是前后一致的。
?分階段擴量的實驗詳情:上圖展示了分階段擴量,縱坐標為相對 base 組漲粉數據差異。實驗初期,20% 實驗組的情況,只扶持了實驗組 1,實驗組一數據指標開始上升;當實驗放量 60%,實驗組 123 均開始扶持,另外兩組實驗指標也開始上升,但始終沒有超過實驗組 1;后面將實驗組改成了 124,發(fā)現 4 也開始提升,但是 4 仍然無法超過實驗組 3。
由此可以得出以下結論:逐步擴量是有用的,指標會根據擴量提升,提升會不會隨著流量擴大而變小則無法確認。目前實驗結果可以得出,先獲得流量扶持的實驗組數據表現會比后獲得流量扶持的實驗組更好。?
2、方案2:劃分小世界
如上圖所示方法,將實驗組和對照組完全隔離,實驗組讀者只能看到實驗組作品,控制組讀者只能看到控制組作品。由此避免出現作者和讀者之間的擠壓情況。
類似的做法有,將作者和讀者的流量分發(fā)當成一個網絡圖,這個網絡圖并不是處處聯通,部分讀者只愛看部分幾類作品,基于這樣的網絡圖可以做實驗組對照組的切分。以上做法與劃分小世界方式思路一致,實踐效果更好,但與此同時也具有更大的計算成本。
劃分小世界主要存在的問題為:
(1)算法推薦系統需要一定的規(guī)模量級才能冷啟動,當切分池子一定小的時候,影響實際個性化分發(fā)空間。不同業(yè)務不同平臺保留推薦彈性效果前提下,對切分結構最細粒度要求各不相同。大多數情況,推薦邊際效應遞減。
(2)明確的流量隔離,會對樣本進行的實驗數量和檢驗方式有一定限制。針對并行實驗場景需要不斷得將隔離開的用戶重新打散重新拆分。
從分析方法中矯正而不是實驗設計的方式矯正:
- 根據實際網絡效應做矯正分析;
- 根據實驗結果做一些線性假設以及其他的一些條件假設。
采用實驗方式矯正的原因:
首先實際的分析矯正方法中假設很難驗證,對于差異較大的實驗,網絡效應的溢出擠占情況各不相同,很難在短時間內總結規(guī)律,無法得到通用方法。而實際我們的解決方案希望可以解決一大類問題。
四、構建綜合方案
基于排序融合的方案構建——本質上我們希望可以保證實驗組 RT_a% 的排序和實驗組RT_100% 的實際排序可以保持一致結果。
實現方式:首先同時用 RT/RC 兩套排序算法進行排序,記錄對應的作品順序;將作者分為實驗組和對照組,對于實驗組給讀者展示的為兩個算法的排序融合順序。
將 RC 為當前所有作者均沒有扶持的線上排序方案,RT 中將所有知識類作者提權。將RC 于 RT 的排序結果融合,先將實驗組 RT 對應的作者(T1T2)放在 final 分組的對應排序位置上,將對照組的作者根據原先實驗無關的次序繼續(xù)保留。保守起見,小流量時期建議除了實驗作品以外,其他作品均按照原先次序填充。若實驗已經推全,則全量使用 RT 的結果。
如果實驗組和對照組競爭同一個位置怎么辦?
根據以上實驗設計,如果出現實驗組作品和對照組作品競爭同一個位置,最簡單的方式是隨機選擇。這種情況出現的概率很低。
如果實驗組和對照組都是 a% 的總流量,假設 a=2,
假設一次推 10 個作品,top10 同時出現實驗組和對照組作品的概率計算如上圖,約為 3.3%。如果兩個算法完全獨立,前 10 相同位置出現沖突的概率更低。
?往往改進具有一定的漸進式的,RC 和 RT 關聯性很高,沖突性更小。于此同時也可以通過離線測試的方式提前預估沖突的概率。
以上雙邊實驗主要的指標評估可分為以下三類:?
- 作者側指標:作品數量,生產作者數,直接從作者側檢驗;
- 報告觀看量指標:CTR,EVTR,作者作品曝光提升=讀者觀看次數提升進行推算;
- 讀者側指標:讀者側單邊實驗驗證。
方案可能存在其他一些問題:
首先任何的方案都會存在問題。雙邊市場強的溢出效應很難通過一個解決方案解決所有問題。
目前實驗設計的主要問題包括以下幾個方面:
(1)首先,保留兩套排序從工程側存在一定成本,若政策激勵會更好推進,算法的角度不容易一直保持兩套不做融合;
(2)其次,從算法數據的隔離的角度,部分改進來自于數據本身,模型本身存在較大變化,結果排序算法邏輯不再成立。
(3)第三,計算假設 a=2%,如果更多的流量檢驗小的效果是否可以增加 a 值?隨機選擇比例混排,使得更大流量沖突可能性更小。最后,雙邊問題退換為單邊來解決,是否可以通過雙邊可以解決,待后續(xù)繼續(xù)探究。