本文摘要:摘要: 電子商務的迅速發展為在線實時定價奠定了環境基礎,本文基于深度強化學習理論提出了一個在不確定性環境下針對有限銷售時間段內在線銷售給定庫存量商品的動態定價學習框架 DRL-DP ( Deep ReinforcementLearning Framework for Dynamic Pricing)。 DRL-DP 首先將動
摘要: 電子商務的迅速發展為在線實時定價奠定了環境基礎,本文基于深度強化學習理論提出了一個在不確定性環境下針對有限銷售時間段內在線銷售給定庫存量商品的動態定價學習框架 DRL-DP ( Deep ReinforcementLearning Framework for Dynamic Pricing)。 DRL-DP 首先將動態定價問題建模成馬爾科夫決策過程(Markov DecisionProcess,MDP),然后基于深度強化學習理論設計了動態定價算法。 實驗結果表明在不確定性動態定價環境中,DRLDP相比于傳統的表格式強化學習動態定價算法,能夠在需求與環境特征存在相關性時取得更好的收益表現。
關鍵詞: 動態定價; 深度強化學習; 收益管理
引言
隨著商業的發展,傳統的固定定價模式已經難以適應需求動態變化的應用環境,給企業帶來了諸如庫存、銷售以及客戶滿意度等問題,很難滿足顧客差異化、多元化的消費需求。 而動態定價伴隨商業數字化的加快越來越得到企業的青睞,這也是企業避免粗暴定價模式,走向精細化運營方向的一種方式。 特別是國內外基于互聯網進行商品銷售的企業對動態定價策略的運用更為明顯,大型在線零售商亞馬遜針對平臺上數百萬的商品引入動態定價策略進行價格調整來增加收益和打擊競爭者;美團、淘寶、京東等電子商務平臺也積極引入動態定價對其平臺上的各種商品在不同供應時間點進行差異化的定價,諸如京東、淘寶平臺上的限時秒殺、閃購以及優惠券活動,美團上的外賣折扣券、配送費用分時段計價的方式,F今,電子商務讓信息流全面轉向了線上平臺,使得數據資源集中在了電商平臺中心。
一些大型的電商網站采集了豐富的數據資源,而這些數據中包含了消費者行為模式的重要信息,這使得利用數據對客戶需求估計來進行定價策略調整,增加產品周期內的累積收益成為了可能。 然而,先前的研究主要存在以下兩方面問題:一方面,部分資料對動態定價問題策略的研究主要基于一些固有的假設,缺乏對數據本身潛在信息的挖掘;另一方面,很多基于數據來研究動態定價問題的策略難以應對大數據的應用場景,主要問題是難以表達高維數據特征所包含的需求信息和定價之間的復雜關系。 近年來,深度強化學習理論在游戲[1-2]、推薦系統[3-5]等領域都取得了廣泛的應用,這促使了采用深度強化學習理論來研究動態定價問題。本文采用深度強化學習理論研究依靠電子商務平臺進行銷售商品的動態定價問題。 針對商品受到環境的復雜變化導致高水平不確定性需求的產生,依靠定價策略來學習需求的動態變化而進行價格調整。
本文的貢獻如下:1) 提出了解決有限銷售時間段內在線銷售給定庫存量商品動態定價問題的動態定價學習框架 DRL-DP 用于優化商品銷售的長期累積收益;2) 綜合考慮了影響需求變化的環境特征,提出了解決動態定價中高維狀態特征問題的 Q-network 神經網絡;3) 設計了在線的定價代理交互環境用于訓練和評估DRL-DP 的表現。本文的結構如下:第 1 節,對研究問題的相關文獻進行了回顧;第 2 節,對動態定價問題的要素進行了數學描述;第3 節,對動態定價問題的理論建模及算法設計進行了相關的敘述;第 4 節是數值實驗;第 5 節,對本文的研究工作進行了總結和展望。
1 文獻回顧動態
定價問題歷來受到關注。 一些學者從貝葉斯理論的角度來解決動態定價問題,Mason 和 Välimäki[6] 在研究單個商品動態定價問題中,對顧客的到達率采用了貝葉斯學習的方式;Harrison 等[7]將需求不確定性限定在兩種需求函數中,采用貝葉斯方式學習最優定價策略。
需求模型假設在一組有限的函數簇內,將價格優化轉換為多臂賭博機(MultiarmedBandit,MAB)問題,Chhabra 和 Das[8] 研究了針對在線數字商品拍賣的 MAB 問題學習;Xu 等[9] 將具有時變回報的隱私數據動態定價問題轉化為 MAB 問題;Moradipari 等[10]采用 MAB 框架來解決價格受未知因素影響和響應隨機性的電力實時定價問題并通過 Thompson Sampling 算法求解。 不確定性環境下基于魯棒優化理論提出了保守性的動態定價策略,Li 等[11]對需求率模型具有不確定性的情況采用魯棒優化進行研究;Cohen 等[12]提出了直接從數據中學習魯棒性的動態定價策略。 部分學者也從博弈論角度考慮多個參與主體的動態定價問題,陳曉紅等[13] 研究了多零售商動態博弈定價;Srinivasan 等[14]利用博弈論對新加坡電力市場進行了動態定價建模;曾賀奇等[15] 從博弈論角度考慮了兩競爭商定價問題。近年來,強化學習在研究動態定價問題上也有一些進展。
Han[16]在解決一般性動態定價問題將 Bayesian 方法和Q-Learning 結合,采用貝葉斯的方式將 MDP 的轉移函數和獎勵函數作為分布,并利用采樣方式進行動作的選擇;Collins等[17]比較了 SARSA、Q-learning 和 Monte-Carlo learning 這三種方法對于航空公司動態定價博弈的效果,并且還分析了將強化學習應用于此類問題所獲得的額外效益;Dogan 等[18] 采用強化學習理論分析了在不同環境下各零售商在多零售商競爭環境中的定價決策;Rana 等[19] 考慮了多個相互依賴產品的收益問題,當需求是隨機的且需求函數的形式未知時,使用強化學習來模擬相互依賴產品的最優定價;Cai 等[20] 通過強化學習研究了電子商務市場中廣告實時競價問題;Lu等[21]采用馬爾科夫決策過程建模了分級電力市場中能源管理的動態定價問題并采用 Q-Learning 算法求解。綜上所述,前期的相關文獻對顧客到達率采用已知分布,需求和價格之間的關系假設為已知的帶有未知參數的函數或者函數簇。 然而,現實應用場景中的顧客到達率以及需求受到環境多種因素綜合影響而變化。
此外,在需求估計中采用了統計學習的方式,與價格優化分割成兩階段的決策模型。 而采用強化學習理論研究動態定價問題作為一種免模型的方式,對需求估計和價格優化相結合,是單階段決策模型。 但是前期關于強化學習研究動態定價問題的文獻多集中在表格式強化學習,模型的學習和表達能力有限,無法處理高維數據特征下的定價問題。 而本文研究基于具有良好表征能力的深度強化學習理論來解決需求受到環境多種因素影響的實時動態定價問題。
2 問題描述
電商平臺進行銷售的部分商品需在固定的銷售時間段內銷售給定的庫存量,特別是易腐性和時尚類商品,而平臺由于數據獲取、存儲、利用的便利性以及環境交互的可實施性,特別適合于動態定價策略的運用。 這類商品由于在銷售單個周期時間內不允許進行再次補貨,銷售末期剩余的商品不存在殘值。 當面臨復雜的市場變化環境時,往往需求快速地變化而難以確定,此時可以利用數據學習需求的動態變化,通過相關的數據特征變化來反映需求的動態變化情況,采用動態定價策略來控制庫存水平的狀態變化。 因此,當面對復雜的不確定性需求環境時,商家一般會采用動態定價策略來提高累積收益。
3 動態定價模型
3. 1 動態定價的 MDP
本文將此類動態定價問題建模為離散有限的 MDP。MDP 由 〈S,A,P,R,γ〉 五元組構成,S 表示狀態空間,A 表示動作空間,P:S × A × S → [0,1] 表示狀態轉移概率函數,R:S× A → ℝ 表示回報函數,γ ∈ [0,1] 表示折扣因子。 上述動態定價問題 MDP 的具體分析如下:狀態空 間 S: 狀 態 信 息 通 過 特 征 描 述, 即 S = ( S _observation,S_ stock, S _ seq)。
其中,特征分為觀測狀態 S _observation,庫存狀態 S_stock 以及序列反饋信息 S_seq 三組。觀測狀態表示對定價市場環境的感知,可以是當前時間步同類競爭商品的價格、不同時段顧客的流量等影響顧客到達率以及需求敏感性的特征;庫存狀態由當前定價時間步到銷售期結束的剩余時間量和剩余庫存量構成;序列反饋信息表示從定價開始到當前時間步的庫存狀態變化、銷量狀態變化以及定價狀態變化的序列反饋,用于學習不同時間步狀態信息下采取不同定價動作的需求敏感性變化特性。
強化學習是一種在線自適應學習框架,被廣泛用于處理序列決策問題。 基于強化學習理論解決動態定價問題具有的優勢在于強化學習從與環境的交互經驗中學習最佳的定價策略,能夠隨環境變化而自適應地調整定價,并將需求估計與價格優化兩階段結合在一起。
Q-network 架構的設計關系到正確地近似表達不同狀態下采取不同動作的累積折扣回報價值,在圖 2 中展示了本文設計的 Q-network 架構。 本文對 Q-network 架構的設計綜合考慮到了狀態信息、觀測信息以及序列反饋信息來評估當前狀態下選取不同動作的累積折扣回報價值。 因此,針對底層特征提取分別設計了觀測狀態、庫存狀態和序列反饋信息模塊。
4 數值實驗
接下來,本文將 DRL-DP 與基于表格式強化學習動態定價算法 Q-learning[26]、 Q(λ)[27]的定價策略學習能力在模擬的不確定性動態定價環境中進行了對比分析。 Q-learning、Q(λ) 與 DRL-DP 在 MDP 定義的不同之處在于狀態空間為商品剩余的庫存量,回報函數采用立即收益 Pmaxat·nt。 實驗內容如下:1)對比三種強化學習動態定價算法的收益表現以及定價策略的收斂情況分析;2)分析探索率對三種強化學習動態定價算法收益的影響;3)分析 DRL-DP 回報函數設計的合理性。
4. 1 實驗環境設置
實驗環境中假設代理不知道顧客的到達率以及需求模型,只通過與環境交互基于歷史觀測數據學習而作出定價決策,相關的實驗數據通過如下假設生成。顧客到達率模型:假設顧客的到達率是具有時間相關性的泊松分布,這個假設是隨機性的。 顧客的初始平均到達率為 μ(1),由在區間[x0 ,x1 ] 的均勻分布生成,平均到達率隨時間 t 遞減 μ(t) = μ(1) - ξt,t = 2,…,T。 這符合對一部分易腐性和時尚類商品的需求熱度隨銷售時間的推移而逐漸降低的現實應用背景。
4. 2 結果分析
文中 4. 1 節動態定價問題的最優定價策略由已知顧客到達率和需求全部信息的動態規劃計算得到。 總結了三種算法在與環境交互學習一定迭代幕數之后的平均收益占最優定價策略取得收益的百分比。 Q-learning 和 Q(λ) 的定價策略收斂速度較慢,平均收益取 10000 幕迭代所得,DRL-DP 的定價策略收斂速度快,平均收益取 1000 幕迭代所得。 從總的平均收益水平分析可知,DRL-DP 從觀測空間的狀態特征學習到了顧客的到達率信息,收斂速率快,前 1000幕與環境的交互已經比表格式強化學習動態定價算法 10000幕的交互提升了百分之十幾的平均收益水平。
下面比較三種動態定價算法策略的收斂情況。 隨著與環境交互的增多,DRL-DP 在與環境的交互中逐漸學習改進定價策略,隨著迭代幕數的增多,收益不斷提高,最后策略收斂,收益趨于穩定。 此外,可以比較出DRL-DP 的定價策略學習能力明顯優于 Q-learning 和 Q(λ),收斂速度快,前 100 幕所取得的平均收益已經高于了 Qlearning和 Q(λ), 在[500,1000]幕的平均收益已經趨于平穩,并且顯著高于前兩者算法的定價策略收斂到平穩狀態后的平均收益。 由于在不確定性的定價環境中,需求與顧客的到達率存在相關性,Q-learning 和 Q(λ) 定價模型的學習表達能力有限,造成對狀態-動作值的估計需要采樣更多的數據而導致算法的收斂速度較慢。 此外,受到顧客到達率隨機性的影響,Q-learning 和 Q(λ) 缺乏對觀測空間特征信息的掌握,導致 Q-learning 和 Q(λ) 估計的狀態-動作值不夠準確并且產生波動,而 DRL-DP 利用神經網絡去近似值函數能夠在不確定性的定價環境中對其估計更加準確。
實驗結果驗證了 DRL-DP 在不確定性動態定價環境中具有比表格式強化學習動態定價算法更優的定價策略學習能力。下面分析探索率對平均收益的影響,表明探索率采用逐步衰減是一種更為合理的方式。 本文分析了三種算法在逐步衰減探索率(從 1 逐步衰減到 0. 01,即 1→0. 01)和不同固定探索率下的平均收益。 Q-learning 和 Q(λ) 取10000 幕迭代的平均收益,DRL-DP 取 1000 幕迭代的平均收益。
一個適中的探索率能夠產生更高的平均收益,而探索過多不利于定價策略的收斂而且持續性過高的探索率還會影響顧客體驗;探索過少容易使定價策略收斂到較差的次優解,在這兩種情況下都會導致降低平均收益水平,一個更好的策略是采用逐步衰減的探索率來平衡探索與利用之間的關系。 此外,實驗結果也表明在不同的探索率下,DRL-DP 相比另外兩種算法在大多數情況下都能取得更好的平均收益。
5 結語
本文基于深度強化學習理論提出了解決不確定性環境下有限庫存動態定價問題的學習框架 DRL-DP,并模擬了需求跨時段相互依賴的不確定性動態定價環境。 通過仿真實驗表明在不確定性動態定價環境中,需求與定價環境的特征存在相關性時,DRL-DP 相比于傳統的表格式強化學習動態定價算法能夠學習到更優的動態定價策略。DRL-DP 與環境交互學習動態定價策略,自動從定價環境中的各種影響因素學習需求與價格的關系來最大化長期累積收益,通過交互經驗改善動態定價策略。 DRL-DP 不需要模型配置,同時適用于高維狀態特征的學習,這對于大數據環境下現實應用問題的動態定價策略探索具有積極的意義。 現實應用場景的環境更加復雜多變,希望未來對此方面感興趣的學者能夠基于真實的應用場景數據來解決動態性數據的獲取問題,以實現更進一步的研究。
參 考 文 獻
[1] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level controlthrough deep reinforcement learning[J]. Nature, 2015, 518(7540):529-533.
[2] Silver D, Lever G, Heess N, et al. Deterministic policy gradientalgorithms[ C]. International Conference on Machine Learning,2014: 387-395.
[3] Zhao X, Zhang L, Ding Z, et al. Deep reinforcement learning forlist-wise recommendations, arXiv preprint arXiv:1801. 00209.
[4] Zhao X, Zhang L, Ding Z, et al. Recommendations with negativefeedback via pairwise deep reinforcement learning[C]. KnowledgeDiscovery and Data Mining, 2018: 1040-1048.
[5] Zou L, Xia L, Ding Z, et al. Reinforcement learning to optimizelong-term user engagement in recommender systems [ C ] / /Proceedings of the 25th ACM SIGKDD International Conference onKnowledge Discovery & Data Mining. 2019: 2810-2818.
[6] Mason R, Välimäki J. Learning about the arrival of sales [ J].Journal of Economic Theory, 2011, 146(4): 1699-1711.
作者:王祖德, 陳彩華∗, 李 敏
轉載請注明來自發表學術論文網:http://www.cnzjbx.cn/jylw/30138.html