閱讀屋>電影> 基於支援向量機迴歸多屬性智慧電視電影論文

基於支援向量機迴歸多屬性智慧電視電影論文

基於支援向量機迴歸多屬性智慧電視電影推薦論文

  傳統協同過濾推薦技術存在新使用者難以推薦的冷啟動問題。尤其在智慧電視網路、影片網站等,只有使用者資訊,沒有瀏覽或評分記錄,智慧電視電影系統難以有效推薦。而基於內容過濾技術可有效解決新使用者冷啟動問題對於新使用者,ChenLin提出向用戶推薦“專家使用者”瀏覽的電影…。施鳳仙等提出基於使用者屬性分類區分使用者興趣度的協同過濾演算法按比重分配使用者相似性和商品的使用者興趣度。但它們的關係並不一定是線性的。而支援向量機在解決非線性迴歸問題有著不錯的效果。

  支援向量機演算法在文字分類、模式識別等分類問題有很好的效果,並被引入非線性迴歸領域,展示了不錯的效能。王宏宇建立的基於電影屬性支援向量機迴歸的使用者模型131,提高了推薦精度。但只是根據電影的屬性和評分,並沒有考慮電影的使用者屬性分類。Liu在GoogleNews使用者個性化新聞推薦中,利用使用者點選新聞類別的歷史記錄,建立了使用者長期和短期興趣模型'MahiyeUluyagmm?提出j'基於電影特徵集的推薦系統,但並沒有有效解決多個特徵集結合問題本文根據電影使用者歷史評分。基於不同年齡段使用者對電影喜愛程度不同,電影按使用者屬性有不同的概申?評分,並採用支援向量機迴歸結合使用者多個屬性,本文根據電影使用者歷史評分,基於電影被不同年齡段使用者喜愛程度不同,計算得出電影年齡段機率評分。由於每個電影評分使用者數量不同,採用min—max方法標準化機率評分,使資料具有可比性。針對使用者不同的屬性,如年齡段、職業等,採用支援向量機迴歸的方法擬合電影不同屬性概申—評分,解決不同屬性結合的問題。實驗採用movielens資料集評測了演算法的召回率,並與傳統基於電影的knn推薦演算法做廣對比,實驗證明本文采用的方法提高了召回率,並可為新使用者產生推薦。

  1理論基礎

  1.1min—max標準化

  在資料分析之前’通常需要先將資料標準化’利用標準化後的資料進行資料分析不同數a的使用者對電影評過分,所以電影的厲性評分機率可能在不同的以間,為了消除這種影響,需要將資料標準化處理,以解決資料指標之間的可比性…本文采川min—max標準化方法,也稱為離差標準化,就是對原始資料的線性變換,使結果函式為式中:

  為樣本資料最小值;&?為樣本資料最大值;x為樣本資料。

  1.2支援向量機迴歸

  迴歸問題是從訓練樣本中學習輸人輸出變數之間的關係/U)。考慮一個訓練樣本資料集丨Ui,yi),(x2,y2),,(xi,y。),"■r{x?yJ)o對於i=l,2,3,其中每個ac,eR"表不樣本的輸人空間,與其相對應的目標值y,,迴歸問題的思想是從中學習一個閒數,給定^的值,能夠預測y,的值。一般的SVR函式形式為

  式中:和6是要尋找的確定最優超平面的引數值,中U)代表了從R”到高維空間的一個非線性變換,^標是找出和6的值,使迴歸風險係數最小化,迴歸風險係數為

  其中:廠(?)是損失函式,常數C>0,表示對估計偏差的懲罰度,最常用的損失函式Vapnik提出的e—敏感度函式為

  此處的H標是確定適當的引數值和6,從而使/GO逼近未知0標函式。如果yu,)與y,的差值的絕對值大於6:,損失函式廠(?)的值等於/U)的估計與期望響應y,的差值的絕對值再減去e,否則損失函式值為0。原問題可以表示為

  使用拉格朗日乘子法得到對偶問題是

  使用二次最佳化方法求解和《二進而得出《,。設定偏移量6=0,ft由引數和懲罰因子C就控制了式(10)逼近閒數的VC維丨…

  式中:/C(u)表7K核函式

  2基於支援向量機迴歸的使用者多屬性推薦演算法

  2.1電影對使用者屬性的機率評分

  電影使用者評分矩陣,是電影被使用者評分的歷史記錄,而每個使用者都有年齡段、職業等屬性。電影被某個年齡段的使用者評分大小及個數,反映了這個年齡段的使用者對電影的喜愛程度。本文用7個年齡段代表人的年齡。借鑑貝葉斯定電影受某個年齡段的喜愛程度可表示為

  式中:m.(aget)表示年齡段的先驗機率;)表小?電影被使用者評分的總個數;m表示電影被這個年齡段評分的總和;而)表示電影對各個年齡段的概申。評分。

  求出每個電影對年齡段的機率評分,每個電影被不同使用者數量評分,所以用min—max方法標準化電影的屬性概申。評分。

  虛擬碼如下:

  2.2單屬性預測使用者對電影的評分

  為使用者《推薦最喜歡的前iV個電影一根據使用者u的年齡段和電影的年齡段機率評分。預測使用者對每個電影的評分:根據預測評分大小,為使用者推薦預測if分最大的前/V個電影。

  2.3支援向量機迴歸使用者多屬性模型

  不同年齡段A。不同電影,的概申。評分不同。同理,不同職業,電影的機率評分也不同:對於使用者,年齡段、職業的組合,決定了使用者的喜好,但它們並非是線性的:因而構建一個SVK使用者多屬性迴歸模型。

  迴歸模型的輸人和輸出,從使用者對電影t'的年齡段機率評分、職業機率評分到實際評分r,實際評分和機率評分都是標準化後的資料:特定年齡段和職業有著鮮明喜好的使用者u。冋歸模型能很好的預測其偏好。模型可構建為

  式中:r,是使用者u給電影i的實際評分,m(ageM)是電影Z對使用者年齡段A的機率評分_Zte丨0,丨,…,6j,共7個年齡段。m(ocup,lt+)是電影!_對使用者職業s的`機率評分。se{0,1,…,181,共19個職業型別。

  線性迴歸模型並不能取得很好的迴歸效果,召回率甚至小於單個屬性機率評分的結果。支援向量機迴歸透過核函式尺U,*)將資料從輸人空間非線性變換到高維空間,從而使得資料在該空間中被轉換成線性組合的。用支援向tt機迴歸的方法構建非線性迴歸模沏,基於式(10),可構建支援向量機迴歸的使用者多厲性模型

  求解模型時,使用序列最小最佳化方法求解演算法,求解該支援向量機迴歸問題。

  2.4多屬性預測使用者電影評分

  為每個使用者構建SVR迴歸模型,並利用模塑,輸人使用者IW性、電影屬性機率評分,輸出電影預測評分並排序。

  已知使用者u的年齡段、職業,預測使用者對電影的評分。首先利用使用者屬性,得出使用者對每個電影的年齡段和職業厲性機率評分m(ageI;_)和m(ocu/)Ii)。輸人到支援向量機迴歸模型,得出預測評分6。預測評分最高的前/V個電影推薦給使用者。

  3實驗設計及結果分析

  31資料集和評測方法

  採用mwieiens資料集,943個使用者對1682個電影的10萬個評分資料。使用者的年齡段和職業屬性。訓練(train)資料集採用全部10萬個評分,驗證(test)資料集採用20%的評分資料使用C++語言,在Windows平臺編寫程式,實現了基於支援向僦機迴歸的使用者多屬性推薦演算法。

  智慧電視電影系統的最終0的是為使用者推薦感興趣的電影,本文沒有采用RMSE指標。而是採用召回率評測為使用者推薦前/V個電影。推薦的電影個數和使用者實際選擇的電影個數的比值,即召回率評測。召回率式為hitCouiits

  3.2實驗結果及分析

  實驗首先評測了單個屬性前30的召回率。評測使用者年齡段屬性、職業屬性的召回率。出於降低計算複雜度的考慮,隨機選擇了200個使用者的召回率。做了8次重複實驗,得出召回率的平均值。召回率結果見表1。

  本文使用libsvm工具訓練基於支援向量機迴歸的使用者多厲性推薦模?,並預測評分。核函式採用徑向基核exp(I2)。需要找出最優的g和懲罰因子C,本文使用網格搜尋來尋找最優的g和C。網格捜索就是嘗試各種U,C)對值,然後進行交叉驗證,找出精確度最高的(g,C)對。網格搜尋引數g和C的範圍e{0.6,0.8,…,3.0),懲罰因子Ce丨0.02,0.04,0.10,0.40,0.70,1.00)。詳細設定見圖1。

  比較了本文的演算法和基於電影的KNN演算法的召回率,基於電影KNN演算法的引數A取值100,就是取最相似的100個電影。相似性公式採用.08相關係數。

  由圖1的網格搜尋交叉驗證圖可知,SVK引數g取1.6,C取0.4時召冋率達到T最大值。

  由表1可知,基於支援向量機迴歸使用者多屬性推薦演算法15.25%的召回率高於單個屬性的召回率由表2的實驗資料,基於支援向量機冋歸使用者多屬性15.25%的f{W率遠卨亍基於電影的KNN推薦演算法5.12%的召回率。實驗結果表明基於支援向量機迴歸使用者多屬性推薦演算法提高了召回率,並可為新使用者產生有效推薦。

  4結論

  本文主要對智慧電視電影系統新使用者難以推薦的冷啟動問題進行了深人研究。採用年齡段對電影的機率評分來表示對電影喜愛程度的方法,解決使用者按誠性選擇電影的M題。採用支援向tt機迴歸方法訓練使用者多屬性模型,有效解決了使用者多屬性結合問題。訓練資料都用min—max方法標準化,使資料具有可比性由實驗結果可知,該基於支援向量機迴歸使用者多屬性推薦模型提高了召回宇—,有效解決了新使用者推薦的冷啟動問題。

【基於支援向量機迴歸多屬性智慧電視電影論文】相關文章: