亚洲av中文无码乱人伦在线视色,网曝黑料国产吃瓜,无码国产精品久久一区免费,亚洲av在在线观看,亚洲av国产午夜精品一区二区

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

作者 | Maurizio Ferrari Dacrema

譯者 | 凱隱

責(zé)編 | Jane

出品 | AI科技大本營(yíng)(ID: rgznai100)

來(lái)自意大利米蘭理工大學(xué)的 Maurizio 團(tuán)隊(duì)近日發(fā)表了一篇極具批判性的文章,劍指推薦系統(tǒng)領(lǐng)域的其他數(shù)十篇論文,指出這些論文中基于深度學(xué)習(xí)的推薦算法大部分都存在不同程度的數(shù)據(jù)集缺失和源碼缺失,導(dǎo)致它們無(wú)法復(fù)現(xiàn),而那些可復(fù)現(xiàn)的算法,其性能也難以達(dá)到預(yù)期,甚至難以超越基于傳統(tǒng)的、簡(jiǎn)單的機(jī)器學(xué)習(xí)推薦算法。

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

推薦系統(tǒng)領(lǐng)域研究的潛在問(wèn)題

近年來(lái),基于深度學(xué)習(xí)的算法是非常熱門(mén)的研究方向,其在許多領(lǐng)域,如計(jì)算機(jī)視覺(jué),自然語(yǔ)言處理等領(lǐng)域都取得了巨大的成功,因此許多研究人員也期待能借助深度學(xué)習(xí)方法在推薦系統(tǒng)領(lǐng)域取得突出的進(jìn)展,例如基于長(zhǎng)期依賴(lài)配置和基于場(chǎng)景的 top-n 推薦算法。近年來(lái)也有許多基于深度學(xué)習(xí)的推薦算法發(fā)表在知名會(huì)議和期刊上,然而過(guò)去有工作指出這些深度學(xué)習(xí)推薦算法并不是完全可信的,主要存在以下三個(gè)問(wèn)題:

  • 許多聲稱(chēng)有提升的方法事實(shí)上并不能超越經(jīng)過(guò)合理調(diào)參的基準(zhǔn)對(duì)比工作,甚至不能超越很簡(jiǎn)單的傳統(tǒng)方法。具體來(lái)說(shuō),這些方法在實(shí)驗(yàn)上存在一定的缺陷。

  • 基準(zhǔn)對(duì)比工作的選擇問(wèn)題:許多方法選擇的對(duì)比工作本身就有問(wèn)題,不是廣義上的基準(zhǔn)工作。并且該領(lǐng)域的基準(zhǔn)工作很混亂,不太統(tǒng)一。

  • 不同工作采用的數(shù)據(jù)集,驗(yàn)證方法,性能指標(biāo),數(shù)據(jù)預(yù)處理步驟都不同,這使得性能對(duì)比很困難,無(wú)法確定哪個(gè)工作在相同的應(yīng)用環(huán)境中表現(xiàn)最好。而且很多工作不開(kāi)源數(shù)據(jù)和代碼,這不符合現(xiàn)在的代碼開(kāi)源趨勢(shì),甚至即使開(kāi)源了,也不把完整代碼放出來(lái)。

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

系統(tǒng)的算法評(píng)估標(biāo)準(zhǔn)

為了深入探究基于深度學(xué)習(xí)的推薦算法是否存在以上問(wèn)題,作者制定了兩個(gè)算法評(píng)估標(biāo)準(zhǔn):

  • 可復(fù)現(xiàn)性:能否通過(guò)代碼和數(shù)據(jù)集重現(xiàn)文中的實(shí)驗(yàn)結(jié)果;

  • 性能評(píng)估:這些工作和基準(zhǔn)工作相比能提高多少。

在此標(biāo)準(zhǔn)的基礎(chǔ)上,作者評(píng)估了近幾年發(fā)表在頂尖會(huì)議上,運(yùn)用深度學(xué)習(xí)方法來(lái)實(shí)現(xiàn) top-n 推薦的 18 篇工作,最后發(fā)現(xiàn):只有七篇工作是可復(fù)現(xiàn)的;而這 7 篇工作中,有 6 篇都沒(méi)能超越傳統(tǒng)的、經(jīng)過(guò)合理調(diào)參的啟發(fā)式方法。即使是簡(jiǎn)單地將最流行的items推薦給每個(gè)用戶(hù)(TopPopular),也能在特定的性能指標(biāo)衡量下超越深度學(xué)習(xí)方法達(dá)到最優(yōu)。

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

文章可復(fù)現(xiàn)性判斷

(一)調(diào)研文章范圍

作者收集了2015年到2018年 KDD、SIGIR、WWW 和 RecSys 會(huì)議上的研究工作,這些論文都是采用基于深度學(xué)習(xí)的方法來(lái)解決top-n分類(lèi)問(wèn)題的。在此基礎(chǔ)上,只考慮與精度評(píng)估有關(guān)的工作,因此最終篩選出了18篇文章。

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

(二)可復(fù)現(xiàn)性的數(shù)據(jù)和代碼標(biāo)準(zhǔn)

首先,盡量通過(guò)文章原作者提供的源碼和數(shù)據(jù)來(lái)復(fù)現(xiàn)結(jié)果。由于有太多的實(shí)現(xiàn)細(xì)節(jié)以及驗(yàn)證程序需要考慮,想要單純的依靠作者提供的資源來(lái)重現(xiàn)文中的結(jié)果是很難的。為了解決這個(gè)問(wèn)題,作者擴(kuò)大了代碼和數(shù)據(jù)的搜索范圍,只要是和原文章有關(guān)的代碼,即便不是官方代碼也考慮在內(nèi),如果實(shí)在找不到現(xiàn)成的實(shí)現(xiàn)代碼和數(shù)據(jù),就聯(lián)系原文作者并等待30天。在進(jìn)行了以上步驟后,將同時(shí)滿(mǎn)足以下兩個(gè)條件的文章定性為可復(fù)現(xiàn)文章,具體的:

1、有源代碼,并且源代碼只需要微小的細(xì)節(jié)改動(dòng)(例如調(diào)整路徑,調(diào)整工作環(huán)境)就能正確運(yùn)行。如果只是有一個(gè)代碼框架,而缺少許多細(xì)節(jié),是不滿(mǎn)足這個(gè)要求的。

2、至少有一個(gè)文中用到的數(shù)據(jù)集是可以獲得并使用的(某些文章用的數(shù)據(jù)集是自建數(shù)據(jù)集或者不是公開(kāi)數(shù)據(jù)集,對(duì)于作者而言很難獲?。?。而且訓(xùn)練集和驗(yàn)證集的劃分方法也是在文中或者源碼中進(jìn)行明確闡述的。

最終,18篇文章中只有 7 篇滿(mǎn)足以上條件,具備可復(fù)現(xiàn)性。作者還表示:“這是一個(gè)驚人的結(jié)果,如果深入追究可能會(huì)涉及到學(xué)術(shù)造假問(wèn)題,就不貼那些結(jié)果不能復(fù)現(xiàn)的文章編號(hào)了”。

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

可復(fù)現(xiàn)工作的性能評(píng)估

在挑選出 7 篇可復(fù)現(xiàn)的工作后,作者進(jìn)一步的評(píng)估了它們的性能。為了保證不同方法之間的可對(duì)比性,本文介紹了兩種評(píng)估策略。第一種評(píng)估策略是將所用的方法和基準(zhǔn)方法在同樣的測(cè)試流程和測(cè)試集上進(jìn)行評(píng)估,這有助于橫向?qū)Ρ炔煌姆椒ㄔ谕粩?shù)據(jù)集上的性能差異,雖然這種策略在之前的類(lèi)似文章中已經(jīng)用過(guò),但會(huì)導(dǎo)致驗(yàn)證方法和每個(gè)方法的原始文章中采用的方法有一定的差距,因此不能完全反應(yīng)原始方法的性能(不完全復(fù)現(xiàn))。

為了解決這個(gè)問(wèn)題,作者提出將超參調(diào)優(yōu)過(guò)程和測(cè)試過(guò)程分開(kāi)進(jìn)行,保證所有的方法(包括基準(zhǔn))方法都使用相同的測(cè)試代碼,但是允許它們有不同的調(diào)參過(guò)程,這樣每種方法都可以按照原文中提出的調(diào)參策略在自己的數(shù)據(jù)集上,即保證完全復(fù)現(xiàn)了原文方法,又保證不同方法之間具有可對(duì)比性。

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

基準(zhǔn)方法的選擇

所有的基準(zhǔn)方法都是簡(jiǎn)單的非神經(jīng)網(wǎng)絡(luò),啟發(fā)式算法,或者說(shuō)基于傳統(tǒng)機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的方法。選擇簡(jiǎn)單的非深度學(xué)習(xí)方法作為基準(zhǔn)方法,通過(guò)和基于深度學(xué)習(xí)的方法進(jìn)行對(duì)比,以驗(yàn)證模型復(fù)雜度的提升能否帶來(lái)性能上的顯著提升,作者得到的結(jié)論是不能。一方面是因?yàn)樵擃I(lǐng)域的研究過(guò)于跟風(fēng)使用深度學(xué)習(xí)方法,沒(méi)有細(xì)致嚴(yán)謹(jǐn)?shù)厝パ芯繂?wèn)題的本質(zhì),另一方面也是因?yàn)樯窠?jīng)網(wǎng)絡(luò)本身沒(méi)有那么強(qiáng)大(現(xiàn)在有許多工作都是對(duì)神經(jīng)網(wǎng)絡(luò)的真實(shí)能力提出了質(zhì)疑),當(dāng)然,學(xué)術(shù)上的不嚴(yán)謹(jǐn)也是一個(gè)重要原因(可能存在的造假行為)。

本文主要采用了如下幾種基準(zhǔn)方法:

  • TopPopular:直接統(tǒng)計(jì)“最流行”的items(物品,項(xiàng)目)并推薦給每個(gè)用戶(hù),這里的“最流行”可以用不同的指標(biāo)來(lái)衡量。

  • ItemKNN:基于K最近鄰算法的一種推薦算法,衡量指標(biāo)是物品之間的距離,因此是基于相似物品的推薦算法。首先通過(guò)TF-IDF或BM25算法獲取每個(gè)物品對(duì)每個(gè)用戶(hù)的隱式評(píng)分(評(píng)價(jià)向量,rating vector,可以簡(jiǎn)單理解為該用戶(hù)對(duì)該物品的需求程度),然后按照以下公式計(jì)算兩個(gè)物品之間的距離:

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

  • UserKNN:基于相似用戶(hù)的推薦算法,類(lèi)似于ItemKNN,只不過(guò)計(jì)算樣本點(diǎn)變成了每個(gè)用戶(hù)自身的評(píng)級(jí)。

  • ItemKNN-CBF:基于內(nèi)容過(guò)濾的相似物品推薦算法,CBF表示content-based-filtering,在標(biāo)準(zhǔn)ItemKNN的基礎(chǔ)上,將物品自己的特征向量作為距離衡量向量。

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

ItemKNN-CFCBF:將每個(gè)物品的排名向量和特征向量結(jié)合,這樣每個(gè)物品就由兩個(gè)向量表示,通過(guò)計(jì)算兩個(gè)物品的向量之間的余弦?jiàn)A角來(lái)衡量相似度。

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎):基于隨機(jī)游走的方法,從用戶(hù) u 游走到物品 i 的概率為:

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

是物品 i 對(duì)用戶(hù) u 的評(píng)級(jí)向量,是用戶(hù) u 的評(píng)級(jí),α 是阻尼因子。同理,從商品 i 游走到用戶(hù) u 的概率為:

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

其中是商品 i 的評(píng)級(jí)。最后,兩個(gè)商品 i,j 的相似度計(jì)算公式為:

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

另一個(gè)版本,將

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

輸出的相似度進(jìn)一步地按系數(shù) β 擴(kuò)張,所有基準(zhǔn)方法都采用貝葉斯搜索來(lái)獲取最優(yōu)參數(shù)。

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

算法性能測(cè)試與對(duì)比結(jié)果

通過(guò)將可復(fù)現(xiàn)的 7 個(gè)方法與基準(zhǔn)方法在相同數(shù)據(jù)集上進(jìn)行測(cè)試,可以評(píng)估這些可復(fù)現(xiàn)方法的真實(shí)性能。這里主要評(píng)估之前挑選的7中可復(fù)現(xiàn)方法,其中只有Collaborative Variational Autoencoder(CVAE)能在同等訓(xùn)練條件下超越傳統(tǒng)方法,其他算法都不如同等測(cè)試條件下的傳統(tǒng)方法。

  • CMN方法的實(shí)驗(yàn)結(jié)果

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

  • MCRec方法的實(shí)驗(yàn)結(jié)果

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

  • CVAE實(shí)驗(yàn)結(jié)果

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

  • CDL實(shí)驗(yàn)結(jié)果

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

  • NCF 實(shí)驗(yàn)結(jié)果

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

  • SpectralCF 實(shí)驗(yàn)結(jié)果

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

結(jié)論

本文主要關(guān)注近年來(lái)發(fā)表在熱門(mén)會(huì)議上的基于深度學(xué)習(xí)的 top-n 推薦算法,聚焦于它們的可復(fù)現(xiàn)性和真實(shí)性能。結(jié)果表明大部分算法都無(wú)法重現(xiàn)理想結(jié)果,甚至無(wú)法超越傳統(tǒng)的啟發(fā)式算法,這說(shuō)明推薦算法領(lǐng)域的研究和審核需要更加嚴(yán)謹(jǐn)和仔細(xì),算法的性能評(píng)估需要更加標(biāo)準(zhǔn),正確的方法。文中提到的那些無(wú)法復(fù)現(xiàn)和效果低于預(yù)期的工作肯定會(huì)被重新審核,甚至退回。

原文鏈接:https://arxiv.org/pdf/1907.06902.pdf

【END】

數(shù)十篇推薦系統(tǒng)論文被批無(wú)法復(fù)現(xiàn):源碼、數(shù)據(jù)集均缺失(推薦系統(tǒng)發(fā)論文難嗎)

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號(hào)
公眾號(hào)
在線(xiàn)咨詢(xún)
返回頂部