早报网

網(wǎng)站地圖 - 關于我們
您的當前位置: 首頁 > 科技 > 數(shù)據(jù) 正文

Twitter 推薦算法開源,馬斯克被“特殊照顧”

作者:用戶投稿 時間:2023-04-03 21:30 點擊:
導讀:整理 | 夢依丹 責編 | XXXXX出品 | CSDN(ID:CSDNnews)在馬斯克反復承諾表示要開源 Twitter 推薦算法之后,3 月 31 日,Twitter 部分推薦算法源碼正式在 GitHub 上開放,采用 GNU Affero General Public License v3.0 許可證。Twitter 開放推薦算法源碼https://github.com/twitter


整理 | 夢依丹   責編 | XXXXX


出品 | CSDN(ID:CSDNnews)

在馬斯克反復承諾表示要開源 Twitter 推薦算法之后,3 月 31 日,Twitter 部分推薦算法源碼正式在 GitHub 上開放,采用 GNU Affero General Public License v3.0 許可證。


Twitter 開放推薦算法源碼


https://github.com/twitter/the-algorithm

Twitter 在 GitHub 上發(fā)布了兩個代碼庫,包括用于控制用戶在 For You 時間線上看到推文的機制。Twitter 將此舉描述為“更透明的第一步”,同時還可以“防止風險”,既可以保護 Twitter 本身,也可以保護平臺上的人。

此次開源不包括驅(qū)動 Twitter 廣告推薦的代碼或用于訓練 Twitter 推薦算法的數(shù)據(jù)。Twitter 表示:“[我們排除了]任何可能危及用戶安全和隱私或破壞我們打擊兒童性侵犯和操縱等惡意行為的能力的代碼。”

馬斯克在 Twitter Spaces 上提到:

“算法的初始版本會比較尷尬,人們會發(fā)現(xiàn)許多錯誤,但我們會很快修復。即使你不同意某些內(nèi)容,但至少你會知道它為什么在那里,而且你不會被秘密操縱...這里的類比是我們所追求的 Linux 作為開源操作系統(tǒng)的偉大范例...在理論上,人們可以發(fā)現(xiàn)許多 Linux 的漏洞。事實上,發(fā)生的是社區(qū)識別和修復這些漏洞。”

后續(xù) Twitter 將開源所有顯示展示推文相關的代碼。


在 Twitter 源碼公布后,新浪微博新技術(shù)研發(fā)負責人張俊林在朋友圈中提到:

Twitter 開源了推薦系統(tǒng)源代碼,發(fā)現(xiàn)排序模型用的是我們兩年前發(fā)布的 MaskNet 模型,Twitter 的研發(fā)人員也在開源當天給我們發(fā)了一封郵件,他們和其他排序模型做過效果對比,發(fā)現(xiàn) MaskNet 是效果最好的,所以最終 Twitter 排序采用了這個模型。我們自己內(nèi)部評估,這個模型也是我們自己過去幾年摸索的幾個模型里(FiBiNet、GateNet、MaskNet、ContextNet)綜合效果最好的一個。要說搜廣推模型,卷得最狠的應該還是國內(nèi)互聯(lián)網(wǎng)公司,不過,隨著 GPT 4 的降臨,很可能這個賽道未來用什么模型已經(jīng)不那么重要了。


如何從 5 億條推文中精選內(nèi)容給用戶?

一條推文從發(fā)布到展示,期間都經(jīng)歷了哪些奇妙的旅程呢?Twitter 官博重點介紹了“For You”列表下的算法相關推薦機制和排名,每天從 5億條推文中展示部分精選內(nèi)容的背后,正式揭曉。

Twitter 算法推薦的基礎是一組核心模型和特征,從推文、用戶和互動數(shù)據(jù)中提取潛在信息。推薦流水線由三個主要階段組成,這些階段使用這些特征:

1、從不同的推薦來源中獲取最佳推文,這個過程稱為獲取候選推文;


2、使用機器學習模型對每個推文進行排名;


3、應用啟發(fā)式和過濾器,例如過濾用已屏蔽用戶的推文、NSFW 內(nèi)容和已經(jīng)看過的推文等。

負責構(gòu)建和提供 For You 時間線的服務稱為 Home Mixer。Home Mixer 基于 Product Mixer 構(gòu)建,Product Mixer 是 Twitter 自定義的 Scala 框架,可以幫助構(gòu)建內(nèi)容流。該服務充當軟件骨干,連接不同的候選源、評分函數(shù)、啟發(fā)式和過濾器。

下面的圖表說明了構(gòu)建時間線所使用的主要組件:


作為該系統(tǒng)的核心部分,大致按照單個時間線請求期間被調(diào)用的順序,從檢索候選推文開始。

候選推文來源

Twitter 有幾個候選推文作為來源,它們?yōu)橛脩魴z索最近和相關的推文。對于每個請求,推薦算法會嘗試通過這些來源從數(shù)億條推文中提取最佳的 1500 條。會從用戶關注的(內(nèi)部網(wǎng)絡)和不關注的人中(外部網(wǎng)絡)找到候選者。目前, For You 時間線平均由 50% 的內(nèi)部網(wǎng)絡推文和 50% 的外部網(wǎng)絡推文組成,也存在因用戶而異的情況。

內(nèi)部網(wǎng)絡資源

內(nèi)部網(wǎng)絡資源是最大的候選推文來源,旨在提供你關注的用戶最相關、最新的推文。它使用邏輯回歸模型高效地對你關注對象的推文進行排名。然后將排名靠前的推文發(fā)送到下一個階段。

這里最重要的組件是真實圖(Real Graph)模型,用于預測兩個用戶之間的互動可能性。用戶和推文作者之間的真實圖得分越高,F(xiàn)or You 下面即會展示更多兩者之間的推文。

內(nèi)部網(wǎng)絡資源目前已停用 Fanout Service,這是一個 12 年前的服務,用于為每個用戶提供緩存的內(nèi)部網(wǎng)絡推文。目前 Twitter 還在重新設計邏輯回歸排名模型,該模型最近幾年已經(jīng)更新和訓練過!

外部網(wǎng)絡資源

相較于內(nèi)部網(wǎng)絡資源,在用戶關注之外找到相關的推文是一個更加棘手的問題, Twitter 采取了兩種方法來解決這個問題。

1、社交圖譜,首先通過分析你所關注用戶或興趣相似的用戶互動來推出你可能會感興趣的內(nèi)容;其次會通過一些問題來遍歷互動和關注的圖形來對結(jié)果進行邏輯回歸模型排名,如 Twitter 開發(fā)的 GrapJet 圖形處理引擎,可以維護用戶和推文之間的實時互動圖形。

2、嵌入空間,旨在回答關于內(nèi)容相似性的更一般的問題:哪些推文和用戶與我的興趣相似?Twitter 最有用的嵌入空間之一是 SimClusters。SimClusters 使用自定義矩陣分解算法發(fā)現(xiàn)由一群有影響力的用戶錨定的社區(qū)。有 145k 個社區(qū),每三周更新一次。

排名

內(nèi)容源確定好,那如何來確定內(nèi)容的時間線呢?排名是通過一個約 48M 個參數(shù)的神經(jīng)網(wǎng)絡實現(xiàn)的,該神經(jīng)網(wǎng)絡持續(xù)根據(jù)推文互動進行訓練,以優(yōu)化積極的參與度(例如,點贊、轉(zhuǎn)發(fā)和回復)。這種排名機制考慮了數(shù)千個特征,并輸出十個標簽,以給每個推文打分,其中每個標簽表示參與的概率。Twitter 根據(jù)這些分數(shù)對推文進行排名。

啟發(fā)式、過濾器和產(chǎn)品特性

在排名階段之后,Twitter 會應用啟發(fā)式和過濾器來實現(xiàn)各種產(chǎn)品特性。這些特性共同工作,創(chuàng)建一個平衡和多樣化的信息流。其中包括:

可見性過濾:根據(jù)內(nèi)容和用戶偏好過濾推文。例如,刪除用戶屏蔽或靜音的帳戶的推文;

作者多樣性:避免連續(xù)太多來自單個作者的推文;

內(nèi)容平衡:確保提供公平的網(wǎng)絡內(nèi)資源和網(wǎng)絡外推文平衡;

基于反饋的打分機制:如果查看者在某些推文周圍提供了負面反饋,則降低該推文的分數(shù);

社交證明:該機制通過排除沒有與推文具有二度連接的網(wǎng)絡外推文來實現(xiàn)這一點。這意味著,為了被推薦給用戶,推文必須與用戶的關注者或關注者的關注者有一定的連接;

對話:通過將回復與原始推文串在一起,為回復提供更多上下文;

編輯的推文:確定設備上當前的推文是否過時,并發(fā)送指令以用編輯版本替換它們。

混合和推送

作為推文展示到用戶面前的最后一步,系統(tǒng)將推文與其他非推文內(nèi)容(如廣告、關注建議和入門提示)混合在一起,返回用戶的設備上顯示。

上述管道每天運行約 50 億次,并平均在 1.5 秒內(nèi)完成。單個管道執(zhí)行需要 220 秒的 CPU 時間,幾乎用戶在應用程序上感知到的延遲的 150 倍。


被特殊照顧的馬斯克

Twitter 算法開源引起了用戶的強烈興趣,用戶很快發(fā)現(xiàn) Twitter CEO 馬斯克(Elon Musk)得到了特別對待。上個月馬斯克的推文曾一度展示給幾乎所有 Twitter 用戶。相關算法代碼特別提到了 author_is_elon、author_is_power_user、author_is_democrat、author_is_republican...

(      "author_is_elon",        candidate          .getOrElse(AuthorIdFeature, None).contains(candidate.getOrElse(DDGStatsElonFeature, 0L))),    (      "author_is_power_user",        candidate          .getOrElse(AuthorIdFeature, None)          .exists(candidate.getOrElse(DDGStatsVitsFeature, Set.empty[Long]).contains)),    (      "author_is_democrat",        candidate          .getOrElse(AuthorIdFeature, None)          .exists(candidate.getOrElse(DDGStatsDemocratsFeature, Set.empty[Long]).contains)),    (      "author_is_republican",        candidate          .getOrElse(AuthorIdFeature, None)          .exists(candidate.getOrElse(DDGStatsRepublicansFeature, Set.empty[Long]).contains)),  )

這段代碼地址:https://github.com/twitter/the-algorithm/blob/7f90d0ca342b928b479b512ec51ac2c3821f5922/home-mixer/server/src/main/scala/com/twitter/home_mixer/functional_component/decorator/HomeTweetTypePredicates.scala#L224-L246

隨后,一位 Twitter 工程師表示,這些標簽僅用于指標。但馬斯克表示,他不知道這些標簽之前沒有出現(xiàn)過,并表示它們不應該存在。




打賞

取消

感謝您的支持,我會繼續(xù)努力的!

掃碼支持
掃碼打賞,你說多少就多少

打開支付寶掃一掃,即可進行掃碼打賞哦

相關推薦:

網(wǎng)友評論:

推薦使用友言、多說、暢言(需備案后使用)等社會化評論插件

Copyright ? 2021 早報網(wǎng) 版權(quán)所有
蘇ICP備2024138443號

蘇公網(wǎng)安備32130202081338號

本網(wǎng)站所刊載信息,不代表早報網(wǎng)觀點。如您發(fā)現(xiàn)內(nèi)容涉嫌侵權(quán)違法立即與我們聯(lián)系客服 106291126@qq.com 對其相關內(nèi)容進行刪除。
早報網(wǎng)登載文章只用于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述。文章內(nèi)容僅供參考,不構(gòu)成投資建議。投資者據(jù)此操作,風險自擔。
《早報網(wǎng)》官方網(wǎng)站:www.www.amdoc.cn互聯(lián)網(wǎng)違法和不良信息舉報中心
Top 主站蜘蛛池模板: 硅PU球场、篮球场地面施工「水性、环保、弹性」硅PU材料生产厂家-广东中星体育公司 | 无菌实验室规划装修设计-一体化实验室承包-北京洁净净化工程建设施工-北京航天科恩实验室装备工程技术有限公司 | 直齿驱动-新型回转驱动和回转支承解决方案提供商-不二传动 | 专业生物有机肥造粒机,粉状有机肥生产线,槽式翻堆机厂家-郑州华之强重工科技有限公司 | 精密光学实验平台-红外粉末压片机模具-天津博君 | 北京四合院出租,北京四合院出售,北京平房买卖 - 顺益兴四合院 | UV固化机_UVLED光固化机_UV干燥机生产厂家-上海冠顶公司专业生产UV固化机设备 | 缓蚀除垢剂_循环水阻垢剂_反渗透锅炉阻垢剂_有机硫化物-郑州威大水处理材料有限公司 | 蜂窝块状沸石分子筛-吸附脱硫分子筛-萍乡市捷龙环保科技有限公司 | 河南不锈钢水箱_地埋水箱_镀锌板水箱_消防水箱厂家-河南联固供水设备有限公司 | 拉力机-万能试验机-材料拉伸试验机-电子拉力机-拉力试验机厂家-冲击试验机-苏州皖仪实验仪器有限公司 | 超声波破碎仪-均质乳化机(供应杭州,上海,北京,广州,深圳,成都等地)-上海沪析实业有限公司 | 定做大型恒温循环水浴槽-工业用不锈钢恒温水箱-大容量低温恒温水槽-常州精达仪器 | 安徽集装箱厂-合肥国彩钢结构板房工程有限公司 | 卫生纸复卷机|抽纸机|卫生纸加工设备|做卫生纸机器|小型卫生纸加工需要什么设备|卫生纸机器设备多少钱一台|许昌恒源纸品机械有限公司 | 济南冷库安装-山东冷库设计|建造|冷库维修-山东齐雪制冷设备有限公司 | 至顶网 | 欧必特空气能-商用空气能热水工程,空气能热水器,超低温空气源热泵生产厂家-湖南欧必特空气能公司 | 学叉车培训|叉车证报名|叉车查询|叉车证怎么考-工程机械培训网 | 涡轮流量计_LWGY智能气体液体电池供电计量表-金湖凯铭仪表有限公司 | 噪声治理公司-噪音治理专业隔音降噪公司 | 粉末冶金注射成型厂家|MIM厂家|粉末冶金齿轮|MIM零件-深圳市新泰兴精密科技 | 软文世界-软文推广-软文营销-新闻稿发布-一站式软文自助发稿平台 | WTB5光栅尺-JIE WILL磁栅尺-B60数显表-常州中崴机电科技有限公司 | 东莞注册公司-代办营业执照-东莞公司注册代理记账-极刻财税 | 电动卫生级调节阀,电动防爆球阀,电动软密封蝶阀,气动高压球阀,气动对夹蝶阀,气动V型调节球阀-上海川沪阀门有限公司 | 气弹簧定制-气动杆-可控气弹簧-不锈钢阻尼器-工业气弹簧-可调节气弹簧厂家-常州巨腾气弹簧供应商 | 衡阳耐适防护科技有限公司——威仕盾焊接防护用品官网/焊工手套/焊接防护服/皮革防护手套 | 中红外QCL激光器-其他连续-半导体连续激光器-筱晓光子 | 盘煤仪,盘料仪,盘点仪,堆料测量仪,便携式激光盘煤仪-中科航宇(北京)自动化工程技术有限公司 | 金属检测机_金属分离器_检针验针机_食品药品金属检探测仪器-广东善安科技 | 铣刨料沥青破碎机-沥青再生料设备-RAP热再生混合料破碎筛分设备 -江苏锡宝重工 | CPSE安博会| 湖南印刷厂|长沙印刷公司|画册印刷|挂历印刷|台历印刷|杂志印刷-乐成印刷 | 安全阀_弹簧式安全阀_美标安全阀_工业冷冻安全阀厂家-中国·阿司米阀门有限公司 | 免费网站网址收录网_海企优网站推荐平台| 防水试验机_防水测试设备_防水试验装置_淋雨试验箱-广州岳信试验设备有限公司 | 钢托盘,钢制托盘,立库钢托盘,金属托盘制造商_南京飞天金属制品实业有限公司 | 定制防伪标签_防伪标签印刷_防伪标签厂家-510品保防伪网 | 广州冷却塔维修厂家_冷却塔修理_凉水塔风机电机填料抢修-广东康明节能空调有限公司 | 蓝莓施肥机,智能施肥机,自动施肥机,水肥一体化项目,水肥一体机厂家,小型施肥机,圣大节水,滴灌施工方案,山东圣大节水科技有限公司官网17864474793 |