1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集
发布日期:2021-09-16 14:16    点击次数:144

  

数据在机器学习中扮演偏主要角色。在选举编制的钻研中,对用户建模来说,用户走为和附带新闻都专门有协助。所以,大周围实在场景下的用户雄厚走为是专门有用的数据。但是,这些数据很难获取,由于这栽数据大片面都被公司拥有并且珍惜首来。

本文中,知乎说相符清华大学对外盛开基于知乎的大周围富文本查询和选举数据集ZhihuRec。该数据荟萃的曝光数挨近 1 亿,并具有现在为止最雄厚的上下文新闻,遮盖 10 天、79.8 万用户、16.5 万个题目、55.4 万个回答、24 万个作者、7 万话题以及 50.1 万用户搜索走为日志。它能够被用于各栽选举手段,如协同过滤、基于内容的选举、基于序列的选举、知识添强的选举和同化选举等。此外,由于 ZhihuRec 数据荟萃新闻雄厚,不光能够将它行使于选举钻研,还能够将它行使于用户建模(如性别展望、用户趣味展望)、跨平台行使(查询平台和选举平台)等风趣的课题。据晓畅,这是用于个性化选举的最大的实际交互数据集。

总结来说 ZhihuRec 数据集主要具有三个益处:

ZhihuRec 是最大的公共选举数据集,包含从知乎搜集的各栽用户交互,该数据集是开源的。 ZhihuRec 数据集挑供了雄厚的内容新闻,包括题目、回答、幼我原料、话题。稀奇是用户的搜索日志也会表现出来,这些以前异国包含过。 除 top-N 选举、上下文感知选举等选举钻研外,ZhihuRec 还可用于各栽钻研周围,例如用户建模、集成搜索和选举钻研。 1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集 论文地址:https://arxiv.org/pdf/2106.06467.pdf 数据集地址:https://github.com/THUIR/ZhihuRec-Dataset

数据集简介

下外 1 展现了 ZhihuRec 与其他一些经典选举数据集之间的迥异,效果外明,ZhihuRec 数据集比传统选举数据集包含更众的新闻和类型,如文本、用户画像、物品属性、时间戳等。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

外格中 O 外示 ZhihuRec 数据荟萃固然异国记录用户详细的评分 / 珍藏走为,但是记录了用户的珍藏回答总量。

下图给出了 ZhihuRec 数据集的构建过程,能够望出数据集包含的上下文新闻有用户对回答的点击和涉猎走为日志、用户查询词记录、用户画像新闻、答案属性新闻、题目属性新闻、作者画像新闻和话题属性等各类新闻,以及每个用户最众 20 个近来查询关键词。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

外 2 表现了 ZhihuRec 中每个印象记录的字段及其表明。按照答案的读取时间,一切用户的点击和未点击的印象都记录在数据荟萃。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

外 3 表现了 ZhihuRec 数据荟萃的每个搜索记录的字段及其表明。一切用户的搜索关键字和时间戳都记录在数据荟萃。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

由于 ZhihuRec 数据集包含约 1 亿个用户 - 答案交互,所以也称为 Zhihu100M。此外,还组织了两个从 Zhihu100M 数据荟萃随机抽取的较幼批据集,称为 Zhihu20M 和 Zhihu1M,以已足各栽行使需求。它们包含大约 2000 万和 1M 的用户答案日志,能够将其视为中等大幼的数据集和相对较幼的数据集。外 4 中表现了它们的一些统计新闻。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

用户画像和属性都记录在 ZhihuRec 中。该数据集保留用户、题目、回答和作者的内容新闻。外 5 表现了用户的属性,外 6 表现了回答的属性,外 7 表现了题目的属性,外 8 表现了作者的属性。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

用户的属性。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

回答的属性。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

题目的属性。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

作者的属性。

如外中所示,关于用户、题目、回答和作者的功能相等雄厚,能够对用户和内容(回答)进走周详建模。题目属性中异国 authorID,因为是随着时间的推移,很众人能够修改知乎问答社区中的题目。

请仔细,authorID 与 userID 是分别的,这意味着倘若一幼我在数据荟萃同时扮演用户和作者的角色,则其 authorID 和 userID 是分别的,由于发布者和涉猎者是分别的角色。

每个用户或题目还具有几个话题(从 0 到 70,308),由用户本人(用户话题)或编制用户(题目话题,一切用户都能够对其进走编辑)标记。它挑供了一栽更清晰的手段来协助晓畅用户的趣味和题目的类型,这对于选举也很有用。每个话题都有一个话题 ID 和话题描述行为其属性,话题 ID 进走了散列处理,并且话题描述中的一切上下文都已转换为数字编号。

数据集隐私珍惜

由于整个数据集都是从实在场景中的实在用户那里搜集的,所以有必要珍惜用户隐私。所以,并非用户的一切内容新闻都被开释。

ZhihuRec 数据荟萃的一切 ID 均被匿名和散列处理。一切文本新闻(例如题目的标题、回答的内容、话题的描述和搜索关键字)均被分解为单词,并且一切单词均被数字替换。用户画像中的一切文本功能(例如性别、注册类型、登录频率、省、城市)也都已转换为数字号码。所以,无法从 ZhihuRec 数据荟萃获取用户幼我原料和内容属性的详细新闻。

ZhihuRec 数据集删除了用户的出生日期、做事通过、哺育通过等敏感新闻。用户的网络新闻 (如 IP 地址) 也已被删除。用户对回答的显式逆馈如赞许、感谢、珍藏、评论、指斥和举报等都被暗藏,ZhihuRec 数据集只保存了相关的总的统计量,如用户总的赞许数、珍藏数、评论数、指斥数和举报数等。

数据集统计特性

图 2 表现了用户注册时间的分布;能够发现,随着时间的推移,每月注册用户的数目逐渐增补。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

图 3 表现了每个话题的用户分布数:

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

图 4 表现了每个话题下的题目分布数:

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

图 5 表现了每个话题下的回答分布数。它表现大无数用户关注的话题少于 100 个,大无数回答和题目绑定不止一个话题。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

图 6 表现了 ZhihuRec 数据荟萃每个搜索的用户分布数目。大无数用户的搜索少于 3 个,并且分布表现出相通对数的衰减。但是,有很众用户有 20 个搜索,因为是钻研者在此处进走了截断(最众将保留该用户的 20 个近来搜索关键字)。

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

数据集在众项选举义务中的行使

topN 选举

用户的交互日志包含在 ZhihuRec 数据荟萃;从选举编制的角度来望,能够将用户在日志中交互的回答视为商品。该新闻适用于协同过滤,其中包含通用的 topN 选举的主要手段。为了评估 ZhihuRec 数据集的性能,在 Zhihu1M 数据荟萃行使了 5 栽选举算法。

Pop:此基准首终会选举训练荟萃最受迎接的回答(用户点击)。 ItemKNN:此手段选择前 K 个近来邻,并行使其新闻进走展望。 BPR:此手段行使贝叶斯个性化排名现在的函数来优化矩阵分解。 LightGCN:此手段行使图卷积网络来添强协同过滤的性能。 ENMF:行使高效神经矩阵分解的非采样神经网络选举模型。

实验已行使 RecBole 完善。对于一切手段,用户和回答的 embedding 大幼为 64。ItemKNN 的邻居数为 100。采用留一法(Leave-one-out)。实验效果如外 9 所示:

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

序列选举

序列选举在改善很众选举义务的性能方面首偏主要作用,由于它们能够展现用户的动态偏益,这也是前 N 个选举。清淡,序列选举与传统选举之间的区别在于序列选举必要清亮的时间新闻。它行行使户交互的商品序列行为输入,并按照交互时间戳对商品进走排序。选举编制中对商品的展现也有排序。由于一切用户的交互都记录在 ZhihuRec 数据荟萃,所以本文已在 Zhihu1M 数据荟萃行使了四个最新的序列模型(FPMC 、GRU4Rec、NARM 、SASRec)。

FPMC:此手段基于基础马尔可夫链上的个性化过渡图,并结相符了 MF。 GRU4Rec:基于会话的模型,行使 RNN 捕获序列倚赖相关并进走展望。 NARM:此手段行使具有仔细力机制的同化编码器来捕获用户的意图。 SASRec:采用自仔细力层来捕获动态用户交互序列的挨次模型。

实验已行使 RecBole 完善。对于一切手段,用户和回答的 embedding 大幼为 64。行使留一法。实验效果如外 10 所示:

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

上下文感知选举

上下文感知选举模型行使来自用户、商品和上下文来添强模型性能。上下文感知选举结相符了分别选举模型的上风,例如协同过滤,基于内容的模型以获得更益的选举;该数据集专门正当上下文感知选举。如点击展望义务中清淡描述的那样,一个用户点击一个回答的交互标记为 1,而该用户有被展现但不点击一个回答的交互标记为 0。本文在 Zhihu1M 数据荟萃行使了 4 个最新的上下文感知模型。

Wide&Deep :由 Google 挑出,它结相符了深度神经网络和线性模型,并普及用于实际场景中。 NFM :行使双向交互层对二阶特征交互进走建模的神经模型。 ACCM:这是一个仔细力协同和内容模型,它将内容和用户交互结相符在一首。 CC-CC:此手段行使自体面 “特征采样” 策略。

实验已行使 CC-CC 工具箱完善。一切手段的用户和回答的 embedding 大幼为 64。对于每个用户,末了一次点击和末了一次点击之后的展现均被视为测试集,末了一次点击之前的点击以及末了一次点击之前的点击和末了一次点击之间发生的展现被视为验证集,其他被视为训练集。实验效果如外 11 所示:

1亿走为数据,知乎、清华盛开国内最大个性化选举实际交互数据集

跨场景选举

如上所述,用户的搜索关键字也包含在 ZhihuRec 数据荟萃;搜索行使的关键词能够视为其清晰的需求新闻。固然以前的选举编制的钻研主要荟萃于从用户的隐式逆馈中学习,但倘若更众的钻研人员尝试整相符搜索和选举,将很有协助,这将有助于更益地晓畅用户的新闻需求并挑供更益的新闻服务。该数据集由于其雄厚的搜索和选举日志能够行使于此类钻研。

基于负逆馈的选举

当用户与回答进走交互时,他们会给答案以正逆馈和负逆馈。正面逆馈是指用户对回答进走点击、珍藏、点赞等。负逆馈则是用户删除、跳过回答等。传统的选举数据集存在匮乏负逆馈题目。ZhihuRec 数据集同时记录了用户的正逆馈和负逆馈。行行使户的负向偏益能够挑高选举质量,该数据集适用于基于负逆馈的选举模型。

由于 ZhihuRec 数据集具备了雄厚的上下文新闻,它还能够被用在选举之外的义务上,例如识别最有价值的回答者、识别优质回答等。

结论

本文介绍了来自在线知识共享社区的一个新数据集,旨在为个性化选举做出贡献。据晓畅,这是一个包含详细新闻的最大的公开数据集,包括用户、内容、走为、作者、话题以及包含搜索和对选举效果是否点击的用户交互日志。该钻研表现了相关最新算法在该数据集上的实验效果。该数据集可用于以下方面的钻研:上下文感知选举、序列选举、行使负逆馈的选举、集成搜索和选举以及用户画像和内容属性的建模。该数据集是公开可用的,并且在交互日志和搜索关键字中包含大量新闻,正当跨平台钻研。

 

【编辑选举】

数据科学幼咖入门系列-10个案例带您迅速入门数据分析视频课程 数据库:Redis相关知识梳理 工业数据网络坦然隐患如何答对? 对比Excel,用Python绘制柱状图时增补Table数据外 超7亿领英用户数据黑网销售