tiktok刷粉 拥有 10 亿月活跃用户的 Instagram 是怎么设计内容推荐系统的?
🟨🟧🟩🟦加vx: 『zfensi(微信)』 - NoneNone- ins涨粉丝网- telegram刷粉|ins刷粉丝|ins刷粉|tiktok刷粉|tiktok刷粉平台 便宜ins刷粉丝,24小时自助-专业ins粉赞平台🟨🟧🟩🟦
近日,拥有10亿月活用户的Instagram分享了其内容推荐系统的关键内容,包括:Explore基础构建模块的开发、元语言IGQL工具、Explore系统框架等。
据 数据,超过一半的用户每月都会通过Instagram Explore来搜索视频、图片、直播和各种文章。那么,如何从亿级规模的实时推荐数据中选出 适合某个用户的媒体内容呢?针对这样的挑战,Instagram利用机器学习做了这样的思考与操作,雷锋网AI开发者将其编译如下。
According to official data, more than half of users use instagram explore to search for videos, pictures, live broadcasts and various articles every month. So, how to select the most suitable media content for a user from the 100 million scale real-time recommendation data? In response to such challenges, instagram uses machine learning to do such thinking and operation. Lei Feng AI developer compiles it as follows.
Explore基础构建模块的开发
在构建处理Instagram上每天上传的大量照片和视频的推荐引擎时,我们需要满足三个重要需求:
大规模快速实验的能力;
获得用户兴趣范围内的更多信息;
一种高计算效率的方法来确保推荐建议既高质又新鲜(具备时效性);
因此,为了解决这三个需求,我们开发了一些基本工具,而这些技术正是实现 终推荐系统的关键。
工具一:运用IGQL实现快速迭代
建立 佳推荐算法和技术是ML社区正在进行的一项研究。选择合适的系统的过程可能会因任务而异。举例来说,一个算法能有效地识别用户的长期兴趣,而另一个算法能更好地根据 近的浏览内容来推荐和提出建议。
技术团队通过反复使用不同的算法,发现需要一种方法,既能让我们有效地尝试新的想法,又能轻松地将有潜力的想法应用到大规模系统中,而不必担心CPU和内存使用之类计算资源的影响。
因此,我们需要一种定制的特定于领域的元语言,它能够提供正确的抽象级别,并将一些候选算法进行集中聚合。
IGQL正是为解决这个问题而创建的工具,它是一种专门用于在推荐系统中检索候选对象的领域特定语言。经C++优化后,IGQL可在不牺牲可扩展性的情况下 大程度地降低延迟,从而减少计算资源消耗。
IGQL是经过静态验证的 语言,工程师能够以Python的方式来编写推荐算法,并在C++中快速而高效地运行它。除此之外,它还具有可扩展性和易用性。
user
.let(seed_id=user_id)
.liked(max_num_to_retrieve=30)
.account_nn(embedding_config=default)
.posted_media(max_media_per_account=10)
.filter(non_recommendable_model_threshold=0.2)
.rank(ranking_model=default)
.diversify_by(seed_id,method=round_robin)
在上面的代码示例中,我们可以看到IGQL能够有效提供高可读性的语言,即使对于没有广泛使用该语言的工程师也能一目了然。
该工具有助于以一种原则性的方式组合多个推荐阶段和算法。例如,我们可以在查询中使用组合规则来输出多个子查询输出的加权混合,从而优化候选生成器的集合。通过调整权重,我们就可以找到 佳用户体验的组合。
IGQL使执行复杂推荐系统中常见的任务变得简单,例如:构建组合规则的嵌套树。IGQL允许工程师更关注于推荐背后的机器学习和业务逻辑,而不是后台工作;例如:为每个查询获取正确数量的候选项。
该方法还提供了高度的代码可重用性;例如:使用排序器就像为IGQL查询添加单行规则一样简单。在多个地方添加它也很简单,例如:帐户排序和这些帐户发布的媒体排序。
工具二:个性化账户的个性化媒体排序嵌入
人们在Instagram上公开分享数以十亿计的高质量媒体内容,这些内容都属于Explore上的合格内容。对于Explore中的众多感兴趣的社区来说,保持一个清晰且不断发展的目录样式分类也是一个挑战。因为社区的主题很多,从阿拉伯书法到模型训练再到slime的都有,所以基于内容的模型很难理解如此多样的兴趣社区。
因为Instagram有很多基于特定主题的关注兴趣的帐户,例如:Devonrexcats或者vintagetractors;所以我们建立了一个检索渠道。这个渠道关注的是帐户级信息,而非媒体级信息。
通过构建帐户嵌入,我们能够更有效地识别哪些帐户在局部上彼此相似。我们使用类似word2vec的嵌入框架Ig2vec来推断帐户嵌入。通常,word2vec嵌入框架会根据单词在训练语料库中句子的上下文来学习单词的表示。Ig2vec将用户与之交互的帐户id(例如:来自用户喜欢的帐户媒体)视为句子中的一个单词序列。
通过应用类似于word2vec中的技术,我们可以预测一个人可能会在应用程序给定的对话中交互。如果一个人在同一个对话中与一系列账户交互,与来自不同Instagram账户范围的随机账户序列相比,更有可能局部一致。这有助于我们识别相关账户。
我们定义了两个账户之间的距离测量——嵌入训练中使用的同一个账户——通常是余弦距离或点积。基于此,我们搜索了KNN,以找到嵌入中任何账户的局部类似账户。我们的嵌入覆盖了数百万个账户,并使用Facebook 先进的邻近搜索引擎FAISS作为支持搜索的基础设施。
Ig2vec预测账户内容相似性的功能演示
对于每一个版本的嵌入,我们训练一个仅根据嵌入预测一组帐户主题的分类器;通过将预测主题与保留集中帐户的人工标记主题进行比较,我们就可以评估嵌入如何捕获主题相似度。
搜索类似于某个特定用户以前感兴趣的账户的账户,可以帮助我们以简单有效的方式为每个人聚焦一个更小更个性化的排序列表。因此,我们可以使用 先进、计算密集的机器学习模型为每个Instagram社区成员服务。
工具三:蒸馏模型预选相关候选项
[ins涨粉丝网] https://www.zfensi.com在我们用Ig2vec去根据个人兴趣确定 相关的账户之后,我们需要一种方式对这些账户进行排序,使其对于每个人都充满新鲜感与趣味性。这需要在每个人每次滚动Explore页面时预测出 相关的媒体。
我们通过一个深层神经网络,对每一个滚动操作评估500个媒体片段。虽然这需要大量的资源;但当其对每个用户评估越多,我们就越有可能从这些的内容中找到 好的、 个性化的媒体推荐。为了能够 大化每个排序请求的媒体数量,我们引入了一个排序蒸馏模型(可参考:https://arxiv.org/abs/1809.07428),帮助在使用更复杂的排序模型之前对候选项进行重新排序。
排序问题的排序蒸馏
该方法是通过训练一个超轻量级的模型,从中学习并使其尽量接近主要排序模型。我们从更复杂的排序模型中记录其所具有的特征和输出候选项;然后用有限的特征集和简单的神经网络模型结构对蒸馏模型进行训练以复制结果。其目标函数则是优化NDCG排序(排序质量的一种度量)损失超过主要排序模型的输出;然后使用蒸馏模型中排序靠前的推荐作为后期高性能排序模型的排序候选。
通过建立蒸馏模型的模拟行为,可以 大限度地减少多个参数的调整和不同排序阶段维护多个模型的需求。利用该技术,我们可以有效地评估一组更大的媒体集,以便在控制计算资源的同时,找到每个排序请求中 相关的媒体内容。
如何构建Explore?
在创建了一个关键的构建模块,便于实验,有效识别人关预测的关键建筑模块后,我们必须在生产中结合这些系统。利用IGQL、账户嵌入和蒸馏模型技术,我们将Explore推荐系统分为两个主要阶段:候选生成阶段(也称为源搜索阶段)和排序阶段。
阶段一:候选生成阶段
,我们使用人们以前在Instagram上交互过的帐户(例如:喜欢或收集某一帐户中的媒体内容)来识别其他可能感兴趣的帐户,我们称之为种子帐户(种子帐户通常只是Instagram上相似或相同兴趣帐户的一小部分)。
然后,我们使用帐户嵌入技术来识别类似于种子帐户的其它帐户; 后根据这些帐户,我们就可以找到这些帐户发布或参与的媒体内容。
该图展示了Instagram Explore的一个典型推荐内容源
通过Instagram,人们可以通过多种方式接触帐户和媒体(例如:关注,喜欢,评论,保存和分享)。还有不同的媒体类型(例如:照片,视频,故事和现场直播),也就是说,我们可以使用相似的方案来构建各种来源。使用IGQL可以使过程变得非常简单—不同的候选源只需表示不同的IGQL子查询。
通过不同类型的信息来源,我们能够找到成千上万的符合条件的候选项。为了确保推荐的内容既安全又适合许多年龄段的全球探索社区,我们使用了各种标记来筛选出我们可以确定为不符合推荐条件的内容,然后再为每个人建立符合条件的媒体推荐。除了阻止可能违反规则的内容和错误信息外,我们还利用机器学习系统来帮助检测和过滤垃圾邮件等内容。
然后,对于每一个排序请求,我们为个人识别出了数千个符合条件的媒体,并从符合条件的推荐中抽取500个候选项,然后将候选项发送到下游的排序阶段。
阶段二:候选项排序
当有500名候选项可供排序时,我们使用了三阶排序基础模结构来帮助平衡排序相关性和计算效率之间的权重。三个排序阶段如下:
阶段:蒸馏模型模仿其他两个阶段的组合,具有 小的特征;从500个候选项中选出150个质量 高、 相关的候选项;
第二阶段:利用具有完整的稠密特征集的轻量级神经网络模型,再从 阶段的150个候选项中选择出符合条件的50个 高质量和 相关的候选项;
第三阶段:利用具有完整的稠密和稀疏特征的深度神经网络模型,从第二阶段的50个候选项中选出25个质量 高、 相关的候选项。
用来平衡排序相关性和计算效率之间的权衡的三阶排序基础模结构
如果 阶段的蒸馏模型按照排序顺序模仿其他两个阶段,我们如何确定下两个阶段中 相关的内容呢?
所以我们选择预测人们在每一个媒体上所采取的个人行为,不管是像喜欢和收藏这样的积极行为,还是像少看这样的帖子这样的消极行为;我们都使用多任务多标签(MTML)神经网络来预测这些事件,因为共享多层传感器(MLP)可以让我们捕捉来自不同行为的共同信号。
当前推荐模型架构示例
我们使用一个算术公式(即值模型)来结合对不同事件的预测,以捕获不同信号的突出性,从而决定内容是否相关。具体而言,即使用一个加权的预测值之和,比如:[w_like*P(like)+w_save*P(save)-w_negative_action*P(negative action)]。如果我们认为一个人在Explore中保存一个帖子的重要性高于他们喜欢的帖子,那么「保存」行为的权重应该更高。
Explore也利用了用户新兴趣与过去兴趣之间的平衡关系,在价值模型中加入一个简单的启发式规则,以提高内容的多样性。具体而言,模型通过添加「惩罚」因子来降低来自同一媒体或同一种子帐户帖子的排序,因此在Explore推荐中,很难看到来自同一个人或同一种子帐户的多个帖子;而且这种推荐方式会随着你遇到更多来自同一作者的帖子而加强。
Explore also takes advantage of the balance between users' new interests and past interests, and adds a simple heuristic rule to the value model to improve the diversity of content. Specifically, the model reduces the ranking of posts from the same media or the same sub account by adding a "penalty" factor. Therefore, it is difficult to see multiple posts from the same person or the same sub account in the explore recommendation, and this recommendation method will be strengthened as you encounter more posts from the same author.
我们根据每个排序候选项的 终价值模型得分,以迭代的方式对 相关的内容进行排序。其中,离线回放工具连同贝叶斯优化工具也会有助于我们在系统优化过程中高效地调整价值模型。
原文地址:
https://ai.facebook.com/blog/powered-by-ai-instagrams-explore-recommender-system
❤️🔥
关于【 Pinterest推广 】社交营销服务列表
- Pinterest follow|粉丝
1
- Pinterest like|repin|赞
1
- tiktok|Ins|Facebook|Toutube|教程教学及跨境电商账号运营课程
- 跨境电商账号运营服务列表⚡️⚡️⚡️