这份GitHub 2.3k星的ML论文清单拿好,工作用得上

新闻 机器学习
亚马逊工程师Eugene Yan等人打造了一个论文合集,在这个GitHub项目中,持续共享Google、亚马逊、Facebook等等大公司在数据科学和机器学习方面的论文和博客文章。

 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

工欲善其事,必先利其器。

在工作中动手实施自己的ML项目之前,了解领域里的前沿进展,吸收前人的经验,是很有必要的。

不过,现在arXiv上每天都有成百篇新论文冒头,哪些值得看?

为此,亚马逊工程师Eugene Yan等人打造了一个论文合集,在这个GitHub项目中,持续共享Google、亚马逊、Facebook等等大公司在数据科学和机器学习方面的论文和博客文章。

这份GitHub 2.3k星的ML论文清单拿好,工作用得上

这些论文/文章涵盖24种不同分类,从搜索排名到NLP、CV,都能在这里找到:

数据质量

数据工程

数据挖掘

分类

回归

推荐算法

搜索排名

嵌入

自然语言处理

序列建模

预测

计算机视觉

强化学习

异常检测

图形

优化

信息提取

弱监督

生成

效率

验证和A/B测试

伦理道德

实践

失败

目前标星2.3k。

以推荐算法为例。

对于不同的行业,业务差别很大。即使算法基础框架大同小异,想要训练出精准的推荐模型,细节上还是有许多不同之处。

而这份清单,收集了电商、视频、音乐、课程种种不同业务的推荐算法技术博客/论文。

这份GitHub 2.3k星的ML论文清单拿好,工作用得上

比如阿里的《Behavior Sequence Transformer for E-commerce Recommendation in Alibaba》。

论文介绍了行为序列Transformer在阿里电子商务推荐系统中的应用。

研究人员提出,利用Transformer模型来捕捉用户行为序列背后的顺序信号,以增强个性化推荐的有效性,提升点击量。经过实验验证后,他们将该模型部署在了淘宝线上,证明与基线相比,该方法能显著提高在线点击率。

论文链接:
https://arxiv.org/abs/1905.06874

在视频个性化推荐方面,YouTube、网飞、TikTok的技术方案都有收录。

这份GitHub 2.3k星的ML论文清单拿好,工作用得上

比如YouTube这篇引用次数达到1039次的《Deep Neural Networks for YouTube Recommendations》。

论文重点介绍了深度学习给YouTube推荐系统带来的巨大性能提升。首先,研究人员详细介绍了深度候选征程模型和深度排名模型。而后,研究人员还在论文中分享了从设计、迭代到维护一个拥有海量用户的大规模推荐系统这个过程中,获得的实践经验和启示。

论文地址:
https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/45530.pdf

另外,比较有趣的是,这份论文/文章列表还收录了一些失败的经验。

比如Google Photos在给照片打标签时,曾经严重翻车:把黑人标记成了“大猩猩”。

最近大火的GPT-3,则没有解决前代GPT-2的“偏见”问题,在生成的文字中,总是将穆斯林和暴力、死亡联系在一起。

关于作者

这一项目的主要维护者,是亚马逊应用科学家Eugene Yan。

他本科毕业于新加坡管理大学,专业是心理学和人力资源管理,后于佐治亚理工学院获计算机科学硕士学位。

现在的主要工作是利用消费者数据,构建机器学习系统以提升用户体验。

传送门

项目地址:
https://github.com/eugeneyan/applied-ml

 

责任编辑:张燕妮 来源: 量子位
相关推荐

2021-04-04 23:44:06

5G运营商网络

2016-09-27 16:15:17

IOS 10苹果

2009-05-09 09:04:19

无线网络3G布局

2014-12-10 12:36:00

微软Office 365云计算

2017-11-14 11:28:49

程序员索引数据

2020-07-13 15:56:21

人工智能机器学习技术

2020-12-10 10:24:25

AI 数据人工智能

2019-01-04 13:25:40

代码开发算法

2023-08-14 07:58:50

GitHubMetaGPT人工智能

2020-03-04 17:03:10

数据分析思维说明

2020-03-13 10:18:43

GitHub 技术开源

2021-04-09 16:25:00

GitHub代码开发者

2023-07-04 12:57:57

多模态语言模型

2024-12-02 09:00:00

2021-11-11 15:13:15

人工智能容器技术

2022-01-26 13:00:07

Vue.js UI组件Web

2021-10-21 05:57:33

网盘开源云盘系统

2017-03-31 13:24:09

2022-07-19 06:24:02

微服务高可用

2021-02-20 12:13:23

GitHub代码开发者
点赞
收藏

51CTO技术栈公众号