用于数据科学和机器学习的GitHub存储库和Reddit主题(5月)

大数据
这篇文章总结了Reddit平台上5月份的一些关于数据科学的讨论,其中包括数据科学家在未来3年的作用以及有史以来最好的机器学习论文集。在GitHub社区中,英特尔开放了其NLP架构库,微软推出ML.NET以支持Dot Net开发者进行机器学习等。

GitHub和Reddit都是比较有趣的平台,在这里,我不仅学习了数据科学的一些***应用,而且还了解数据科学家们是如何编程的。

一直以来,GitHub都是开发人员之间进行协作的***平台,并且,我们也看到了数据科学和机器学习社区以同样的热情来改善它。

而Reddit仍然是一个很好的数据科学领域知识和见解的来源。人们在这个平台上共享代码、数据科学新闻、寻求帮助和意见、发表研究论文等。

这篇文章总结了Reddit平台上5月份的一些关于数据科学的讨论,其中包括数据科学家在未来3年的作用以及有史以来***的机器学习论文集。在GitHub社区中,英特尔开放了其NLP架构库,微软推出ML.NET以支持Dot Net开发者进行机器学习等。

让我们来看看GitHub上的***存储库以及Reddit上个月发生的有趣讨论吧。下面是之前四个月较为流行的GitHub存储库和***Reddit讨论(从四月起):

ML.NET

https://github.com/dotnet/machinelearning?spm=a2c4e.11153940.blogcont603064.13.33f65291LqhERf

 

e51fa44eb16bd50d2cca7ddad42359925263b2f3

ML.NET是一个开源机器学习框架。不需要任何构建机器学习模型的经验,机器学习和.NET开发人员就可以轻松使用.NET开发自己的模型。这是预发行版本,包含了基本的分类和回归算法。

ML.NET最初由Microsoft创建的,并且已用于各种产品,如Windows,Excel,Access,Bing等。此版本还捆绑了用于各种模型训练任务的.NET API。

NLP Architect

https://github.com/NervanaSystems/nlp-architect?spm=a2c4e.11153940.blogcont603064.14.33f65291LqhERf

 

fa916faea0cdc005417a434721e8846f7f9bb29a

NLP Architect是一个开源Python库,由英特尔实验室的研究人员开发和开源,旨在帮助数据科学家够探索自然语言处理(NLP)和自然语言理解(NLU)领域***进的深度学习技术。

这个库中我最喜欢的组件之一就是可视化组件,可视化组件很整洁的显示了模型的注释。更多NLP Architect的信息请点击https://www.analyticsvidhya.com/blog/2018/05/nlp-architect-an-awesome-open-source-nlp-python-library-from-intel-ai-lab-with-github-link/?spm=a2c4e.11153940.blogcont603064.15.33f65291LqhERf。

Amazon Scraper

https://github.com/tducret/amazon-scraper-python?spm=a2c4e.11153940.blogcont603064.16.33f65291LqhERf

 

[[233453]]

Python包可以让开发人员在亚马逊上搜索和提取产品信息。你需要分析哪些产品,只需使用该包即可,而不再需要编码来确定。只需输入想要搜索的关键字和***产品数量(可选),就可以输出CSV格式,然后进行分析。

PIGO – Face Detection in Go

https://github.com/esimov/pigo?spm=a2c4e.11153940.blogcont603064.17.33f65291LqhERf

 

b5315c76e5567490dc924151b37de1c854bb07cd

Pigo是基于《基于像素强度比较的对象检测》论文、用Go语言开发的人脸检测库。Pigo库的主要特点如下:

  1. 处理速度快。
  2. 在检测前不需要做图像预处理。
  3. 不需要计算积分图像,图像金字塔,HOG金字塔或其他类似的数据结构。

人脸检测基于以二进制文件数据树结构编码的像素强度比较

RL-Adventure-2: Policy Gradients

https://github.com/higgsfield/RL-Adventure-2?spm=a2c4e.11153940.blogcont603064.18.33f65291LqhERf

这是所有强化学习(RL)爱好者所喜欢的库。深度学习推动了强化学习编写了一个人工智能机器人以人类专家级技能来玩Atari游戏。 该存储库涵盖了策略梯度算法的新扩展,这是目前解决强化学习问题***的默认选择之一。 这些扩展缩短了训练时间、优化了强化学习的整体表现。

Reddit讨论

实时手势姿态估计

https://www.reddit.com/r/MachineLearning/comments/8n04hp/p_realtime_multihand_pose_estimation_demo/?spm=a2c4e.11153940.blogcont603064.19.33f65291OiQ7QC

 

57c85ea467a5e8ce9618cb8fba411154920f1f1d

这个视频引起了数据科学家和机器学习发烧友的广泛关注,我希望你能看完这个视频,然后你就会很好地了解这项技术是如何实施的。

你会选择哪篇研究论文来证明机器学习是***的?

https://www.reddit.com/r/MachineLearning/comments/8kbmyn/d_if_you_had_to_show_one_paper_to_someone_to_show/?spm=a2c4e.11153940.blogcont603064.20.33f65291OiQ7QC

如果你是一个机器学习菜鸟,又或者是正在寻找一些用来阅读或参考的研究论文,这是一个很好的话题。这个话题中列举了一些优秀的机器学习研究论文,每个数据科学家都将从中受益匪浅。该讨论包括从基本机器学习概念(如高斯模型)到高级概念(如神经艺术风格转换),使用简单功能的增强级联等快速对象检测等论文。这是一个必读话题。

目前,我们对泛化有什么了解? 对于泛化,我们接下来应该提什么问题?

https://www.reddit.com/r/MachineLearning/comments/8mpxmm/d_what_do_we_currently_know_about_generalization/?spm=a2c4e.11153940.blogcont603064.21.33f65291OiQ7QC

深度学习中的泛化一直都是一个争议不断的话题。正如作者所说的那样,我们仍然需要在不少场景中努力实现泛化。这个话题围绕目前泛化现状进行了深入探讨,以及它为什么在深度和强化学习中很难理解。这个话题帖子很长,如果你是这个领域的菜鸟,对于你来说可能会有点复杂。不过,我建议无论如何都要阅读这个话题,因为这个话题中包含了一些经验丰富和知识渊博的数据科学家的看法。

医疗行业的机器学习状况

https://www.reddit.com/r/MachineLearning/comments/8mqh2r/d_machine_learning_deployed_in_health_care_and/?spm=a2c4e.11153940.blogcont603064.22.33f65291OiQ7QC

该话题专门研究了医疗行业的机器学习现状。医疗领域数据科学家分享了他们工作中的经验和观点。想要查看任何生命科学领域机器学习和深度学习的任何信息,请参阅该话题!

数据科学家3年后潜在的职业发展方向

https://www.reddit.com/r/datascience/comments/8m0zev/what_are_the_potential_career_paths_for_data/?spm=a2c4e.11153940.blogcont603064.23.33f65291OiQ7QC

这是大多数人在进入该领域之前非常关心的一个问题。随着自动化机器学习工具的迅速采用,公司在几年内会需要数据科学家吗?本话题收集了数据科学中不同人员对未来几年内的职业发展方向的看法。想要寻求职业方向的指导,请查看这一话题!

责任编辑:未丽燕 来源: 网络大数据
相关推荐

2019-04-15 13:25:29

数据科学机器学习Gartner

2018-04-23 14:01:04

数据科学机器学习开发

2022-02-07 00:05:49

机器学习GitHub工具

2019-02-28 10:50:56

数据平台架构

2017-07-28 09:19:17

深度学习机器学习人工智能

2017-07-28 09:50:15

机器学习数据科学工具和语言

2023-05-16 08:31:04

2023-08-18 10:34:29

2021-12-09 23:16:47

数据科学数据工程机器学习

2018-06-12 16:27:45

数据科学机器学习Hadoop

2020-04-29 09:30:48

数据科学GitHub存储库

2017-01-10 15:08:49

2018-03-26 09:11:09

数据机器学习岗位

2016-08-31 07:30:03

数据科学机器学习API

2022-12-04 23:39:33

机器学习AutoML

2018-12-27 14:20:52

机器学习人工智能Reddit

2023-03-14 16:29:12

机器学习塑料

2021-10-15 09:58:18

云计算GitHub存储库泄露

2017-11-01 15:38:54

机器学习数据科学资源

2020-11-18 18:21:49

.Net 5大数据机器学习
点赞
收藏

51CTO技术栈公众号