数据科学,数据工程和技术的未来

新闻
2020年即将结束,因此,我们邀请了来自技术领域的各个方面的人们提供他们对2021年期望的见解-无论是新兴的初创公司,技术还是优秀实践。

2020年即将结束,我们想花一点时间反思技术的所有变化,并展望未来的发展趋势。

无论您是在关注初创企业及其首次公开募股,技术的改进,还是您对亚马逊re:Invent的关注,我们都见证了一年的公司继续努力突破界限。

AWS的SageMaker Data Wrangler是2020年个人最喜欢的公告,旨在加快机器学习和AI应用程序的数据准备。这似乎是朝着拥有更流畅的机器学习管道的方向迈出的一大步,希望这将使不专注于技术的公司更容易使用机器学习。

[[359409]]

但是2020年即将结束,因此,我们邀请了来自技术领域的各个方面的人们提供他们对2021年期望的见解-无论是新兴的初创公司,技术还是最佳实践。

让我们看看他们怎么说。

1. Sam Cannon,Facebook,数据科学家

[[359410]]

> Photo from LinkedIn.

我感觉自然语言处理(NLP)当前正在以不可思议的速度发展,这同时令人兴奋和沮丧。一旦建立了不错的文本分类或分布式词表示聚类的管道,就会出现一个新模型,该模型的性能优于我昨天使用的模型。

话虽这么说,我对NLP的发展方向感到非常兴奋,特别是在针对复杂NLP任务的开源解决方案方面。我在这个领域最喜欢的公司之一,也是我个人的开放源码晴雨表,即最先进的NLP,就是Hugging Face。Hugging Face通过使复杂的NLP模型和任务民主化而遵循"解决NLP"的信条,由于缺乏计算能力或专业知识,许多人通常无法使用这些模型和任务。

他们已经提供了需要最少用户输入的简单情绪分析解决方案。在此基础上,我认为2021年将迎来一系列可与一行代码一起使用的预打包SOTA NLP模型。虽然无法预测2021年在这个领域中将真正实现什么,但我相信,至少,开箱即用的NLP模型将比以往更多的人从他们的自然语言数据中获得洞察力—这就是2021年我在我们领域最期待的东西。

2. 凯瑟琳·陶(Catherine Tao),数据标准,数据科学家

[[359411]]

> Photo from LinkedIn.

我很高兴看到2021年的云技术将在技术领域进行创新。截至目前,云是存储公司数据的空间。这样做存在一些挑战,例如可伸缩性,效率,数据流等等。

我想看看如何改善云计算以平衡技术企业所面临的一些主要问题。许多公司都在努力将AI引入其业务中,这导致某些公司在技术行业落后。通过创新云计算,更多的公司应该能够在其公司中实施人工智能,并以更高的生产率部署项目/产品。

3. Riley Kinser,地形,产品负责人

[[359412]]

> Photo from LinkedIn.

展望2021年(对于商业房地产来说,希望是光明的一年!),我的主要重点是成为地理和地理地图绘制新工具的专家。我的主要路线图目标之一是将我们在Terrain的见解转化为易于为最终用户解释的地图。

当今行业中的许多示例都是使用ArcGIS来完成的,ArcGIS是一种较旧的但成熟的数据映射工具。我相信可能会有更好的工具,这为我们的客户提供了一个对旧经典的新认识的机会。我感兴趣的两个工具是Uber开发的开源项目:H3和kepler.gl。我看到的H3的主要优势之一是能够根据缩放将世界细分为大小不同的六边形。

这解决了我们确定的早期问题之一,即不同的用户喜欢对都市圈内的社区,子市场或城市的边界采取不同的观点。这也使我们能够更好地在全球范围内开发难以获取边界数据的地图。

另一方面,kepler.gl很有趣,因为它相对容易为最终用户或MVP在线开发和托管。Uber开发了Kepler.gl,使用户可以在内部(技术和非技术)并快速开发可共享的地图,以可视化地理空间数据中的想法。kepler.gl支持的其他有趣的事情之一是能够轻松地可视化时间序列中的地理数据的功能。我希望从kepler.gl成为我们的MVP,然后在我们开始收集用户反馈时探索H3。

4. Chris Zeoli,Base10合作伙伴,负责人

[[359413]]

> Photo from LinkedIn.

尽管我对许多趋势感到非常兴奋,但电子商务(尤其是Shopify及其相关工具的兴起)和远程医疗是我最激动的两个领域。我已经撰写了有关Shopify生态系统的文章,并且该公司继续达到新的高度,为200万以上的商家提供了超过$ 100B的GMV。

我对与Facebook / instagram,TikTok,支付宝,Affirm和Pinterest等新的合作伙伴关系感到特别兴奋,因为Shopify成为跨消费者所在的主要网络进行商务交易的基础架构。它的软件以及第三方生态系统在蓬勃发展中令人兴奋。有趣的是,电子商务的传统领域(服装和时尚,CPG产品,保健和保健等)继续增长,而食品/杂货等较新的类别可以通过Shopify等平台自动上线。

远程医疗和新的数字医疗经验也让我感到非常兴奋。从COVID来看,很明显,就我们的经济"基本"而言,医疗保健是最重要的。该类别占GDP的20%(并且还在增长),几乎没有突破性成果,也没有FAANG规模的公司。我可以想象,五年内,至少会有一个主要参与者(并且还期望看到Apple,Google和Amazon继续推动医疗保健发展)。2020年对于远程医疗来说是重要的一年,Teladoc收购了Livongo并创建了数字医疗领域最强大的品牌,但其企业价值总和超过$ 30B,并且$ 1.5B的ARR增长> 100%。

我很高兴看到崭新的数字化健康体验浪潮,可以满足人类在照顾自己方面最基本的需求。

5. Jun Kim,Facebook,数据工程师

[[359414]]

> Photo from LinkedIn.

即将到来的2021年最令我兴奋的技术是期待已久的Apache Airflow 2.0版本。自2015年首次发布以来,Apache Airflow一直是数据工程中最受欢迎的工作流管理系统之一(如果不是最受欢迎的话)。

它的巨大成功可以归因于以下事实:它允许将工作流编写为代码,简单但有效的GUI,并且在构造数据管道方面具有通用的灵活性。借助新的2.0版本,每个人都喜欢的工作流管理系统将变得更好。Airflow 2.0将具有许多令人印象深刻的附加功能,包括完全受支持的综合REST API,TaskFlow API和任务组。它还提供了许多改进,包括简化的Kubernetes Executor,低延迟的调度程序以及更加直观的GUI。

我很高兴尝试新的和改进的Airflow。

6. Michael Mirandi,土星Cloud.io,战略主管

[[359415]]

> Photo from LinkedIn.

我很高兴在2021年看到几种技术趋势,但无非就是GPU计算在数据科学和机器学习中的日益普及。这种转变是由性能优先驱动的,以及通过开源项目RAPIDS使得易于使用成为可能。如果您不熟悉RAPIDS,则用户可以使用RAPIDS在NVIDIA硬件上执行Python代码(免责声明:NVIDIA赞助了该项目)。

该团队于今年早些时候发布了行业标准的大数据分析基准测试结果,其表现要高出近20倍!有趣的是,这些基准测试不仅展示了GPU计算对数据科学工作负载的强大功能,而且还展示了其加速传统数据工程ETL工作的能力。这会导致更广泛地采用Python吗?我愿意打赌,特别是随着一批新的数据科学初创公司最近发布了分布式GPU计算平台,这是一种能够以前所未有的速度启动云中GPU集群的功能。

2021年及以后的技术

到2021年,无论是预打包的SOTA NLP模型是否可以与一行代码一起使用,自然语言查询还是对Airflow等框架进行改进,都将有很多期待。

小型和大型科技公司似乎都继续前进,即使所有Zoom疲劳了。

我们希望2021年不仅能带来技术上的进步,而且也将是我们在能够提升所有人的能力的领域取得进步的一年。

感谢您的阅读和新年的好运!

 

责任编辑:赵宁宁 来源: 今日头条
相关推荐

2021-01-25 21:49:35

数据科学数据分析IT

2020-12-31 06:18:08

人工智能物联网大数据

2020-06-18 11:01:34

数据科学大数据人工智能

2015-06-11 10:27:29

数据科学家

2020-07-22 11:21:05

数据科学大数据分析大数据

2021-01-10 11:19:04

数据科学工具技术

2021-12-09 23:16:47

数据科学数据工程机器学习

2015-10-16 09:44:51

2017-08-08 09:48:41

数据科学技术

2021-01-12 11:31:09

数据科学数据大数据

2015-10-08 10:09:42

2018-03-29 11:58:11

2020-12-15 13:19:42

数据科学数据大数据

2023-08-16 14:20:26

人工智能AI

2023-08-04 11:06:49

数据科学机器学习

2021-05-10 11:33:11

数字化

2019-02-25 22:57:22

数据工程师数据科学机器学习

2023-12-14 09:56:48

数据管理数据

2023-03-03 08:00:00

重采样数据集

2019-05-08 08:00:49

增强分析数据科学分析技术
点赞
收藏

51CTO技术栈公众号