突破边界:数据科学、数据工程和技术的未来

大数据 数据分析
不管是关注初创公司和它们的IPO进程,关注科技的进步,还是关注亚马逊的re:Invent,你都会看到,这一年有很多公司在不断尝试突破边界。

本文转载自公众号“读芯术”(ID:AI_Discovery)

 不管是关注初创公司和它们的IPO进程,关注科技的进步,还是关注亚马逊的re:Invent,你都会看到,这一年有很多公司在不断尝试突破边界。

我个人最喜欢的2020年公告是AWS的SageMaker Data Wrangler,它旨在加快机器学习和人工智能应用的数据准备。这是一个伟大的举措,将有更多的流体机器学习管道,有望进一步使机器学习更容易接近的公司,不专注于技术。

我们采访了来自不同科技领域的人们,请他们谈谈对2021年的期待,受访者都来自具有代表性的创业公司和技术最佳实践企业。看看他们都说了什么吧!

1.山姆·坎农,Facebook数据科学家

 

我觉得自然语言处理目前正以不可思议的速度发展,这令人既兴奋又沮丧。一旦为文本分类或分布式词表示聚类建立了一个像样的管道,新的模型就会出现,它的性能会超过昨天使用的模型。

我对NLP的发展方向感到非常兴奋,尤其是针对复杂的NLP任务的开源解决方案。在这个领域中,我最喜欢的公司之一是Hugging Face,它也是我个人对开放源码、最先进的NLP的晴雨表。

Hugging Face遵循了solv[ing] NLP的信条,将复杂的NLP模型和任务民主化,而这些模型和任务通常由于缺乏计算能力或专业知识而不可能被许多人使用。

它们已经提供了简单的情感分析解决方案,只需要最少的用户输入。在此基础上,我认为2021年将迎来一波预先打包的SOTA NLP模型,这些模型只需要一行代码就可以使用。

在2021,我相信至少开箱即用的NLP模型将允许更多的人从他们的自然语言数据中获得的见解,这就是我在2021年最期待的方面。

2.凯瑟琳·陶,数据标准,数据科学家

 

我很兴奋地看到云计算在2021年将如何在技术领域创新。云是公司存储数据的空间,这方面尚存在一些挑战,比如可扩展性、效率、数据流等等。

我想看看2021会如何改善云计算以平衡技术企业所面临的一些主要问题。许多公司都在努力将AI引入其业务中,通过创新云计算,更多的公司应该能够在其公司中实施人工智能,并以更高的生产率部署项目/产品。

3.赖利·金瑟,Terrain,产品主管

 

展望2021年,我的关注重点是地理地图绘制新工具。我的主要目标之一是将我们在Terrain的见解转化为易于为最终用户解释的地图。

当今行业中的许多示例都是使用ArcGIS来完成的,ArcGIS是一种较旧的但成熟的数据映射工具。我相信可能会有更好的工具,为客户提供一个对旧经典的新认识的机会。我感兴趣的两个工具是Uber开发的开源项目:H3和kepler.gl。

H3的主要优势之一是能够根据缩放将世界细分为大小不同的六边形。这解决了我们发现的早期问题之一,即不同的用户喜欢对都市圈内的社区,子市场或城市的边界采取不同的观点。这也使我们能够更好地在国际范围内开发地图,从而难以获取边界数据。

kepler.gl也很有趣,因为它更容易为最终用户或MVP在线开发和托管。Uber开发了Kepler.gl,允许用户在内部(技术和非技术)快速开发可共享的地图,以可视化地理空间数据中的想法。

kepler.gl能够轻松地可视化时间序列中的地理数据的功能。希望从kepler.gl成为我们的MVP,然后在开始收集用户反馈时探索H3。

4.克里斯·杰奥里,Base10合作伙伴,负责人

 

电子商务(尤其是Shopify及其相关工具的兴起)和远程医疗是我最感兴趣的两个领域。我写过关于Shopify生态系统的文章,该公司继续达到新的高度,为200万以上的商家提供了超过100B美元的GMV。

我对与Facebook、instagram、TikTok、支付宝、Affirm和Pinterest等新的合作伙伴关系感到特别兴奋,因为Shopify成为跨消费者所在的主要网络,以及进行商务交易的基础架构。

电子商务的传统领域(服装和时尚,CPG产品,保健和保健等)继续增长,而食品/杂货等较新的类别可以通过Shopify等平台自动上线。

远程医疗和新的数字医疗经验也让我感到兴奋。从COVID来看,很明显,就经济“基础”而言,医疗保健是最重要的。该类别占GDP的20%(并且还在增长),几乎没有突破性成果,也没有FAANG规模的公司。

我可以想象,五年内,至少会有一个巨头出现(并且还期望看到Apple,Google和Amazon继续推动医疗保健发展)。2020年对于远程医疗来说是重要的一年,Teladoc收购了Livongo,并以$30B +的企业价值和超过$1.5B的ARR增长大于100%,创建了数字医疗领域最强大的品牌。

很高兴看到崭新的数字化健康体验浪潮。

5.金俊, Facebook数据工程师

 

即将到来的2021年最令我兴奋的技术是Apache Airflow 2.0版本。自2015年首次发布以来,Apache Airflow一直是数据工程中最受欢迎的工作流管理系统之一。

它的巨大成功可以归因于:它允许将工作流编写为代码,简单但有效的GUI,并且在构造数据管道方面具有通用的灵活性。借助新的2.0版本,工作流管理系统将变得更好。

Airflow 2.0将具有许多令人印象深刻的附加功能,包括完全受支持的综合REST API,TaskFlow API和任务组。它还提供了许多改进,包括简化的KubernetesExecutor,低延迟的调度程序以及更加直观的GUI。

6.迈克尔·米兰迪,土星云战略主管

 

我很希望在2021年看到几种技术趋势,包括GPU计算在数据科学和机器学习中的日益普及。这种转变是由性能优先驱动的,以及通过开源项目RAPIDS使得易于使用成为可能。如果你不熟悉RAPIDS,可以使用RAPIDS在NVIDIA硬件上执行Python代码。

该团队于今年早些时候发布了行业标准的大数据分析基准测试结果,其表现要高出近20倍!有趣的是,这些基准测试不仅展示了GPU计算对数据科学工作负载的强大功能,而且还展示了其加速传统数据工程ETL工作的能力。

这会导致更广泛地采用Python吗?我愿意打赌,特别是随着一批新的数据科学初创公司最近发布了分布式GPU计算平台,这是一种能够以前所未有的速度启动云中GPU集群的功能。

我期待着2021年能出现更多有趣的技术突破。

责任编辑:华轩 来源: 读芯术
相关推荐

2020-12-23 07:56:13

数据科学数据工程技术

2020-12-31 06:18:08

人工智能物联网大数据

2022-11-05 20:35:44

西部数据

2021-04-01 13:53:26

深度学习大数据人工智能

2020-06-18 11:01:34

数据科学大数据人工智能

2015-06-11 10:27:29

数据科学家

2020-07-22 11:21:05

数据科学大数据分析大数据

2021-01-10 11:19:04

数据科学工具技术

2020-02-05 08:47:31

数据科学编程数据库

2021-12-09 23:16:47

数据科学数据工程机器学习

2015-10-16 09:44:51

2017-08-08 09:48:41

数据科学技术

2020-12-15 13:19:42

数据科学数据大数据

2015-10-08 10:09:42

2021-01-12 11:31:09

数据科学数据大数据

2023-06-01 12:50:48

2018-03-29 11:58:11

2022-08-15 18:11:14

西部数据

2021-05-10 11:33:11

数字化

2023-12-14 09:56:48

数据管理数据
点赞
收藏

51CTO技术栈公众号