译者 | 布加迪
审校 | 孙淑娟
现代数据堆栈(MDS)是数字颠覆者的基础。不妨以网飞(Netflix)为例。该公司开创了一种基于视频即服务的新商业模式,但其成功主要立足于实时流数据。
网飞在使用分析工具向观众推送高度相关的推荐内容。它监控实时数据,对网络性能保持持续可见性。它在同步影片和节目数据库,Elasticsearch让用户能够快速轻松地找到所寻找的内容。
这必须是实时的,必须百分之百准确。老式的提取、转换和加载(ETL)太慢了。为了满足这个需求,网飞构建了一个名为DBLog的变更数据捕获(CDC)工具,该工具可捕获MySQL、PostgreSQL及其他数据源方面的变更,然后将这些变更内容流式传输到目标数据存储系统,供搜索和分析所用。
网飞需要高可用性和实时同步,还需要尽量减少对运营数据库造成的影响。CDC以数据库日志作为输入源,按照发生的顺序将变更内容复制到目标数据库,因此它可以捕获及时出现的变更内容,而不会锁定记录或以其他方式阻碍数据源数据库。
数据可谓是网飞业务的核心,但在这方面它并非孤例。优步、亚马逊、爱彼迎和Meta等公司之所以蓬勃发展,是由于它们真正了解如何让数据为己所用。数据管理和数据分析是这些组织的战略支柱,而CDC技术对于它们能够执行核心任务起到了关键作用。
几乎所有在当今商业环境中处于领先地位的公司都是如此。如果您希望贵公司成为头部玩家,就需要更新改造并驾驭数据。竞争对手肯定已经在这么做了。
1.亚秒级集成是爱彼迎和优步的新标准
当下,卓越的客户体验(CX)需要实时数据流。爱彼迎认识到了CDC技术在为其客户和房东打造出色CX方面的价值。它也建立了自己的CDC平台,名为SpinalTap。爱彼迎的动态定价、房源可用性和预订状态要求所有系统之间具有完美的准确性和一致性。当爱彼迎客户预订房源时,他们希望工作流程非常快速,且百分之百准确。
对于优步来说,即时性可以说尤为重要。无论客户在等待乘车前往机场还是订购外卖,时间至关重要。就像网飞和爱彼迎一样,优步开发了自己的CDC平台来实时同步多个数据存储系统中的数据。同样出现了一系列共同的要求。优步需要其解决方案极其快速和容错,数据丢失为零。它还需要一种不会降低数据源数据库性能的解决方案。
2.面向普通公司的变更数据捕获
CDC再次符合要求。在过去,隔夜批处理模式ETL可能足以提供每日执行更新或运营报告。如今,实时越来越成为常态。如果说信息就是力量,那么即时获取信息就是超强力量。
这就是为什么CDC迅速成为了现代数据堆栈的基本要求。不过,网飞、爱彼迎和优步等大公司拥有构建定制CDC平台的资源,那其他普通公司呢?
现成的CDC解决方案在填补这一空白,提供相同的低延迟、高质量流管道,无需从头开始构建。
遗憾的是,它们并非天生一样。大多数公司运营一系列系统来处理企业资源规划(ERP)、客户关系管理(CRM)或专门的运营职能(比如采购或人力资源)。
这些系统在不同的数据库平台上运行,使用不一致的数据模型。如果一家公司运营大型机系统,它很可能处理难以与现代关系数据配合使用的怪僻数据结构。
这使得异构集成变得尤为重要。这需要连接到多个数据源和目标,包括SAP、Oracle、IBM DB2和Salesforce等事务数据库。这意味着向Databricks、Kafka、Snowflake、Amazon DocumentDB和Azure Synapse Analytics等平台提供实时流数据。
3.实时CDC自动化
为了推动人工智能(AI)和高级分析,企业需要将数据推送到一个通用的MDS平台。这意味着从各种数据源获取信息,将其转换成适用于分析的统一模型,并将其交付到基于云的现代数据平台。
变更数据捕获技术是数据驱动价值链中的关键环节——先通过自动从数据源系统提取数据,然后将其动态转换并交付到云数据平台。实时CDC自动化确保合适的信息立即到达合适的位置。
由于只关注已变更的数据,流式CDC管道与过去的批处理模式操作相比有巨大的效率优势。最好的CDC解决方案不到30分钟就可以将100多TB的数据从数据源传送到目标,并实现零数据丢失。
向云计算的转变仍在进行。尤其是云分析工具为真正了解数据有望转变业务的公司提供了明显的优势。各行各业的领先公司在围绕数据分析工具调整其战略愿景。它们正在将与客户的互动实现数字化,使用算法来研究数据、提取见解并采取行动。AI和机器学习在摄取大量信息、发现关联并识别异常。
无论您在数字化颠覆方面处于领先,还是只是紧跟潮流,CDC技术都将在使现代数据堆栈成为现实、向数字化转型敞开大门方面发挥关键作用。
原文链接:
https://venturebeat.com/data-infrastructure/change-data-capture-the-critical-link-for-airbnb-netflix-and-uber/