在近日51CTO主办的MetaCon元宇宙技术大会上,欧科云链区块链资深研究员许乾带来了主题演讲《区块链大数据的探索与应用》,分享了他对行业的最新观点和思考。
许乾认为,区块链大数据的发展进入到需求迸发的阶段,区块链与元宇宙的结合,促使区块链大数据公司需要接纳更多的交互内容。此外,许乾还介绍了区块链大数据具体的落地应用情况。
本文对许乾演讲的精彩内容进行了整理,希望能够对大家有所帮助。
欧科云链是全球领先的区块链企业,成立于2013年,也是中国本土成立时间最早的区块链企业之一。公司致力于区块链技术的研发与商用,现已发展成全球化的大型区块链技术与服务提供商,旗下产品OKLink提供精准的链上数据分析解决方案。今天我们重点讲解一下区块链大数据的发展历程。
区块链大数据的发展:数据激增、需求迸发
从公司层面来看,区块链大数据业务的发展有四个重要的时间节点。2019年8月,欧科云链开始布局公有链的区块链浏览器的相关业务,包括区块解析、交易解析、地址详情;2020年4月,开始开展多维度链上数据统计业务,包括富豪地址、算力分析、实体标签;2020年9月,推出了链上天眼与链上大师的产品雏形,包括链上监控、图谱分析、智能合约解析;2021年7月,欧科云链从整链数据转到业务层数据,由区块链基础设施服务逐步转向区块链链上数据治理。
从数据量级来看,目前欧科云链已经支持10条以上公链的全节点解析,而且是全量解析;ES、Hbase、图库、数仓等数据库共有超过100TB数据;纯粹链上的交易数据167亿条;地址维度15亿条;地址标签数据超过1亿条。
需要指出的是,区块链大数据主要有以下四大特点:
1、巨大的数据量
从上述的数据中可以看出,该业务的数据量非常庞大。集中储存、集中计算已经无法处理巨大的数据量。
2、多结构化数据
自从元宇宙火爆之后,区块链与元宇宙的结合,促使区块链大数据公司需要接纳关于图片、视频和各类文档的交互,超出了传统的数据认知范围。
3、增长速度很快
目前以以太坊为首的EVM公链扩充之后,新的公链的速度都非常快,存储的数据量也会非常大。海量数据需要及时有效分析,用户基数庞大,设备数量众多,实时海量,数据指数级别增长,这需要我们进行整体的重构。
4、价值密度低
单条数据其实并无太多价值,但庞大的数据量却蕴含着巨大财富。如果现在想把元宇宙的业务信息对外展示,就需要拥有更深入的数据解析、挖掘和分析能力。此时区块链数据的开采难度和成本还是非常高的。
上图是行业中的一些头部公司的融资情况。在去年链上数据迸发时,都已经完成千万级别美元的融资,整体估值已经上亿。这表明整个赛道去年被VC所关注,进入到需求迸发的阶段。
下面举一个例子,以标签业务的发展和思考,以点带面地讲述大数据行业的发展。
我们对标签进行了分级:一级标签是行业、领域的分类;二级标签是单位、机构组织等具体名称;三级标签是具体地址类别。
自2020年末伊始,基于智能合约体系的业务发展,呈现出爆发的态势。大量的金融创新都在区块链的体系之上进行运转,包括银行类、交易类的业务,以及金融衍生品的业务。这些业务的发展也具备了分析的价值。
比如现在有一个地址,能够通过跟踪它去发现能够盈利的信息,这个地址的最终分析哪怕关注不到某一个人,也是非常有价值的。因为只要跟着它进行操作,你就可以赚到钱,至于这个人到底是谁,你已经不关注了。
这类标签就是比较著名Smart Money。Smart Money翻译过来称作聪钱。跟着聪明的钱,你去投资相同的东西,关注它的进出,大概率你也可以获得不错的收益。在传统市场里面,针对聪钱的分析,都是非常稀有的信息,需要有自己的分析师、甚至是一套系统才能进行分析。但是得益于区块链链上公开信息的设计,只要你有数据的存储、分析能力,就可以用更低廉的成本去挖掘。
另一个备受关注的标签是消息灵通者。比如某个地址在几天前购入了某项资产,此后该资产受事件影响出现非常大的涨幅。类似这样的事件偶然发生几次之后,我们就可以给这个地址打上“消息灵通者”的标签,证明其可能会先于市场知道会涨的消息。虽然不知道它是谁,但是从链上的行为来看,它都做出了盈利的结果。这类标签被定义为行为标签,而不是实体标签的概念。
还有一类标签叫做属性标签,基于地址的链上属性(智能合约代码,创建时间,创建者等)分析生产的标签,用于描述地址本身的特性,比如黑客攻击事件。如何防范,提前预知攻击也是我们需要思考的领域,此时我们就必然会关注到智能合约源码。我们发现一些头部的项目都会公开他们自己的合约代码,当然也有很多反编译的手段,让一些代码有反编译的效果。然后我们会顺着代码去做分析,比如找出一些高危的函数,或者是高危的编码特征,运用智能合约标上它是特权函数或是特权地址的属性。拥有特权函数地址的属性,可能就会产生高危的风险。这些本质上是针对链上的智能合约源码,针对链上属性去做补充的。这类是属性标签。
目前打标签主要有三种方式。一是人工收录,比如针对暗网地址的收录,会有人工收集的过程;二是模型扩展,根据链上的行为特征去归纳总结出扩展方式,并把扩展方式交给指定的输入员,再根据链上数据的解析,他可以完成动态扩充;三是人工智能,利用机器学习去动态创建特征工程,然后按照算法自动寻找潜在的标签。
欧科云链的探索:洞悉链上数据 守护链上安全
针对大数据的应用,我们也进行了许多探索。
首先是链上天眼。地图上的数字就是真实发生在国内的数字货币案件的数量,颜色越深的地方,安全等级越高。从图中可以看出案件的分布情况和涉案金额。
目前,全球区块链资产犯罪非常严重,诈骗是主要的犯罪形式,其次盗窃、传销和洗钱。具体来看,2021年全球区块链资产犯罪的涉案金额高达140亿美元,同比增长79%;区块链资产诈骗案件造成损失78亿美元,同比增长82%;黑客盗窃案件造成损失32亿美元,同比增长516%;DeFi犯罪损失超120亿美元,同比增长6倍。相关的涉案金额其实是非常惊人的。
与此同时,我国的执法部门在区块链资产犯罪案件的取证分析过程中也遇到了技术瓶颈:一是区块链资产种类多、交易量大,24小时不间断交易,抓取和分析的工作量大;二是区块链资产交易 APP、PC 应用种类多,取证和调证冻结难;三是转账链路复杂,链上身份与现实身份无法对应;四是区块链项目代码质量参差不齐,漏洞较多,常被黑客和具有恶意的内部人员轻易利用;五是扣押的区块链资产无法合规托管、处置。
因此,基于前述的关于标签的建设,以及全量数据的统计、搜集和计算能力,我们推出了一款针对链上资产追踪的产品——链上天眼。
通过链上天眼,可以全方位展示某一链上地址的生命周期行为及其特点,通过地址研判,自主查询资产的走向和链路,确定资产的来源流向;通过数据挖掘对比,对非标签化数据进行二次碰撞,找到涉案地址与潜在特定关联人员地址,以点带面;通过大数据可视化形式,实时展现全国各地数字资产案件的总览情况。
对于像博彩平台、虚假交易所、钓鱼网站等常见类型的案件,结合在上百起案件中所积累的分析研判经验,通过对技战法的专业建模,实现了对平台地址结构的自动化挖掘,以点带面,进而找到平台资产的流转情况、沉淀资产的藏匿之处。同时,根据所挖掘出来的充提币地址以及平台的大地址,快速掌握对应平台的涉案人数以及案件金额等情况。
接下来再简单介绍一下链上大师的业务。结合OKLink蜂巢架构的核心底层技术,基于插拔式架构的扩展,利用OLAP数据库进行离线+实时分析,使用预计算方案,满足链上数据全方位的多维度指标输出。链上大师能提供以下功能:一是数据监控,第一时间获悉数据异动,及时掌握市场变化;二是借助组合式工具包,用户可进行多组数据复合对比分析,DIY指标和数据看板;三是导航+搜索+筛选,方便快捷查找所需数据指标、精准定位时间周期;四是自定义看板,将个人常用指标添加收藏、方便查看,满足用户的差异化需求。
以上就是我对区块链大数据的思考和探索,希望能对大家有所帮助!谢谢!
在本次MetaCon元宇宙技术大会上,还有很多专家学者也做了相关主题演讲,点击进入官网,了解更多元宇宙技术精彩内容!