怎么实现“数据找人而不是人找数据”的梦想?“数据编织”(Data Fabric)悄然登场。2018年“Data Fabric”首次出现在Gartner的十大数据与分析技术趋势中,以后每年它都会出现在其中。10年前大数据概念在国外兴起后,不到3年就被中国用户广泛接受,而今天大多数中国厂商则是按兵不动,这又是为何呢?

Data Fabric的中文名字到底怎么翻译,IBM公司与Gartner有了分歧。IBM大中华区科技事业部云计算与认知软件部数据与人工智能信息架构产品总监王积杰将其称为“数据经纬”,而Gartner高级研究总监孙鑫认为“数据编织”更为合适,因为他认为数据编织更凸显“动态”。

孙鑫在接受记者采访时表示,Data Fabric不是一个产品而是一种设计理念,是利用AI、机器学习和数据科学的功能,访问数据或支持数据动态整合,以发现可用数据之间独特的、与业务相关的关系。

“我们可以把Data Fabric想象成一张虚拟的网,这张网并不能理解为一种点对点连接,而是一种虚拟连接,每个节点都可以是不同的数据系统,不同系统上的数据在网上都可以迅速被定位和找到。Data Fabric的主要功能是把正确的数据,在正确的时间里,给到正确的人。通过Data Fabric, 对的人可以从对的地点,在对的时间里,获取对的数据。”王积杰对记者说。

为什么Data Fabric将会成为一种趋势,为什么越来越多的企业将在未来采用这样的方式进行部署?王积杰谈及了数据利用结构模式的变化。传统IT时代,无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代,其实数据利用都是集中式的架构,把数据收集到一起,让企业的数据分析师、BI(商业智能)分析师对数据进行分析。但在云计算时代,用户业务部署在多云的环境下,要想将分布在不同云上的数据集中在一起成本很高,也很费劲,于是采用去中心化、分布式的数据网络架构就成为了必然选择。

Gartner认为,随着数据的日益复杂以及数字化业务的加速发展,Data Fabric已成为支持组装式数据分析及其各种组件的基础架构。由于在技术设计上能够使用/重复使用及组合不同的数据集成方式,Data Fabric可缩短30%的集成设计时间、30%的部署时间和70%的维护时间。IBM 7月发布的Cloud Pak for Data4.0的软件组合增加了智能化的Data Fabric功能,其中AutoSQL(结构化查询语言),可以通过AI来自动访问、整合和管理数据,可以帮助客户以8倍的速度、不到一半的成本,获得分布式查询的答案。

要实现“数据找人而不是人找数据”,Data Fabric究竟如何“编织”?

数据编织是一种新的设计理念,它是数据管理、数据收集理念的变化,与数据仓库、数据湖等技术并不是替代的关系,既可以运用现有的数据中枢、数据湖和数据仓库的技术和技能,也可以在未来加入新的方法和工具。

从Data Fabric推动的难点来看,“一是理念层面的难题,中国的用户还没有意识到,数据利用和使用的方式已经发生改变,传统的集中收集再利用的方式已经不能满足需要。二是目前很多企业对于元数据不够重视。三是从人的角度看,需要提升企业数据工程师对知识图谱、图语言、图建模等数据工具的能力培养。四是数据编织的实现并不是找到一个厂商就能够完成,它是一个旅程,需要分几步走。”孙鑫认为,从用户的角度看,率先采用Data Fabric的是金融电信行业以及数据应用场景比较复杂的用户。

国内厂商为何按兵不动?

这与国内大数据厂商的分布有关。“国内有很多做数据库的企业,也有很多做BI(商业智能)的企业,但做数据整合的企业很少。而事实上,在国外做数据编织的往往是数据整合、数据虚拟化的厂商,这就很好理解为什么国内的大数据厂商迟迟未入场Data Fabric,因为这类企业就不多。” 孙鑫告诉记者说。

“Data Fabric这个概念在国际上已经热起来了,但目前国内的IT用户知道的人还不多。10年前大数据的概念在国外兴起后,不到三年就被中国用户广泛接受,未来这个 Data Fabric概念,中国将需要多久接受并加以应用呢?等待时间给出答案。”王积杰说。(记者 李佳师)