当前位置: 首页 » 资讯 » 新科技 » 正文

亚马逊云科技-单体数据服务迈向现代分布式数据架构

IP属地 中国·北京 编辑:钟景轩 时间:2025-07-20 04:05:07

关键字: [亚马逊云科技, Data Mesh, 数据网格实践, 现代分布式架构, 单体数据服务, 亚马逊云科技, 数据治理实践]

导读

在本次演讲中,亚马逊云科技行业解决方案架构师刘勇先生介绍了从单体数据服务迈向现代分布式数据网格的实践。他阐述了数据网格的4个原则:数据领域所有权去中心化、以产品化思维管理数据、自助式协作平台以及联邦治理。他还分享了如何利用亚马逊云服务(如Amazon Lake Formation、Amazon Glue、Amazon Athena等)在亚马逊云科技上实践数据网格架构,并探讨了数据网格与生成式人工智能的融合前景。通过数据网格,企业可以实现数据的分布式协作、自助式访问和治理,从而更好地发掘数据价值。

演讲精华

以下是小编为您整理的本次演讲的精华。

在当今数据时代,数据已经成为企业的核心资产之一。然而,如何高效地管理和利用这些数据资产,并从中获取价值,一直是企业面临的重大挑战。亚马逊云科技行业解决方案架构师刘勇在本次分享中,全面阐述了亚马逊云科技在数据治理和现代分布式数据架构方面的实践和见解。

数据治理是对数据资产进行全方位的管理和有效的控制,包括计划、监控和执行,确保数据资产被科学规范地管理和使用。在数据治理的众多环节中,数据战略、数据组织和数据合规是三个最为关键的部分。数据战略定义了数据管理的愿景、目标和政策,需要与企业的业务目标保持一致;数据组织则规定了数据如何在组织内部进行协作,是分散式管理还是集中管理,以及相关的角色、职责和流程;而数据合规作为数据管理的基础,使数据使用符合法律监管政策的要求,降低风险、增加信任。

在亚马逊云上,数据治理需要技术、流程和人员三者的融合。数据治理应该贯穿数据采集、存储、分析和消费的整个生命周期,从构建数据平台之初就应该考虑数据治理的问题。虽然亚马逊云没有一个专门的“数据治理”服务,但它提供了多种工具和服务来满足数据治理的不同需求,例如Glue Data Catalog用于数据编目、Amazon DataZone用于数据协作、Amazon Lake Formation用于数据权限管理、Amazon CloudWatch和CloudTrail用于数据访问审计、Amazon QuickSight用于报表等。

其中,Amazon Lake Formation和Amazon DataZone是两个非常重要的数据治理服务。Amazon Lake Formation可以简化权限管理、提供细粒度的访问控制,能够对数据库、表、行、列乃至单元格级别的数据进行权限控制,确保安全与治理,并提供全面的数据访问审计功能,能够监控数据访问,确保合规。Amazon DataZone则通过分布式的数据协作方式,内建数据治理功能,打破组织边界、释放数据价值,提供数据访问和治理、连接数据相关人员、自动化发现和元数据管理等能力。Amazon DataZone是一项相对新兴的服务,在2021年10月才正式发布,因此可能许多人还不太熟悉。

回顾数据平台的演进历程,第一代数据平台主要使用数据库和数据仓库存储数据,构建商业智能报表系统。然而,这种架构存在收费昂贵、难以应对大数据、数据无法共享形成数据孤岛等问题。第二代数据平台利用大数据技术如Hadoop(发布于2006年左右)和Spark(发布于2010年),构建中心化的数据湖,认为集中数据才能发掘价值。但在实践过程中,这种单体化、集中化的架构暴露出诸多问题,如组织内部的摩擦加剧、数据所有权不明确、与业务脱节等。第三代数据平台在第二代的基础上增加了实时流处理能力,拥抱云原生基础设施,但仍然无法彻底解决单体化、集中化的根本性问题。

为了解决这些问题,现代分布式数据架构——数据网格(DataMesh)应运而生,该概念由Zhamak Dehghani于2019年提出。数据网格的四大原则是:数据领域所有权、数据即产品、自助式平台和联邦治理。数据领域所有权意味着数据所有权属于分布式的领域,而不是集中在某个中心化的团队;数据即产品则要求以产品化的思维去管理数据,明确数据的所有者、文档和质量标准;自助式平台使数据生产者和消费者能够自助式地发现、访问数据;联邦治理则体现在既有全局的标准,又有本地的自治。

在数据网格架构中,通用数据平台只提供存储、管道、目录访问等基础功能,而不涉及任何业务相关的操作。每个领域由跨职能团队组成,包括大数据工程师和业务人员,根据自身业务需求选择合适的技术stack构建数据产品。不同领域之间可以链接、相互使用对方的数据产品,在统一的治理和开放标准下实现数据协作。

在亚马逊云上实践数据网格的难易程度因原则而异。数据领域所有权最为困难,需要对组织结构进行调整;数据即产品相对容易,只需制定相应的标准;自助式平台虽然困难,但亚马逊云提供了丰富的工具和服务来支持;联邦治理的难易程度则取决于数据领域所有权的落实情况。

一旦数据网格得以实现,数据团队将掌控数据的整个生命周期,对数据质量进行控制,制定本地治理标准;数据生产者只需关注生产数据产品,并发布到管理中心;数据消费者可以自助式地查找、订阅和消费所需数据;而中心化平台将提供统一的数据目录、监控、发现等公共功能。

在亚马逊云上构建数据网格的基本思路是,将数据生产者、中心治理团队和数据消费者分布在不同的云账号中。假设有n个生产者,就将它们分布在n个不同的云账号中,中心治理账号保持统一。数据生产者在自己的账号中构建数据资产,并将元数据共享到中央治理账号;数据消费者则在中央账号中查询、订阅并访问所需数据,而数据本身仍存储在生产者端,消费者只是读取不复制。

构建数据网格需要使用多种亚马逊云服务,包括S3、Glue、Klog、Lake Formation、DataZone(生产者)、DataZone、Lake Formation、Glue Catalog、CloudWatch/CloudTrail(中心治理)、DataZone、Athena、Redshift、SageMaker、QuickSight(消费者)等。

可以通过两种方式在亚马逊云上构建数据网格:一是基于S3数据湖,生产者将数据存储在S3,通过Glue Catalog构建原数据(raw data),发布到DataZone形成数据产品,消费者使用Athena消费数据;二是基于Redshift数据仓库,生产者将数据存储为Redshift表格,在中央治理账号将这些表格发布为数据资产形成数据产品,消费者在自己的Redshift账号中订阅访问。两种方式的共同点是,数据只存在生产者端,消费者只能读取不能复制数据,充分利用了云技术的优势。

除了数据网格本身,刘勇还探讨了数据网格与生成式人工智能(Generative AI)的融合前景。两者融合的三个主要点是:智能数据发现(如自然语言查找、AI推荐和自动标签生成)、智能数据处理(如AI生成处理管道、数据质量检测、智能数据映射)和智能分析洞察(如自然语言查询、自动报表生成、预测分析)。

在技术架构层面,生成式AI应用层将构建于数据产品层和数据治理层(DataZone、Lake Formation)之上,利用数据产品进行模型训练、构建知识库,并通过API服务的形式对外提供数据资源。数据流程也将新增“数据产品化”这一关键环节,强调数据的产品化思维,并按领域进行分工,最终实现智能化的数据消费。

总的来说,数据网格体现了四大原则:数据领域所有权、数据即产品、自助式协作平台和联邦治理。亚马逊DataZone服务是实现数据网格的关键所在,它简化了数据网格的构建过程。数据网格与生成式AI的融合,则有望进一步提升企业的数据能力,释放数据价值。亚马逊云科技在数据治理和现代分布式数据架构方面的理念和实践,为企业构建现代化数据平台提供了有价值的指引。从单体数据服务迈向分布式数据网格,再融合生成式AI,必将助力企业全面拥抱数据时代,实现数据驱动的业务创新。

下面是一些演讲现场的精彩瞬间:

Liu Yong, an 亚马逊云科技 Solutions Architect, introduces the concept of “data mesh” and asks the audience if they have heard of it before.

The speaker discusses the second-generation data platform built using big data technologies like Hadoop and Spark, aimed at centralizing data to unlock its value, but acknowledges that this approach has faced challenges in practice.

The speaker discusses the challenges of coordinating different teams across departments and locations for a centralized big data operation, leading to potential inefficiencies and difficulties in troubleshooting issues.

The speaker highlights the ambiguity surrounding data ownership and control in a centralized big data team, leading to potential conflicts and lack of cooperation between business units and the centralized team.

A comprehensive overview of the various Amazon Web Services services used to build a data mesh architecture, including data storage, data processing, data governance, and data consumption services.

A layered architecture showcasing the integration of data products, data governance, and generative AI applications built upon the existing data platform in Shenzhen.

亚马逊云服务 DataZone 帮助实现了数据网格的4个原则:数据领域所有权、产品化管理、自助协作平台和联邦治理,简化了数据网格的实现。

总结

亚马逊云科技正在推动数据架构的现代化转型,从传统的单体数据服务向分布式数据网格(Data Mesh)架构迈进。这种新型架构旨在解决中心化数据平台存在的诸多挑战,如数据孤岛、效率低下、协作困难等。数据网格架构建立在四大原则之上:数据领域所有权去中心化、以产品化思维管理数据、自助式协作平台、联邦治理模式。

在亚马逊云上,可通过多账号模式将数据生产者、消费者和中央治理分离,利用亚马逊云科技服务如DataZone、LakeFormation、Glue等构建数据网格。数据生产者在自身账号内构建数据产品,并发布到中央目录;消费者则可自助式发现和订阅所需数据。整个过程中,数据无需复制,只需共享访问权限,提高效率且降低成本。

此外,数据网格与生成式人工智能(Generative AI)的融合,将进一步提升数据发现、处理和分析的智能化水平。通过自然语言查询、AI推荐、自动化报表等,数据价值可以被更好地挖掘和利用。亚马逊云为企业提供了实现现代分布式数据架构的完整解决方案,助力数据驱动的业务创新。

我们正处在Agentic AI爆发前夜。2025亚马逊云科技中国峰会提出,企业要从“成本优化”转向“创新驱动”,通过完善的数据战略和AI云服务,把握全球化机遇。亚马逊将投入1000亿美元在AI算力、云基础设施等领域,通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验,助力企业在AI时代突破。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。