DataWorks ：Data+AI 一体化开发实战图谱

在数字经济时代，企业正面临数据规模指数级增长与 AI 应用场景爆发式增长的双重挑战，企业数据工程师也面临着双重挑战：既要应对PB级数据处理需求，又要驾驭AI工程化落地的复杂性。

阿里云 DataWorks 作为国内领先的一站式智能数据开发治理平台，内置阿里巴巴十余年大数据建设方法论，为数据仓库、数据湖、OpenLake 湖仓一体数据架构提供 Data+AI 数据架构开发、数据分析与主动式数据资产治理服务。通过数据开发 Data Studio 个人开发环境实例支持 Python 开发、Notebook 分析与 Git 集成，同时支持丰富多样的插件生态，实现了实时离线一体化、湖仓一体化、大数据AI一体化，助力“Data+AI”全生命周期的数据管理。

自2009年起，DataWorks 不断对阿里巴巴数据体系进行产品化沉淀，服务于政务、金融、零售、互联网、汽车、制造等行业，使数以万计的客户信赖并选择 DataWorks 进行数字化升级和价值创造。

DataWorks 数据开发核心能力全景图

一、AI 原生开发环境

1. 智能算力调度

支持 CPU/GPU 混合资源池化调度：DataWorks Serverless 资源组支持配置 CPU 类型和 GPU 类型的资源。以免运维、按需付费、弹性伸缩的 Serverless 架构，将大数据处理与 AI 开发能力无缝融合。开发者在创建个人开发环境时，可以按需选择个人开发环境实例的资源规格，以支持进行高性能的计算工作。

2. 全栈开发支持

深度集成阿里云 PAI-DSW，提供 AI 原生的 Python 开发环境：在个人开发环境下，Data Studio 支持 Python 语言的智能生成、一键纠错、注释生成及代码解释等能力，开发效率翻倍，同时支持 Python 的可视化断点调试、代码即时运行以及发布到调度系统，实现了 Python 的全流程开发闭环。

3. Notebook 交互式编程

提供交互式、灵活且可复用的数据处理和分析环境 Notebook：增强了数据开发与分析过程中的直观性、模块化和交互性，帮助您更轻松地进行数据处理、探索、可视化和模型构建。

4. 跨域智能编排

深度集成阿里云人工智能平台 PAI：数据开发 Data Studio 支持 PAI Flow 节点，突破性实现可视化通过拖拽式编排大数据算子服务来构建 PAI Flow 节点，创新打造可无缝衔接 MaxCompute、Hologres、PAI Flow 节点等的 WorkFlow，通过统一编排，打通数据处理与模型训练双闭环，自动生成全域数据血缘图谱，完整覆盖从特征工程到模型部署的智能链路。

二、智能开发矩阵

DataWorks Copilot，作为一站式智能数据开发治理平台 DataWorks 的智能助手，借助AI推理和自然语言处理能力，在代码开发场景下，帮助开发者根据自然语言快速完成多种代码相关操作，包括 SQL/Python 代码的生成、续写、改写、优化、解释及代码纠错/测试用例生成等功能。作为数据开发的智能引擎，能够根据上下文快速理解业务需求，在企业专属领域知识库的加持下，DataWorks Copilot 让开发者能够轻松、高效、便捷地完成数据 ETL 及数据分析工作，节省时间和精力，据调研统计，DataWorks Copilot 可平均为数据开发和分析工作效率提升35%。

代码补全

DataWorks Copilot 代码补全能力，可对您正在编写的 SQL 进行智能代码补全。

代码生成

您可通过自然语言表达您的业务需求，DataWorks Copilot 会将自然语言指令自动转换成 SQL/Python 语句。

代码改写

您可通过自然语言对已有代码进行修改，只需要用自然语言说出您的要求，DataWorks Copilot 就会对指定的代码进行改写；

代码纠错

在 DataWorks 中，在代码执行前，您可以主动对已有代码进行错误检查；在代码运行出错后，也可以通过一键纠错，发起对代码错误的纠正。DataWorks Copilot 会告诉您当前代码运行出错的原因以及修正后的代码。

代码解释

DataWorks Copilot 可对您指定的代码内容进行解释，提升代码的可读性，方便您快速学习和理解代码。

生成注释

您可以对指定的代码生成注释，提升代码的完整性及可读性。

代码问答

您可以用自然语言提出对 SQL 语法或者 MaxCompute 函数的相关问题，DataWorks Copilot 会给出解释和用法示例，帮助您加深对 SQL 语法及函数的理解。

DataWorks Copilot 在官方默认的模型基础上，深度对接 DeepSeek-R1 系列模型，支持用户在 Copilot Chat 对话时，自由选择所需模型。

以下示例为在 DeepSeek-R1 系列模型的加持下，DataWorks Copilot 新增实现的 SQL 优化与 SQL 测试功能。

代码优化

在 DataWorks Copilot Chat 窗口中，您可以对指定的代码发起 SQL 优化，如引入JOIN结合多表等方式简化代码逻辑，提升代码运行效率，一定程度降低数据库的负载。

代码测试

在DataWorks Copilot Chat 窗口中，您可以对指定的代码生成测试用例。DataWorks Copilot 会为您生成完整的代码测试报告，包含单元测试、代码性能、边界条件验证等多角度，并生成测试代码，您可据此逐步验证任务代码的每个部分是否按预期工作。

三、Agent智能应用

DataWorks Copilot 同时提供覆盖数据集成、数据开发、数据分析和数据治理等全链路的 AI Agent 服务，为开发者和企业用户提供智能化产品体验，以高效完成 DataWorks 产品操作。

1. AI 可视化建表

在Data Studio-数据目录中，借助DataWorks Copilot建表助手，您只需输入表名关键字即可完成表的创建。也可一键触发，智能推荐字段名称和字段描述的补全。

2. 数据开发 Agent

在 Data Studio-数据开发中，借助 DataWorks Copilot 发布助手，您可一键生成上线发布描述，提高发布效率。

3. 查询结果可视化图表及见解生成

在 DataWorks-数据开发/数据分析中，借助 DataWorks Copilot 智能图表助手，您可一键生成基于查询结果的可视化图表及数据见解。

4. 智能数据洞察

DataWorks 数据洞察能够基于 AI 模型计算，智能分析海量数据的特征、分布、异常、关联及趋势，高效生成数据见解和可视化图表。您可以使用数据洞察了解数据分布，创建数据卡片，并组合成数据报告。

5. 智能诊断专家

DataWorks 运维中心的智能诊断正式对接 Qwen、DeepSeek-R1（671B）模型。当任务运行异常时，您只需点击运行诊断，大模型即可秒级提取日志中的关键信息、提供错误分析、解决建议，并推荐错误修复的快捷操作，让 AI 成为您的运维助手。 DataWorks ：Data+AI 一体化开发实战图谱

6. 数据质量规则

DataWorks 的数据质量规则模板可以帮助用户建设数据质量，在离线表上定义相关的规则。为优化手动配置规则的工作量，DataWorks 的智能助手 DataWorks Copilot 推出了数据质量规则推荐功能，您可以使用这一功能，自动生成合适的数据质量规则，减少手动配置规则的时间和复杂性，提升数据质量工作效率，一键优化对核心表的数据质量保障。

智能推荐数据质量规则：用户可以通过一键唤起 Copilot 的能力，基于 DataWorks 中完整的元数据信息，快速生成适用于特定数据表或业务场景的数据质量规则
支持多种数据源类型：该功能支持常见的大数据引擎（如 MaxCompute、E-MapReduce、Hologres 等），并能够根据不同的数据源特性生成适配的规则
多维度质量校验：推荐的规则覆盖数据质量的多个维度，包括完整性、准确性、有效性、一致性、唯一性和及时性，确保全面监控数据问题

7. 数据服务 API

DataWorks 数据服务能够借助 Copilot 智能助手进行快捷 API 封装，极速定义请求参数和返回参数。

{{userData.name}}已认证