数据团队应采用智能体的 12 个领域

04-30 23:56

数据团队应采用智能体的 12 个领域

齿轮学者

概述

在构建并部署DAHAE（一个基于 Slack 的 NL2SQL AI 代理）和DABI（一个生成式 BI 工具），整个过程中，我脑海中一直萦绕着一个问题：

“在数据团队所做的所有工作中，采用人工智能代理会在哪些方面产生最大的影响？”

这不仅仅是“我们应该引入哪种工具”的问题，而是重新审视数据团队在组织中扮演的角色及其贡献，并探索人工智能能在多大程度上扩展这一角色。

在这篇文章中，我将分享数据团队可以采用智能体人工智能的12个领域，这些内容是我过去几周一直在思考的。对于每个领域，我首先明确目标——为什么要在这里引入人工智能？ ——然后提出具体的想法以及它们所需的构建模块（技能、智能体、多级控制点、资源）。

为什么我们现在需要这张地图

采用智能体人工智能不仅仅是“使用 ChatGPT 或 Claude”。它

需要将团队积累的领域知识和惯例编码成技能和智能体，并将它们转化为整个团队的共享资产。

这一点对数据团队尤其重要，原因有以下几点：

数据团队的大部分工作都遵循重复的模式（编写 DAG、构建 dbt 模型、验证数据质量、创建仪表板等等）。
然而，这种重复中蕴含着团队积累的判断和惯例（命名规则、测试策略、增量策略设计等）。
如果我们不将这种判断纳入考量，内部沟通成本就永远不会消失，团队的增长将与个人投入的时间呈线性增长。
此外，虽然产品团队有产品需求文档 (PRD) 作为共享的真实来源，但数据团队却没有——这使得透明地分享我们判断和惯例背后的理由变得更加重要。

人工智能代理打破了这种循环。当判断力被编码成技能，并且代理能够自主调用这些技能时，团队的专业知识不再仅仅存在于个体之中，而是开始在系统中积累。

完整地图概览

该地图分为四个轴：

数据管道轴（EL、转换、事件收集）：数据如何到达和成形。
质量与元数据轴（数据质量、目录）：确保所接收数据的可信度。
数据利用轴（BI、分析、DS、反向 ETL）：数据转化为价值并到达用户。
组织基础轴（基础设施/成本、入职、治理）：支撑一切的基础。

让我逐一介绍一下各个区域。

1. EL（提取和加载）

🎯 目标：安全、可靠且低成本地摄取源数据

数据摄取面临三大核心风险：个人身份信息泄露、源模式变更导致的管道中断，以及每次添加新源时都需要重复的工程工作。人工智能代理可以在所有这三个环节进行干预。

自动个人身份信息 (PII) 检测和强制脱敏→ (GCP 敏感数据保护 / AWS Macie / AWS Comprehend NER、PII 脱敏技能、Airflow Operator)
AI 数据摄取摘要：将长文本列的摘要版本与原始文本一起存储 → （摘要技能、Anthropic API、BigQuery 写入操作符）
自动检测并响应源架构变更：检测列的添加/删除/类型变更 → 分析下游影响 + 自动生成 PR → （架构差异技能、血缘分析代理、DataHub MCP、GitHub MCP）
源系统文档代理：通过结合应用程序代码和数据示例来填充空白表注释 → （元数据增强代理、BigQuery MCP、GitHub MCP、DataHub MCP）
自动生成 API 源连接器：OpenAPI 规范 → Airflow DAG + 模式定义 → （OpenAPI 解析器技能、DAG 生成器技能、Airflow MCP）
摄取成本优化代理：推荐候选对象从完全刷新迁移到增量刷新 → （查询模式分析代理、BigQuery INFORMATION_SCHEMA MCP、dbt MCP）

2. T（变换）

🎯 目标：构建人人都能信赖、质量始终如一、速度更快的数据模型

数据团队在数据转换环节花费的时间最多，同时也积累了最多的隐性约定。诸如“此列采用蛇形命名法”、“事实表遵循此结构”、“增量更新使用合并策略”之类的决策分散在团队成员的脑海中。将这些约定编码为技能，可以确保每个 PR 的一致性。

查询规范→ (SQL Linter 技能、PR 审核代理、GitHub MCP)
命名规则→ （命名规则技能、dbt MCP、PR 审核代理）
数据完整性检查（粒度、主键、空值、依赖关系） → （数据分析技能、dbt 测试生成器技能、BigQuery MCP）
Airflow DAG 生成/审查→ （DAG 脚手架技能、DAG 审查代理、Airflow MCP）
dbt 模型重构代理：检测重复的 CTE，建议将共享逻辑提取到宏/引用中 → （SQL AST 解析技能、重构代理、dbt MCP、GitHub MCP）
自动生成 dbt 测试：根据列特征建议测试 → （列分析技能、测试生成器技能、BigQuery MCP、dbt MCP）
增量策略推荐代理→ (BigQuery 成本日志分析代理，dbt MCP)
已弃用模型检测：30 天内无任何引用的模型 → 自动生成移除 PR → （使用情况分析技能、dbt MCP、DataHub Lineage MCP）
语义层定义代理→ (dbt 模型解析器技能、MetricFlow/Cube 模式生成器技能、dbt MCP)

3. DOM（事件集合）

🎯 目标：确保事件收集的端到端可靠性——从规划、实施到验证

很少有哪个领域像事件采集这样涉及多个职能部门，而且难以保证准确性。项目经理在 Figma 中绘制屏幕截图，开发人员对数据层进行数据注入，数据团队则验证事件是否被正确捕获。要让这三者保持同步，会耗费大量时间。人工智能代理可以弥合各个步骤之间的差距。

事件和参数命名规范→ （命名验证技能、事件规范技能、Notion MCP）
Figma → 数据层注入自动化→ （Figma MCP、数据层生成器技能、前端代码生成器代理）
dataLayer → 数据质量自动化收集（手动触发） → （GA4/Firebase MCP、dataLayer 差异技能、事件质量保证代理）
端到端数据质量自动化（自动触发） → （Playwright/Puppeteer MCP、事件触发代理、GA4 DebugView API）
事件影响分析代理→ （影响分析代理、DataHub Lineage MCP、BI 工具 MCP）
事件命名规范验证→ (PR 审核代理、正则表达式验证技能、GitHub MCP)
未使用事件检测→ （事件使用情况分析技能、BigQuery MCP、DataHub MCP）

4. DQ系统

🎯 目标：在用户发现数据质量问题之前，将其及其根本原因暴露出来。

大多数团队都已设置异常警报。但这些警报通常止步于“KPI 下降 3 个标准差”。之后，需要有人介入并花费数小时来找出原因。智能代理不应止步于检测异常，而应追溯到根本原因。

基于使用情况的市场化提案：用户高频直接查询的 Bronze/Silver 表 → 自动生成提案工单 → （查询日志分析技能、BigQuery INFORMATION_SCHEMA MCP、Jira MCP、市场化提案代理）
异常检测代理：检测并进行根本原因分析（哪个维度发生了变化，哪个上游表发生了更改，向下钻取）→ （异常检测技能、根本原因分析代理、BigQuery MCP、Slack MCP）
数据新鲜度 SLA 管理→ (SLA 配置技能、新鲜度监控代理、Airflow MCP、DataHub MCP)
静默故障检测：DAG 执行成功，但行数为零或出现异常峰值 → （行数监控技能、Airflow MCP、BigQuery MCP）
自动测试失败分类：归类为“数据问题/逻辑错误/上游变更”并指定负责人 → （测试日志分类代理、dbt工件解析器技能、Jira MCP、Slack MCP）

5. 产品目录

🎯 目标：使元数据能够“自动更新”，而不是需要“手动写入”。

数据目录最大的问题在于其编写成本过高，导致目录永远无法及时更新。结果，没有人信任这些目录，也没有人使用它。代理打破了这种恶性循环。如果能够根据血缘关系和 SQL 自动生成描述，目录就会自然而然地自动填充。

Catalog-as-Code 规范生成技能→ （目录生成技能、DataHub MCP、dbt MCP）
基于血缘关系的描述生成：上游表/列规范 + SQL 转换逻辑 → 自动生成的下游列规范 → （血缘遍历代理、SQL 解析器技能、DataHub 血缘 MCP）
业务术语表同步→ （术语表同步代理、Notion MCP、DataHub MCP）
重复指标检测代理：在三个数据集市中“订单数量”定义略有不同的情况→ （语义相似性技能、DataHub MCP、dbt 语义层 MCP）
自动 PII 标记：EL 阶段的 PII 检测结果以 DataHub 标签的形式传播 → （DataHub 标签更新技能，DataHub MCP）

6. BI

🎯 目标：将仪表盘的流程从“请求→构建→等待”转变为“请求后立即显示”。

BI 团队面临的最大瓶颈是仪表盘构建队列。请求者希望快速得到答案，而数据团队却被积压的工单淹没。生成式 BI 是一种能够消除队列本身的方法。我开发 DABI 就是为了验证这个假设，结果公司里 70% 到 80% 的人都采用了它。

生成式 BI（非托管，Claude Code）：每个人在 Claude Code 中维护自己的仪表板 → （生成式 BI 技能、BigQuery MCP、DataHub MCP、图表渲染技能）
生成式 BI（托管式、按用户划分的仪表板）：自然语言文本框 → Anthropic API → 仪表板生成和共享 → （Anthropic API、BigQuery MCP、DataHub MCP、仪表板存储技能、Web 前端）
仪表盘健康检查代理：自动检测未使用的仪表盘、损坏的图表、缓慢的查询 → （BI 工具 MCP、使用日志分析技能、查询性能技能）
自动生成的洞察：打开仪表板时，AI 会显示一条评论，指出“与上周相比有 3 个显著变化” → （时间序列比较技能、叙事生成技能、BI 工具 MCP、Anthropic API）
需求 → 仪表盘规范转换： Slack 中的“帮我制作一份周报” → 指标和图表的草稿规范 → （仪表盘规范技能、Slack MCP、DataHub MCP、Anthropic API）

7. 分析

🎯 目标：帮助数据分析师从“查询编写者”转变为“问题设计者”

分析师的大量时间都花在了重复编写 SQL 语句和回复 Slack 上一些简单的临时问题上。这些时间本应该用来设计更深入的问题，并思考洞察结果对业务的影响。代理的工作首先是区分“代理可以回答的问题”和“需要分析师回答的问题”。

临时问题分类代理：将 Slack 请求分类为 (1) 可通过现有仪表板解决 / (2) 简单查询 / (3) 需要深入分析（DAHAE 的扩展）→ (问题分类代理、DataHub MCP、Slack MCP)
自动 A/B 测试分析：实验 ID → 显著性检验 + 各细分市场结果 + 解读 → （统计测试技能、BigQuery MCP、实验元数据 MCP、报告生成技能）
用户群组/漏斗分析代理：“上个月注册用户的 7 天留存率” → 查询 + 可视化 → （NL2SQL 技能、用户群组/漏斗 SQL 模板技能、BigQuery MCP、图表渲染技能）
分析报告撰写代理：分析输出 → 商务语言摘要 + 行动项 → （商务写作技能、Anthropic API、Notion/Slack MCP）

8. 数据科学

🎯 目标：实现建模相关一切流程的自动化，使科学家能够专注于“建模本身”。

如果你仔细观察数据科学家如何分配时间，你会发现建模本身所占的时间其实非常少。特征元数据管理、实验跟踪、模型监控、结果解释——这些周边工作才是耗费时间的绝大部分。而这些周边工作恰恰是智能体擅长处理的。

特征存储元数据管理代理→ （特征注册表 MCP、元数据增强技能、重复检测技能）
模型监控代理：自动检测输入分布何时从训练时发生变化或预测分布何时发生变化，并分析其原因 → （分布变化检测技能（KS 测试，PSI）、模型注册表 MCP、特征存储 MCP、根本原因分析代理）
实验设计代理：假设 → 样本量、持续时间、指标设计 → （功效分析技能、指标定义技能、人格化 API）
自动模型解释 (XAI) 报告：SHAP/LIME 结果 → 易于理解的业务叙述 → （SHAP/LIME 技能、叙述生成技能、模型注册表 MCP）

9. 反向 ETL

🎯 目标：确保分析结果不仅限于仪表盘，而是自动转化为运营和营销行动。

许多数据团队只负责“仪表盘”部分，之后的所有工作都交给其他团队。但真正的价值体现在数据转化为行动的那一刻。反向 ETL 正是连接两者的纽带，而 AI 代理则可以将其门槛降低到自然语言级别。

受众群体细分生成代理：“过去 30 天内有流失风险的高价值客户” → SQL + 细分定义 → （NL2SQL 技能、Hightouch/Census MCP、DataHub MCP、BigQuery MCP）
目标同步影响分析：当流向 Braze/HubSpot 的数据发生更改时，主动通知 CRM 团队 → （反向 ETL 工具 MCP、影响分析代理、Slack MCP）
营销活动归因代理：通过反向 ETL 将目标跟踪发送回实际转化 → （Braze/HubSpot MCP、BigQuery MCP、归因技能、报告生成器技能）
同意管理代理：当用户撤销个人身份信息 (PII) 同意时，验证所有下游目标位置的自动删除 → （同意日志 MCP、目标 API 集成技能、审计跟踪技能）

10. 基础设施和成本

🎯 目标：转变人们的认知，从“数据成本高昂”转变为“数据团队可以控制成本”

随着云数据平台的普及，领导层最常问的问题莫过于：“为什么成本这么高？”那些采取防御姿态的团队和那些展现出积极掌控力的团队，在公司内部的地位截然不同。而代理人则是通往后者的捷径。

BigQuery 查询成本优化代理：检测高成本查询 → 建议分区修剪、TVF 化、聚类 → (INFORMATION_SCHEMA.JOBS MCP、查询重写技能、成本分析代理、Slack MCP)
插槽使用异常检测与响应→ （BigQuery 监控 MCP、异常检测技能、自动扩展代理）
Airflow DAG 优化：基于运行时的并行化/合并建议 → （Airflow MCP、DAG 运行时分析技能、并行化推荐代理）

11. 入职培训与赋能

🎯 目标：将数据团队从“一个教学团队”转变为“一个设计自主学习环境的团队”

最近我花最多时间的事情之一就是指导同事们使用 Claude Desktop MCP。他们总是问同样的问题，我也总是给出同样的答案。其实整个流程都可以用智能代理来代替。数据团队的角色也从直接教学转变为设计用户自学的环境。

新员工入职指导专员：根据用户问题提供定制化指导 → （入职技能、Notion MCP、Slack MCP、DataHub MCP）
SQL学习助手：面向初级用户，自然语言 → SQL + 解释 → （NL2SQL技能、SQL解释技能、查询沙箱MCP）

12. 公司治理与合规

🎯 目标：将监管应对措施从“定期审计事件”转变为“持续监控系统”

合规工作通常在审计前匆忙进行。在此期间，没有人真正清楚究竟是谁在访问哪些个人身份信息 (PII) 表。因此，代理人将审计工作变成了全天候不间断的例行工作。

访问权限审查代理：自动建议撤销 90 天未使用的权限 → （IAM MCP（GCP/AWS）、访问日志分析技能、BigQuery 审计日志 MCP、Slack MCP）
PII 访问日志分析：检测敏感表上的异常访问模式 → （审计日志 MCP、异常检测技能、PII 标签链接（数据中心 MCP））

实施策略

从共享构建模块入手

环顾地图，你会发现一些不断重复出现的建筑模块。试图一次性建造所有特工会让你精疲力竭。先铺设共享材料，之后再在其上组装特工的速度会大幅提升。

我在构建 DAHAE 和 DABI 的过程中观察到，BigQuery MCP + DataHub MCP + NL2SQL 技能是绝大多数潜在代理的共同必备条件。一旦这个基础稳固，启动每个新代理所需的时间就会大幅缩短。

小结

数据团队的角色正在转变

这次映射练习再次向我证实，数据团队的角色正在发生根本性的重新定义。

过去，数据团队更像是“一个接收并处理请求的团队”。事件定义请求、仪表盘请求、分析请求——团队规模取决于接收到的工作量。

未来的数据团队将是“将判断转化为基础设施的团队”。他们会将团队的专业知识转化为技能，并让智能体调用这些技能。团队的影响力将不再取决于人员数量，而是取决于编码判断的总量。

这并非威胁，而是一个机遇。它让我们重新获得因重复性工作而浪费的时间，并让我们有余力去思考更深刻的问题——我们应该关注哪些指标，应该设计哪些实验，这些数据究竟能帮助我们做出哪些决策？

“人工智能不会取代专业知识，而是增强现有的专业知识。”

基于这个前提——你的团队会从哪个领域入手？