当前位置：首页 > 资讯 > 系统环境

从零构建AI Agent完整技术体系:一个案例串联所有核心概念

时间：2025-12-03 22:40 作者：来源：阅读：0
扫一扫，手机访问

摘要：过去两年AI技术爆炸式发展,Prompt工程、RAG、向量数据库、LangChain、MCP、Agent……新概念层出不穷。但这里有个根本问题:大多数开发者只看到了技术名词,却没理解这些技术为什么会出现,它们解决什么架构级问题。今天，我们换个角度,用一个完整的业务场景驱动,将这些概念串联起来。假设你在深圳的科技公司TechCorp,有500GB的内部文档(员工手册、技术规范、客户案例)。CEO要求

过去两年AI技术爆炸式发展,Prompt工程、RAG、向量数据库、LangChain、MCP、Agent……新概念层出不穷。但这里有个根本问题:大多数开发者只看到了技术名词,却没理解这些技术为什么会出现,它们解决什么架构级问题。

今天，我们换个角度,用一个完整的业务场景驱动,将这些概念串联起来。

假设你在深圳的科技公司TechCorp,有500GB的内部文档(员工手册、技术规范、客户案例)。

CEO要求:"给我做个AI助手,员工能随时查询公司政策"。

这个看似简单的需求,实际上覆盖了AI Agent技术栈的所有核心概念:

第一层问题:500GB数据如何让LLM理解?

第二层问题:如何快速找到相关文档?

第三层问题:如何让AI不仅检索还能生成答案?

第四层问题:如何避免每次重复编写集成代码?

第五层问题:如何处理复杂多步骤业务流程?

第六层问题:如何让AI访问外部系统(数据库/API)?

通过这个场景你将用系统性思维理解AI技术栈怎么一步步解决以上问题的。

你将清楚为什么需要向量数据库(不仅仅是"由于大家都在用"),为什么RAG比直接喂数据给LLM更优,为什么LangChain/LangGraph能降低70%开发成本,以及MCP协议如何成为AI时代的"HTTP协议"。

无论你是刚接触AI的开发者,还是想系统梳理知识体系的架构师,这篇文章都将帮你建立从问题到解决方案的完整思维链路。希望对你有所启发。

从零构建AI Agent完整技术体系:一个案例串联所有核心概念

PART 01 - 业务场景与核心挑战

1.1 TechCorp的真实困境

想象你在一家总部位于深圳的科技公司TechCorp担任技术负责人。公司积累了500GB的内部文档:

员工手册(200GB):入职指南、社保公积金、加班调休制度
技术规范(150GB):微服务架构、API文档、代码评审标准
客户案例(150GB):合同文本、项目验收报告、售后工单记录

CEO的需求很明确:"做个AI助手,员工能随时查公司政策,客户能自助查询订单状态。但注意,我们是做金融科技的,数据安全必须符合《网络安全法》和《数据安全法》,不能用海外模型!"

但当你开始设计时,立刻发现三个根本性挑战:

挑战1:LLM的记忆容量有限

最大的LLM(如Google Gemini 2.5 Pro)上下文窗口是100万tokens,约等于75万字或5万行代码。

但500GB文档是多少?按每页2KB计算,这是2.5亿页。即使是最大的上下文窗口,也只能容纳约50份典型商业文档。

核心矛盾:AI需要理解所有500GB,但它只能"看见"其中的0.0002%。

挑战2:关键词搜索无法理解语义

传统方案是用SQL数据库存储文档,用户搜索"vacation policy"时执行:

SELECT * FROM documents WHERE content LIKE '%vacation%'

但这种方案有致命缺陷:

用户问"我能在假期请假吗?"
文档里写的是"员工不得在公司假期申请休假"

关键词搜索会漏掉90%语义相关但用词不同的文档。

挑战3:每个外部系统都要写自定义集成

AI助手需要访问:

客户数据库(查询订单状态,MySQL/PostgreSQL)
HR系统(验证员工权限,钉钉/飞书API)
工单系统(创建技术支持票据,禅道/Jira)
财务系统(查询发票开票状态,金蝶/用友ERP)

传统做法是为每个系统写自定义API集成代码。当你有20个系统时,就需要维护20套集成代码。每次API升级,所有集成代码都要改。

挑战4:数据合规要求

金融科技公司面临严格监管:

《网络安全法》:敏感数据不得出境
《数据安全法》:需通过等保2.0/3.0认证
《个人信息保护法》:客户隐私数据需脱敏处理
金融监管要求:模型输出需可审计、可追溯

这意味着:不能直接用OpenAI/Claude等海外模型,必须选择国产大模型或私有化部署。

1.2 架构演进的必然路径

这三个挑战,恰好映射到AI Agent技术栈的三大核心创新:

挑战
传统方案的问题
AI时代的解决方案
记忆容量限制
无法处理海量文档
Embedding向量化 + 语义检索
关键词搜索失效
漏掉语义相关内容
向量数据库 + RAG架构
集成代码爆炸
每个系统写一套代码
MCP协议标准化

接下来,我们将逐层拆解这个技术栈,理解为什么这样设计,而不是如何实现(实现细节去看官方文档)。

从零构建AI Agent完整技术体系:一个案例串联所有核心概念

PART 02 - LLM的工作原理与架构边界

2.1 上下文窗口:AI的"工作记忆"

当你问豆包一个问题,它不是在"搜索答案",而是基于上下文窗口中的所有内容进行推理。

想象LLM是一个专家顾问,上下文窗口就是他桌上的文件夹。你每次对话,就是往文件夹里塞新文件。但文件夹有大小限制——满了之后,旧文件会被挤出去。

不同模型的上下文容量对比:

模型
上下文窗口
约等于
典型用途
厂商
通义千问Max
30K tokens
2.2万字
企业问答
阿里云
文心一言4.0
128K tokens
9.6万字
长文档分析
百度
智谱GLM-4
128K tokens
9.6万字
代码生成
智谱AI
Kimi
200K tokens
15万字
合同审查
Moonshot
GPT-4o
128K tokens
9.6万字
复杂推理
OpenAI
Claude 3.5 Sonnet
200K tokens
15万字
创意写作
Anthropic

关键洞察:上下文窗口不是越大越好,而是要匹配任务类型:

快速响应场景(电商客服):用小窗口模型(通义千问),延迟低至0.3秒
深度分析场景(法律合同审查):用大窗口模型(Kimi/文心一言4.0),可一次性分析100页合同
数据合规场景(金融/政务):优先选择国产模型,数据不出境

2.2 上下文窗口的实际限制

即使有100万tokens的窗口,实际使用中仍有两个隐藏限制:

限制1:"注意力稀释"问题

给你一串数字:3.141592653589793,让你背下来再复述。大多数人会卡在第10位数字。

LLM也有类似问题。研究表明,当上下文超过10万tokens时,中间部分的信息检索准确率会下降40%。这叫"Lost in the Middle"现象。

设计启示:不要指望把所有文档塞进上下文,而是要精准检索最相关的片段——这就是RAG的设计初衷。

限制2:成本与延迟的权衡

模型
输入成本(¥/1M tokens)
输出成本(¥/1M tokens)
典型延迟
数据主权
通义千问Max
¥8
¥20
0.4秒
国内
文心一言4.0
¥12
¥30
0.6秒
国内
智谱GLM-4
¥15
¥50
0.8秒
国内
GPT-4o
¥70
¥210
1.5秒
海外
Claude 3.5
¥21
¥105
1.8秒
海外

实战权衡(以国内企业为例):

电商客服机器人(每天10万次查询):用通义千问Max,月成本仅¥240,且符合数据本地化要求
法律合同审查(每天100次,需高准确率):用文心一言4.0,月成本¥420,准确率85%+
金融风控系统(强合规):必须用国产模型(智谱GLM-4/通义千问),确保数据不出境

从零构建AI Agent完整技术体系:一个案例串联所有核心概念

PART 03 - Embedding与向量数据库:从关键词到语义

3.1 为什么关键词搜索会失效?

回到TechCorp的场景。员工问:"我能穿牛仔裤上班吗?"

公司文档里写的是:"要求商务休闲着装。禁止牛仔布。"

关键词搜索的问题:

"牛仔裤"vs "牛仔布"→ 词汇不匹配
"穿"vs "着装"→ 表达方式不同

但人类一眼就能看出这两句话在谈同一件事。AI如何获得这种"语义理解"能力?

3.2 Embedding:把语义转换成数学

Embedding的核心思想:用数字向量表达文本的"意义"。

想象一个高维空间(列如1536维),每个词都是这个空间中的一个点。意思相近的词,它们的向量距离会很近:

"假期"(假期)的向量 ≈ [0.23, -0.45, 0.67, ...]
"休假"的向量 ≈ [0.24, -0.43, 0.69, ...]
两者的余弦类似度高达0.92

而完全无关的词,距离会很远:

"假期"vs "发票" → 类似度仅0.15

关键洞察:Embedding把"语义类似度"这个抽象概念,转化为向量距离这个可计算的数学问题。

3.3 向量数据库:为语义搜索而生

传统SQL数据库优化的是"准确匹配"(WHERE name = 'Alice')。

向量数据库优化的是"最近邻搜索"(找出与查询向量最类似的Top-5文档)。

工作流程:

数据预处理阶段:

将500GB文档分割成小块(每块500字,重叠50字)
每块文本通过Embedding模型转成1536维向量(推荐使用阿里达摩院的M3E模型或百度的ERNIE-Embedding)
所有向量存入向量数据库(国内可选阿里云OpenSearch向量版、腾讯云向量数据库、Milvus等)

用户查询阶段:

用户问题也转成1536维向量
数据库计算查询向量与所有文档向量的距离
返回距离最近的Top-5文档块

国内向量数据库选型:

方案
适用场景
月成本(100万向量)
优势
阿里云OpenSearch向量版
大型企业
¥3,000
与通义千问深度集成
腾讯云向量数据库
游戏/社交
¥2,500
低延迟,适合实时推荐
Milvus(自建)
技术团队
服务器成本
开源免费,可完全控制
Pinecone(海外)
国际业务
$280
功能最全,但数据出境

性能对比:

搜索方式
准确率(相关文档召回)
延迟
关键词搜索(MySQL LIKE)
45%
200ms
语义搜索(阿里云向量库)
89%
50ms
混合检索(关键词+语义)
94%
80ms

从零构建AI Agent完整技术体系:一个案例串联所有核心概念

PART 04 - RAG架构:检索增强生成的设计哲学

4.1 为什么不直接Fine-tune模型?

面对TechCorp的500GB内部文档,有两种方案:

方案A:Fine-tuning(微调模型)

把500GB文档作为训练数据,重新训练GPT-4
成本:$200万+ (GPU集群运行3个月)
更新频率:每次文档更新都要重新训练,周期2-4周

方案B:RAG(检索增强生成)

文档存入向量数据库,运行时动态检索
成本:$5,000/月 (向量数据库订阅)
更新频率:实时更新,新文档几分钟内生效

架构决策:RAG完胜,由于:

成本低400倍
实时更新 vs 2周延迟
灵活性高:可随时切换LLM模型

4.2 RAG的三步工作流

从零构建AI Agent完整技术体系:一个案例串联所有核心概念

检索增强生成的完整数据流:从用户问题到带来源的答案

步骤1:检索(Retrieval) - 找出相关文档

用户问:"What's the remote work policy for EU employees?"

系统将问题向量化,然后在向量数据库中搜索,返回Top-5最相关文档块:

文档1:"Remote work policy - Europe region"(类似度0.92)
文档2:"GDPR compliance for employee data"(类似度0.85)
...

步骤2:增强(Augmentation) - 注入上下文

系统构造增强后的Prompt:

Context: [文档1内容] [文档2内容] ...
Question: What's the remote work policy for EU employees?
Instruction: Answer based ONLY on the provided context.

关键设计:告知LLM"只根据给定文档回答",防止它编造(hallucination)。

步骤3:生成(Generation) - LLM推理输出

LLM基于注入的上下文,生成结构化答案:

> "根据公司政策(文档RemoteWork_EU.pdf, 第3页),欧盟员工可以每周远程办公3天,需提前48小时向主管申请。注意:必须遵守GDPR数据保护规定,禁止在公共WiFi环境处理客户数据。"

4.3 RAG vs 传统方案的架构对比

维度
传统关键词搜索
Fine-tuning
RAG
初始成本
$0
$2M
$5K
准确率
45%
95%
89%
更新延迟
实时
2-4周
实时
可解释性
高(可追溯来源)
低(黑盒)
高(可追溯来源)
适用场景
准确匹配
固定领域
动态知识库

架构洞察:RAG的成功在于解耦了知识存储与推理能力。LLM负责推理,向量数据库负责知识——各司其职,灵活演进。

PART 05 - LangChain抽象层:降低70%代码复杂度

5.1 没有LangChain的痛苦

假设你要用OpenAI API构建TechCorp的客服机器人。传统代码长这样:

传统方式(10+行):

导入OpenAI SDK
配置API密钥
构造消息格式
发送请求
解析响应
处理错误

如果明天公司决定换成Anthropic的Claude,你需要重写所有代码——由于每家LLM厂商的SDK接口都不一样。

5.2 LangChain的核心价值:统一抽象层

LangChain就像"AI模型的USB接口"——无论你插OpenAI、Claude还是Gemini,接口都一样。

用LangChain后(3行):

from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4")
response = llm.invoke("What's the vacation policy?")

切换模型(只改1个词):

from langchain_anthropic import ChatAnthropic
llm = ChatAnthropic(model="claude-3-sonnet")  # 其他代码完全不变

代码量对比:

场景
传统方式
LangChain
减少幅度
基础调用
10行
3行
70%
多模型切换
重写所有
改1个词
99%
记忆管理
自建数据库
1行配置
95%

5.3 LangChain的组件化设计

LangChain不只是简化API调用,它提供了完整的模块化组件库:

1. 模型抽象(ChatModels)

ChatOpenAI, ChatAnthropic, ChatGoogleGenerativeAI
设计哲学:用统一接口屏蔽底层差异

2. 记忆管理(Memory)

自动保存对话历史
支持不同存储后端(内存/Redis/数据库)

3. 提示词模板(PromptTemplate)

可复用的Prompt结构
动态变量替换

4. 输出解析(OutputParsers)

将AI的自由文本转成结构化数据(JSON/List)

架构洞察:LangChain的价值不在于"封装API",而在于建立了AI应用的标准化架构模式——就像Spring框架之于Java后端开发。

PART 06 - LangGraph状态机:复杂工作流的编排利器

6.1 LangChain的局限性

LangChain擅长处理线性流程:用户提问 → 检索文档 → 生成答案。

但TechCorp的需求升级了:

> "当员工问政策问题时,先查公司文档;如果文档不全,再查询HR系统;如果涉及合规问题,还要调用法律顾问API进行审核。"

这是一个多步骤、有条件分支、需要状态管理的复杂工作流。LangChain无法优雅处理。

6.2 LangGraph的核心概念:图状态机

LangGraph把AI工作流建模为一个有向图:

节点(Node):执行具体任务的函数
边(Edge):节点间的流转规则
状态(State):在节点间传递的共享数据

TechCorp政策查询的工作流图:

[用户提问]
    ↓
[查询向量数据库] → 文档充分? → [生成答案]
    ↓ 否
[查询HR系统] → 涉及合规? → [调用法律API] → [生成答案]
    ↓ 否
[生成答案]

6.3 LangGraph vs 传统编程范式

传统方式(过程式编程):

写大量if/else判断
状态管理混乱(全局变量/函数参数)
难以并行化

LangGraph方式(声明式编程):

定义节点:每个节点是一个纯函数
定义边:描述流转条件
自动执行:框架负责调度和状态管理

复杂度对比:

场景
传统代码行数
LangGraph行数
可维护性
3步线性流程
50行
20行
中
5步条件分支
200行
40行
高
带循环反馈
500行+
60行
极高

架构洞察:LangGraph的本质是将AI工作流抽象为状态机,让复杂逻辑变得声明式、可组合、易测试。

PART 07 - MCP协议:AI时代的统一接口标准

7.1 工具集成的噩梦

TechCorp的AI助手目前需要访问:

客户数据库(MySQL)
HR系统(SAP API)
工单系统(Jira)
邮件系统(Gmail API)

传统做法:为每个系统写一套集成代码。当你有20个系统时,就是20套不同的API调用逻辑。

问题在于:每个API的认证方式、数据格式、错误处理都不同。维护成本随系统数量指数级增长。

7.2 MCP的设计哲学:协议标准化

MCP(Model Context Protocol)是Anthropic在2024年11月提出的开放协议,目标是:统一AI与外部工具的通信方式。

类比:

HTTP之于Web:浏览器不需要为每个网站写专门代码
SQL之于数据库:应用不需要关心MySQL还是PostgreSQL的内部实现
MCP之于AI工具:Agent不需要为每个API写专门集成

7.3 MCP vs 传统API集成

维度
传统API集成
MCP协议
开发方式
每个工具写自定义代码
统一的JSON-RPC接口
代码复用
几乎无法复用
一次开发,处处运行
LLM负担
需要理解每个API文档
只需理解工具Schema
安全控制
开发者自行实现
内置权限沙箱

实战案例:

没有MCP:为Jira/GitHub/GitLab分别写3套集成代码,共1500行
有了MCP:3个工具共用一套MCP Client,仅300行

架构洞察:MCP的价值不在于"又一个API标准",而在于让AI Agent成为一等公民——工具不是为人类设计的API,而是为Agent设计的Protocol。

PART 08 - 完整技术栈集成:从零到生产

8.1 TechCorp AI助手的最终架构

经过7个PART的层层推演,我们终于可以画出完整架构图:

从零构建AI Agent完整技术体系:一个案例串联所有核心概念

从应用到模型的完整技术栈分层架构

五层技术栈(国内企业推荐配置):

应用层:钉钉/飞书小程序 + H5移动端
编排层:LangGraph工作流引擎
能力层:LangChain抽象 + MCP工具集成
数据层:阿里云OpenSearch向量版 + RAG检索
模型层:通义千问Max / 文心一言4.0(符合数据合规要求)

数据流(符合等保3.0要求):

员工/客户提问
  → LangGraph解析意图
    → 判断:需要查文档还是查数据库?
      → 阿里云向量库检索(RAG)
      → MCP调用钉钉HR/用友财务系统
    → LangChain构造Prompt
  → 通义千问生成答案(数据不出境)
  → 审计日志记录(可追溯)
→ 返回用户(带来源引用+脱敏处理)

关键合规设计:

数据不出境:全部使用国产模型和阿里云/腾讯云基础设施
访问控制:集成企业微信/钉钉身份认证,按部门权限隔离
审计追溯:每次AI交互记录用户ID、问题、答案、数据来源
敏感数据脱敏:身份证、手机号、银行卡等自动打码

8.2 性能与成本对比

改造前(传统人工客服+关键词搜索):

查询响应时间:30分钟(人工翻文档)
准确率:60%(常常找错文档)
月运维成本:客服团队人工¥50,000

改造后(AI Agent,全国产技术栈):

查询响应时间:30秒
准确率:89%(RAG+通义千问)
月运维成本明细:
通义千问API调用:¥3,200(日均10万次查询)
阿里云OpenSearch向量版:¥3,000(500GB文档)
阿里云服务器(ECS):¥1,500(2核4G)
总计:¥7,700(不含开发成本)

结论

从LLM的上下文窗口限制,到Embedding的语义表达,再到RAG的检索增强,LangChain的抽象统一,LangGraph的状态编排,最后到MCP的标准化集成——每一层技术都不是孤立的,而是为了解决特定架构挑战而诞生的必然选择。

三大核心启示:

架构思维优先于实现细节:理解"为什么需要向量数据库"比学会"如何调用Pinecone API"重大100倍。前者是可迁移的架构能力,后者只是临时的工具技能。
抽象层的价值在于降低复杂度:LangChain降低70%代码量,LangGraph让复杂流程变声明式,MCP统一工具接口——这些抽象层让AI应用从"手工作坊"进化到"标准化工程"。
技术选型的核心是权衡:RAG vs Fine-tuning、小模型 vs 大模型、本地部署 vs 云端API——没有银弹,只有基于业务场景的理性权衡。

最重大的一点:AI Agent不是"调用API"那么简单,而是一个完整的分布式系统架构——涉及数据建模、状态管理、工作流编排、接口标准化、合规审计。掌握这套架构思维,你就能在AI浪潮中建立真正的技术护城河。

参考资料

国际开源框架:

LangChain Documentation - Building AI Applications
Anthropic Model Context Protocol (MCP) Specification
LangGraph Tutorial - State Machines for AI

国产大模型与云服务:

阿里云通义千问 - 企业级大模型
百度智能云 - 文心一言API文档
智谱AI - GLM-4开发文档
阿里云OpenSearch向量版 - 向量检索服务
腾讯云向量数据库 - 产品文档

关于作者

MCP研究院 是一个专注于AI技术架构和工程实践的技术社区。我们致力于通过深度技术解析和实战案例,协助开发者和架构师更好地理解和应用AI技术栈。关注我们,获取更多AI架构设计和工程化实践指南。

全部评论(0)

上一篇：为什么Google Ventures砸5200万赌这家AI-Native的CRM公司能干掉Salesforce？
下一篇：安全测试工具及资源

最新发布的资讯信息
【系统环境|】创建一个本地分支(2025-12-03 22:43)
【系统环境|】git 如何删除本地和远程分支？(2025-12-03 22:42)
【系统环境|】2019｜阿里11面+EMC+网易+美团面经(2025-12-03 22:42)
【系统环境|】32位单片机定时器入门介绍(2025-12-03 22:42)
【系统环境|】从 10 月 19 日起，GitLab 将对所有免费用户强制实施存储限制(2025-12-03 22:42)
【系统环境|】价值驱动的产品交付-OKR、协作与持续优化实践(2025-12-03 22:42)
【系统环境|】IDEA 强行回滚已提交到Master上的代码(2025-12-03 22:42)
【系统环境|】GitLab 15.1发布，Python notebook图形渲染和SLSA 2级构建工件证明(2025-12-03 22:41)
【系统环境|】AI 代码审查 (Code Review) 清单 v1.0(2025-12-03 22:41)
【系统环境|】构建高效流水线：CI/CD工具如何提升软件交付速度(2025-12-03 22:41)

真快激活码

店铺

推荐商品

挑战	传统方案的问题	AI时代的解决方案
记忆容量限制	无法处理海量文档	Embedding向量化 + 语义检索
关键词搜索失效	漏掉语义相关内容	向量数据库 + RAG架构
集成代码爆炸	每个系统写一套代码	MCP协议标准化

模型	上下文窗口	约等于	典型用途	厂商
通义千问Max	30K tokens	2.2万字	企业问答	阿里云
文心一言4.0	128K tokens	9.6万字	长文档分析	百度
智谱GLM-4	128K tokens	9.6万字	代码生成	智谱AI
Kimi	200K tokens	15万字	合同审查	Moonshot
GPT-4o	128K tokens	9.6万字	复杂推理	OpenAI
Claude 3.5 Sonnet	200K tokens	15万字	创意写作	Anthropic

模型	输入成本(¥/1M tokens)	输出成本(¥/1M tokens)	典型延迟	数据主权
通义千问Max	¥8	¥20	0.4秒	国内
文心一言4.0	¥12	¥30	0.6秒	国内
智谱GLM-4	¥15	¥50	0.8秒	国内
GPT-4o	¥70	¥210	1.5秒	海外
Claude 3.5	¥21	¥105	1.8秒	海外

方案	适用场景	月成本(100万向量)	优势
阿里云OpenSearch向量版	大型企业	¥3,000	与通义千问深度集成
腾讯云向量数据库	游戏/社交	¥2,500	低延迟,适合实时推荐
Milvus(自建)	技术团队	服务器成本	开源免费,可完全控制
Pinecone(海外)	国际业务	$280	功能最全,但数据出境

搜索方式	准确率(相关文档召回)	延迟
关键词搜索(MySQL LIKE)	45%	200ms
语义搜索(阿里云向量库)	89%	50ms
混合检索(关键词+语义)	94%	80ms

维度	传统关键词搜索	Fine-tuning	RAG
初始成本	$0	$2M	$5K
准确率	45%	95%	89%
更新延迟	实时	2-4周	实时
可解释性	高(可追溯来源)	低(黑盒)	高(可追溯来源)
适用场景	准确匹配	固定领域	动态知识库

场景	传统方式	LangChain	减少幅度
基础调用	10行	3行	70%
多模型切换	重写所有	改1个词	99%
记忆管理	自建数据库	1行配置	95%

场景	传统代码行数	LangGraph行数	可维护性
3步线性流程	50行	20行	中
5步条件分支	200行	40行	高
带循环反馈	500行+	60行	极高

维度	传统API集成	MCP协议
开发方式	每个工具写自定义代码	统一的JSON-RPC接口
代码复用	几乎无法复用	一次开发,处处运行
LLM负担	需要理解每个API文档	只需理解工具Schema
安全控制	开发者自行实现	内置权限沙箱