

If you’re looking to build custom agents geared to tackle
specific tasks, then this is the route for you. Here, you’ve got
two options: a code-first approach for maximum control
or an application-first approach for accelerated development.

google的**code first**平台是ADK，有以下几个特点：
* 编排逻辑，agent的核心推理过程，类似ReAct框架，允许计划和执行一系列工具调用和行为，以实现一个复杂目标
* 工具定义和注册，一个接口用于自定义功能和API，允许agent与数据、API和外部系统交互
* 上下文管理，给agent提供记忆，允许agent使用用户属性和聊天记录
* 评估和监测，测试agent的质量，调度agent每一步推理，在生产环境中监控性能
* 容器化，把agent包装进标准且可移植的容器
* 多agent组合，建立多特定agent协作的系统

google的**application first**是Agentspace，有以下几个特点：
* 公司统一搜索，连接多个SaaS应用
* 多模态数据合成，理解和合成各种不同形式的数据
* 提前创建好的agent库，类似于research和idea生成器
* 无代码自定义agent构建器，包括Agent Designer

数据是智能体短期和长期记忆的基础。一个强大的数据架构必须满足三个不同需求：用于长期知识检索的持久存储、支持短期对话上下文的低延迟访问，以及用于交易审计的持久账本。

编排概念与认知架构

一种常见且有效的编排模式是ReAct（推理+行动），该框架将大型语言模型的推理与行动能力协同整合。ReAct建立了一个动态的多轮循环机制，模型以交错方式同时生成推理轨迹（思考过程）和任务特定行动。这种设计实现了更强的协同效应——推理帮助模型追踪和更新行动计划，而行动则从外部工具收集信息来优化推理流程。

工作原理如下：

1. 推理：智能体评估目标与当前状态，形成关于下一步最佳行动及是否需要工具的假设。
    
2. 执行：智能体选择并调用合适的工具。
    
3. 观察：智能体接收工具输出结果。这些新信息会被整合到智能体的上下文环境中，并作为下一轮循环的推理步骤输入。

传统观点认为，基础模型的性能会呈指数级提升，但我们正接近一个拐点——性能增长趋于平缓，真正的差异化优势将来自专业化与情境工程。智能增强检索（Agentic RAG）构成了情境层的核心支柱，使AI代理能在生成最终答案前，通过迭代方式查找、检索并基于真实数据进行推理。

未来属于多模型协作：不同任务由不同模型处理，通过与模型及数据无关的情境层相互连接，从而释放它们的全部潜力。

![[image-17.png]]


下一个前沿：
    
    蒸馏式对话记忆
    

随着智能体与用户互动的时间跨度从数周延长至数月，每次查询时向模型提供完整的原始上下文会变得效率低下且成本高昂。此外，模型还可能出现理解混乱。

记忆精炼技术正成为新的突破方向。它利用大语言模型动态持续地将冗长的对话记录提炼成结构化的核心事实与偏好集合。这种经过优化的长期记忆系统在检索和使用效率上实现了质的飞跃。

当前该领域研究方兴未艾，但初期模式已初现端倪。例如Vertex AI记忆库——Vertex AI智能体引擎的托管服务，就提供了记忆精炼的实现机制：

• 自动精炼：可异步处理对话记录，自动提取并生成用户关键信息列表（GenerateMemories功能）

• 定向精炼：为获得更高可控性，智能体可调用记忆工具主动判定哪些信息值得显式写入记忆库（CreateMemory功能）

相比原始对话记录，聚焦于精炼记忆集合的方案更具扩展性、高效性和"类人性"，堪称新一代智能体系统的理想之选。

测试、测试、再测试

智能体系统具有非确定性，可能表现出突发行为。传统的单元测试远远不够。唯有严格评估才能确保智能体的质量与可靠性。测试应聚焦两大核心领域：推理轨迹（逐步逻辑与工具使用）和最终输出质量（准确性、实用性和事实依据）。大量基准测试表明，即便是最先进的模型也可能产生幻觉输出或陷入推理循环，这使得持续评估成为开发生命周期中至关重要的环节。

![[image-18.png]]

由于基于大语言模型的系统具有不确定性，要达成生产级别的可靠性可能颇具挑战。超越表面的“感觉测试”需要采用严谨的工程方法，以确保智能体安全运行并持续提供价值。

智能体运维（AgentOps）是一种应对生产环境中可靠性与责任性挑战的操作方法论。它借鉴了DevOps、MLOps和DataOps的核心原则，针对构建、部署及管理人工智能体全生命周期的独特难题进行调整。该方法论为处理生产环境中基于大语言模型（LLM）的非确定性系统复杂性，提供了系统化、自动化且可复现的框架。

一套完善的AgentOps策略能够将开发流程系统化，通过持续反馈机制来提升智能体在工具链、推理能力及底层模型等方面的可靠性、安全性与性能表现。


#### Layer 1：组件级评估 (Component-level)

- **目标**：验证非 LLM 组件（如工具函数、API 集成）的确定性正确性。
    
- **实现**：使用 **ADK** (Agent Development Kit) 进行单元测试，确保基础模块没有 Bug。
    

#### Layer 2：轨迹评估 (Trajectory evaluation)

- **目标**：验证 **ReAct 循环**（思考-行动-观察）中的逻辑正确性。
    
- **实现**：通过 **Google Cloud Trace** 可视化推理链，监控 Agent 是否选对了工具以及参数生成是否精准。
    

#### Layer 3：结果评估 (Outcome evaluation)

- **目标**：评估最终输出的语义正确性、事实准确性 (Grounding) 和语气。
    
- **实现**：利用 **Vertex AI 的 Gen AI evaluation service** 进行“模型评测模型 (LLM-as-judge)”。
    

#### Layer 4：系统级监控 (System-level monitoring)

- **目标**：在生产环境中持续追踪性能、检测行为漂移。
    
- **实现**：集成 **OpenTelemetry** 和 **BigQuery**，实时分析端到端延迟和用户反馈。

| **层级**           | **Google 方案**      | **开源/通用替代方案**                  |
| ---------------- | ------------------ | ------------------------------ |
| **Layer 1: 组件级** | ADK + Pytest       | **Pytest + Pydantic**          |
| **Layer 2: 轨迹级** | Google Cloud Trace | **LangSmith / Arize Phoenix**  |
| **Layer 3: 结果级** | Vertex Gen AI Eval | **RAGAS / DeepEval / G-Eval**  |
| **Layer 4: 系统级** | BigQuery + Looker  | **Prometheus + Grafana + ELK** |

![[image-19.png]]