3月13日,由中科算网算泥社区主编的《大模型上下文工程(Context Engineering)指南》正式发布!该指南旨在为所有致力于构建高级AI应用的开发者、架构师和产品经理,提供一个全面、系统且可实践的知识框架。
一、上下文的重新定义
在大型语言模型(LLM)的世界里,“上下文”(Context)是一个无处不在却又极易被误解的核心概念。长期以来,它被简单地等同于模型的“上下文窗口”(Context Window),一个衡量模型一次性可以处理多少文本(以Token计算)的技术参数。然而,随着LLM从实验室走向千行百业的复杂应用,这种狭隘的定义已然成为我们构建更强大、更智能系统的思想枷锁。要真正释放AI的潜力,我们必须首先打破这个枷锁,重新认识上下文的广阔内涵。
1.1狭义上下文:Token Window作为“技术参数”的时代
在LLM发展的早期,特别是以GPT-3为代表的时代,模型的上下文窗口是其能力最显著的瓶颈之一。一个2k或4k的窗口,意味着模型在生成下一个词时,只能“看到”紧邻的几千个Token。这就像一个记忆力只有几分钟的对话者,虽然能在短时间内展现出惊人的语言天赋,但稍微复杂的任务、稍长一些的对话,就会让他“忘掉”了开头,迷失了目标。
在这个阶段,所谓的“上下文工程”几乎等同于“窗口管理术”。开发者们绞尽脑汁,试图在有限的窗口空间内,塞进最有价值的信息。这催生了Prompt Engineering的繁荣,其核心任务之一就是在给定的Token预算下,设计出最高效的指令和示例。上下文是一个被动的、需要被精打细算的技术约束,而非一个可以主动设计和利用的战略资源。
1.2广义上下文:迈向系统状态的整体视角
真正的变革,源于我们将视角从“模型能看到什么”转向“系统能感知和利用什么”。

一个先进的AI应用,其智能不仅仅来自模型本身,更来自它所嵌入的整个信息系统。在这个系统中,上下文是驱动模型决策的全部信息流的总和。它是一个动态的、多层次的、结构化的系统状态。我们可以将广义上下文解构为以下五个核心类别:


1.2.1文本上下文(Textual Context)
这是最基础、最直接的上下文。它构成了模型“工作记忆”的全部内容,是所有推理和生成任务的起点。它不仅包括用户当前的提问(Prompt),还包括:
系统指令(System Prompt):定义了AI的基本角色、性格、能力边界和行为准则。
历史对话(Conversation History):确保多轮交互的连贯性。
Few-shot示例:通过具体的例子向模型演示任务要求。
RAG检索内容:从外部知识库动态获取的、与当前问题最相关的信息片段。
1.2.2环境上下文(Environmental Context)
如果说文本上下文是AI的“内在思想”,那么环境上下文就是它对“外部世界”的感知。它让AI的行为不再是孤立的文本生成,而是与真实世界状态绑定的行动。例如,一个智能客服Agent需要知道:
任务状态:当前是在“识别问题”、“查询订单”还是“处理退款”阶段?
会话Session:当前会话的ID,关联的技术日志,用户的等待时长。
时间与地点:现在是工作时间还是非工作时间?用户位于哪个时区?
工具状态:支付API是否可用?物流查询接口的响应延迟是多少?
1.2.3用户上下文(User Context)
用户上下文是个性化体验的核心。它将AI从一个对所有人都说一样话的“通用模型”,转变为一个懂你的“专属顾问”。这需要系统能够持续地学习和更新关于用户的一切:
身份与角色:他是普通用户、VIP客户,还是内部管理员?
偏好与习惯:他喜欢简洁的回答还是详尽的解释?他常用的功能是什么?
历史行为:他过去购买过什么?浏览过哪些页面?提过哪些问题?
情绪状态:从他的用词和语气中,能判断出他当前是满意、焦虑还是愤怒?
1.2.4系统上下文(System Context)
系统上下文是AI的“自我认知”。它需要清楚地知道自己作为一个软件实体的配置和能力。这对于构建能够自主规划和执行复杂任务的Agent至关重要。
模型版本:我是基于GPT-4.1-Turbo还是Sonnet-4.5?我的知识截止日期是什么?
可用工具(Skills/Plugins):我能调用哪些API?每个API的参数和功能是什么?
协议规范(Protocols):我应该如何通过模型上下文协议(MCP)与其他服务交互?我应该如何通过智能体间协议(A2A)与其他Agent协作?
运行参数:我的Token生成速率限制是多少?当前的安全过滤级别是什么?
1.2.5组织上下文(Organizational Context)
当AI被部署在企业环境中时,它必须成为组织的一员,理解并遵守其独特的知识、流程和规则。组织上下文就是AI的“入职培训材料”。
知识库:公司内部的Wiki、产品文档、最佳实践案例。
流程与制度:如何创建一个工单?一个退款请求需要经过哪些审批?
合规策略:哪些客户数据是敏感信息,绝对不能在日志中记录?与客户沟通时,有哪些必须声明的法律条款?
行业术语:在本行业,“SLA”、“ARR”分别指什么?
1.3范式跃迁:从被动输入到主动经营
将上下文从狭义的“Token窗口”扩展到广义的“系统状态”,带来的绝不仅仅是概念上的丰富,而是一场深刻的开发范式革命。

“写出完美的Prompt”,而是“设计一个能为模型持续提供完美上下文的系统”。这个系统能够动态地从不同来源拉取信息,根据任务进展更新其状态,依据用户身份调整其行为,并严格遵守安全与合规的边界。这,就是上下文工程的真正要义,也是通往更高级别人工智能的必由之路。
这场跃迁意味着,我们的核心工作不再是
二、上下文技术的三次飞跃
上下文工程并非一日建成,它的演进与大型语言模型自身的发展紧密相连,是一部从“螺蛳壳里做道场”的精巧技艺,走向构建宏大、复杂信息系统的工程科学史。

回顾这段历史,我们可以清晰地看到三次关键的范式飞跃,每一次都极大地扩展了我们对“上下文”的认知边界和应用深度。
2.1静态输入窗口时代(2017–2022):Prompt Engineering的黄金年代
2.1.1一切的起点:Transformer与有限的注意力
2017年,一篇名为《Attention Is All You Need》的论文横空出世,宣告了Transformer架构的诞生。它彻底摒弃了之前在自然语言处理领域占主导地位的循环(Recurrence)和卷积(Convolution)结构,完全基于“自注意力机制”(Self-Attention)来构建模型。这一设计的核心思想是,在处理一个序列(如一个句子)时,模型中的每个元素都可以直接“关注”到序列中的任何其他元素,并根据相关性权重来计算其表示。
这种架构带来了无与伦比的并行计算能力,使得训练更大、更深的模型成为可能,为后来GPT系列等巨型模型的出现铺平了道路。然而,它也带来了一个与生俱来的“原罪”:有限的上下文窗口。
自注意力机制的计算复杂度与序列长度(即上下文窗口大小)的平方成正比(O(n²))。这意味着,上下文窗口每扩大一倍,计算量和内存占用就会增长四倍。这个二次方的“诅咒”使得早期的Transformer模型,如BERT和GPT-2,其上下文窗口通常被限制在512或1024个Token。这便是“静态输入窗口时代”的技术底色——上下文是一个宝贵但极其有限的资源。
2.1.2 GPT-3的惊鸿一瞥:In-Context Learning的魔力
2020年,OpenAI发布了拥有1750亿参数的GPT-3,并在一篇题为《Language Models are Few-Shot Learners》的论文中,揭示了一种名为“上下文学习”的惊人能力。
在此之前,让模型学会一个新任务,通常需要“微调”(Fine-tuning)——用成千上万个标注好的新数据来更新模型的权重。而GPT-3展示了,无需任何权重更新,仅仅通过在Prompt中提供几个任务示例(shots),模型就能“凭空”学会执行这个新任务。例如,要让它做法语到英语的翻译,你只需要在Prompt里这样写:

模型就会在“cheese =>”后面,神奇地补完“fromage”。它仿佛从这几个例子中“领悟”到了翻译任务的模式。这种能力,就是In-Context Learning。它极大地改变了人们与模型互动的方式,使得“调教”模型变得前所未有的简单和即时。
ICL的发现,直接催生了“提示工程”(Prompt Engineering)的黄金时代。开发者和研究者们的热情被瞬间点燃,大家开始疯狂探索如何通过设计不同的Prompt来激发模型的潜能。从简单的角色扮演(“你现在是一个莎士比亚风格的诗人…”)到后来的思维链(Chain-of-Thought, CoT),提示工程变成了一门显学。
2.1.3黄金期的局限:Prompt Engineering的根本困境
然而,在繁荣之下,Prompt Engineering的根本局限也日益凸显。这些局限,本质上都源于其所依赖的“静态输入窗口”。
脆弱性与不稳定性:Prompt的效果对措辞、格式甚至标点符号都极为敏感。同一个意思的细微表述差异,可能导致模型输出质量的天壤之别。这使得Prompt的开发过程充满了大量的试错,缺乏工程上的确定性和可复现性。
知识的静态性:Prompt中的知识是“一次性”的。它无法连接到实时变化的世界。如果你的知识库更新了,你必须手动去修改所有相关的Prompt。它也无法处理需要外部数据库或API才能回答的问题。
任务复杂度的天花板:对于需要多步骤、多工具协作的复杂任务,单靠一个Prompt很难进行清晰的规划和状态管理。随着任务逻辑变长,Prompt会变得臃肿不堪,很快就会撑爆有限的上下文窗口,并且极难维护。
缺乏记忆与个性化:静态的Prompt是无状态的。它无法记忆用户之前的偏好,也无法在跨会话的交互中积累知识。每一次交互都是一次“冷启动”,这使得提供真正个性化的、持续的服务成为泡影。
研究和实践都表明,单纯的提示工程存在明显的性能上限。当一个任务超出了模型在预训练阶段所“内化”的能力范畴,无论你如何精心设计Prompt,模型都无法完成。就如同一项研究指出的,如果模型没有真正学会某项任务,任何提示都无法让它执行。
正是在这些深刻的痛点驱动下,社区开始意识到,我们不能永远在螺蛳壳里做道场。我们需要的不是更精巧的“咒语”,而是能够突破静态窗口限制、连接外部世界、管理复杂状态的全新方法论。上下文技术的第一次飞跃虽然辉煌,但它的历史使命已经接近终点。一场向着更广阔天地的探索,即将拉开序幕。
2.2长上下文窗口竞赛(2022–2024):从“寸土寸金”到“军备竞赛”
随着Prompt Engineering的局限性日益暴露,业界和学术界都意识到,要让LLM处理更复杂的任务,必须打破那个该死的O(n²)计算瓶颈,从根本上扩大上下文窗口。于是,一场围绕“长上下文”的技术军备竞赛在2022年左右拉开帷幕。
这场竞赛的目标非常明确:在保持(甚至提升)模型性能的同时,用更高效的算法将上下文窗口从几千个Token,推向几万、几十万,乃至百万级别。这标志着上下文技术的一次重大飞跃,其核心驱动力来自一系列对Transformer底层架构的精妙改造。
2.2.1解除封印:突破二次方诅咒的关键技术
众多技术创新共同促成了长上下文的实现,其中最具代表性的可以分为三类:
高效的注意力算法(Efficient Attention Algorithms)
FlashAttention:2022年,斯坦福大学的研究者提出了FlashAttention,这可以说是长上下文革命的“引爆点”。它本身并没有改变注意力的计算逻辑,但通过一种“IO感知”(IO-aware)的设计,极大地优化了GPU显存(HBM)的读写方式。它利用tiling(分块)技术,将巨大的注意力矩阵拆分成小块进行计算,从而显著减少了数据在不同层级内存之间的移动次数。这使得完全相同的注意力计算,速度提升了数倍,内存占用却大幅降低。FlashAttention的出现,让之前因为算力限制而不敢尝试的更长上下文长度,变得触手可及。
更聪明的“位置编码”(Smarter Positional Embeddings)
传统的Transformer需要明确地为每个Token注入其在序列中的绝对或相对位置信息,这被称为位置编码。但当序列变得非常长时,旧的位置编码方法会失效。为了解决这个问题,新的方法应运而生。
旋转位置编码(Rotary Position Embedding, RoPE):由Google在2021年提出,RoPE通过一种巧妙的数学变换,将位置信息编码到了Query和Key向量的“相位”中。它的优点是具有良好的外推性(extrapolation),即在比训练时更长的序列上也能保持较好的性能,因此被Llama等众多主流模型采用。
线性偏置注意力(Attention with Linear Biases, ALiBi):由Meta AI在2021年提出,ALiBi更加简单直接。它完全抛弃了在词嵌入阶段添加位置编码的做法,而是在计算注意力分数时,直接给每个分数加上一个与Token之间距离成正比的“惩罚项”(一个负的偏置)。距离越远的Token对,惩罚越大。这种设计天然地赋予了模型一种“关注就近”的归纳偏置,并且外推能力极强,即使在比训练长度长得多的序列上也能稳定工作。
稀疏注意力(Sparse Attention)
另一条思路是,既然完全的“全局注意力”计算量太大,我们是否可以让每个Token只关注一部分“重要”的邻居?这就是稀疏注意力的核心思想。例如,Longformer结合了局部窗口注意力和全局注意力,让每个Token关注附近的几个词,以及少数几个被设定为“全局重要”的词。BigBird则引入了随机注意力,让每个Token再额外随机关注几个词。这些方法在特定任务上取得了成功,但因为其“稀疏”的假设,通用性不如前两类方法。
2.2.2从1k到1M:Token窗口的“通货膨胀”
在这些技术的加持下,上下文窗口的长度开始了一场惊人的“通货膨胀”。
2023年初,主流模型的上下文窗口还在4k-8k的范围。
Anthropic的Claude率先将窗口扩大到100k。
不久,Google在其Gemini 1.5 Pro中展示了惊人的100万Token上下文窗口,并成功通过了“大海捞针”(Needle in a Haystack)测试——即在百万级别的文本中,准确地找到并利用一个被刻意隐藏的“针”(一个特定的事实)。
随后,几乎所有主流模型提供商都迅速跟进,128k、200k甚至更长的上下文窗口成为了旗舰模型的标配。
上下文似乎在一夜之间从“稀缺资源”变成了“无限供应”的商品。这极大地扩展了LLM的应用场景,例如直接处理一整本书、分析数百页的财报、或者消化整个代码库。
2.2.3“长”的代价:上下文腐烂与注意力稀释
然而,看似无限风光的长上下文,很快也暴露出了其固有的问题。窗口变长,并不意味着模型能同等有效地利用所有信息。一个核心问题浮出水面——上下文腐烂(Context Rot),也常被称为“注意力稀释”(Attention Dilution)或“迷失在中间”(Lost in the Middle)现象。
研究者们通过“大海捞针”测试发现,模型能否找到“针”,很大程度上取决于“针”在上下文草堆中的位置。
当信息位于上下文的开头或结尾时,模型的召回率非常高。
然而,当信息被放置在上下文的中间部分时,模型的性能会急剧下降,仿佛“忘记”了那里的内容。
这种现象揭示了长上下文的一个残酷真相:更长的上下文并不等于更强的理解力。仅仅扩大窗口,而不优化信息的组织和利用方式,就像给一个学生发了一堆没有重点的复习材料,他很可能会“划重点”式地只记住开头和结尾。过量、未经处理的上下文信息,反而会“稀释”掉模型的注意力,使得关键信息被淹没在噪声之中。
长上下文竞赛的实践,让我们深刻地认识到上下文工程的第二个真理:上下文的质量,远比其数量重要。简单粗暴地堆砌信息是行不通的。如何在一个巨大的窗口中,结构化地组织信息,突出重点,引导模型的注意力,成为了新的、更高级的挑战。这直接催生了上下文技术的第三次飞跃——从依赖“内置”的短期记忆,转向构建“外置”的、可持久化的长期记忆系统。
2.3外部记忆与RAG的兴起(2023–2025):解耦计算与存储
长上下文竞赛很快让业界达成一个共识:仅仅扩大模型的“工作记忆”(即上下文窗口)是远远不够的。一个真正智能的系统,不能只依赖于短暂、易失的在场信息,它还需要一个庞大、持久、可检索的“长期记忆”。这一需求,催生了上下文技术的第三次、也是迄今为止影响最为深远的一次飞跃——外部记忆与检索增强生成(Retrieval-Augmented Generation, RAG)的全面兴起。
2.3.1 RAG的核心思想:解耦“计算”与“存储”
RAG的理念,最早在2020年由Facebook AI(现Meta AI)的研究者提出,但直到2023年,随着LLM应用的爆发,它才真正成为主流。其核心思想优雅而强大:将大型语言模型的“计算”(推理能力)与“存储”(知识)彻底解耦。
在RAG出现之前,我们试图将全世界的知识都“塞”进模型的参数里,通过不断增大模型规模来提升其“博学”程度。这种方式的弊端显而易见:
知识更新困难:模型一旦训练完成,其内部知识就被固化。要更新知识,就必须进行成本高昂的重新训练。
事实不可靠:模型在回答时,本质上是在进行“有根据的猜测”,这很容易导致“幻觉”(Hallucination),即一本正经地编造事实。
缺乏透明度:我们无从知晓模型是根据哪个知识来源给出的答案,无法进行事实核查和溯源。
RAG彻底改变了这一模式。它不再强求模型“记住”一切,而是将模型定位为一个开放式的推理引擎,将知识存储在外部的、可随时更新的知识库中(通常是向量数据库)。当一个问题到来时,RAG系统的工作流程如下:
1.检索(Retrieve):首先,用用户的查询去知识库中检索最相关的信息片段。
2.增强(Augment):然后,将这些检索到的信息片段,连同用户的原始问题,一同“增强”到给模型的Prompt中。
3.生成(Generate):最后,要求模型基于提供的上下文信息来生成答案。
这个简单的流程,却带来了革命性的变化:
知识变得可插拔、可更新:我们只需更新外部知识库,就能实时更新AI的知识,而无需触动模型本身。
答案变得有据可查:系统可以明确地告诉用户,答案是基于哪些文档或数据生成的,大大提升了可靠性和透明度。
成本效益更高:我们可以用一个相对较小的模型,通过外挂一个庞大的知识库,来达到甚至超过一个巨型模型的知识能力。
2.3.2 MemGPT:像操作系统一样管理上下文
如果说RAG为模型外挂了“长期记忆”的硬盘,那么MemGPT则为模型设计了一套先进的“内存管理系统”。2023年,加州大学伯克利分校的研究者提出了MemGPT,其灵感直接来源于计算机的操作系统。
操作系统通过“虚拟内存”机制,让程序感觉自己拥有比物理内存大得多的内存空间。它会自动地在高速但昂贵的物理内存(RAM)和低速但廉价的硬盘(Disk)之间,来回“换页”(Paging),将当前最需要的数据放入内存,将暂时不用的数据存回硬盘。
MemGPT将这一思想引入了LLM的上下文管理。它将模型的上下文窗口视为有限的“物理内存”,将外部的向量数据库或文件系统视为无限的“虚拟内存”。MemGPT赋予了LLM一种“元认知”能力,让模型自己来决定:
何时将信息从主上下文(物理内存)中移出,进行摘要或归档,存入外部的长期记忆(虚拟内存)。
何时需要从长期记忆中检索关键信息,调入主上下文,以辅助当前的任务。
如何与用户互动,以确认哪些信息是重要的,值得被长期记住。
通过这种方式,MemGPT让LLM的上下文管理变得像操作系统一样智能和高效。它不再被动地接收信息,而是主动地、分层地管理自己的记忆,从而在理论上实现了“无限上下文”的能力,即便其物理上下文窗口是有限的。
2.3.3持久化上下文的黎明
RAG和MemGPT的兴起,标志着用户上下文和组织上下文终于进入了“可持久化、可检索”的长期记忆层。这意味着AI应用第一次有可能构建起真正的、跨越时空的记忆。
对于个人用户:AI助手可以记住你几周前的工作内容、你的长期目标、你的沟通偏好,从而提供真正连贯和个性化的辅助。
对于组织:AI系统可以沉淀每一次客户服务的经验、每一个项目的决策过程、每一个团队成员的专业知识,形成一个动态演进、人人可用的“组织大脑”。
上下文不再是一次性交互中的匆匆过客,而是可以被系统性地捕获、存储、检索和利用的宝贵资产。上下文技术的重心,从“如何塞满窗口”和“如何扩大窗口”,演进到了“如何构建和运营一个高效的记忆系统”。这为即将到来的、更高级的智能体时代,奠定了至关重要的基础。
2.4智能体与协议化上下文(2025–2026):上下文成为主动的、分布式的系统状态网络
随着RAG和记忆系统的成熟,上下文技术正迎来其第四次、也是最具颠覆性的飞跃:智能体(Agent)的普及与上下文的协议化。如果说前三次飞跃的核心是“如何让一个模型看到更多、记得更牢”,那么这一次飞跃的核心则是“如何让众多能够看见和记忆的智能体,安全、高效地协同工作”。上下文的定义,也因此从单个模型的信息输入,演进为整个分布式智能系统中的主动状态网络。
2.4.1智能体:上下文的终极载体
一个AI智能体(Agent)的本质,是一个能够自主感知环境、制定计划、执行动作以达成目标的系统。在这个定义下,上下文构成了智能体存在的全部基础。一个智能体的上下文,可以被精确地定义为其在某一时刻的完整状态描述,它至少包含:
目标(Goal):我被要求完成什么?最终的成功状态是怎样的?
状态(State):为了达成目标,我已经完成了哪些步骤?当前卡在哪一步?
环境(Environment):我能感知到的外部世界是怎样的?时间、用户、可用资源有何变化?
能力(Capabilities):我能调用哪些工具(Skills)?每个工具的用途和限制是什么?
这种“上下文即智能体”的视角,意味着上下文管理不再仅仅是为模型“准备资料”,而是要动态地、结构化地维护智能体完成任务所需的全套信息。这要求上下文本身是主动的、结构化的,并且是可被机器读写的。
2.4.2 MCP:标准化“单智能体如何接入世界”
当每个开发者都用自己的方式为智能体提供工具和数据时,整个生态是混乱且不可扩展的。为了解决这个问题,模型上下文协议(Model Context Protocol, MCP)应运而生。MCP由Anthropic等公司在2024年底倡导,旨在为“模型如何与外部工具/数据源交互”提供一个开放的标准。
MCP的核心,是定义了一套标准的“语言”,让任何外部资源(如一个API、一个数据库、一个知识库)都能将自己的能力“自我描述”清楚。这种描述(Schema)包含了:
能力是什么:工具的功能描述。
如何使用:调用该工具所需的参数和格式。
能得到什么:工具返回结果的结构。
通过MCP,一个智能体在需要使用工具时,不再需要开发者为其硬编码一套特定的调用逻辑。智能体可以直接“阅读”MCP服务器提供的能力清单,然后自主决定调用哪个工具、如何传递参数。这使得外部世界的所有资源,都能以一种标准化的方式,动态地成为智能体上下文的一部分。MCP的出现,标志着系统上下文和环境上下文开始被标准化和协议化。
2.4.3 A2A:标准化“多智能体如何互联”
如果说MCP解决了单个智能体“接入世界”的问题,那么智能体间协议(Agent-to-Agent, A2A)则致力于解决“智能体之间如何协作”的难题。A2A协议由Google等公司在2025年提出,其目标是创建一个智能体的“互联网”,让不同公司、不同平台开发的智能体能够互相发现、沟通和协作。
A2A协议的核心是定义了一套标准的会话消息结构,其中包含了任务协作所需的关键上下文信息:
目标(Goal):我希望你帮我完成什么任务?
上下文(Context):为了完成这个任务,你需要知道的背景信息、数据和我已经完成的步骤。
能力(Capabilities):在这次协作中,我授权你可以使用我的哪些能力或资源?
结果(Result):任务完成后的交付物应该是什么格式?
通过A2A,一个复杂的任务可以被分解给多个各有所长的专业智能体。例如,一个“旅行规划总管Agent”可以:
向“机票查询Agent”发起请求,并传递目的地和时间作为上下文。
从“酒店预订Agent”那里获取符合预算的酒店列表。
将机票和酒店信息,连同用户的饮食偏好,一同作为上下文发送给“当地美食推荐Agent”。
在这个过程中,每个智能体都只暴露完成协作所必需的上下文“切片”,而无需暴露自己的内部状态和全部记忆,从而保证了安全和隐私。
2.4.4去中心化的上下文网络
MCP和A2A的结合,预示着一个去中心化的上下文网络的未来。在这个网络中,每个智能体都是一个独立的节点,拥有自己的本地上下文(记忆、技能)。同时,它又能通过标准协议,动态地引用和调用网络中任何其他节点的能力和上下文。
上下文不再是集中存储、由单一应用管理的“数据”,而是像互联网上的信息一样,成为一种分布式的、可链接的、按需流动的状态资源。一个任务的完成,可能是由网络上数十个智能体接力完成的,每一次接力,都是一次结构化上下文的传递和演进。
至此,上下文技术的演进完成了从“静态输入”到“动态网络”的四次飞跃,为我们今天所讨论的、宏大的“上下文工程”学科,铺就了完整的技术和思想基石。
以上内容为《大模型上下文工程(Context Engineering)指南》的部分内容节选,完整版指南请扫描下方二维码下载。


