Unknown

阅读: 139 评论: 0

标签:

一周之内,两场AI地震

6月2日旧金山,微软Build 2026刚把"Agent优先"四个字钉进了开发者大会的主视觉。三天后,国内AI圈还在消化这次发布的信息量——7款自研模型、一个"永远在线"的智能体、一套系统级安全沙箱,外加开源治理标准和测试框架。

同一周,GPT-5.6的150万Token上下文窗口传闻、通义千问Qwen3.6全系列开源、Kimi K2.6把上下文推到200万Token以上……大模型的军备竞赛丝毫没有放缓的意思。但这次Build释放的信号其实不太一样:微软不再只是卖API调用的平台方了,它要自己做模型、做产品、做硬件、做安全标准,把Agent塞进企业运转的每一个环节。

说实话,这比我之前预想的激进得多。

Scout:不是另一个Copilot,是"永远在线的数字员工"

Build上最受关注的产品叫Scout。简单理解,它是跑在Microsoft Teams里的一个AI Agent,能读你的工作消息、翻你的日历、扫你的邮件收件箱,然后替你干活——自动安排会议、起草专业回复、处理冲突日程。

听着像是Copilot的加强版?区别在于:Copilot是你问一句它答一句的"副驾驶",而Scout构建在OpenClaw框架之上,设计理念是你不说话它也在干活。微软内部的销售部门已经在用了,据说是使用量最大、增长最快的群体。

这件事的意义在于,它把Agent的使用门槛从"主动发起对话"拉到了"被动接收服务"。对企业来说,这就不是效率工具了,而是真的在往"数字员工"方向走。当然,前提是你愿意让AI看到你所有的邮件和日程——隐私和安全的问题后面单独聊。

七款MAI模型:零蒸馏,全部从零训练

这次Build最让我意外的信息,是微软一口气发了7款自研MAI(Microsoft AI)模型,而且全部从零训练,没有任何蒸馏依赖

几个关键数字:

最值得注意的是Frontier Tuning的数据:为Excel场景微调的MAI模型,性能跟GPT-5.4持平,但效率提升了10倍。麦肯锡用了之后说MAI实现了最高胜率,成本降了大约10倍。

这说明一个趋势:通用大模型的"够用时代"正在结束,垂直场景下的专用小模型正在蚕食它的市场份额。这也是为什么Fireworks AI——那个帮企业跑开源模型的公司——能在四年内估值冲到150亿美元。按Token收费的商业模式,加上越来越便宜的专用模型,中小企业用AI的成本门槛正在快速降低。

MXC:Agent的安全问题,微软选择了"系统级隔离"

我之前写过,Agent越自主越有用,但也越危险。微软这次给的方案叫MXC(Microsoft Execution Containers),本质上是嵌入Windows操作系统的一层策略驱动执行环境。

它的设计思路是提供一个"可组合的沙箱频谱":

Agent的每一次操作都被隔离在独立沙箱里,跟用户的桌面、剪贴板、UI、输入设备完全隔开。每个Agent绑定的身份可以被归因、审计和治理。这套东西计划在2026年7月以Agent 365的预览版推出,叠加Entra、Intune、Defender、Purview这些微软现有的企业安全套件。

坦率讲,这个方案我持谨慎乐观态度。从架构设计上看,MXC确实是目前业内最系统的Agent安全框架——不是在应用层加个权限控制就完事,而是从操作系统层面做隔离。但问题在于:能跑MXC的环境是Windows和WSL,对于大量用Linux服务器栈的企业来说,适配成本不会低。

配套发布的还有两样东西值得关注:ACS(Agent控制规范)是一个开源标准,用策略文件定义Agent能做什么、不能做什么,支持LangChain、OpenAI Agents SDK、Anthropic Agents SDK等主流框架;ASSERT是一个测试评估框架,能把自然语言描述的目标转化成结构化测试用例,记录AI的中间操作路径,定位失败位置。

这俩加在一起,基本上覆盖了"治理标准+质量保证"两个维度。微软的开源策略很聪明——你不一定要用我的模型,但你用了我的标准,生态就在我这儿。

GitHub Copilot桌面版:开发者的Agent元年

这次Build对开发者社区的影响可能最大的是GitHub Copilot桌面应用。几个关键特性:

支持Windows 11、Mac、Linux三个平台,云端和本地沙箱都可以用。这对于中小开发团队来说,基本上是一个"开箱即用的AI开发员工"。考虑到Copilot已经拥有全球最大的开发者用户基数,这个桌面版一旦铺开,Agent编程的普及速度会非常快。

同期发布潮:6月的AI比拼已经不只是模型了

跟微软Build同期,整个AI行业的6月发布潮也在加速。几个值得关注的信号:

上下文窗口竞赛白热化。GPT-5.6传闻将上下文推到150万Token,Kimi K2.6更是直接上了200万Token以上。不到两年时间,从GPT-4的128K到现在扩大了超过10倍。对企业来说,这意味着单次对话就能处理全年财报、整套法律文书或者整座工厂的运行日志——这个变化是质变级的。

推理时计算成为标配。Google的Gemini 3.5 Pro率先采用了推理时计算(Test-Time Compute)架构,推理准确率比前代提升了35%以上。IDC预测到2026年底,超过60%的企业级AI应用会采用这种架构。模型不再只是"快问快答",而是会在回答前"想一会儿"。

开源生态的中国力量。Hugging Face数据显示,中国产开源模型的下载量和社区贡献在过去半年增长了超过300%。通义千问Qwen3.6从0.5B到数百B全系列开源,配合阿里云百炼平台,已经成了大量中小企业AI应用的默认选择。面壁智能举办了"端侧大模型开源周",系统性地展示端侧AI技术布局。复旦和通义实验室联合提出的ToolCUA训练范式,让8B参数的模型在GUI操作上逼近Claude-4.5-Sonnet。

行业洗牌加速。百川智能宣布战略收缩,全面聚焦医疗垂直赛道。智谱市值超7000亿但亏损扩大到47亿。MiniMax最早实现自负盈亏,海外收入占比超过70%。四小虎的财务数据说明了一件事:通用的AI模型赛道已经不适合小玩家了,垂直化和国际化是活下去的两条路。

对中国企业的实际影响

把这些信息拼在一起,我看到三个对国内企业比较现实的信号:

第一,AI Agent的落地窗口正在打开,但安全先行。微软MXC的思路值得参考——不是不让Agent做事,而是给它一个隔离的、可审计的环境。对于正在做内部AI工具的企业,先把安全框架想清楚,比先追求功能炫酷要重要得多。ACS和ASSERT的开源策略也值得借鉴,用标准化的方式管理Agent的行为边界。

第二,专用小模型正在取代通用大模型成为性价比首选。微软MAI的Frontier Tuning数据(性能持平GPT-5.4、效率提升10倍、成本降低10倍)是最好的证明。企业不需要追求最强的通用模型,找到自己核心场景做垂直微调,投入产出比会高得多。国产开源模型(Qwen3.6、GLM-5.1)加上本地化部署,已经可以满足大多数中小企业的需求。

第三,AI编程Agent的普及速度会超预期。GitHub Copilot桌面版、Claude Code这些产品的成熟度已经到了可以真正替代部分初级开发工作的水平。对于我们的外包团队管理来说,这既是效率工具也是管理工具——AI辅助的开发效率提升了,但代码质量的可审计性也同样重要。结合之前讨论的技术人员进度透明度问题,Agent编程工具的日志和审计能力恰恰可以成为新的管控抓手。

Build 2026最核心的判断其实很简单:Agent的价值不在于单点能力有多强,而在于能否安全、可治理地嵌入企业的全栈环境。模型只是底座,安全是前提,治理是保障,产品才是最终的出口。这个逻辑放到国内AI企业的竞争格局里看,同样适用——谁能先把"安全+治理+产品"的闭环跑通,谁就能在下一轮淘汰赛中活下来。

上一篇 > 数据也能上资产负债表了:千亿交易市场启动,软件公司的下一个增长点在客户数据里
下一篇 > 微软Build 2026炸场:7款自研模型+Agent安全沙箱,"永远在线的AI员工"来了