股票配资官网而是精准地找到 17 个最相关的专家来解决问题

除夕晚上,当大家都在准备年夜饭的时候,阿里通义千问团队悄悄地发布了 Qwen3.5。

说实话,当我在凌晨刷到这条消息时,我第一反应是:这个时间点发布?认真的吗?

但当我点开技术文档,看到那一串串参数和架构设计时,我立刻意识到——这次玩真的了。

核心亮点一:3970 亿参数,却只激活 170 亿

我先说一个最震撼我的数字:Qwen3.5-397B-A17B 总参数量 3970 亿,但每次推理只激活 170 亿参数。

这是什么概念?让我用一个类比来解释。

想象你有一个 397 人的专家团队,但每次遇到问题时,你不需要召集所有人开会,而是精准地找到 17 个最相关的专家来解决问题。这样既保证了专业性,又大幅提升了效率。

阿里之前最强的旗舰模型 Qwen3-Max,是万亿参数级别的闭源模型。而这个新开源的 3970 亿参数模型,基座性能和 Qwen3-Max 持平。

用不到一半的参数,打平了万亿参数的上一代。这背后的技术突破,值得我们深入挖掘。

稀疏混合专家(MoE)架构详解

Qwen3.5 采用了 512 个专家的 MoE 架构,每个 Token 激活 10 个路由专家加 1 个共享专家,共 11 个激活专家。

这个设计非常巧妙。传统的密集模型就像一个全能选手,什么都会但什么都不精。而 MoE 模型更像一个专家委员会,每个专家都有自己的专长领域。

当模型遇到代码问题时,会调用"编程专家组";遇到数学问题时,会调用"数学专家组"。这种专业分工的设计,让模型在保持高性能的同时,大幅降低了计算成本。

推理效率的惊人提升

在 32K 上下文下,Qwen3.5 的解码吞吐量是 Qwen3-Max 的 8.6 倍;在 256K 上下文下,这个数字是 19 倍。

我特意做了个计算:

如果 Qwen3-Max 处理一个 256K 上下文的任务需要 19 分钟,那 Qwen3.5 只需要 1 分钟。

这种效率提升不是渐进式的,而是跨越式的。

核心亮点二:Gated DeltaNet + 混合注意力架构

这是我认为 Qwen3.5 最具创新性的设计之一。

什么是 Gated DeltaNet?

传统的注意力机制有一个致命问题:计算复杂度是 O(n²)。

这意味着什么?假设你的输入长度是 1000 个 Token,模型需要计算 1,000,000 次注意力关系。如果输入长度翻倍到 2000,计算量会飙升到 4,000,000 次——四倍于原来的计算量。

而线性注意力机制(如 Gated DeltaNet)将这个复杂度降低到 O(n)。输入长度翻倍,计算量也只是翻倍,而不是四倍。

Gated DeltaNet 是一种线性注意力变体,灵感来自循环神经网络,包含了来自 Mamba2 的门控机制。

但是,线性注意力也有代价——它会损失一部分全局上下文建模能力。

混合架构:鱼和熊掌可以兼得

阿里的解决方案非常聪明:混合使用线性注意力和传统全注意力,比例为 3:1。

Qwen3.5 每 4 个 Transformer 层中,3 个使用 Gated DeltaNet(线性注意力),1 个使用标准全注意力。

这种设计让我想起了建筑学中的"框架-剪力墙"结构——框架负责承载日常荷载,剪力墙负责抵抗地震等极端情况。

在 Qwen3.5 中:

Gated DeltaNet 层:负责处理长序列的高效计算

全注意力层:负责保留全局上下文的精确建模

两者相辅相成,既保证了效率,又保证了性能。

技术细节:架构布局

Qwen3.5 的隐藏层布局为:15 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))

让我翻译一下这个公式:

模型总共 60 层,每 4 层为一组,重复 15 次:

第 1-3 层:Gated DeltaNet + MoE

第 4 层:Gated Attention + MoE

这种规律性的设计,不仅优化了性能,也让模型的训练更加稳定。

核心亮点三:原生多模态架构

这是 Qwen3.5 与 Qwen3 系列最大的区别之一。

Qwen3 的"后装"vs Qwen3.5 的"原生"

以前的 Qwen3 系列是这样的:

Qwen3:纯文本模型

Qwen3-VL:独立的视觉-语言模型

这就像一辆轿车,后来想拖货,就焊了个拖车钩上去。能用,但总觉得哪里不对。

Qwen3.5 从预训练开始就让文本和图像一起学习,实现了原生多模态。

这种"原生融合"的好处是什么?

统一的知识表示:文本和图像共享同一个知识空间

更强的跨模态理解:模型能更自然地理解"一张图胜过千言万语"

更高的训练效率:不需要分别训练文本模型和视觉模型,再费力对齐

通过早期文本-视觉融合与扩展的视觉/STEM/视频数据,Qwen3.5 在相近规模下优于 Qwen3-VL。

核心亮点四:史无前例的 RL 训练规模

作为技术博主,我一直在关注各家的强化学习(RL)训练策略。

Qwen3.5 的 RL 训练规模让我瞠目结舌。

百万级 Agent 环境训练

Qwen3.5 通过强化学习在"百万级 Agent 环境"中进行训练,并采用逐步增加难度的任务分布。

百万级是什么概念?

想象一下,阿里搭建了上百万个不同的模拟环境:

有的是代码调试环境

有的是数学证明环境

有的是多轮对话环境

有的是工具调用环境

模型在这些环境中不断试错、学习、优化,最终形成强大的泛化能力。

异步 RL 基础设施

阿里团队为此开发了全新的异步强化学习框架,这个框架有几个关键特性:

训推分离:训练和推理解耦,提高硬件利用率

动态负载均衡:自动调整不同环境的资源分配

细粒度故障恢复:某个环境出问题不影响整体训练

3-5 倍端到端加速:相比传统 RL 训练框架

该框架通过系统与算法协同设计,在严格控制样本陈旧性的基础上有效缓解了数据长尾问题,提高了训练曲线的稳定性和性能上限。

这段话翻译成人话就是:即使在训练后期,模型依然能稳定学习,而不会出现性能波动或崩溃。

核心亮点五:201 种语言支持

Qwen3.5 将语言与方言支持从 119 种扩展至 201 种。

这个数字看起来只是从 119 增加到 201,但背后的工作量是巨大的。

25 万 Token 词表

为了支持这么多语言,Qwen3.5 的词表从 15 万扩展到了 25 万。

25 万词表在多数语言上带来约 10-60% 的编码/解码效率提升。

什么意思?同样一句中文,Qwen3 可能需要 10 个 Token 来表示,而 Qwen3.5 只需要 6 个 Token。这不仅节省了计算资源,也提升了模型对语言的理解能力。

深度文化理解

更重要的是,Qwen3.5 不只是"会说"这些语言,而是理解这些语言背后的文化和语境。

比如中文里的"豆腐块"可以指豆腐,也可以指内务整理得很整齐。英文直译 "tofu piece" 完全不对,需要理解上下文。

201 种语言的支持,意味着阿里在每种语言上都下了这样的功夫。

核心亮点六:基础设施创新

作为一个技术博主,我特别关注"如何训练"这件事。

Qwen3.5 在训练基础设施上有两个重大创新。

1. 异构基础设施

Qwen3.5 通过异构基础设施实现高效的原生多模态训练:在视觉与语言组件上解耦并行策略,避免统一方案带来的低效。

传统的多模态训练,会把视觉模块和语言模块当作一个整体,使用统一的并行策略。但这样会导致资源浪费——因为视觉模块和语言模块的计算特性完全不同。

Qwen3.5 采用了解耦策略:

视觉模块:使用适合图像处理的并行方案

语言模块:使用适合文本处理的并行方案

利用稀疏激活实现跨模块计算重叠,在混合文本-图像-视频数据上相比纯文本基线达到近 100% 的训练吞吐。

这意味着什么?在训练多模态数据时,速度几乎和训练纯文本一样快。

这是一个惊人的成就。

2. 原生 FP8 训练流水线

原生 FP8 流水线对激活、MoE 路由与 GEMM 运算采用低精度,并通过运行时监控在敏感层保持 BF16。

FP8(8 位浮点数)相比传统的 BF16(16 位)或 FP32(32 位),可以大幅降低显存占用和提高计算速度。

但问题是,有些层对精度非常敏感,用 FP8 会导致训练不稳定。

阿里的解决方案是:运行时动态监控。

大部分层:使用 FP8,省显存、快速度

敏感层:自动切换到 BF16,保证稳定性

实现约 50% 的激活显存降低与超过 10% 的加速,并稳定扩展至数万亿 token。

Benchmark 表现:全方位对标顶级闭源模型

作为一个技术博主,我最关心的还是实际性能。

我仔细研究了 Qwen3.5 在各个 Benchmark 上的表现,结果让我非常惊讶。

认知能力:MMLU-Pro 87.8 分

Qwen3.5 在 MMLU-Pro 认知能力评测中得分 87.8 分,超越 GPT-5.2。

MMLU-Pro 是一个测试模型"通识知识"的基准测试,涵盖了从历史、法律到物理、化学的各个领域。

87.8 分意味着在绝大多数学科领域,Qwen3.5 的表现都达到了专业水准。

推理能力:GPQA Diamond 88.4 分

在博士级难题 GPQA 测评中斩获 88.4 分,高于 Claude 4.5。

GPQA(Graduate-level Physics Question Answering)是专门测试博士级物理推理能力的基准。

88.4 分的成绩,意味着 Qwen3.5 在处理复杂科学问题时,已经达到了顶尖水平。

指令遵循:IFBench 76.5 分

在指令遵循 IFBench 以 76.5 分刷新所有模型纪录。

IFBench 测试的是模型"听懂人话"的能力——你让它做什么,它能不能准确执行。

76.5 分是目前所有模型中的最高分,这说明 Qwen3.5 在理解和执行用户指令方面,已经做到了行业领先。

Agent 能力:全面领先

在通用 Agent 评测 BFCL-V4、搜索 Agent 评测 BrowseComp 等基准中,Qwen3.5 表现均超越 Gemini 3 Pro。

这是我最关注的部分。Agent 能力代表了模型在真实世界中解决问题的能力。

Qwen3.5 在 Tau2-Bench 上得分 86.7,仅次于 Claude 的 91.6。

Tau2-Bench 测试的是模型在多轮对话、工具调用、任务规划等复杂场景下的表现。86.7 分说明 Qwen3.5 在 Agent 任务上已经非常接近闭源顶级模型。

编程能力:SWE-bench 76.4%

Qwen3.5 在 SWE-bench Verified 上得分 76.4%,与 Kimi K2.5(76.8%)和 Gemini 3 Pro(76.2%)基本持平。

SWE-bench 测试的是模型解决真实软件工程问题的能力——给它一个 GitHub Issue,看它能不能写出正确的 PR。

76.4% 的通过率,意味着 Qwen3.5 已经可以解决四分之三的真实软件工程问题。

视觉理解:原生多模态的优势

作为原生多模态模型,Qwen3.5 在视觉理解任务上表现出色。

虽然官方还没有公布详细的视觉 Benchmark 数据,但从我的测试体验来看,Qwen3.5 在图像理解、视频分析、GUI 交互等任务上,表现都非常优秀。

Qwen3.5-Plus:1M Token 上下文窗口

除了开源的 Qwen3.5-397B-A17B,阿里还同时发布了 Qwen3.5-Plus 的 API 版本。

Qwen3.5-Plus 是对应于 Qwen3.5-397B-A17B 的托管版本,具有更多生产功能,例如默认 1M 上下文长度、官方内置工具和自适应工具使用。

1M Token 是什么概念?

大约相当于:

750,000 个英文单词

一本 1000 页的小说

或者几十万行代码

这意味着你可以把整个代码仓库一次性喂给模型,让它进行全局分析和优化。

如何使用 Qwen3.5?

阿里提供了多种方式来使用 Qwen3.5。

1. Qwen Chat(最简单)

直接访问 chat.qwen.ai,就可以体验 Qwen3.5。

提供三种模式:

自动模式:可以使用自适应思考,并调用搜索、代码解释器等工具

思考模式:对难题进行深度思考

快速模式:直接回答,不消耗思考 Token

2. 阿里云百炼 API(企业用户)

通过阿里云百炼可以调用 Qwen3.5-Plus API。

如果要开启高级功能:

response = client.chat.completions.create(

model="qwen3.5-plus",

messages=messages,

enable_thinking=True, # 开启推理模式

enable_search=True, # 开启联网搜索

)

3. 本地部署(开发者)

Qwen3.5-397B-A17B 支持多种推理框架:

SGLang:

python -m sglang.launch_server \

--model-path Qwen/Qwen3.5-397B-A17B \

--port 8000 \

--tp-size 8 \

--context-length 262144 \

--reasoning-parser qwen3

vLLM:

vllm serve Qwen/Qwen3.5-397B-A17B \

--port 8000 \

--tensor-parallel-size 8 \

--max-model-len 262144 \

--reasoning-parser qwen3

Ollama(最轻量):

ollama run qwen3.5:cloud

4. 量化版本(Mac 用户福音)

对于 Mac 用户,有 4-bit 量化版本:

mlx-community/Qwen3.5-397B-A17B-4bit 是一个仅包含文本的 4 位量化版本,针对通过 MLX 框架在 Apple Silicon Mac 上进行本地推理进行了优化。

这意味着你可以在一台配置较高的 MacBook Pro 上本地运行 Qwen3.5!

与竞品对比:中国大模型的"春节档"

最近这段时间,中国 AI 圈简直是"神仙打架"。

让我们看看最近发布的几个顶级模型:

Qwen3.5 vs GLM-5

GLM-5(2 月 11 日发布):

参数:744B 总参数,40B 激活参数

特点:集成 DeepSeek 稀疏注意力,长时域 Agent 能力强

优势:在复杂系统工程任务上表现出色

Qwen3.5(2 月 16 日发布):

参数:397B 总参数,17B 激活参数

特点:Gated DeltaNet 混合注意力,原生多模态

优势:推理效率高,多语言支持强

我的看法:两者定位略有不同。GLM-5 更侧重"长周期任务",而 Qwen3.5 更侧重"多模态 + 高效率"。

Qwen3.5 vs Kimi K2.5

Kimi K2.5:

参数:1T 总参数,更高的稀疏度

特点:采用 KDA(Kimi Delta Attention)+ MLA(Multi-Head Latent Attention)

优势:超长上下文处理能力

Qwen3.5:

参数:397B 总参数,更平衡的设计

特点:Gated DeltaNet + 标准注意力的 3:1 混合

优势:开源,部署门槛低

我的看法:Kimi K2.5 使用通道级门控(KDA),而 Qwen3.5 使用标量门控;Kimi 采用 MLA 降低 KV 缓存,而 Qwen3.5 采用 Gated Attention。

两者都是线性注意力的探索者,但技术路线不同。

Qwen3.5 vs MiniMax M2.5

MiniMax M2.5:

参数:10B 激活参数(最少)

特点:完全线性注意力(Lightning Attention)

优势:推理速度极快

Qwen3.5:

参数:17B 激活参数

特点:混合注意力架构

优势:性能和效率的平衡

MiniMax 走的是"极致效率"路线,Qwen3.5 走的是"平衡"路线。

现在,阿里开源了 3970 亿参数的 Qwen3.5,性能可以对标甚至超越一些闭源顶级模型。

配资平开户提示：文章来自网络，不代表本站观点。

股票配资官网而是精准地找到 17 个最相关的专家来解决问题

场外配资是什么磷酸铁锂电池的能量密度稍低

炒股怎样加杠杆无需特意站马而腰马自然坚固

配资安全证券配资门户中国平安的净利润增速超过行业平均水平

股票配资官网而是精准地找到 17 个最相关的专家来解决问题

北京网上炒股配资网国内市场对进口鲜活产品的需求也日益旺盛

北京配资平台长途自驾返乡、探亲旅游出行集中

专业股票配资知识论坛AI之父预言“放射科医生将被替代”；今天

配资公司十大陷阱和套路马松森湖的镜面倒影如果是晴天能清晰映出库克山

中国十大配资公司世俱杯小组赛狂轰12球仅失1球

倍盈配资伊朗称摧毁以多个军事设施及战略阵地，打击力度还将升级

配资知名股票配资渠道下破3320美元/盎司关口

实盘配资官网强化运营效率和精益管理

炒股配资平台知识此次冲突显著增加了地缘政治的不确定性

散户如何给股票加杠杆典型的外冷内热型美女