PG电子·(中国)官方网站

关于PG电子 公司简介 公司历程 荣誉证书 新闻中心 研发支持 PG电子官方网站 产品中心 产品测试方案 核心功能模块 产品解决方案 PG电子·(中国)官方网站 加入我们 联系我们 公司与办事处 商务合作
news
pg电子官方平台|棋乐游戏|蚂蚁、人大发布原生MoE扩散语言模型将于近期开源
发布时间 2025-10-10 17:34:38
文章来源 PG电子·(中国)官方网站科技


  pg电子游戏官方网站★◈ღ,机房建设★◈ღ。PG电子·(中国)官方网站★◈ღ,PG电子(中国)官方网站9月12日消息★◈ღ,在外滩大会上★◈ღ,蚂蚁集团与中国人民大学联合发布原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”棋乐游戏★◈ღ。

  据介绍★◈ღ,这款新模型通过非自回归的掩码扩散机制★◈ღ,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习棋乐游戏★◈ღ、指令遵循★◈ღ、代码和数学推理等)★◈ღ。

  蚂蚁方面公布的数据显示★◈ღ,LLaDA-MoE模型性能效果在代码★◈ღ、数学棋乐游戏★◈ღ、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型★◈ღ,接近或超越了自回归模型 Qwen2.5-3B-Instruct★◈ღ,仅激活1.4B 参数即可实现等效3B稠密模型的性能★◈ღ。

  蚂蚁集团通用人工智能研究中心主任★◈ღ、西湖大学特聘研究员★◈ღ、西湖心辰创始人蓝振忠表示★◈ღ,“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性★◈ღ,意味我们在把dLLM训扩到更大规模的路上又往前走了一步★◈ღ。”

  中国人民大学高瓴人工智能学院副教授李崇轩介绍★◈ღ,“两年过去★◈ღ,AI大模型能力突飞猛进★◈ღ,但存在一些问题始终没有得到本质上的解决★◈ღ。究其原因pg电子官方平台★◈ღ,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的棋乐游戏pg电子官方平台★◈ღ,从前往后依次生成下一个token★◈ღ。这导致它们难以捕tokens 之间的双向依赖关系★◈ღ。”

  蓝振忠还表示pg电子官方平台★◈ღ,“我们将于近期向全球完全开源模型权重和自研推理框架★◈ღ,与社区共同推动 AGI 新一轮突破★◈ღ。”

  据了解★◈ღ,蚂蚁与人大团队攻关3个月pg电子官方平台★◈ღ,在LLaDA-1.0基础上重写训练代码★◈ღ,并且基于蚂蚁自研分布式框架 ATorch提供EP 并行等一系列并行加速技术★◈ღ,基于蚂蚁Ling2.0基础模型的训练数据★◈ღ,在负载均衡★◈ღ、噪声采样漂移等核心难题上取得突破★◈ღ,最终采用7B-A1B(总7Bpg电子官方平台★◈ღ、激活1.4B)的MOE架构完成约20T 数据的高效训练★◈ღ。

  据蓝振忠介绍★◈ღ,除模型权重外★◈ღ,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎★◈ღ。相比 NVIDIA 官方 fast-dLLM★◈ღ,该引擎实现了显著加速★◈ღ。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布★◈ღ。

  蓝振忠还透露★◈ღ,蚂蚁将持续投入包括基于dLLM的AGI领域棋乐游戏★◈ღ,下一阶段将联合学界和全球AI社区共同推动AGI新的突破★◈ღ。“自回归不是终点棋乐游戏★◈ღ,扩散模型同样可以成为通向 AGI 的主干道★◈ღ。”蓝振忠如是说★◈ღ。



上一篇 : pg电子最新网站入口|今日买特马|welcome
下一篇: 没有了