北京市科学技术委员会、北京市中关村科技园区管理委员会关于公开征集2025年人工智能颠覆性技术方向储备课题的通知
为落实《北京市加快建设具有全球影响力的人工智能创新策源地实施方案(2023—2025年)》和《北京市促进通用人工智能创新发展的若干措施》,加快推动本市人工智能领域颠覆性技术创新,提升人工智能技术的核心竞争力,现征集颠覆性技术方向储备课题。
一、征集方向
任务1:面向新型神经网络架构的颠覆性技术创新研究
研究内容:面向下一代通用人工智能技术,探索非Transformer的新型神经网络架构,实现颠覆性的神经网络架构创新。给出不同模型架构泛化学习能力的理论证明,研究模型训练的稳定性,分析模型在大规模预训练场景下的计算复杂度并进行技术验证。
研究目标:自主开发新型神经网络架构,实现模型算法,并在不小于100亿参数规模验证模型有效性,在同等数据规模、同等参数规模的情况下超过当时的SOTA(在通用测试集如 GPQA、LCB、AIME 25等,代码测试集如SWE-Bench等,智能体测试集如BrowseComp等,超过当时最好的同尺寸Transformer架构模型);开源模型架构和权重,在国际上引起关注(如:HuggingFace的Trending榜单进入前5);面向大规模预训练场景,分析证明模型的泛化能力,分析计算复杂度,撰写有影响力的技术报告等。
任务2:面向 Transformer架构大模型的计算优化方法研究
研究内容:针对现有模型计算复杂度高、推理效率低等问题, 改进Transformer架构,提升计算效率。探索高效注意力机制,突破自注意力在长序列建模中的计算瓶颈;设计更高效的稀疏混合专家架构,实现更高的稀疏率;研究以扩散语言模型为代表的非自回归建模方法,提升模型的双向建模能力并支持高效并行推理;提出高效准确的量化方法,进一步降低权重、激活、梯度、注意力等张量所需的位宽。
研究目标:研发Transformer架构的改进优化方式。选择研究内容中的一种、多种或新的技术路线,至少提出一种优化方案,在保持计算精度及通用问题求解能力的同时,大幅度提升模型的计算速度、降低计算资源消耗。相比现有充分优化过的模型架构及系统,实现推理吞吐量提升100%以上、训练速度提升50%以上。开源相关算法并撰写技术报告,在国际上引起广泛关注。(申请单位可自行设计指标,要求评估指标是在主流硬件平台和典型计算场景下,对不小于100亿参数规模模型的训练效率提升,计算精度评测要求选用行业通用评测基准。)
任务3:面向多模态模型的模态融合与统一架构研究
研究内容:针对多模态模型中不同模态间的信息交互及跨模态语义理解的挑战, 深入探究多模态数据的特征表示、关联映射及语义整合机制, 探索在统一单个模型(例如自回归、扩散及其融合等统一架构)中端到端实现对文本、图像、音频、视频等多种模态数据的深度融合与对齐方法,揭示其对应的多模态尺度缩放定律,进一步提升大模型的智能水平。
研究目标:在不小于100亿参数规模下,实现比相同参数量、计算量的单一模态模型相似或更优的模型能力和尺度缩放潜力。开源模型架构和权重,在国际上引起关注(如:HuggingFace的Trending榜单进入前5)。(申请单位可自行设计具体指标,要求评估指标是在主流硬件平台和典型计算场景下,计算精度评测要求选用行业通用评测基准。)
任务4: 大语言模型的记忆机理与方法研究