【ZiDongHua 之“智能自动化”收录关键词: 大模型 人工智能 机器人 机器学习
  
  AI未来 || 大模型与前沿技术分论坛预告
 
  大模型与前沿技术
  
  分论坛预告
  
  - 第七届北京高校人工智能学术论坛暨
  
  清华大学第799期(自动化系)博士生学术论坛-
 
  
  分论坛简介
  
  / INTRODUCTION
  
  为促进北京高校学生之间的学术交流与经验分享,集中展示北京高校学生在人工智能领域的科技创新成果,北京高校人工智能联盟定于2025年5月17日至5月17日在北京泰山饭店召开“AI未来—第七届北京高校人工智能学术论坛暨清华大学第799期(自动化系)博士生学术论坛”,诚邀大家参加5月17日下午14:00-17:00举行的大模型与前沿技术分论坛。
  
  该分论坛由中国科学院软件研究所研究生会负责承办,共计邀请大模型与前沿技术研究方向的2位知名学者、4位学生参与汇报,同时将展示3张学术海报。以下对分论坛内容进行简单介绍。
  
  1
  
  专家学者报告
  
  1
  
  高晋
  
  中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员,硕士生导师
  
  高晋,中国科学院自动化研究所多模态人工智能系统全国重点实验室研究员,硕士生导师。长期从事视觉目标自主感知与理解研究,在包括IEEE TPAMI、IJCV、IEEE TIP、NeurIPS、ICML、CVPR、ICCV、ECCV等重要国际期刊和国际会议发表学术论文40余篇。主持国家自然科学基金联合基金重点、优秀青年科学基金、北京市自然科学基金杰出青年科学基金等项目10余项。开发的时敏视觉目标自主感知和移动机器人视觉感知技术在国防和民用领域得到实际应用。
  
  报告题目
  
  基于扩散模型的时空一致4D内容生成初探
  
  报告摘要
  
  视觉基座模型的快速发展使得面向动态物体或场景的3D重建和生成(也被称作4D生成)有了质的飞跃。这体现在,整个重建和生成过程不再依赖严格同步的多视角视频采集手段,抑或是特定场景下的人体或人脸模型,而是面向数据获取更加容易、物体类别更加广泛的动态开放场景来实现强大数据先验驱动的时空一致新视角预测。这对于未来面向通用人工智能或具身智能合成大量数据、构建可交互世界模型至关重要。本次报告以4D内容生成辅助合成数据为切入点,重点介绍所在团队在基于扩散模型的时空一致4D内容生成领域的两个初步探索工作,以期抛砖引玉,共同探讨如何促进相关领域的发展。
  
  2
  
  刘哲
  
  中国科学院软件研究所
  
  助理研究员
  
  刘哲,中国科学院软件研究所特别研究助理(助理研究员),主要从事智能化软件工程、人机交互等方面的研究,近年来主要关注移动应用测试、人机协同测试等。在软件工程和人机交互领域国际著名学术期刊/会议ICSE、CHI、TSE、ASE等发表 18篇CCF-A类学术论文。主持国家自然科学基金青年基金项目及企业合作项目。荣获中国科学院优博,CCF软工专委优博,ACM Student Research Competition研究生组全球总冠军和中国科学院院长奖等荣誉。
  
  报告题目
  
  基于大模型的软件自动化测试技术
  
  报告摘要
  
  随着软件复杂性的增加,软件测试的有效性和覆盖率受到较大的影响。前沿研究正在积极探索一些新兴技术来解决这些问题,而多模态大型语言模型(MLLMs)被视为最具潜力的技术之一,其具备前所未有的视觉与自然语言理解和生成能力。本报告将分享多模态大语言模型在自动化测试路径生成和非崩溃缺陷检测方向的研究成果,包括视觉驱动的自动化测试技术和多智能体协同的非崩溃缺陷检测技术,来更好的提升自动化测试的充分性和覆盖性。
  
  3
  
  高欢
  
  快手AIGC多模态理解高级算法专家
  
  北京大学信息科学技术学院博士
  
  高欢,北京大学信息科学技术学院博士,快手AIGC多模态理解高级算法专家,主要负责可灵产品中的多模态理解任务。他的团队致力于从事多模态内容准确且全面的理解,打造高效、可靠的多模态理解大语言模型。团队成员近年来在NeurIPS、ICLR、CVPR、AAAI、ACL等顶级学术会议上发表过多篇有影响力的论文。
  
  报告题目
  
  AIGC背后的多模态理解技术
  
  报告摘要
  
  多模态理解能力是支撑AIGC产出真实、有美感、可控的内容的重要技术。在过去两年中,大语言模型(LLM)发展迅速,目前业界的主要发力点已经聚焦R1、DeepResearch、BrowseComp等高难度复杂场景。与LLM场景不同的是,多模态大语言模型(MLLM)的任务更加分散,面临的挑战更多,因而模型结构、数据构造、能力评测方面仍然在不断涌现新的创新工作,还有很多值得深入挖掘的方向。AIGC方向的多模态理解与通常讲到的多模态理解有所区别,并非是后者的一个子集。由于对生成方面的考量,AIGC上的多模态理解模型需要有更全面的视觉感知能力和空间表征能力。GPT4o提供了一个不错的理解生成一体化的解决方案,效果上也惊艳了世人。当前,AIGC的多模态理解发展到了一个关键节点:向左,模型架构并不代表所有的优雅;向右,刷榜带不来真实能力的提升。本次报告将首先介绍几个AIGC中重要的多模态理解任务,随后将介绍若干关于训练MLLM的技巧,在实际AIGC工业场景中非常实用。希望以此给大家带来启发,推进AIGC和多模态理解向世界模型的演进,让天下没有难实现的创意。
  
  2
  
  学生报告
  
  1
  
  俞王佳
  
  中国科学院信息工程研究所
  
  俞王佳,中国科学院信息工程研究所23级硕士研究生,专业网络空间安全,研究兴趣包括:多模态越狱攻击、多模态幻觉缓解、文生图模型的概念擦除。
  
  报告题目
  
  Resolution Attack: Exploiting Image Compression to Deceive Deep Neural Networks
  
  报告摘要
  
  模型鲁棒性对于确保机器学习系统的稳定性和可靠性至关重要。尽管已有大量研究围绕模型鲁棒性的不同方面(如对抗鲁棒性和标签噪声鲁棒性)展开,但针对不同分辨率下的鲁棒性探索仍然相对不足。针对这一研究空白,本文提出了一种新型攻击方式——分辨率攻击。该攻击通过生成在不同分辨率下呈现不同语义特征的图像,旨在同时欺骗分类器与人类观察者。为实现分辨率攻击,我们提出了一个自动化框架,能够以zero-shot方式生成具有双语义特征的图像。具体而言,我们利用大规模扩散模型在图像构建方面的综合能力,提出分阶段去噪策略以实现跨分辨率图像的平滑过渡。通过该框架,我们对多种现成分类器实施了分辨率攻击。实验结果表明攻击成功率较高,这不仅验证了所提框架的有效性,同时也揭示了现有分类器在不同分辨率下的脆弱性。此外,本框架也能使用在人脸交换和面部伪装等应用。
  
  2
  
  房海鹏
  
  中国科学院计算技术研究所
  
  房海鹏,中国科学院计算技术研究所博士研究生,指导老师为唐胜研究员和唐帆副研究员。其研究方向包括模型压缩与加速、图像与视频生成以及视觉理解。作为第一作者在 CVPR、ACMMM、ICASSP 等国际会议发表论文,并担任CVPR2025审稿人。
  
  报告题目
  
  Attend to Not Attended: Structure-then-Detail Token Merging for Post-training DiT Acceleration
  
  报告摘要
  
  本报告介绍一种针对扩散 Transformer(DiT)的后训练加速方法。我们首先系统分析扩散先验,定位并量化网络中冗余 token 的位置与程度,然后提出“先结构-后细节”的双阶段 token 合并策略。该方法在无需微调的前提下,即可在保持生成质量的同时显著减少推理计算量,为高分辨率 AIGC 场景提供轻量化部署方案。
  
  3
  
  杨荩冉
  
  解放军总医院第一医学中心  营养科
  
  解放军总医院第一医学中心营养科硕士研究生,研究方向为围手术期营养、减重、脂代谢营养的临床应用。获得研究生国家奖学金、北京市三好学生、北京市优秀毕业生等荣誉。参与食品安全国家标准1项,国家及军队课题6项,发表6篇SCI及核心文章,申请专利3项。多次参加国内及国际学术会议,进行国际壁报展示及口头发言等
  
  报告题目
  
  Associationbetween dietary mineral mixture and the prevalence of sarcopenia inUS adultsfrom NHANES 2011-2018 A combination of Bayesian approaches
  
  报告摘要
  
  背景: 既往研究主要关注单一膳食矿物质与肌少症(肌肉减少症)的关联,忽视了多种矿物质的联合效应。本研究旨在探索九种膳食矿物质(钙、磷、镁、铁、锌、铜、钠、钾、硒)的混合作用与普通人群肌少症的关系。
  
  方法: 基于2011–2018年美国国家健康与营养调查(NHANES)数据,剔除缺失值后纳入6888名参与者。肌少症通过经体重指数(BMI)调整的骨骼肌质量(ASMBMI)进行定义。采用广义线性回归、贝叶斯核机回归(BKMR)及贝叶斯半参数回归模型分析膳食矿物质的联合关联及交互作用。
  
  结果: 研究发现,加权后的矿物质组合(尤其是硒)与肌少症呈负相关。矿物质混合物水平(特别是硒)越高,肌少症发生风险越低,其中硒、锌、钙和钠的影响最为显著。
  
  讨论: 本研究提示硒是肌少症的潜在影响因素。未来需更多前瞻性研究验证硒与肌少症患病率的关联。
  
  4
  
  齐天浩
  
  中国科学技术大学
  
  中国科学技术大学信息科学技术学院信息与通信工程专业博士研究生,师从张勇东教授和谢洪涛教授,主要研究方向为跨模态视觉内容生成和长尾目标检测。在长尾目标检测方向,他提出了统一框架BACL(IEEE TMM 2023);在跨模态视觉内容生成方向,他先后提出了高效风格化扩散模型DEADiff(CVPR 2024 Highlight)和多场景长视频生成模型Mask²DiT(CVPR 2025)。目前担任ICLR、ACM MM等顶级会议及IJCV、TMM等期刊的审稿人。
  
  报告题目
  
  Mask²DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation
  
  报告摘要
  
  Sora在单场景视频生成中展示了扩散Transformer (DiT) 架构的巨大潜力。然而,对于更具挑战性且应用更广泛的多场景视频生成任务的研究仍然较少。为填补这一空白,我们提出了 Mask²DiT,一种在视频片段与其对应文本注释之间建立细粒度一一对齐的新方法。具体而言,我们在DiT架构的每个注意力层中引入对称二值掩码,确保每条文本注释仅作用于其对应的视频片段,同时在视觉token之间保留时序一致性。该注意力机制实现了精确的片段级文本–视觉对齐,使DiT架构能够高效处理具有固定场景数的视频生成任务。为了进一步赋予DiT架构基于已有场景生成额外场景的能力,我们又引入了片段级条件掩码,使每个新生成的片段都以上一片段作为条件,从而支持自回归式的场景扩展。定性和定量实验均证明,Mask²DiT在保持跨片段视觉一致性的同时,确保了每个片段与对应文本描述之间的语义对齐。项目主页:https://tianhao-qi.github.io/Mask2DiTProject/
  
  3
  
  分论坛海报
  
  01
  
  鲁家兴
  
  作者单位:辽宁工程技术大学
  
  Poster题目:基于改进LSTM的电商需求预测方案
  
  02
  
  矫立岳,李长勇
  
  作者单位:山东大学法学院
  
  Poster题目:老年人数字化生活权的法治保障;积极老龄化视角下“银发数字鸿沟”的法治弥合路径
  
  03
  
  李冰凝
  
  作者单位:中央财经大学
  
  Poster题目:人才流失风险对企业ESG社会维度表现的影响——基于中国上市公司的经验证据
  
  北京高校人工智能联盟
  
  /  AIABU  /
  
  主办单位
  
  清华大学自动化系研究生会
  
  中国科学院自动化研究所研究生会
  
  承办单位
  
  北京大学软件与微电子学院研究生会
  
  北京大学智能学院研究生会
  
  北京航空航天大学自动化科学与电气工程学院研究生会
  
  北京交通大学电子信息工程学院研究生会
  
  北京交通大学自动化与智能学院研究生会
  
  北京科技大学智能科学与技术学院研究生会
  
  北京理工大学自动化学院研究生会
  
  北京邮电大学计算机学院(国家示范性软件学院)研究生会
  
  中国科学院大学人工智能学院学生会
  
  中国科学院计算技术研究所研究生会
  
  中国科学院软件研究所研究生会
  
  中国科学院信息工程研究所研究生会
  
  中国农业大学工学院研究生会
  
  中国人民大学信息学院研究生会
  
  中国医学科学院阜外医院研究生会
  
  (以上名单按照拼音排序)
  
  支持单位
  
  审核 |  刘泽垣 钱涛