近日,太原理工大学计算机科学与技术学院(大数据学院)青年教师赵智慧在具身智能安全方面的研究成果被CCF A类会议The Web Conference(WWW)2026 录用,题目为“Breaking Cross-modal Alignment in Embodied Intelligence: A Multimodal Adversarial Attack Framework for Vision-Language-Action Models”。该会议是互联网领域历史最悠久、最具影响力的顶级学术会议之一。WWW 2026共收到有效投稿3370篇,录用676篇,录用率约为20.1%。本次会议将于2026年4月13日至4月17日在迪拜举行。该论文由赵智慧讲师担任第一作者,太原理工大学陈永乐教授为通讯作者。
这篇工作聚焦于视觉-语言-动作(VLA)模型的供应链安全风险,提出了一种新型多模态对抗攻击框架。该框架能够有效扰动VLA模型的多模态对齐,导致其动作输出产生偏差,在仿真实验和真实设备中均使任务执行成功率显著下降。研究不仅揭示了VLA模型在实际部署中可能面临的安全威胁,也为构建更安全的具身智能系统提供了重要的评估基准。
图 1 方法整体框架图
赵智慧主要面向工业互联网、具身智能体等场景,研究在不可信第三方、复杂软件供应链与强对抗环境下,系统与智能体的服务可信性、行为对齐性及安全可验证性问题。现以第一作者或通信作者身份在WWW、TMC、SRDS、TR、IoT-J、KBS等国际会议和期刊上发表学术论文10余篇。