清华瑞莱联合团队：“安全增强版DeepSeek”可为应用提供坚实基座

2025年02月25日来源：点击：次

中新网北京2月24日电 (记者张素)2月23日，清华大学与瑞莱智慧联合团队推出大语言模型RealSafe-R1。研发团队代表介绍说，实验数据表明RealSafe-R1安全性提升显著，“安全增强版DeepSeek”可为更多应用提供可靠坚实基座。

连日来，国产开源大模型DeepSeek的优异表现备受关注，其在自然语言处理和多任务推理方面的能力展现了强大的技术实力，尤其是在复杂问题解决和创造性任务中表现出色。业内专家同时提醒，DeepSeek R1和V3在面对一些安全性挑战时仍存在一定的局限性。

针对“安全对齐机制不足”这一当前开源大模型的通病，清华瑞莱联合团队提出基于模型自我提升的安全对齐方式。“大模型的安全性瓶颈是本质的，只有通过持续投入和攻坚补齐短板弱项，人工智能产业才能真正实现高质量发展。”瑞莱智慧首席执行官田天说。

据介绍，研发团队将安全对齐与内省推理相结合，使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险，实现基础模型自身能力的自主进化。具体来说，研发团队对DeepSeek-R1系列模型进行后训练，正式推出RealSafe-R1系列大模型。

实验数据表明，RealSafe-R1安全性提升显著，在多个基准测试中有效增强了对各种越狱攻击的抵抗力，并减轻了安全与性能之间“跷跷板”现象。有评论认为，这为开源大模型安全发展与风险治理提供了创新性解决方案。

田天表示，RealSafe-R1各尺寸模型及数据集，将于近期向全球开发者开源。他进一步指出，这一创新成果将为开源大模型的安全性加固提供有力支持，也为政务、金融、医疗等场景的应用提供更为可靠的坚实基座。(完)

上一页：2025全国半程马拉松锦标赛（第1站）四川仁寿鸣枪开跑
下一页：文创周边一“吒”难求？别急！“哪吒专线”来了

@考生 2025年研考国家线发布
2025年研考国家线发布。点击看大图↓↓出分后还需要做些什么？·成绩复核如果有些考生分数预估成绩和实际成绩存在较大的差异，这个时候可以对成绩进行复查。具体时间需要考生在成绩出来后第一时间查询省区市或者招生单位发布的信息。复试要做哪些准备？如...
外交部：中方一直致力于为俄乌止战凝聚共识为和谈铺路搭桥
中新网北京2月24日电(记者邢翀)中国外交部发言人林剑2月24日主持例行记者会。外交部发言人林剑。薛伟摄　　有记者提问：为促进乌克兰和平作出积极贡献，中方是否有新的计划或倡议？林剑：中方在乌克兰危机问题上的立场是一贯的、明确的。危机全面升级以来...
第一观察｜“三农”要“三增” 根本靠改革
2025年2月23日，《中共中央国务院关于进一步深化农村改革扎实推进乡村全面振兴的意见》公布。这是新时代以来第13个聚焦“三农”的中央一号文件。文件提出，千方百计推动农业增效益、农村增活力、农民增收入，为推进中国式现代化提供基础支撑。2024年5月，习...
中方：美国将中国企业和中国市场拒之门外最终损害自身利益
中新网北京2月24日电(记者邢翀)中国外交部发言人林剑2月24日主持例行记者会。有记者就美国发布投资政策备忘录等相关问题提问。外交部发言人林剑。薛伟摄　　林剑：美方发布的有关备忘录以“国家安全”为由，将中国列为外国对手，采取各种歧视性举措，强化...
国家知识产权局依法驳回恶意抢注“DEEPSEEK”等63件商标注册申请
中新网北京2月24日电 (记者孙自法)中国国家知识产权局2月24日通过官方网络平台发布通告，依法驳回恶意抢注“DEEPSEEK”等63件相关商标注册申请。驳回名单。官网截图　　该官方通告称，近期，杭州深度求索人工智能基础技术研究有限公司研发的DeepSeek人工智能大模...
薛志龙代表：让“卓资熏鸡”再次名扬天下
中新网乌兰察布2月23日电题：薛志龙代表：让“卓资熏鸡”再次名扬天下记者李爱平蛇年春节过后，43岁的薛志龙一直在思考如何让家乡内蒙古自治区卓资县的“卓资熏鸡”再获流量。“没想到，去年一档综艺节目带火了‘卓资熏鸡’，那段时间很多人的朋友圈都刷...