南湖新闻网讯(通讯员 刘子涵 李洪亮)2月25日下午,研究生院于学生综合服务楼221室组织大语言模型理论知识专题培训。信息学院李万理作题为“大语言模型的技术演进与国产DeepSeek创新之路”的报告,全体研究生辅导员、研究生院工作人员参加学习。

李万理作报告
李万理从人工智能领域的自然语言处理入手,深入浅出地讲解了大语言模型的发展道路。他从自然语言的产生切入,通过自然语言的习得机制讲解大语言模型的构建思路。
“大语言模型的能力边界是什么?”大语言模型的能力来自于和人类思维对齐的过程,启发于人类思考复杂问题过程,并且通过思维链技术的提出改进了模型的缩放定律,提升了大模型的性能,进而让大语言模型的思考过程与人类的思考过程尽可能一致。随后,通过使用尽可能多的数据、尽可能大的参数量和尽可能多的计算量完成大语言模型的构建。李万理介绍,大语言模型的训练过程一般包含预训练、有监督微调、奖励建模和强化学习四个阶段。大语言模型主要能力的获取在预训练阶段,随后进行有监督微调,完成从可以说话思考到学会与人交流的过程,最后基于人类的反馈,根据人类偏好训练成较为合格的助手。李万理从知识的时效性、因果推理和深度理解、常识与背景知识的缺失、创造性与原创性、计算资源与效率五个维度分析了大语言模型能力局限。

李万理现场讲解
“国产大模型DeepSeek有哪些创新?”我国在计算资源、数据质量和人才创新培养方面与发达国家存在一定差距,但DeepSeek的出现让以“有限算力+算法创新”为发展模式的强推理模型成为突破算力“卡脖子”问题的关键。李万理认为,DeepSeek从架构方面做了大量的负载优化、通信优化、内存优化和计算优化,充分挖掘了算法、软件和硬件的协同创新,其模型开源会极大程度地促进人工智能发展。
李万理谈到,DeepSeek的成功告诉我们,在计算资源受限的情况下,同样可以完成人工智能的构建,未来人工智能领域将聚焦更高效的模型架构、更高效的强化学习和更高效的算力应用,最终实现人工智能科学化、计算系统智能化、领域应用广谱化。
审核人 镇志勇