银行大语言模型大语言模型微调

大模型微调过程中如何避免灾难性遗忘？

微调后大模型容易出现灾难性遗忘，导致其他能力下降。使用什么数据和技术组合，能提升特定任务的同时，不造成其他能力丧失，对企业处理多业务功能需求有很大意义。

参与30

查看其它 8 个回答国金证券AI算法工程师的回答

国金证券AI算法工程师AI算法工程师国金证券

在大模型微调过程中，为避免灾难性遗忘，可以采取以下方法：

知识蒸馏：在微调中使用知识蒸馏技术，传递原始模型的知识给微调后的模型，有助于保留先前学到的知识。
正则化：利用正则化方法限制模型参数的变化范围，防止模型在学习新数据时丢失先前学到的知识。
增量学习：将新数据与旧数据一起用于模型训练，以便模型在学习新知识的同时保留先前知识。
模型集成：将微调后的模型与原始模型集成，保持两者的知识，提高模型的泛化能力，避免灾难性遗忘的发生。
通过综合运用上述方法，可以有效避免大模型在微调过程中出现灾难性遗忘，确保模型在学习新知识的同时保持先前知识的稳定性和准确性。

证券 · 2024-01-16

浏览974

查看赞同的人

回答者

国金证券AI算法工程师0110

AI算法工程师国金证券

擅长领域：大语言模型，人工智能，数据库

评论9

国金证券AI算法工程师最近回答过的问题

当金融行业选择训推一体化架构建设大模型时，需要提前考虑那些方面的因素，通过那些方面进行可行性分析？

长尾场景下的数据如何清洗，有哪些方法、措施、注意点？

通过哪些性能指标来评估微调后的大模型实际业务效果？

如何在金融服务中使用大模型时确保数据隐私和安全？

大模型在信用评估、欺诈检测、客户服务中的微调策略共同点与不同点？

回答状态

发布时间：2024-01-16

关注会员：10 人

回答浏览：974

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广