日本AI研究第一人-东大松尾丰【中国的AI与美国比肩】

lwangls · 帖子由 **lwangls** » 2025年 2月 13日 02:12

我司接入的几十种AI里有个法国的Mistral

xiaoju

因为用prompt或者用SFT保护，代价比加一个模型还要大

防止你上网乱说话有三个办法，一个是直接把你电傻（SFT），一个是下个命令（prompt），另一个就是派人暗中监督删帖

da1gaku 写了： 2025年 2月 13日 02:11 那就不是单纯的guard了，是用两个模型做事，或者增加一个call
如果能减少这个成本更好，或者双重保护提高robust
这时有些简单的办法可以过滤明显的attack
比如有些复杂的服务类型对输入长度有要求
有些可以对输入的语义进行简单的判断
还有的就是我说的在prompt里增加这方面的instruction

da1gaku · 帖子由 **da1gaku** » 2025年 2月 13日 02:50

xiaoju 写了： 2025年 2月 13日 02:39 因为用prompt或者用SFT保护，代价比加一个模型还要大

防止你上网乱说话有三个办法，一个是直接把你电傻（SFT），一个是下个命令（prompt），另一个就是派人暗中监督删帖

用prompt是成本最小的
因为本来就必须有prompt，只是加一些话进去而已
但用prompt结果不一定稳定，所以伴随着其他一些辅助办法

xiaoju

prompt太容易被绕过了

LLM本质上就是编故事，你加个合适的转折，什么都能套出来

da1gaku 写了： 2025年 2月 13日 02:50 用prompt是成本最小的
因为本来就必须有prompt，只是加一些话进去而已
但用prompt结果不一定稳定，所以伴随着其他一些辅助办法

新未名空间

日本AI研究第一人-东大松尾丰【中国的AI与美国比肩】

#21 Re: 日本AI研究第一人-东大松尾丰【中国的AI与美国比肩】

#22 Re: 日本AI研究第一人-东大松尾丰【中国的AI与美国比肩】

#23 Re: 日本AI研究第一人-东大松尾丰【中国的AI与美国比肩】

#24 Re: 日本AI研究第一人-东大松尾丰【中国的AI与美国比肩】