当我们让大型语言模型自由思考时,它们会思考些什么? 我们在各个模型中生成了 250K 个“白日梦”样本 🧠 GPT → 编程 Qwen → 多项选择数学考试 Llama → 文学 DeepSeek → 数学、宗教、心理学