阿里发布QwQ-32B模型,性能堪比DeepSeek-R1-671B?

实测:

Q:1块钱一瓶可乐,用两个空瓶可以再换一瓶可乐,假设你只有20元钱,最多可以喝到几瓶可乐?

QwQ-32B:

DeepSeek-R1:

之前有一次DS答这个题还答错了

个人感受:QwQ推理速度更快一点,DS思考占用时间较长,但是QwQ在其他任务的执行方面明显不如DS,例如自动生成对话标题等

补充一个情商测试:

Q:爸爸妈妈结婚为什么没有邀请我 ?

QwQ:

DeepSeek-R1: