OpenAI o1模型数学能力争议:幻觉问题挑战AI基准测试有效性 OpenAI o1-preview模型在数学基准测试中创下新高,却在用户复杂问题测试中频现幻觉,多位AI专家质疑其真实能力。Sam Altman回应模型仍在迭代中。该话题X帖互动破百万,引发AI评估标准大讨论。