网站地图官方微信:
网站首页 秀篆镇 八景镇 蒋村镇 蒲团乡 陡山乡 盐溪乡

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | cloudflare的1.1.1.1和warp有什么区别? |

    坦白说,我第一次听说 Cloudflare 是因为他们提供的...

    查看详情>>
  • | 夫妻开饭店双双确诊乳腺癌,职业性暴露于烹饪油烟是乳腺癌独立风险因素,日常应做好哪些防护? |

  • | 为什么年轻的肉体让人沉迷? |

  • | 扫黑风暴为什么他们费老大劲杀这么多人不如直接把督导组干掉? |

  • | 微软裁了 6000 人,其中软件工程师受影响最大,这会给整个软件行业的人才流动带来怎样的连锁反应? |

  • | 核武器真的有宣传中那么牛逼吗? |

  • | 为什么golang pprof检测出的内存占用远小于top命令查看到的内存占用量? |

  • | 30岁了,你在深圳过着什么样的生活? |

  • | 以色列为什么要打伊朗? |

  • | 为什么linux桌面那么丑? |

  • | 有人说24GB和48GB内存容量是新一代电脑平台最均衡的方案,真的是这样吗?电脑内存应该如何选? |

  • 公共DNS算电信业务,自建且不备案就是违规经营电信业务电信业...

    2025-06-21
  • 实际工作中,2020年的时候用 Rust 在 ARM 设备上...

    2025-06-21
  • 小公司还是用Hutool这类工具类库的好,起码代码质量下限有...

    2025-06-21
  • 公司内外都搭建过PVE集群,最早的快十年了。 目前来说,P...

    2025-06-21

关注我们

添加微信好友,关注最新动态