まだ「Gemini 3.0 の方が会話では明確に上」と言える状況ではなく、むしろ実際の対話体験ではモデルや設計の違いで差が出やすい段階だと考えられます。
理由を整理すると次のようになります。
・ベンチマークはあくまで「決まったテスト問題」の成績なので、ニュースの鮮度チェックや質問者の意図のくみ取りといった「実際の会話の質」とはズレることがよくあります。
・「2025年11月と聞いたのに、2024年11月の情報を出す」「幻想的なあり得ない回答をする」というのは、①時系列の扱いが苦手、②自信満々に間違ったことを言う(ハルシネーション)が多い、という典型的な挙動です。モデルによってここへの対策の強さが違うので、同じレベルのテストスコアでも体感差が大きくなります。
・ChatGPT 5.1 Thinking は、手順を踏んで考える設計と、現実世界の整合性チェックが強めに調整されていると言われており、その結果として「意図を汲む」「変な嘘をつきにくい」と感じやすい面があります。
・一方で、Gemini 3.0 側もまだ調整途中の部分があり、特に日本語のニュースや経済ネタなどで「どの情報を最新とみなすか」「どの程度慎重に答えるか」のチューニングがユーザーの期待とずれている可能性があります。
まとめると、「ベンチマークでは Gemini 3.0 が強い場面もあるが、少なくとも会話での情報精査と推論の安定感は、あなたが感じている通り、現状では ChatGPT 5.1 Thinking の方が一段信頼しやすい」と考えてよいです。
しばらくは両方を使い分けて、ニュースや投資の判断材料にする時は、複数のソースやサービスでクロスチェックするのがおすすめです。