以下は、2025年8月7日にリリースされたChatGPT-5を対象に、マーラーに関する様々な問い合わせを行った結果を報告した記事「マーラーについて生成AIに聞いてみた(19):ChatGPT-5の検証」に関連した追記です。
* * *
Open AIが2025年9月5日に、Why Language Models Hallucinate と題する論文を公開したとの記事に接しました。これによれば、ChatGPT-5では幻覚の発生は大幅に減少しているものの、従来より存在する基本的な評価の仕方に起因する問題については解消されておらず、根本的な改善が難しいと述べているようです。論文によれば、幻覚は大別して事前学習の段階と、チャットボットとしてのファインチューニングの段階の2つで起きており、前者については、それが「恣意的な事実」の場合には原理的にエラーを完全に回避することができないこと、後者については、評価における「二値評価スキーム」に問題があるため、その設計を見直す必要があると主張されているようです。
元記事および「マーラーについて生成AIに聞いてみた」シリーズの一連の検証記事をお読みになった方にはおわかり頂けると思いますが、この論文の主張は、元記事を含むマガジンでの検証結果および考察にほぼ合致したものとなっています。特に元記事では、いわゆる「事実に関する問い合わせ」についての事前学習の限界と、リアルタイム検索による補完の重要性を指摘しましたが、「学習」と呼ばれる仕組みの原理上、偶然によって定まった単なる事実(例えばある人の誕生日のようなもの)は、汎化に基づく統計的推論に馴染まないことは明らかであり、そうした問い合わせに対処するには、学習・推論だけではなく、情報検索機能による補完が必須であるという元記事の主張と合致していると思います。更に評価ベンチマークにおける「二値評価スキーム」は、元記事を含むこれまでのマガジンの各記事での検証に用いた、正解・部分正解・不正解・回答なしを区別する評価スキームと比較してみた時、その限界は明らかに思われます。ごく簡単に言って、「間違い」と「答えられない」が区別されない評価の仕方では、間違いを回避して、わからない場合にはわからないと答えるインセンティブは働きません。逆にこれまでの幻覚対策で、この点への対応が行われなかったことの方が驚きですらありますが、論文でも示唆されているように、少なくとも不正解をマイナス、回答なしを0とするような評価を導入する必要があるのは直観的には明らかなことと思われます。今後OpenAIがこの論文の内容に基づいた改善アプローチを実際にとるのかはわかりませんが、特にChatGPT-5を評価した元記事の結果および分析と親和的な見解がOpenAIから出たことは、特記すべきことと思われたので、追記させて頂くことにしました。
(2025.9.8公開)
0 件のコメント:
コメントを投稿