「自分で書いた」と証明するために論文を“最適化”する学生たち。AI検出ツールをめぐる混乱

2025年6月4日

「誤判定」は避けられないのか[レバテックLAB]

ITジャーナリスト

牧野 武文(まきの たけふみ)

生活とテクノロジー、ビジネスの関係を考えるITジャーナリスト、中国テックウォッチャー。著書に「Googleの正体」(マイコミ新書)、「任天堂ノスタルジー・横井軍平とその時代」(角川新書)など。

学生にとって生成AIはもはやなくてはならないツールになっている。情報や文献を探す、深掘り質問で概念を理解する、統計データを加工するなど、これ以上便利なツールはない。

このような中で不正防止の観点から、中国のいくつかの大学が「AI代筆の論文は受理しない」というルールを定めた。一方、AI検出ツールの精度の問題なのか、人間が書いた論文がAI代筆だと判定されてしまうことが相次いだ。誤判定に翻弄される学生の間で混乱が拡大している。

生成AIによる「不正行為」の線引きの難しさ

生成AIの性能向上に伴い、レポートや論文を書く際の煩わしい作業はほぼAIに任せられる環境が整ってきている。

ところが、レポートや論文の本文まで生成AIに出力してもらうとなると、多くの人が不正行為だと感じるのではないだろうか。では、AIに構成を考えてもらうのはどうだろうか。これは補助だろうか、不正行為だろうか。推論機能つきのAIにデータ分析を任せ、得られた知見をレポートにまとめるのはどうだろうか。これは補助だろうか、不正行為だろうか。

学生にとってこれほど便利なツールを使わないという選択肢はもはやあり得ないが、指導者側からすると不正行為の線引きは非常に難しい。教育機関は早急に、AIを使っていい行為と使ってはならない行為のガイドラインを整える必要がある。

教育現場での「AI代筆禁止」の動きとAI判定を巡る混乱

中国では、2023年に中国学位法の草案が公開され、この中で「学位論文のAI代筆」を禁止する条項が盛り込まれ議論となった(2024年の公布では、この条項は先送りとなった)。議論の焦点は、どこまでを代筆とするのかという問題と、AI代筆をどうやって判定するのかという問題だった。

これを受けて、各大学は学生に対してAI使用のガイドライン案を発表している。例えば、復旦大学の論文ガイドラインによると、指導教官の許可を得た後に行える行為は次のようになっている。

  • 1)文献の検索と整理
  • 2)グラフ作成など図版作成補助
  • 3)統計手法、実験方法、調査方法などを設計する時の補助
  • 4)参考文献リストのチェックと整理

一方、次のような行為にAIを使うことは認められない。

  • 1)研究内容の設計とデータ分析
  • 2)一次データの収集
  • 3)独創性のある図版の生成
  • 4)本文などの出力、校正、翻訳

教官側も、学生が提出したレポートや論文を、AIを使って要約したり、評価をしたり、コメントを生成したりすることが禁じられている。

さらに、多くの大学がAI判定ツールを導入している。使い方はさまざまだが、多くの大学ではAI率の許容基準を設け、学生に対してそれを下回ることを推奨している。あくまでも学生本人が参考にするためにツールを導入をしている。

▲中国で広く使われているAI検出ツール「維普論文検測」(WPCS)。AI代筆だけでなく、既存論文からの剽窃なども検知してくれる。

ところが、四川大学、華中科技大学、天津科技大学、福州大学などいくつかの大学では、学位論文のAI検査を行い、AI率が基準以下でないと受理をしないという規定を設けた。このような大学で、「自分で一生懸命書いた論文が、AIが書いたものだと判定される」という事態が起こり、不満を抱く学生の間で混乱が生じている。

AI検出ツールの文章判定技術の仕組み

そもそも、文章をAIが書いたものか、人間が書いたものかを判別できるものなのだろうか。

最もシンプルな方法は、AIの文章と人間の文章を機械学習し、特徴の違いから判別するというものだ。

AI検出ツールの1つ「Copyleaks」は、このような機械学習で高い検出率を誇っている。

AIの文章は、一般に模範的とも言えるほど流暢で、文法的にも非常に正確だ。句読点の使い方や文の長さについても一貫したパターンを維持する。Copyleaksはこのような特徴を逆手にとって、AIの文章を判別していく。

一方、「DetectGPT」は、検査したい文章の一部を意図的に改変するという面白い手法でAIの文章を判別する。

大規模言語モデルは、単純化すれば、最も出現確率の高い単語をつなげているだけのことしかしていない。「今日の天気は…」という文章の次には、出現確率の高い「晴れです」「雨でしょう」を選び、出現確率の低い「12時半です」や「建国記念日です」などは選ばない。つまり、AIが生成した文章は単語間の関連度が非常に高い、安定した状態となっている。

ところが、人間の書く文章はそうならない。出現確率を正確に計算できる人はいないし、その人の個性があるからだ。そのため、「今日の天気はサイクリング日和です」など、意味は通じるが単語間の関連度は低い文章を平気で書き、それが人間的な個性になっている。

そこで、DetectGPTは検査する文章の一部を同意語に置き換えたり、語順を変えてみたりする。すると、単語間の関連度が非常に高く、安定している状態のAIの文章の場合、改変をしたことにより全体の関連度の合計値が大きく下がる。

一方、人間の書いた文章はもともと関連度の低い単語も使われているために、全体の関連度はさほど下がらない。この下がり方の違いが有意であるため、AIと人間の文章を判別することができるという。

詳しい技術情報は、「DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature」(DetectGPT:確率曲率を使用した機械生成テキストのゼロショット検出)を参考にしていただきたい。

▲AI検出ツールのZeroGPTに、ChatGPTで出力した文章を検査させた様子。黄色くマークされた文章がAI生成が疑われるため、修正をしていく必要がある。同様の検出ツールは、TurnitinGPTZeroCopyleaksなどがよく使われる。

「自分で書いたのにAI判定」学生を追い詰める検出ツールの限界

しかし、このような検出ツールも完全ではない。特に論文のようなスクエアな文章の場合、判別が難しくなりがちだ。

多くの学生が苦情を述べているのが引用部分だ。文献から引用をし、引用の作法もきちんと守っている。論文として何の問題もない。しかし、AI検出ツールは、その部分を「AIが生成した」と判定してしまう。引用文は当然、さまざまな論文内に存在し、AIもよく学習をしているため、AIによる文章だと誤判定してしまうのだ。

専門用語の定義も同様だ。定義に関しては、著者が勝手な判断で修正するよりも、学会で通用している定義をそのまま記載した方が論文の内容が正確になるため、決まった表現になりがちだ。これもAIの文章だと判定されてしまう。さらに、数式の多い数学の論文では、数式部分がAIによる生成だと判断され、AI率が高く出てしまう傾向があるという。

▲既存論文に似たフレーズ、AI生成が疑われる文章は、その類似度により赤く表示されるため、マークされた場所の文章を修正していくことで、AI率を下げることができる。

このAI検査に翻弄された、ある大学4年生の事例を紹介する。彼女は某企業のインターシップに参加し、昼間は企業で研修をし、夜と休日に卒業論文を執筆した。事前に指導教官と打ち合わせして、各段階で指導教官からアドバイスをもらい、2万3000文字の論文を書き上げた。ところが、自らAI検出ツールにかけてみると、AI率が37%と判定された。彼女の大学では、AI率が30%以下でないと論文が受理されない。

彼女はすべて自分で書いたのに、AIが書いたと判定されて困惑した。すでに就職も決まり、卒業論文を受理してもらうことが何よりも重要だった。そこで、ネットで「AI率を下げる方法」を調べて、それを片っ端から試していった。

その多くは、どこまで通用するのかわからない方法ばかりだった。単語を同義語に置き換えていく、単語の順番を変えてみる。さらには口語表現を入れてみる。複文は、分けて単文にする。主語と述語の関係をあえて崩して、人間らしい誤りを入れてみる。

こうして彼女の論文は、提出期限ぎりぎりでAI率が30%を切り、なんとか受理され、無事に卒業が認められた。しかし彼女は、最初の論文の内容に満足し、文章に関しても論文らしい格調を表現できたという自負があった。それゆえに、AI率を下げるためにさまざまなことを試した結果、自分の論文が箇条書きをつなげただけの言葉の残骸のような、“できの悪い機械が書いた”ようなものになってしまったことに落胆している。

横行する「AI判定回避ツール」とその実態

中国のネット上では、性能はさまざまだが、多様な対策ツールが販売されている。真面目なツールもたくさんあるが、詐欺まがいのツールも無数に登場して、その点でも混乱が起きている。

あるツールでは、テーマを入れるとワンクリックで論文を生成し、その後AI率を下げるツールにかけると、「人間が書いた」として提出できるレベルの論文になることをうたっている。

▲論文のAI度を下げてくれるEssaybye。このツールを提供しているBypassGPT社は、所属国が公開されていない。英語ベースのウェブだが、ボタンはなぜか中国語になっている。右下にあるAI検出ツールの判定を回避できる文章に変換してくれるという。

つまり、論文をAIに代筆させ、追加料金を支払うと、AI率を下げる加工までワンストップでやってくれるのだ。

また、ネットで流通しているツールでは、面白いことをやっている。中国語で仕上げた論文を入力すると、まずはDeepSeekなどの生成AIによって中国語と言語体系が異なる言語に翻訳する。その後、「豆包」などの別の生成AIを用いて、中国語に翻訳し直す。できあがった中国語の論文は、AI率が大きく下がっているはずだという。しかし、AI検出ツールは、AIが生成した文章の特徴を捉えて判定しているのだから、どのようなプロセスであれ、AIに生成させた文章のAI率が下がるわけはないのだ。

日本国内の大学に求められる対応

日本の大学も、学生がAIツールをどこまで使ってよいのか、ガイドラインを定めていく必要がある。例えば日本大学は、生成AIのみによって生成された成果物(レポート、課題、論文など)は、学生独自の成果物とみなさないことを告知している(参考:https://www.nihon-u.ac.jp/blog/2023/05/13914/)。

また、教官側も、生成AIのみに頼ってクリアできるような課題ではなく、自分の頭で考えなければ達成できない課題を工夫する必要に迫られている。

しばらくの間、大学には、生成AIをめぐってさまざまな混乱が続きそうだ。

関連記事

人気記事

  • コピーしました

RSS
RSS