2025年6月4日
ITジャーナリスト
生活とテクノロジー、ビジネスの関係を考えるITジャーナリスト、中国テックウォッチャー。著書に「Googleの正体」(マイコミ新書)、「任天堂ノスタルジー・横井軍平とその時代」(角川新書)など。
学生にとって生成AIはもはやなくてはならないツールになっている。情報や文献を探す、深掘り質問で概念を理解する、統計データを加工するなど、これ以上便利なツールはない。
このような中で不正防止の観点から、中国のいくつかの大学が「AI代筆の論文は受理しない」というルールを定めた。一方、AI検出ツールの精度の問題なのか、人間が書いた論文がAI代筆だと判定されてしまうことが相次いだ。誤判定に翻弄される学生の間で混乱が拡大している。
生成AIの性能向上に伴い、レポートや論文を書く際の煩わしい作業はほぼAIに任せられる環境が整ってきている。
ところが、レポートや論文の本文まで生成AIに出力してもらうとなると、多くの人が不正行為だと感じるのではないだろうか。では、AIに構成を考えてもらうのはどうだろうか。これは補助だろうか、不正行為だろうか。推論機能つきのAIにデータ分析を任せ、得られた知見をレポートにまとめるのはどうだろうか。これは補助だろうか、不正行為だろうか。
学生にとってこれほど便利なツールを使わないという選択肢はもはやあり得ないが、指導者側からすると不正行為の線引きは非常に難しい。教育機関は早急に、AIを使っていい行為と使ってはならない行為のガイドラインを整える必要がある。
中国では、2023年に中国学位法の草案が公開され、この中で「学位論文のAI代筆」を禁止する条項が盛り込まれ議論となった(2024年の公布では、この条項は先送りとなった)。議論の焦点は、どこまでを代筆とするのかという問題と、AI代筆をどうやって判定するのかという問題だった。
これを受けて、各大学は学生に対してAI使用のガイドライン案を発表している。例えば、復旦大学の論文ガイドラインによると、指導教官の許可を得た後に行える行為は次のようになっている。
一方、次のような行為にAIを使うことは認められない。
教官側も、学生が提出したレポートや論文を、AIを使って要約したり、評価をしたり、コメントを生成したりすることが禁じられている。
さらに、多くの大学がAI判定ツールを導入している。使い方はさまざまだが、多くの大学ではAI率の許容基準を設け、学生に対してそれを下回ることを推奨している。あくまでも学生本人が参考にするためにツールを導入をしている。
ところが、四川大学、華中科技大学、天津科技大学、福州大学などいくつかの大学では、学位論文のAI検査を行い、AI率が基準以下でないと受理をしないという規定を設けた。このような大学で、「自分で一生懸命書いた論文が、AIが書いたものだと判定される」という事態が起こり、不満を抱く学生の間で混乱が生じている。
そもそも、文章をAIが書いたものか、人間が書いたものかを判別できるものなのだろうか。
最もシンプルな方法は、AIの文章と人間の文章を機械学習し、特徴の違いから判別するというものだ。
AI検出ツールの1つ「Copyleaks」は、このような機械学習で高い検出率を誇っている。
AIの文章は、一般に模範的とも言えるほど流暢で、文法的にも非常に正確だ。句読点の使い方や文の長さについても一貫したパターンを維持する。Copyleaksはこのような特徴を逆手にとって、AIの文章を判別していく。
一方、「DetectGPT」は、検査したい文章の一部を意図的に改変するという面白い手法でAIの文章を判別する。
大規模言語モデルは、単純化すれば、最も出現確率の高い単語をつなげているだけのことしかしていない。「今日の天気は…」という文章の次には、出現確率の高い「晴れです」「雨でしょう」を選び、出現確率の低い「12時半です」や「建国記念日です」などは選ばない。つまり、AIが生成した文章は単語間の関連度が非常に高い、安定した状態となっている。
ところが、人間の書く文章はそうならない。出現確率を正確に計算できる人はいないし、その人の個性があるからだ。そのため、「今日の天気はサイクリング日和です」など、意味は通じるが単語間の関連度は低い文章を平気で書き、それが人間的な個性になっている。
そこで、DetectGPTは検査する文章の一部を同意語に置き換えたり、語順を変えてみたりする。すると、単語間の関連度が非常に高く、安定している状態のAIの文章の場合、改変をしたことにより全体の関連度の合計値が大きく下がる。
一方、人間の書いた文章はもともと関連度の低い単語も使われているために、全体の関連度はさほど下がらない。この下がり方の違いが有意であるため、AIと人間の文章を判別することができるという。
詳しい技術情報は、「DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature」(DetectGPT:確率曲率を使用した機械生成テキストのゼロショット検出)を参考にしていただきたい。
しかし、このような検出ツールも完全ではない。特に論文のようなスクエアな文章の場合、判別が難しくなりがちだ。
多くの学生が苦情を述べているのが引用部分だ。文献から引用をし、引用の作法もきちんと守っている。論文として何の問題もない。しかし、AI検出ツールは、その部分を「AIが生成した」と判定してしまう。引用文は当然、さまざまな論文内に存在し、AIもよく学習をしているため、AIによる文章だと誤判定してしまうのだ。
専門用語の定義も同様だ。定義に関しては、著者が勝手な判断で修正するよりも、学会で通用している定義をそのまま記載した方が論文の内容が正確になるため、決まった表現になりがちだ。これもAIの文章だと判定されてしまう。さらに、数式の多い数学の論文では、数式部分がAIによる生成だと判断され、AI率が高く出てしまう傾向があるという。
このAI検査に翻弄された、ある大学4年生の事例を紹介する。彼女は某企業のインターシップに参加し、昼間は企業で研修をし、夜と休日に卒業論文を執筆した。事前に指導教官と打ち合わせして、各段階で指導教官からアドバイスをもらい、2万3000文字の論文を書き上げた。ところが、自らAI検出ツールにかけてみると、AI率が37%と判定された。彼女の大学では、AI率が30%以下でないと論文が受理されない。
彼女はすべて自分で書いたのに、AIが書いたと判定されて困惑した。すでに就職も決まり、卒業論文を受理してもらうことが何よりも重要だった。そこで、ネットで「AI率を下げる方法」を調べて、それを片っ端から試していった。
その多くは、どこまで通用するのかわからない方法ばかりだった。単語を同義語に置き換えていく、単語の順番を変えてみる。さらには口語表現を入れてみる。複文は、分けて単文にする。主語と述語の関係をあえて崩して、人間らしい誤りを入れてみる。
こうして彼女の論文は、提出期限ぎりぎりでAI率が30%を切り、なんとか受理され、無事に卒業が認められた。しかし彼女は、最初の論文の内容に満足し、文章に関しても論文らしい格調を表現できたという自負があった。それゆえに、AI率を下げるためにさまざまなことを試した結果、自分の論文が箇条書きをつなげただけの言葉の残骸のような、“できの悪い機械が書いた”ようなものになってしまったことに落胆している。
中国のネット上では、性能はさまざまだが、多様な対策ツールが販売されている。真面目なツールもたくさんあるが、詐欺まがいのツールも無数に登場して、その点でも混乱が起きている。
あるツールでは、テーマを入れるとワンクリックで論文を生成し、その後AI率を下げるツールにかけると、「人間が書いた」として提出できるレベルの論文になることをうたっている。
つまり、論文をAIに代筆させ、追加料金を支払うと、AI率を下げる加工までワンストップでやってくれるのだ。
また、ネットで流通しているツールでは、面白いことをやっている。中国語で仕上げた論文を入力すると、まずはDeepSeekなどの生成AIによって中国語と言語体系が異なる言語に翻訳する。その後、「豆包」などの別の生成AIを用いて、中国語に翻訳し直す。できあがった中国語の論文は、AI率が大きく下がっているはずだという。しかし、AI検出ツールは、AIが生成した文章の特徴を捉えて判定しているのだから、どのようなプロセスであれ、AIに生成させた文章のAI率が下がるわけはないのだ。
日本の大学も、学生がAIツールをどこまで使ってよいのか、ガイドラインを定めていく必要がある。例えば日本大学は、生成AIのみによって生成された成果物(レポート、課題、論文など)は、学生独自の成果物とみなさないことを告知している(参考:https://www.nihon-u.ac.jp/blog/2023/05/13914/)。
また、教官側も、生成AIのみに頼ってクリアできるような課題ではなく、自分の頭で考えなければ達成できない課題を工夫する必要に迫られている。
しばらくの間、大学には、生成AIをめぐってさまざまな混乱が続きそうだ。
関連記事
人気記事