【悲報】AIさん、AIが作った文章で学習してバカになる模様…コピーを繰り返すコピー機状態

挿話
今日知ったこと:モデル崩壊について。AIが別のAIによって生成されたコンテンツから学習する場合、まるでコピーのコピーを何度も繰り返すように、エラーが蓄積していく可能性がある。

どんな話題?

AIがAIを学習させるとどうなる? まるで<コピー機の劣化>のように、AIが生成したコンテンツを学習データとして使い続けると、<モデルの精度が徐々に低下>していく現象が注目されています。これは、、あるいはとも揶揄されています。 つまり、最初のAIはまだしも、二代目、三代目…と世代を重ねるごとに、<情報の歪み>が蓄積され、まるで深海魚のような奇妙なAIが生まれてしまう可能性があるんです。
先日、私はAIに「猫がピアノを弾いている絵」を描かせようとしたんです。最初は可愛らしい猫の絵が出てきたんですが、何度も繰り返すと、なぜか猫の手が<ムニュッ>と増殖し、ピアノが<グニャリ>と歪み始めたんです!まるで悪夢!これはもしかして…AIのモデル崩壊の兆候!?

イメージ画像 モデル崩壊とは、AIが生成したコンテンツでAIが学習を繰り返すうちに、コピーを繰り返すように誤りが蓄積し、品質が劣化する現象のこと。

みんなの反応


死んだインターネット理論とセット販売かよ
それってつまり、の発生メカニズムの説明じゃね?
ゴミを入れたらゴミが出てくる
誰かがAIに映画「Multiplicity」を見せてたら、こんなことにはならなかったのに
AI版の深煎りJPEG
今、俺がAIのゲロに溺れてる中で、唯一の希望の光なんだが…
AI近親相姦
俺がJPEGについて知ってるように見えるか?
水銀が食物連鎖を上っていくのに似てるな
これがエコーチェンバーにおける均質な集団の問題点
ちなみに、大手AI企業も同じ方法でトレーニングしてるぞ。メインのAIの例として、馬鹿なAIを訓練してるんだと
深煎りAI
AI版のクローン劣化
それって、ただの近親相姦じゃね?
言っておくが、画像の分野では、俺みたいな人間アーティストも免疫がないんだ。だから、未経験者やアートのルールに慣れていない場合は、実世界の参考資料を常に頼るべき
これについて数年前から話してるんだが。AIはAIが生成したコンテンツから無限に学習できると確信してる人が多いんだよな。まるでLLMが新しい知識を生成できるとでも思ってるみたいに。
言うなれば、この概念は何世紀も前から知られている。近親相姦が良くないとされる理由もそれだ。蓄積する…
人間も同じ問題を抱えてるぞ
「最高の一日であり、最高の…ボカシの一日だった!?」
Fail Nobra!
マイケル・キートンが1996年にこの映画を作った。「Multiplicity」。コピーはどんどん馬鹿になって、機能しなくなるんだ
深煎りJPEG
もっと.jpg x Deepfry™️
これはAI Incestと呼ばれてる。ググってみろ。結果をフィルタリング解除するのを忘れずに
これは実際に癌で起こることなんだよな。細胞が何度も何度も複製される。人が年を取るにつれて、細胞のコピーでエラーが発生するリスクが高くなる。そして、その細胞が何度も何度も複製されるにつれて、拡散していく。エラーが大したことない場合もある。そして、腫瘍のように悪い場合もある。エラーは年齢とともに多くなる。だから、癌は高齢者によく見られるんだ
AI近親交配とも呼ばれる
現実世界のAIランページ
つまり、スクレイピングされるのを避けるためには、サイトの冒頭にAIが生成したという免責事項を入れればいいってこと?
「コピーのコピーを作ると、オリジナルほど鮮明じゃないって知ってるだろ?」
人間がこれをやったらどうなるか想像できるか?
モデル崩壊!
AIムカデ
Multiplicity……なるほどな
>エラーは、コピーのコピーを何度も繰り返すように、蓄積する可能性がある。
AIのおっぱいが巨大になるぞ!
俺はAI関係の仕事してるんだけど、正確な場所は思い出せないけど、ある男がOpenAIがスクレイピングしてることを知ってたから、フェイクのRedditスレッドやその他のフェイク記事を作成して、空が緑色だとか、いろいろ馬鹿げたことをOpenAIに信じ込ませたらしい
最高の時間を脅かすなよ
金魚鉢の中の認識の欠如は、観察者が一人の時だけ現実になる
つまり、AIが生成したコンテンツには、スクレイパーがそれを読み込まないようにするためのマーカーが必要ってことだな。
これは不可避だ。良い点は、これがAI生成コンテンツを検出するためにAIが使用される可能性があり、それを回避しようとする試みは、AIでAIをトレーニングすることになるだろう(つまり、これ)。
みんなが騒いでるほど大きな問題じゃないんだよな。トレーニングデータの非常に高い割合がAIによって生成されたものでないと発生しないし、たとえインターネットがAIコンテンツの大部分を占めるようになっても、企業はAI検出ソフトウェアを使ってデータセットをフィルタリングするだろう。
生成されたゲロがハプスブルク家のように滅びるのは喜ばしいことだ、ざまあみろ
すべてのモデルでこれが発生することを願うしかない。さもないと、すべての仕事にさよなら

AI「自家繁殖」で劣化の危機

“`html 近年、急速に発展しているAI技術ですが、その将来に暗雲が立ち込めているという懸念があります。特に、AIが生成したデータでAIを学習させるという、いわば「自家繁殖」的な学習方法が、AIの性能低下、つまりdegradationを引き起こす可能性が指摘されています。 この記事のテーマである「【悲報】AIさん、AIが作った文章で学習してバカになる模様…コピーを繰り返すコピー機状態」は、この問題を端的に表現しています。これは、まるでinbreeding(近親交配)が生物の多様性を損ない、結果的に虚弱体質を生み出すのによく似ています。 AIモデル、特に大規模言語モデル(LLM)は、大量のテキストデータを用いて学習します。このデータには、インターネット上のウェブサイト、書籍、論文などが含まれます。しかし、AIが生成したコンテンツがインターネット上に増殖し、それを再びAIが学習データとして利用する場合、オリジナルの情報源から徐々に乖離し、内容が薄まり、偏りが生じる可能性があります。 具体的に言うと、例えばあるAIが特定のトピックについて記事を生成し、その記事が他のAIの学習データとして利用されると、そのAIは元の記事の偏りや誤りも学習してしまう可能性があります。このプロセスが繰り返されると、AIはオリジナルソースから離れ、自己参照的なサイクルに陥り、新しい知識や視点を獲得できなくなります。 この問題は、統計的な視点からも理解できます。初期の学習データが持つ統計的分布が、AIによって生成されたデータによって徐々に歪められると、AIの予測精度や汎化性能が低下する可能性があります。例えば、あるトピックに関するデータの頻度が実際よりも高く学習されると、そのAIはそのトピックに関して過剰に反応するようになり、他の重要なトピックを見落とす可能性があります。 さらに、AIが生成したデータは、ノイズを含んでいる可能性も高いです。完璧なAIは存在せず、生成される文章には誤りや不正確な情報が含まれている可能性があります。このようなノイズの多いデータで学習を続けると、AIは誤ったパターンを学習し、精度が低下する可能性があります。 この問題を解決するためには、多様で質の高い学習データの確保が不可欠です。オリジナルコンテンツの作成を促進し、AIが生成したコンテンツの利用を慎重に評価する必要があります。また、AIの学習プロセスにおいて、オリジナルデータとAI生成データの割合を適切に調整し、自己参照的なサイクルに陥らないように注意する必要があります。 結論として、AIinbreeding、つまり自己生成データによる学習は、AIdegradationを引き起こす可能性があります。多様な学習データの確保と学習プロセスの改善を通じて、この問題に対処し、AI技術の健全な発展を目指していく必要があります。 “`

コメント