2026年5月23日土曜日

本『言語学者、生成AIを危ぶむ』生成AI の課題や言語に関する知識、面白かった ♪

以前読んだ『音声学者、娘とことばの不思議に飛び込む』という本と同じ言語学者が書いた本を読んだ(↓)。ここで提起されている問題も重要だと思ったが、AI や言語に関する情報もなかなか興味深く面白かった ♪




この本は、子育て世代でもある言語学者夫妻(川原繁人、桃生[ものう]朋子)の、生成AI による幼児向け「おしゃべりアプリ」に対する懸念(子供の成長、言語学習などに対する悪影響など)を中心に書かれたものである。

AI のこういった使い方やデジタルデバイス(の野放し状態)は「臨床試験なしの新薬」にも相当する危険なものだ…という指摘はまったくその通りだと思う。

薬やアルコールの摂取に関してと同程度に、国としての検証や規制が必要であり、現状の「親まかせ」状態はおかしい…という意見にも賛成だ。


ただ、個人的には生成AI の現状、言語学に関する知識、子どもの言語獲得の仕組みなど、興味深い話(知識)も沢山あって面白く読ませて戴いた。

また、音声学に関する内容では、音楽と共通するところもあり、思わず「音楽の場合だと…」という自動思考が働き、それも面白かった。以下の読書メモで「♪」マークを付けた項目がそれ。「※」は個人的感想。「G: 」は検索などで調べた内容。


♪ 「音声学」「音韻論」の研究内容は下記。※「音声」を「音楽」に置き換えると興味深い。

  • 人間は、音声をどのように発声しているのか
  • その音声は、どのように空気の振動として聴者に伝わるのか
  • 聴者は、その振動をどのように知覚するか
  • 音声を操る人間の認知機能はどのようなものか


AI の電力・環境問題:CO2排出量。AI を開発し訓練し使用するのに膨大な電力を消費することを忘れないでおこう。それにしても、アメリカ人は世界平均の 3倍以上の CO2 を排出しているって…一体どんな生活をしているんだろう…(^^;)!?

  • GPT-3 の訓練(1カ月+):502トン
  • 人間の生活(1人年):5.51トン
  • 米国人の生活(1人年):18.08トン


AI との対話で新たな言語が生まれる(日本語が変化する)可能性。

「ピジン」(植民地時代の支配者と奴隷など異なる言語を話す人々の間で、意思疎通のために作られた簡易言語)が、その次の世代に母語として定着し、文法や語彙が複雑に発達した言語を「クレオール」という。

AI との対話にどっぷり浸かった世代が続くと、日本語も「クレオール」化していくかも知れない…。

※人間の(書き)言葉で訓練された AI によって人間(の言葉)が訓練される?

※最近の若者の会話を聞いていると、ネットや SNS によるピジン化・クレオール化が始まっているような気もするのだが…(^^;)。


生成AI(の言語)と人間言語とでは、学習方法(テキストvs音声)と学習に必要なデータ量が違う。人間は短期間で、AI に比べれば圧倒的に少ないデータ量で言語を学ぶ。

※但し、AI はテキストがほとんどなのに対し、人間は音声言語+人間(身体性・共同注意)+環境や経験+周りの人間らしい反応(社会的随伴性)+五感など、言語以外の多くのデータから学ぶ。

AI の発言の背後には身体や感情もないし、※発言を「理解」もしていない。


脳は「生まれ育った環境で必要と判断した情報だけ」を処理するように育つ。例:横縞を見ないで育った猫は横縞を認識できなくなる。

※人間の持つ「世界観」は、実世界そのものではなく「シミュレーション」。必要と判断した情報だけで、自分が理解したように脳内に世界を写し取っている。


共同注意」:大人が子どもと同じものを一緒に見て、指をさしたり、それについて話すこと(三項関係)で、人間の発達に重要な役割を担う。

このような「体験の共有」は「他者が何を考えているかを理解する」という「心の理論」と呼ばれる能力の土台となる。「サリーとアンの課題」。

G: 心の理論(Theory of Mind)とは、自分とは異なる他者の考え・感情・意図などを推測し、それに基づいて相手の行動を理解・予測する心の働き。人間関係の構築やコミュニケーションに不可欠な能力。「自分は知っているが相手は知らないことがある」「他人が別の他人をどう思っているか」などの理解。


人間は、自信や知識があるように見える人からの情報の方が、より強く長く記憶に残る。これは、AI の「ハルシネーション」の一因にもなっている。

※ある時期からの総理大臣の発言パターンにも、その意図が感じられる…(^^;)。

また、人間の発言には裏に(隠された)意図があると大人は知っているが、その大人は「AI はそういう意図を持つはずがない、嘘をつく必要がない」と思って信用してしまう可能性もあり、これも「ハルシネーション」(AI に騙される…)を助長している。


AI の会話では、相手の一般的な特徴を抽出して、「全体の傾向として、どのような話題を好むか」「どのような話し方を好むか」等を推測・考慮した話し方をする。

ただし、細かい情報は毎日リセットされるようなので、AI は「約束」や「会話によって既知となったこと」を忘れてしまうし、突然「態度」が変わることもある。

注意すべきは、(現状の?)AI では「使用モデル」が突然変わることがあるし、そのことが利用者に明示されないこと。態度の豹変などの要因にもなっている。


言語は文字によって意味を表すシステムではない

これは「目から鱗」の情報だったが、言語の本質は文字ではないそうだ。初めに「音・音声」ありき…のようだ。

人間は音声を通して言語を学ぶ。文字のない音声のみの言語は歴史的にも非常に長い期間存在したし、現在でも存在している。

アクセント(単語レベルの声の高さ・高低)やイントネーション(文レベルの声の高さの変化)は文字では表せない。これらは、意味を補足したり、感情や気持ちを表現したり、もっと複雑な意味やニュアンスを伝える(千尋声)重要なものである。

生成AI の音声合成では言語本来のアクセントやイントネーションは(現時点では)表現できていない。


♪ 「文字は写真に過ぎない」。音声言語と文字は別の記号体系である。文字の存在理由は(音声)言語を表記することだけ(ソシュール)。

※音楽と楽譜の関係も同様?

※逆に、文字(書き言葉)はそれだけで一つの「記号体系」となっているので、書き言葉で考える、論理を組み立てる、定義や理論を明示するなどの役割はあると思う。


ビデオ・デフィシット仮説」:画面越しでは学習効果が低減する。テレビを通して言語を学ぶことは極めて難しい(とくに乳幼児)。

赤ちゃんは「社会的交流」(他者との実際のやりとり)を通して「赤ちゃんが学ぶべき材料として何を使うか」を選別している。「交流の道具」は「交流」を通して学ぶ。

誰かが一緒に遊んでくれるだけで学習が促進される(一緒にタッチスクリーンを触るなど)。

反応してくれる大人の存在((社会的)随伴性)が学びを生む。随伴性とは、幼児の声に対して養育者がすぐに反応(声・言葉・視線・表情・触覚…)すること。


♪ 音声が「人の声」として成立するためには、しっかり「感情がのったイントネーションや抑揚が伴っているか」が重要。

※音楽も同じだ ♪


中高生では、基本的な認知能力の脳内基盤は完成されているが、前頭葉は完成していない。

前頭葉は、感情の整理をしたり、自分の欲求や衝動を抑制したりする力などを司る。

※中高生と会話するときは気に留めておいた方がよさそうだ。


参考(紹介されていた本):

📗大規模言語モデルは新たな知能か ChatGPTが変えた世界(岡野原 大輔 著)

📗知能とはなにか ヒトとAIのあいだ(田口善弘 著)→既読

📗脳は出会いで育つ(小泉英明 著):図書館なし

📗生きる言葉(俵 万智 著)

📗ムラブリ 文字も暦も持たない狩猟採集民から言語学者が教わったこと(伊藤雄馬 著)

📗「声」の言語学入門 私たちはいかに話し、歌うのか(川原繁人 著)



【関連記事】



《本『生物はなぜ死ぬのか』地球・生物・死生観…大局観を持つことの心地よさ?》


にほんブログ村 健康ブログ 健康法へ にほんブログ村 シニア日記ブログへ このブログについて

0 件のコメント: