音楽一般 · 2023/03/09

AIと音楽

ブログ本格再開第1弾を何にしようかと考えていたが、どうも最近巷間で文化に関する話題と言えばChatGPT一色である。他にもまだアップしていないテーマが山ほどあるのだが、このテーマは非常に考えさせられるところが多いので、まずこれを取り上げたい。

ChatGPTについては、なにしろネットで無料で使えるということから無数の人がいろいろな実験をしているので、おおよそのイメージはつかめる。その中には「ChatGPTは算数ができない」とか「当たり前の事しか答えてくれない」とか、そもそも要求する方が無理だと思われる話も多く伝えられている。しかし人間だって算数がよくわかっておらず間違える子供は多いのだし、当たり前のことを整理して答えられない人もたくさんいるので、ChatGPTの実力については私など素直にすごいと思っている類である。米国の医大の入試に合格したとかの話もあり、このまま進化が進めばそのうちチューリングテストに合格するのではないかという期待（恐怖？）もなくはない。

しかしながら本ブログにおける私の関心の中心としては、人間の文化活動のなかでも創作という極めて人間特有と思いがちな部分にAIが侵入してきたという事実が、決して無視できない重大な問題である。聞くところによると、ChatGPTに何らかのテーマを三つ与えると、その指示に従ってたちどころに三題噺を作ってくれるようだし、画像生成アプリでは「北斎風のベートーヴェンの肖像」などという入力で北斎風のイラストができるようである。今後作家もイラストレーターも廃業するかもしれないという危惧は現実のものになりつつあるようだ。著作権という概念にも大地殻変動が起きるだろうと思われる。

本ブログのテーマである音楽について拙著でもAIが音楽創作に及ぼす影響については若干論じてはいるものの、正直私は情報工学もロボット技術も全くの門外漢なので、この問題について何か述べる資格はない。しかし、実は音楽史においてはAIに作曲させるというのはコンピューターのごく初期（第二次大戦直後）から行われているので、話としては意外と目新しいものではない。

そもそもコンピューター云々以前に、音楽を（手動の）アルゴリズムで創作するというテクニックが存在する。有名な例で言うと古典派時代に流行した「音楽のサイコロ遊び」というシロモノがある。これはサイコロを振って出た目で音楽のユニットを並べるというアルゴリズムを実行するものである（これが古典派時代特有の遊びであるという事実は、古典派というスタイルの根幹にかかわる意味を持っている）。同様の考え方が20世紀に熱病のように流行した「音列作法（セリエリズム）」による音楽にも当てはまる。こういう手法は同時代のダダイズム文学や抽象絵画においても採用されたと思われるが、これらの文学や美術が現実的なものを描写すると考えられてきた芸術に対する反逆とみなされてきたのに対し、音楽においては比較的真面目に取り上げられてきたのは、音楽の本質的な抽象性によるものと言っていいだろうと思われる。同様に、AIが囲碁や将棋で高いパフォーマンスを発揮しているのも、その抽象性がポイントになっていることは言うまでもない。

コンピューターの発明に伴い、音楽においては例えばクセナキスのように筆算でやっていた確率計算をコンピューターに任せるような、そろばんの延長線上の使い方もされる一方で、上記のようなアルゴリズムで作曲する方法への使用がすぐに考案されたのは、やはり音楽の抽象性によるものと考えられる。その嚆矢として有名なのが、1957年にヒラーとアイザクソンによってイリノイ大学のILLIACを使用して作られた「イリアック組曲」である。

あまりご興味のない向きのために注記しておくと、この曲は「電子計算機」を使用して作曲されてはいるが、いわゆる「電子音楽」（電子的に音を生成するもの）ではなく、人間が手動でアルゴリズムを実行する代わりにコンピューターがそれを計算し、実行した結果は弦楽四重奏団が演奏するものである。この曲においては、この時代に作られたこの種の音楽の共通の手法として「マルコフ連鎖」による計算が行われているというのだが、すでに述べた通り私は数学的素養が皆無なので、以下に述べる話に誤解錯覚があるかもしれないことを事前にお断りしておく。しかしこの点はAIによる創造の話のみならず、音楽というものがいかに作られるかを考えるうえで非常に示唆的であると考えるので、知識不足を承知で以下解説することにしたい。

「マルコフ過程」は、例えばA1⇒A2⇒A3⇒…Anという状態の遷移において、一つの項Akがその前の項A(k-1)のみに依存して（確率的に）決定され、それ以前のA1やA2には影響されないことを意味する。例えば、コンピューターに「導音は主音に解決することが通常である」というルールを与えておけば、ハ長調のメロディに「シ」が出てきたときにコンピューターは次の音として「ド」を選択する可能性が高い、ということになるわけである。しかし実際の音楽作品においてはその時点でイ短調の気配が生じていた場合はそこで「ラ」が鳴るのが自然であるということも大いにあるだろう。

問題の「イリアック組曲」を聴いてみると、例えば第1曲はディアトニックな（すなわちドレミファソラシドの）音階による単音の構成から出来ているが、既存の音楽理論がルールとして与えられているという割には、あまり古典的な音楽としてのまとまりが感じられない。もし「今の状態」に過去のすべての情報が凝縮されているのであれば、そういう方法論も可能であるが、少なくとも音楽はそういうモノではない。もちろんこの時代のコンピューターに扱えるデータの限界を考えれば、その程度の作業が限界であったと思われるのだが、最近の「音楽生成プログラム」ではそれなりにまともな、BGMぐらいには十分使えるようなものが出来ているようである。それがどのようなシステムのブレークスルーによるのか、もちろん専門家でなければ理解することも難しいと思われるのだが、想像を逞しくするならば、それは計算の対象が単音や単一の和音などでなく、それらの複合体に対して適用されているからではないかと私は考えている。

もしマルコフ連鎖の考え方をそのまま拡張敷衍すると、音Akはその前のA(k-1)のみならず、既存のA1、A2…の各音それぞれの影響に重み付けを行ったものによって決定される音であるという話（いわゆる高次マルコフ過程）になる。多分「イリアック組曲」のころは、そういう方法を積み上げていけばベートーヴェンのような曲が作れるという信念もあったのではないかと思う。まあコンピューターの能力向上によってはそういう方法も考えられなくはないが、それは設定すべきルールの増加によって何ら新しいものをもたらさない可能性もあり、あまり有意義な方法とは言えないような気がする。

そもそもそれは人間の音楽の認識方法とは全く別物である。人間の記憶というものは、決して過去に起こった無数のイベントがコンピューターのように逐一脳に記録されているわけではない。人間の記憶はモジュール単位で構成されており、そのモジュールが「特徴」によって記憶される（また逆に、意識された特徴によってモジュールが分節される）というのがポイントである。そのように構成されたモジュールの数が多くなってくるとさらに上位のモジュールに構成される。このようにして例えば「和声進行」とか「終止形」といったものが成立し、さらにそれらを統合して「音楽形式」のようなものが構成され認識される。まさにそれが「音楽の意味」であり「音楽の認識」であるということが言えると思うのだが、そういうモジュールの階層性をAIは果たして自発的に達成するのだろうか？

私はAIが自発的にモジュール性やその階層性を達成することはあり得ない、と考えている。脳は少数の「個物」をその関係性に従って認識記憶することができるのみであるのに対し、コンピューターはメモリがある限り無数の要素を記憶して呼び出すことができる。従って、AIが自発的にそういう構造を作ることはあり得ず、人間に認識しやすいようなモジュールを作ってくれるためには、人間がそのようにプログラミングするか、モジュール性のある音楽のデータベースを入力して、そういう音楽の構造を認識させるしかないだろう。

※ この問題に関して、囲碁や将棋のAIを例にとると、AIは無数の可能性をチェックして最善の手を割り出すのだが、たとえそれが全く新奇なものであっても、それを「定石」という個物に自発的に構成することはないだろう。それはAIにとってそのような必要性がないからである。それでもそういうソフトがパフォーマンスを発揮するのは「過程はどうでも要するに勝てばよい」という明確な目的性のためである。これに対して音楽生成ソフトは「人間に認識される」ことが目的なので、そのためには上記のようなモジュール性がポイントとなる。

逆に言うと、音楽でもモジュール性の希薄なものがある。例えばミニマル系の音楽などまさに音楽の個物認識を排除したところに妙味があるのであって、こういうモノは今後作曲家が作るよりAIに自動発生させた方が経済的であると言っても差し支えないような気がする。

このブログテーマを書きかけたときに、何か参考になる文献がないかと考えたのだが、この手の話題でまとまった内容の本としては「人工知能が音楽を創る」（デヴィッド・コープ著　音楽の友社刊）が注目される。それなりに分量のある本なので、ごく一部拾い読みしているだけなのだが、やはりAIに音楽を創らせる方法というのは、当たり前の話しながら人間が作った音楽のデータベースにアクセスして、それを借りたり変形したりして繋がりの良いものにしているということのようである。

早い話がAIの作る音楽は人間の作った音楽、およびその変形物のモザイクである。モザイクを構成する個々のモジュールは「フレーズ」、「小節」それらの上位モジュールである「曲」など、すべてデータベースから拾ってきたものであり、その特徴を抽出しルールに従ってそれをさらに上位のモジュールに組み込むようにできている。

それで冒頭の話に戻るのだが、ChatGPTの作業というのは結局入手できるデータベースから質問に関連する項目を抽出して、それを内容別に分類し整理することである。決してChatGPTが人間の思考に類する方法で何かを考えているわけではない。例えばChatGPTは質問に箇条書きで応えてくれるが、それは関連するデータを種類別に分け、それを指定されたフォーマットに出力する作業である。そのプロセスは人間が教えるのか各種のデータから自発的に学習したのかは分からないが、いずれにせよ人間の作ったデータが元になっていることは言うまでもない。

現状のAIによる音楽生成もまず類似のものであると考えるべきで、それはモジュール化された既存のフレーズを先のマルコフ過程のような確率的方法によってつなぎ合わせる、まさに冒頭に記載した「音楽のサイコロ遊び」の現代版に他ならない。つまり、「イリアック組曲」と昨今のAI音楽の質的レベルの違いは、取り扱うのが音か音の複合体であるモジュールかの違いであると言える。ただし、そのためには音やモジュールの特徴の数量化をすることが必要になってくる。前掲書にも例えば和音の協和度をどのように評価するかといった話が出てくるが、モジュール単位になるとより複雑になることが想定され、これはコンピューターの性能向上によってはじめて実現されるものであると感じる。

ところで、作曲という行為は決して無から有を生じる行為ではない。「天から音楽が降ってくる」場合であっても、それは既存のフレーズの組み替え方が「降ってくる」のであることも多々あるだろう。現在大量生産され消費されている実用音楽の多くがその類であることは否定できず、そういう作業はどんどんAIに置き換わっていき、凡百の作曲家が大量失業することが容易に予想できる。それを「創造」と言うかどうか、特に「著作権の対象となる思想や感情の表現」と考えるかどうか、今後大きな問題となってくることは間違いない。そうすると、そういう定義から「真の」創造、AIに決してできない創造とはどういうモノだろうか。

例えば、ガリレオの時代にChatGPTがあったとして、天体の運行について質問すればプトレマイオス以来の周転円やエカント等についての詳細なレポートが出てきたことだろう。しかし、たとえその当時AIが完全な天体の運行のデータベースにアクセスできる環境があったとしても、ChatGPTが「地動説」を唱えることはないだろうと思われる。「異説」を唱えるためにはAIは単にデータを収集整理するだけでなく、それらのデータの関係性を単純化した「理論」という個物を作らなければならない。先に例に出した囲碁将棋の定石と同様、それは少なくとも今のAIにはまだ全く見えていないものであると言うことができるだろう。（もちろん、AIに異説を唱えるようにプログラミングすることはできるが、そういう操作にほとんど意味はない。）

但し、科学の場合の「真理」と異なり、音楽のような文化対象となると「名曲であるか」は結局聴く人間個々人が判断することになる。AIは「大多数の人間が聴くことを選択するような音楽」（すなわち、既成の名曲に近いもの）を作ることはできるかもしれないが、個人にとって「注目を維持し、再活用できるようなもの」（私の音楽の定義）を作れるかどうかは別問題である。あるいは、未来の音楽文化はこのようなAIを使用して個々人にとって最も有効な音楽を生成するものになるのかもしれず、それは現在ネットが個人向けに作ってくれるプレイリストのようなものの進化型になるのかもしれない。また、私の様なアマチュア作曲家としては、作曲というプロセス自体が娯楽であるので、そういう行為は消滅しないのかもしれない。

以上、AIについて全く無知であることを露呈したようなブログになってしまったが、この問題は音楽というものの本質を考えるうえで重大な問題を含んでいると思われるので、改めて前掲書を精読してみたうえで続編を後日アップすることとしたい。

前の記事　　　　　　　　次の記事　　　　　　　　ブログトップへ

コメントをお書きください

コメント: 0