架空のロックバンド「The Midnight Odyssey」楽曲生成AIはどんどん進化している。架空のロックバンドのアルバムをつくることだって可能なのだ(詳しくは記事の最終ページを!)

生成AI技術の進化が止まらない。これまでは「できない」「難しい」と言われていた部分を中心に、今も日進月歩で新しいAIや新機能が登場している。例えば、今まで「AIに感情はない」と言われていたが、人間の感情を声や表情から読み取ることができる「Hume」の登場。また、従来は難しかったキャラクターのポーズ指定を簡単に行える「Krea」の画像生成機能。そして、最近のもっともホットな話題といえる楽曲生成AIの三つ巴の戦い~本記事ではそんな三つの最新トピックをお届けする。(テクノロジーライター 大谷和利)

怒ってる?喜んでる?人間の感情を理解しつつあるAI「Hume」

「AIには感情がない」とは、よく言われることだ。そもそも感情とは何かという定義自体も、知能と同じくあいまいなところがあるわけだが、他者とのコミュニケーションを円滑に、あるいは戦略的に行うために人間が進化の過程で身に付けてきたものが感情であるとすれば、Hume(ヒューム)のAIは、それに近いものを実現しつつあるともいえるだろう。

Hume1HumeのVoice-to-Voice with EQを支えているのは、優れたボイスチャット技術だ。相手の発話の終了を的確に判断して返答を行うことはもちろん、AIの発話中にユーザーの割り込みがあると、ただちに聞き取りモードに切り替わるなど、会話の自然さには驚かされる(以下、記事中の画像は筆者作成) 拡大画像表示

 Humeは、元GoogleのDeepMindの研究者が創業し、5000万ドル(約70億円)の資金調達に成功した企業である。音声や表情から人間の感情を高精度に分析するための「感情認識大規模言語モデル」(ELLM:Emotional intelligence of Large Language Models)の開発を行っている。

 具体的には、感情の種類を賞賛、崇拝、怒り、不安、喜びなど53に分類し、声のトーンや微妙な表情の違いから、そこにどのような感情がどの程度の割合で含まれているかを的確に判断できるようになっている。