オンガクとオトの話(主要な音の非可逆圧縮技術の雑多な話)

Except imas (エクマス) Advent Calendar 2019、3日目の記事になります。2日目の記事は、智絵里さん係さんのバウムクーヘンの話すこしする、でした。アイマス界隈でバウムクーヘンというと元JKバウム、元JDバウムこと大坪由佳さんの大好物ですね。ちらっと言及されてましたね。

さて、アイマスと切っても切り離せないもの、それはアイドルの声だったりアイドルの歌う楽曲だったり……とにかく「音」です。そんな音、とりわけ非可逆圧縮技術(コーデック)に関してとりとめも無く書いていこうかと思っています。可逆圧縮技術は技術としては面白いけど音質は全部一緒のはずなので語ることは無いです。

非可逆圧縮、可逆圧縮ってなんやねん

いきなり難関キーワードが出てきましたね。非可逆ってざっくり言うと「元のデータに戻せない」という意味です。可逆に非ず、です。例えば、CDからリッピングしたWAVデータだったりMacならAIFFデータは「元のデータ」です。CDの音と一緒のデータです。非可逆圧縮は、それをしちゃうと逆、つまり展開したときに元のCDからリッピングしたデータとはならない、ということです。その最たるものがmp3だったりAACだったりWMAだったりするわけです。今出した音声の圧縮技術は「人の聴覚ではほぼ聞こえない帯域の音」をバッサリ切ったり、「他の音にかき消されて聞こえないであろう音」を間引いたりしてそれっぽく聞こえるようにしています。ほとんどの人はABXテスト(元データと圧縮音源どっちを聞いているかを試すテスト、foobar2000でできます)をするとある程度のビットレート(mp3だったら160kbpsとか)以上になるとよっぽど癖のある音源で無ければ元データと圧縮音源どっちを聞いているかわからなくなります。要は当てずっぽうで答えるしかなくなります。人の耳ってすごいようで割とだまされやすいようです。

で、非がつかない可逆圧縮ですが、これは展開すると元のWAVデータだったりAIFFデータと一致するのです(!)。FLACだったりALACだったり、DRMをつける関係で一時期WMA LOSSLESSを採用していた所もありました。今は音楽に関してはDRMフリーの時代なのでFLACかALACのどちらかを採用する事が多いみたいです。可逆圧縮技術はいろいろあるんですが、LINNというオーディオメーカーのハイレゾ音源配信サイトが「オープンソースで、PCユーザーで使う人も多かった」FLACを採用したところから「オレモー!!」ってなってFLACのところが多くなったのだと思います。ALACはできたのが割と最近で、OTOTOYなんかで採用されてます。ミュージシャンとか多く使ってそうなApple製品なのに可逆圧縮コーデックができたのがここ数年のことって意外ですよね。

どのサブスクがどの圧縮技術を使ってるか気になりませんか?

私は結構気になる派なんですけど、大半、いやほぼ全員は「いい音なら別になんでも……」という人ばかりでしょう。大体のサブスクではオープンソースな技術を使って圧縮しているようです。例えばSpotifyならOgg Volbisを使ってます。

「そんなんどこでわかるん!?」

って話なんですけど、SpotifyのWindowsストア版のプログラムだと左上のメニュー→ヘルプ→サードパーティ製ソフトウェアというところをクリックします。そうすると、

Spotifyクライアントのスクリーンショット

のように見ることができます。libvolbisを使ってるからOgg Vorbisなんだろーなーという推測ができます。libはライブラリのlibです。その機能を使うためのものがコレクションされているのでライブラリと言ってます。

唯一サブスクでアイマスの楽曲があるANiUTaですが、昔はAACを使っていたっぽいのですけど(AACのライブラリを使っているというライセンス表示があった、気がする)、今見るとAACのライセンス表示が無い、ビットレートが128kbpsか320kbpsというところからmp3になったんじゃないかなと思います。まあ私は素人ですからわざわざ通信内容解析とかはしないので推測しかできないのです。めんどくさいしね。

Amazon Musicはhttps://www.amazon.co.jp/gp/help/customer/display.html?nodeId=201420340で見られますが、ffmpegを使ってるので詳細までは分かりません。恐らくHD、ULTRA HDをFLACで、SDをmp3ではないかなぁと思います。Amazonのデジタルミュージックストアがmp3なので、SDをわざわざ他のフォーマットにする意味が無いんですよね。

サブスクとは言えないかも知れませんが、AudioAddict系のネットラジオはHE-AACったりAACだったりmp3だったりします。サービスを始めた当初はmp3くらいしか使えるコーデックが無かったのでmp3オンリーでしたが、今では無料ユーザーでもそこそこの音質で聞けるHE-AACを採用したりしています。

非可逆圧縮技術について語っていこう

まだやるんです。語るんです。

MP3

正式な名称は「MPEG-1 Audio Layer 3」。なのでmp3。MPEG-3ではないです。3ってことで、1も2もあります。だけれども大して圧縮できない、その割に音質もアレレ?と言う点でいまいちです。なんで90年代後半にmp3が爆発的に流行ったかというと、パソコンのCPUが実時間以上の早さでデコード(復元)できるようになったからです。それまではMPEGボードというPCに拡張ボードをつけないと実用的に使えなかったのです。あと容量も比較的小さくなっていい感じに聞ける、という点もあったかと。1411kbpsのWAV、AIFFデータが128kbpsくらいになり、1分10MBとってたのが1分1MBになって、そのころまだHDDも容量が大きくなく、それでも結構な量の楽曲をHDDに貯め込めるということで、「便利だね」となり、その頃やっと普及し始めたインターネットにアップロードして…ということもやっていた人もいました。そんなんで、一気に普及し、当時ではmp3にすることがデファクトスタンダードになりました。

エンコーダーの技術次第で同じビットレートでも音質に結構な差があり、元々の開発を行っており、また、エンコードに関する技術特許を取っていたフラウンホーファーIISのエンコーダー(特許権については2017年に効力を失った模様)が一番良い、とされていました。今現在フラウンホーファーIISのエンコーダーを末端のユーザーが試すためにはiTunesかWindows Media PlayerのCD取り込み機能を使うしか方法が無いようです。他のエンコーダーというと今ではLAMEやffmpeg(実質LAME)、Windowsなら午後のこ~だといったところでしょうか。音質的な面では「フラウンホーファーIIS>LAME>午後のこ~だ」ということで、高速化のみに特化した午後のこ~だを積極的に使う意味は無く(午後のこ~だはLAMEの昔のバージョンのフォークで、その高速化された所はLAMEにバックポートされている)、結局mp3ファイルを作るのであれば、LAMEを使うのが今のところベストプラクティスではないでしょうか。

mp3の利点、それは可搬性。どのチャチなプレーヤーでもmp3が再生できない、ということはないということです。それ以外で利点というものはほとんど無く、同じビットレートでの音質ではWMAやAACといった後発に負けます。

VQF

「VQFってなんやねん」って人も多いと思います。インターネット老人会かMPEG-4にめっちゃ詳しくないと知らないと思います。TwinVQ、SoundVQのことで、1990年代後半にNTTが開発していた音源圧縮技術になります。SoundVQはYAMAHAがTwinVQを展開するに当たり取った名前です。いろいろ機能拡張もされました。ですが、開発は終了していますし、NTTにももうTwinVQのページがないのですが、MPEG-4の音声コンテナに採用されているのです。「えっ!?」と思ったでしょ?MPEG-4の音声なんてAACじゃないの?いやいや、TwinVQがあるんです。そういった兼ね合いもあって、ffmpegでデコードはできます。エンコーダーは探せばどっかにあるんじゃないですかね…。まあ、終了している技術なのでオススメはしませんが。ただ、当時では96kbpsあればmp3の128kbpsを凌駕する音質だったことは確かです。SoundVQに希望を抱いていた人はいるにはいて、SoundVQ形式で音源をとりためてた人もいます。俺だ。MP3よりも長かったエンコード時間を返してくれ!(ぉ。

そんな失敗があったので、俺はひとまずFLAC形式にしてからAACなりAACがダメならWMAやMP3にしたりしてます。

WMA

ということで次はWMA。Windows Media Audio。64kbpsでCD音質!というのが当時の売りでした。実際64kbpsで一聴すると「おっ」とは思うもののよくよく聞けば結構アラがありました。プロプライエタリの宿命ということでWindows圏、もしくはデコードのみポータブル機でしか使えなくて、Windowsということで規模は大きいものの技術としては閉じられていて言うほど流行ったかな?という気になります。ただ、WMAには著作権保護機能がついていて(SoundVQもそうだったんだけどね)、いわゆるDRMを掛けられることができました。それで一時期ONKYOの配信サイト(e-onkyo)が使ってたりしました。可逆(Lossless)圧縮もあって、e-onkyoが使ってたのはLosslessの方になります。WMAは128kbpsあると万全です。それ以下だといまいちでそれ以上だと違いがあまり分からない、ということです。そういやHighMATってどこ行ったんですかねぇ。ってもうサポートされてないのか。ロストテクノロジーになっていたか…。

Alneo XA-V80についてきたおまけ音源がWMA128kbpsで、それにK2HDのスタジオセッティングを施すとめっちゃいい音になってびっくりしたのを覚えています。空気感まで伝わった。これがSDカードで容量拡張できれば今でも使ってましたね、恐らく。8GBじゃもうね、足りないの(スマホに512GBのmicroSDカードを挿しながら)。

Ogg Vorbis

「そんな特許とかプロプライエタリとかやだー」って人たちが作ったものです。前述したようにSpotifyでも採用されるくらいには音もよいのです。が、オープンソースなくせしてあまり対応しているポータブル機を見たことがない…。って思って探してみたらいっぱいあった。そういやAndroid端末が基本がOgg Vorbisでしたね。たっぷりあるじゃん。Windows 10の標準プレーヤーであるところのGrooveミュージックでも聞ける。私が知らなかっただけ…。意外と広がってるな!?侮っていました。今も開発が続いているということでやっぱオープンソースですね!(謎の締め)

AAC

今大半の人はAACを使っているのではないでしょうか。iTunesもmoraも、もしかしてレコチョクも?AACですしね。AACの火付け役になったのはやはりiTunesで、そこで一曲0.99ドルなんていう破格値で売り出したもんだからそれまでの配信サイト全部の売り上げよりもiTunesで最初の1週間で出した売り上げが大きかったという笑えるようで笑えない話もあります。小室哲哉先生がiTunesで買った曲は2万曲とかそういう話も聞きますね。

音質もこれら書き出してきた中で最後発ということもあり、低ビットレートでもなかなかな音を出します。

また、拡張仕様のHE-AAC、HE-AACV2では128kbps未満での音質改善が顕著に見られ、V2においては48kbpsでそこそこ聞ける音をだします。みんな大好きRadikoで体験済みですね。

ただし、拡張仕様なのでHE-AACに対応してない機器では高音域が顕著にそがれます。これはもともとAACとしては22kHzのサンプリングレートでエンコードされているためで、対応した機器の場合のみ44.1kHzサンプリングレートとして扱われるのです。イマドキのポータブル機でも対応してないのはあって、kyo-onsのSD-DAP01なんかがAAC対応だけどHE-AAC未対応という事がありました。

PS3なんかでもCDをリッピングする際に対応する形式としてAACが合って、ただ、拡張子がm4aでもmp4でもなく3gpという苦肉の策がとられていたのは今となっては笑い話ですね。

非可逆圧縮フォーマットの今後

記録媒体はドンドン大容量になって、ネットの帯域幅もドンドン広くなって行くにつれて、非可逆圧縮技術はドンドン小さいファイルサイズになるように進歩して行っています。Deezerやmora qualitasのような可逆圧縮コーデックを使ったストリーミングサービスも始まり、非可逆圧縮フォーマットってもう要らないんじゃない?って思うこともあります。ですが、使われなくなる、ということはないでしょう。というのが持論。主に外で聞くときに非可逆圧縮フォーマット必要か?って思っちゃうのです。可逆圧縮フォーマットは容量もあってハンドリングが悪い。私はいま、モバイル機器には主にAACを使ってます。大体128kbpsくらいで。なんならHE-AACでもいいのですが、前述したkyo-onsのSD-DAP01がHE-AACに対応していないのでなくなくAAC-LCを使ってます。まあそれで大体全部の手持ちの音源入れて200GBくらい。全部持ち歩かなくてもいいのにね。さらにSONYのXperia Z5CをDAP代わりにしてて、Spotifyをオフライン運用してます。聞きたいプレイリストを「最高音質」って書かれてるものにして保存して大体200GB。で、私はアイマスが趣味なので音源は果てしなく増えていくことが想像されますので、そのうちSpotifyの音源を標準音質にして上手いこと512GBのmicroSDカードにおさまらんかな、と考えているところです。そもそもZ5Cでも大きいのでウォークマンのA-100をボーナスで買っちゃお卯かなー、なんて。考えてます。そうなると(どうなってんだ、A-100が今のところ512GBまでしかSDカードサポートしてないから)やっぱり可逆圧縮で持ち歩くにはまだまだ容量って足りなくて必然的に非可逆圧縮フォーマットが必要になってくるのです…。まだまだ非可逆圧縮フォーマットは終わらんよ!

終わりに

音の圧縮フォーマットって日本語のWikipediaにあるだけでも割とたくさんあって、無駄に片足突っ込むともう抜けらんないのでオススメです(?)。

エクマス2019、12/4は智路さんの「サンリオの新米キャラこぎみゅんってどんな子?コギムニストって?調べてみた!」です!あとはよろしく!!