REAZON HOLDINGSREAZON HOLDINGS
RECRUITING SITE

JPEN
2023.04.06
R&D

世の中のコモンズとなるような新しい技術を生み出し、社会へ大きなインパクトを与えたい

こんにちは、経営企画部の赤岩です。 今回は、2023年1月にリリースした音声コーパス『ReazonSpeech』について、森さん・Yinさんにお話を伺いました。 音声コーパスとは、音声データとテキストデータを発話単位で対応付けて集めたもので、例えば文字起こし機能などで活用することが可能です。 お二人は、レアゾン・ホールディングスの研究所である『ヒューマンインタラクション研究所』に所属し、働かれています。 レアゾン社員の方でも、『ヒューマンインタラクション研究所』がどんなことをしているのか、また今後どんなことをしていきたいのかなど、普段見えていない部分も多いと思います。 音声コーパス『ReazonSpeech』の誕生秘話も含め、興味深いお話が盛りだくさんですので、この記事を通じて、少しでもご理解いただけたら嬉しいです。

森 大二郎 もり だいじろう 株式会社レアゾン・ホールディングス 取締役

九州芸術工科大学音響設計学科卒業。日本電信電話株式会社ヒューマンインタフェース研究所で情報検索技術の研究開発に従事。有限会社未来検索ブラジルで全文検索ソフトウェアを開発。株式会社レアゾンホールディングスでヒューマンインタラクション研究所を設立。

YIN YUE いん ゆ 株式会社レアゾン・ホールディングス ヒューマンインタラクション研究所 研究員

カーネギーメロン大学言語テクノロジー修士課程修了後、新卒で株式会社レアゾン・ホールディングスへ入社。現在はヒューマンインタラクション技術の研究へ従事。

自由度が高い環境へ飛び込み、研究に専念できる環境を自ら創る

赤岩

早速ですが、まずはお二人にレアゾンへ入社する前のお話を伺いたいと思います。それぞれ今までのご経歴やご経験について教えていただけますか?

私は、元々NTTの研究所でインターネットのポータルサイトの中核として使われる大規模全文検索システムを開発していました。ちょうどインターネット業界が盛り上がり、Googleのような検索エンジンのニーズが非常に高まってきたタイミングだったので、当時はひたすら検索エンジンのプログラムを書いていました。

NTTを退職してからは、オープンソースの全文検索エンジンソフトウェアを開発しました。このソフトウェア(Senna/Groonga)は、索引を高速に即時更新可能なライブラリになっているところがウリでした。MySQLやPostgreSQLなどの様々なデータベース管理システムに組み込んで使うことができたため、使い勝手が良く、当時は多くのシステムに導入していただきました。

赤岩

長い間、一貫して検索エンジンのシステム開発に従事されていたのですね。

一方、Yinさんは2022年に新卒でレアゾンへ入社されたばかりと伺っています。学生時代はどのようなことを学ばれていたのでしょうか?

YIN

そもそも私の高校時代頃までは、自動翻訳システムの技術がそこまで進歩しておらず、より精度が良いものにするにはどうしたら良いかと思ったことから、機械翻訳等に興味を持ち始めました。そして、大学でもその研究に携わることが出来ればと思い、カーネギーメロン大学で、機械学習や統計学、自然言語処理などについて学んでいました。また、研究インターンという形で、『JSALT(*1)』というワークショップにも参加し、音声認識の研究に関わる機会もありました。

赤岩

学生時代から、現在の仕事に繋がるような研究をされていたのですね。

お二人ともそれぞれ全く異なるご経歴ですが、レアゾンへ入社されたきっかけを教えていただけますか?

私の場合は、たまたま誘われてオフィスに遊びに来た時の印象がとても良かったのがきっかけです。オフィスが社員の活気に満ちていて、いろんな才能を持った人にあふれている印象でした。入口付近の大きな壁面ディスプレイでは社員と思しき人がギターを弾いている動画が流れていました。音声は出ていませんでしたが、手つきを見ただけで、とんでもなく上手いことが一瞬で分かりました。聞けばその人は、ジャズを目指す人なら誰もが憧れるアメリカの有名音楽院を主席で卒業して、今は情シス部長を勤めているとのことでした。他にも面白いバックボーンを持つメンバーが多く集まっていることを知り、今までいた会社とは違う異質なカルチャーを間近でみて、「何か面白そうだな」と感じたことを覚えています。

赤岩

多種多様なメンバーが集まっているところが、レアゾンの魅力でもあり強みですよね。

そのカルチャーに惹かれ、レアゾンへの入社を決めたのですね。ちなみに、森さんの入社以前にもヒューマンインタラクション研究所のような、研究に特化した部署は存在していたのでしょうか?

入社当時、レアゾンにはR&D組織がありませんでした。私が当時から取り組みたかったヒューマンインタラクション分野の研究をテーマに掲げ、入社と同時に研究所を立ち上げたという経緯があります。レアゾンへの入社を機に新たな領域の研究をスタートすることができて非常に嬉しかったです。

赤岩

どうしてヒューマンインタラクション分野の研究をやりたかったのですか?

私は、長いこと情報検索の仕事をしており、“検索”というのは、人が生きていく中でより良い情報と出会う貴重な機会の一つであって、有意義で追求しがいのある分野だと考えています。しかし、ある時から業界全体として、検索エンジンサービスの進歩が停滞していると感じるようになりました。それを乗り越えるためには、ユーザが考えていることをスムーズに伝えられるようになることが肝心だと思い、ヒューマンインタラクション分野について研究したいと考えるようになりました。

赤岩

自分がやりたいことへのチャレンジを応援してくれる環境があることも、レアゾンの魅力の1つですよね。

Yinさんも自分がやりたいことがあり、レアゾンへの入社を決めたのでしょうか?

YIN

そうですね。私は就職活動時に、日本企業で働くことと、興味があるデータサイエンス系の仕事に携わることを主軸に考えていました。

元々、日本のゲームやコンテンツが好きで日本のカルチャーに触れる機会が多く、日本企業に就職したいな、と漠然と考えていたのです。ただ、日本企業の新卒採用は、総合職での募集をしていることが多く、就職活動時に職種選択の自由度が低い印象がありました。しかし、レアゾンは職種別に募集枠を設けて採用活動を行っており、また、R&D部門で行われていた研究と興味マッチしており、入社後すぐに自分が関心を抱いている仕事へ携わることができると知ったので、入社を決めました。

*1.JSALT:ジョンズホプキンス大学主催の夏に開催される音声と言語処理をテーマにする研究ワークショップ

『ReazonSpeech』リリースの裏側にあった、計り知れない努力

赤岩

お二人ともやりたいことが明確にあり、それを実現できる環境を求めた結果、レアゾンへたどり着いたということですね。

レアゾンへ入社してから、やりたかった研究には着手出来ていますか?

はい。入社以降一貫して、ヒューマンインタラクション研究に注力できています。ヒューマンインタラクションといっても様々な手段がありますが、脳波や筋電位を図ってみたり、視線の計測をしてみたり、音声認識に関する検証をしてみたりと、幅広い分野の研究を同時並行で行っています。その中で、一番最初に成果が出たものが、音声認識でした。

赤岩

その音声認識の研究成果が、先日リリースされた音声コーパス『ReazonSpeech』に繋がったのですね。

『Reazon Speech』についてもう少し詳しくお伺いできたらと思うのですが、そもそも音声コーパスとはどういうものなのでしょうか?

音声コーパスとは、音声データとテキストデータを発話単位で対応付けたものを指します。また、音声認識モデルを作成する材料として使用され、規模と品質が音声認識の精度を大きく左右します。

『ReazonSpeech』では、ワンセグ放送の録画データから音声コーパスを自動抽出しており、現状、世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパスとなっています。

赤岩

世界最大の日本語音声コーパスとなるまでには、データ収集も含めかなりの時間を要したのではないのかと思います。レアゾンへ入社してからずっと研究されてきたのでしょうか?

データ収集自体は入社前から個人レベルでこつこつ進めていました。いざ本格的に取り組んでみると、高品質なコーパスを大量に得るためには技術的な困難がいくつもありました。優秀な仲間に恵まれ、組織として取り組まなければリリースまでこぎ着けられなかったと思います。技術面以外にも、法律や権利関連の問題がないか確認する必要もありました。結果的にリリースまで数年の月日を要しました。

赤岩

『ReazonSpeech』リリースの背景には、計り知れない努力がたくさんあったのですね。

Yinさんも入社以降ずっと音声認識関連の研究に携わっていると思うのですが、その過程で何か苦労したことはありましたか?

YIN

学生時代に音声認識に関する研究はかじっており、課題理解や手法提案などの研究において苦労することはあまりありませんでした。しかし、大学での研究とは異なり、今回のコーパスの規模が圧倒的に大きく、そしてオープンにするには既存リソースを全て使っていいわけではなく、様々な人たちのサポートがないと成立しないということを学びました。

重要なのは、これからどうアップデートしていくか

赤岩

おっしゃる通り、企業での研究は関係各所間で調整が必要となる部分も多く、大変なことも多かったと思うのですが、そういった努力が今回のリリースに結び付いたのだと思います。

ギリギリまで試行錯誤していたので、リリース直前にはやるべきことをやり切った感があったのですが、いざリリースしてみるとようやくスタートラインに立った、という感覚になりました。

音声認識は、コーパスの規模が大きいほど性能が良いものが出来るので、アップデートし続けないといけないと感じています。また、日本語は、世界の中でも突出して同音異義語が多い言語なので、音声認識でできることには限界があると考えています。今回のリリースを足がかりとして、これを解決する仕組みを作ることが出来ればと考えています。

YIN

私は、自分の成果が多くの人々に利用されて、純粋に「嬉しいな」と感じました。今後は更に多くの人々に『ReazonSpeech』を利用していただきたいですし、そのためにはやはりアップデートし続けることは重要だと思います。

世の中のコモンズとなるようなものを生み出し、みんなでシェア出来る世界をつくりたい

赤岩

お二人とも、『ReazonSpeech』のアップデートを重ねることで、より多くの人々にその価値をシェアしたいという気持ちが伝わります。レアゾン以外にも音声認識プロダクトをリリースしている会社はあると思うのですが、やはり他社の存在は気になりますか?

私自身は「他社よりも精度が高い音声認識を作る」ことをゴールとは考えておらず、音声コーパスをシェアする基盤を作りたいという思いが強いです。企業として自社サービスの競争優位性を意識することはもちろん重要ですが、それ以前にコモンズとしての基盤技術を底上げすることの方が特に日本においては重要だと考えています。国内で狭いパイを奪い合っているうちに世界から取り残されてしまう構造をまずは変えたいということです。

赤岩

より多くの人々にシェア出来るように、とのことでしたが、今後は日本語以外の言語にも対応していく予定はあるのでしょうか?

国ごとに法律が異なるので、すぐに対応するのは難しいかもしれません。もちろん、日本で英語のコーパスを作って国内で利用することは問題ないですが、そのコーパスを他の国で合法的に利用出来るかどうかは、確認や整理が必要になります。

アメリカでは"フェアユース"という考え方があり、収集データを使った機械学習研究の法的な拠り所とされてきました。日本の法律にはフェアユースそのものはないのですが、2019年の法改正によって、収集データから機械学習やコーパス生成などの情報解析を行うことが商用非商用問わず可能となりました。これは米国のフェアユースよりも一歩踏み込んだ制度だと言えます。この法改正があったからこそ今回『ReazonSpeech』を自由なライセンスでリリースすることができました。日本はデジタル化が立ち遅れ、他国と比べて生産性が低いとの言説がありますが、こうした優れた法制度を最大限活用して、低廉で高品質な技術基盤を社会インフラとして根付かせれば挽回の余地は十分にあると思います。

赤岩

みんながシェアできる世の中をつくるにはまだいくつか段階を踏む必要があると思いますが、是非実現させたいですね。

ヒューマンインタラクション研究所としての、今後の展望も教えていただけますか?

私は、ヒューマンインタラクションの中でも、人間が考えていることをいかにスムーズに他者に伝えるかというテーマに興味があります。音声認識もその1つですし、それ以外にも様々な手段があると思います。人の行動範囲を拡張する遠隔操作ロボット技術や、人と協調して作業を行う協働ロボット(*2)技術などもその範疇だと考えています。現状全ての分野を研究するには人材が不足しています。今後は一緒に研究してくれる仲間を増やし、それぞれの分野にしっかり熱量を注ぎ込んで研究出来るような組織を作っていきたいです。

こうした研究所組織から0→1のイノベーションに繋がる技術を生み出し、”世界一の企業”というレアゾンのビジョンに貢献したいと考えています。また、研究所とは別に、実用性の高いAI技術の事業適用を推進するための組織を別途作ろうとしています。AIや機械学習技術が大好きだが、研究よりは実用化に興味があるエンジニアにも是非ジョインしていただきたいです。

*2.協働ロボット:人と同じ空間で一緒に作業を行うことが出来る産業用ロボットの一種

赤岩

具体的に理想の人物像とかありますか?

機械学習やロボティクス等の先端技術に造詣が深いだけでなく、自ら手を動かして実際のモノづくりやプログラミングに取り組んでいる方が良いですね。積極的にOSS活動しているとなお良いです。巨人の肩に乗ることで今日の技術革新が進んでいることを肌で実感していることが大切です。どのようにしたら自らもオープンイノベーションの担い手としてコミュニティに貢献できるか一緒に考えてくれる仲間に、レアゾンへ来ていただきたいと考えています。

赤岩

ヒューマンインタラクション研究所から、社会へ大きなインパクトを与えるような技術が生み出されることを、楽しみにしています。

本日はお忙しい中、お集まりいただきありがとうございました!

最後に...

先日開催された言語処理学会第29回年次大会で、『ReazonSpeech』が優秀賞を受賞しました!

おめでとうございます!

『ReazonSpeech』関連記事はこちら

Reazon Human Interaction Laboratory

(2023-04-04) ReazonSpeechの最新モデルを公開しました
※2023年4月4日に、精度を改善した新しい音声認識モデルを公開したので、こちらの記事も是非ご覧ください。

SHARE

  • Copied!

ABOUT

MORE

WELFARE

MORE