日本語言語音声データセットや機械学習データセットリスト

日本語言語音声データセットや機械学習データセットリスト

恥ずかしながら・・・

圧倒的に技術が足りない(・・;

すでにこういったものを作られている方も多いかと思いますが、日本語データセット、日本語音声データセット、機械学習系の参考です。GCPとDialogflowを参考に、制作方法と参考データセット一覧を置いておきます。

ご興味のある方はご覧くださいませ。

今回のゴール

まずお恥ずかしながら、ゴールにたどり着けるのかと言うことは置いておきます。

GCP(Google Cloud Platform)のDialogflow Enterprise Edition、Dialogflow Phone Gateway、テレフォニーゲートウェイ(The telephony gateway)を使って、単なるすでに録音されているデータやごく少ない音声データによる自動応答コールセンターのシステムではなく、音声認識(Speech Recognition)、日本語データセットや日本語の自然言語音声データセット、日本語データセット(Japanese Language Datasets)などのクラウド(Cloud)や独自カスタムデータセットなどを使い、マシンラーニング(Machine Learning)させて、Speech-to-Textで音声をテキストに変換してアウトプットさせて、できる限り不自然ではない自然言語(Natural Language)で会話できるIVR(Interactive Voice Response)自動電話応答システムを制作してみるという感じです。

日本語データセット、日本語音声データセット、またご存知の方も多いかと存じますが、機械学習系のデータセットやAPIなどのリストの参考をざっくりとです。少し有名どころばかですみません。

ご興味がございましたらどうぞ。

日本語データセットと機械学習系データセット参考リスト

Intro to Dialogflow

Dialogflow is Google's natural language understanding tool for building conversational experiences, such as voice apps and chatbots, powered by AI. Connect with users on your website, mobile app, the Google Assistant, Amazon Alexa, Facebook Messenger, and other popular platforms and devices.

他にも使えそうなGoogle関係ならGoogle AssistantやTwilio、その他の言語系のオープンライブラリなども埋め込めればいいのですが。

ざっくりと参考リスト。こちらも良いです。2019年3月9日に開催されるDevRelCon TokyoのTwitterアカウントより。

How Dialogflow Enterprise Edition Can Transform the Enterprise Contact Center (Cloud Next ’18) Google Cloud Platform

How many times have you repeatedly dialed 0 or shouted “representative” when faced with a poor IVR experience? Automated phone agents and chatbots have been reviled by customers and employees due to their poor quality. Customers work with human agents despite 60%+ indicating they would like to get assistance through self-service tools. In this session, we will show you how Dialogflow Enterprise Edition’s new technologies allow you to create a world-class automated experience across channels (including phone, chat and voice assistants e.g., Google Home) that bring the best of your business to your customers. We will be joined by guest speakers that will show how they use Dialogflow for their business

こちらは結構古いもの。Cloud Speech API Demo  Google Cloud Platform

D1-5-S02_コールセンターの自動化 〜 Dialogflow 、Speech-to-Text、Text-to-Speech の活用 〜

Dialogflow Enterprise Edition と Cloud Text-to-Speech が新しい Cloud AI サービスとして登場し、クラウド Speech-to-Text とともに、あらゆる企業で自動化により生産性を向上させました。 自動音声応答 (IVR)、Google アシスタントによるアクションの実行、音声分析(コールセンターでの会話分析など)などのヒューマン コンピューター インタラクションなどがその例です。これらの 3 つのサービスを組み合わせ、次世代 IVR を作成する方法を紹介します。

GCPグーグルクラウドプラットフォーム(Google Cloud Platform)プロダクトとサービス一覧
cloud.google.com/products

CLOUD TEXT-TO-SPEECHのサンプル
cloud.google.com/text-to-speech

Google Cloud Dialogflow Enterprise Edition、Dialogflow Phone Gateway、テレフォニーゲートウェイ(The telephony gateway)
cloud.google.com/dialogflow-enterprise/docs/telephony

Dialogflow
dialogflow.com

Twilio Docs
jp.twilio.com/docs

NII国立情報学研究所(National Institute of Informatics)音声資源コンソーシアム(SRC)音声コーパスリスト
NII国立情報学研究所(National Institute of Informatics)グランドチャレンジ「情報環境を支える日常的インタラクションデータ収録のためのプラットフォーム構築」(2009–2011)の研究成果を公開するためのページ

【無償コーパス】
※当面は配布手数料(郵送料等)も無料とします
重点領域研究「音声言語」・試験研究「音声DB」 連続音声データベース (PASL-DSR)
筑波大 多言語音声コーパス (UT-ML)
東北大‐松下 単語音声データベース (TMW)
基盤研究(A)「日本語方言の地域差」方言音声コーパス (GSR-JD)
RWCP 音声データベース
音声対話データベース 96年版 (RWCP-SP96)
音声対話データベース 97年版 (RWCP-SP97)
検索・要約用ニュース音声データベース (RWCP-SP99)
会議音声データベース (RWCP-SP01)
RWCP 実環境音声・音響データベース (RWCP-SSD)
重点領域研究「音声対話」 対話音声コーパス (PASD)
CIAIR 子供の声データベース (CIAIR-VCV)
IPSJ SIG-SLP 雑音下音声認識評価環境 (CENSREC)
雑音重畳日本語連続数字 音声認識評価環境 (CENSREC-1 ⟨AURORA-2J⟩)
雑音下日本語連続数字 音声区間検出評価環境 (CENSREC-1-C)
マルチモーダル音声認識評価環境 (CENSREC-1-AV)
実環境車内 日本語連続数字 音声認識評価環境 (CENSREC-2)
実環境車内 日本語単語 音声認識評価環境 (CENSREC-3)
残響下日本語連続数字 音声認識評価環境 (CENSREC-4)
特定領域研究「メディア教育利用」音声データベース (UME)
日本人学生による読み上げ英語音声データベース (UME-ERJ)
留学生による読み上げ日本語音声データベース (UME-JRF)
理研ワープロ操作対話音声コーパス (RIKEN-DLG)
千葉大 日本語地図課題対話コーパス (MapTask)
宇都宮大学 パラ言語情報研究向け音声対話データベース (UUDB)
電総研 単語音声データベース (ETL-WD)
鶴岡調査音声データベース91-92 (Tsuruoka91-92)
音声研究用X線フィルムデータベース (X-Ray)
特定領域研究「韻律と音声処理」日本語MULTEXT韻律コーパス (MULTEXT-J)
中国語MULTEXTコーパス (MULTEXT-C)
慶應義塾大学 研究用感情音声データベース (Keio-ESD)
身体情報付き男・女・子どもの母音音声データベース (JVPD)
東工大 多言語音声コーパス (TITML)
インドネシア語 (TITML-IDN)
アイスランド語 (TITML-ISL)
AWA長期間収録音声コーパス (AWA-LTR)
南琉球新城方言音声データベース (Aragusuku)
宮古大神島方言音声データベース (Oogami)
感情評定値付きオンラインゲーム音声チャットコーパス (OGVC)
千葉大学 3人会話コーパス (Chiba3Party)
近畿大 児童の単語音声データベース (JWC)

【有償コーパス】
日本音響学会 新聞記事読み上げ音声コーパス (JNAS)
新聞記事読み上げ高齢者音声コーパス (S-JNAS)
日本音響学会 研究用連続音声データベース (ASJ-JIPDEC)
NTT・東北大 親密度別単語了解度試験用音声データセット (FW03)
NTT・東北大 親密度別単語了解度試験用音声データセット2007 (FW07)
NTT 乳幼児音声データベース (INFANT) ※提供を再開しました(2017.5)
取り次ぎ
電子協 日本語共通音声データ (JEIDA-JCSD)
電子協 騒音データベース (JEIDA-NOISE)

research.nii.ac.jp/src/index.html
research.nii.ac.jp/bonogrand

NICT国立研究開発法人情報通信研究機構(National Institute of Information and Communications Technology)翻訳バンクWeb API
mt-auto-minhon-mlt.ucri.jgn-x.jp/content/api

内閣府 官民研究開発投資拡大プログラム(Public/Private R&D Investment Strategic Expansion PrograM:PRISM(プリズム))
オープンイノベーション推進本部知能科学融合研究開発推進センター
nict.go.jp/ais

NTT Communication Developer APIs
developer.ntt.com

NTT Docomo Developer Supoort API NTTドコモ
dev.smt.docomo.ne.jp

Amazon Alexa
alexa.amazon.com

arXivTimes DataSets Github
github.com/arXivTimes/arXivTimes/tree/master/datasets

Google Cloud Bigquery
cloud.google.com/bigquery

Kaggle Datasets
kaggle.com/datasets

Chainer
https://docs.chainer.org/en/stable

UCI UC Irvine Machine Learning Repository
archive.ics.uci.edu/ml