このサイトのメインメニュー

よくあるご質問

  • 音声認識について
  • 製品について
  • コンタクトセンタ(コールセンタ)利用について

みなさまによりご理解をいただくために、よくあるご質問を掲載しています。
疑問点やトラブルの多くは、このページの情報で解決することができます。
お問い合わせの前に、ぜひご参照ください。

音声認識について

音声認識ソフトウェア「SpeechRec」とはどんなソフトウェアですか。
「SpeechRec」は、高精度音声認識機能を提供するソフトウェアです。本ソフトウェアはNTTの研究所で開発された日本語音声認識エンジン「VoiceRex」を搭載しています。
認識のためのトレーニングが必要となりますか。
チューニングのために事前の音声収録を必要としますが、個人の声の登録作業等は、基本的には必要ありません。チューニングは、実運用の中で音声を収録する方法をお奨めしています。
誰の声でも認識できますか。
本ソフトウェアは不特定話者対応ですので、基本的にはどなたの声でも認識することができます。
日本語以外の言語でも認識できますか。
「SpeechRec」は、日本語と英語に対応しています。(「SpeechRec Plus」は日本語のみの対応となります。)
音声認識ソフトウェア「SpeechRec」には、具体的にどのような音声認識機能がありますか。
認識したい一連の単語をテキストによって指定することで可能となる孤立単語認識機能と、自由に発声された音声を全文テキスト化(ディクテーション)したり、必要なキーワードを抽出する自由発話認識機能があります。
どんなキーワードでも認識できますか。
認識するキーワードはあらかじめ登録しておく必要があります。
チューニングは自分たちではできないのですか。
SpeechRec Plus」では、お客様ご自身でチューニング作業を実施いただける機能をご提供しています。その他の製品・サービスにおいては、個別ご相談にて承ります。
音声認識の性能や認識にかかる時間はどれくらいですか。
ほぼリアルタイムに行えますが、業務用途やシステム構成、認識対象語彙などの要因により変動することがあります。
電話音声を認識する場合、固定電話以外にも、携帯電話やPHS、IP電話(ソフトフォン含む)など、どれでもいいのですか。
問題ありません。ただし、ベストエフォート型のIP電話では、音声が途切れたり雑音が混入する場合があり、その場合には音声認識率が低下します。
雑音があっても音声認識できますか。
音声が入力される際に同時に混入する雑音の種類と大きさによって影響が異なります。雑音にあまり大きな変動がなく、また音声の音量が十分大きい場合には、ほとんど影響がなく、また対策も必要ありません。
しかし人間が聞いてはっきりと雑音の存在が意識されるような場合には、通常の認識方法では認識率の低下を招きます。「SpeechRec」は、このような場合に対処する機能として雑音除去・抑圧機能と雑音適応化機能を搭載しています。これらの対策機能を組み合わせることによって、十分な性能が確保されます。
しゃべった内容を全部文字にできますか。
全文テキスト化(ディクテーション)も可能です。ただし、あいまいな発声部分や辞書に登録されていない新語などは認識が困難であり、音響モデルや辞書にチューニングを施すことが性能向上には重要となります。
キーボードやマウスの代わりとして、連続して自由に話した音声を自動入力することは可能ですか。
音声認識では、あらかじめ登録されていないキーワードや用語など、辞書の範囲外となるような自由な発声内容までをを一字一句すべてを認識することはできません。音声認識技術は、キーボードやマウスの完全な代用ではなく、これらと併用もしくはバランスよく使い分けることによって今まで以上の操作効率をもたらすアプリケーションが構築できます。
発声する内容が、定型的に決まっている場合などは、かなり効率化が図れる可能性があります。
単語のみの認識は対応できないのですか。
単語認識も「SpeechRec」で対応可能です。
ある特定の人の声を特に良く認識させるようにできますか。
「SpeechRec」は、誰の声でも認識可能な不特定話者音声認識方式を搭載しているため、一般的な音声認識を使い始めるにあたり音声を登録する必要はありません。しかし使い始めた結果、性能が思わしくないという場合や使う人が限られている場合に特定の人の声だけを特に良く認識するように音声認識を調整したい時は、使用者の音声をあらかじめ登録することで、音声認識を使用者本人に適応することができます。
標準語とは異なるアクセントやイントネーションの方言でも認識できますか。
「SpeechRec」は、標準的な日本語の発音による音声を認識するように作られています。また、地方によって異なるアクセントの位置や、異なるイントネーションで読み上げられる単語や文章であっても、基本的に読み方の綴りが同じで標準的な日本語で発声されたものであれば、問題なく認識できます。ただし、方言によっては綴りが同じであっても標準的な日本語の発音で発声しない言葉(例えば、「あいうえお」のどれにも該当しない曖昧な母音を使う、「い」と「え」を区別しない、「ざじずぜぞ」の表記を「だぢづでど」と発声するなどが実際に存在します)があるような場合には、単語リストやBNF文法の調整、話者適応化機能による調整が必要となります。
「箸」と「橋」のような同音異義語の区別は可能ですか。
「SpeechRec」は、アクセントが異なっていても認識が可能となっています。したがって読みが全く同一であれば、単語リストやBNF文法に登録はできますが、基本的には区別して認識することはできません。また、複数の単語連鎖中に同音異義語がある場合であっても、BNF文法などを用いると、その文脈によっては、区別が可能な時もあります。
話者が認識対象外の発声をした場合には、どのような認識結果が得られるのでしょうか。
認識対象の中で、発声した音声に最も似ていると判断した候補を認識結果として出力する場合と、全く結果が得られない場合の2通りがあります。また、話者が認識対象外の発声を行ったかどうかを判定するには、候補のスコアから認識の確からしさを判断することが必要です。
音響モデルとは何ですか。
音響モデルには、音声認識に用いる基本的な音の単位(子音や母音など)の情報が記述されています。「SpeechRec」では、いろいろな人の標準的な日本語の音声がマイクや電話を通して入力される際に十分な性能を発揮できるように、男女や年齢、マイクや電話機のいろいろな組み合わせからの音声データを用いて作成した音響モデルを複数搭載しています。アプリケーションに応じて適切なものを選択することで高い性能を得ることが可能です。
言語モデルとは何ですか。
音声認識のための文法を人が規則として定めるのではなく、大量の発話例文から単語の並び方を確率的にモデル化する手法のことです。
既存の装置(電話等)のままで認識の機能を追加することができますか。
オペレータ席において電話端末に接続されたハンドセット/ヘッドセットをご利用の場合、オペレータの音声を分離するためのアダプターを新たに設置する場合があります。
音声認識の簡単な原理を教えてください。
音声認識には、音声を登録した話者の声だけを認識する「特定話者音声認識」と、音声を登録しなくても誰の声でも認識する「不特定話者音声認識」があります。ここでは、「不特定話者音声認識」の簡単な原理を説明します。
(1)入力された音声(ディジタル化された信号)を分析し、音響的な特徴量を抽出します。
続いて、
(2)認識対象の語彙(文法)の範囲で、入力音声の特徴量と音響モデル(多数の話者の音声から求めた音素の統計的な音響特徴情報)を照合し(候補探索)、認識対象の語彙の中で入力音声に最も近い候補を認識結果として出力します。
音声認識の原理については「音声認識のしくみ」のページでもご紹介しています。
音声認識はどういった分野で利用されていますか。
最近では、おもに
(1)情報通信・音声応答分野(電話サービスや、PC系の電話音声応答システムでの利用)
(2)コンタクトセンタ(コールセンタ)分野
(3)自動車・ハンズフリー分野(カーナビや携帯電話での音声認識利用)
(4)PCアプリケーション分野(各種ソフトの音声操作、文章入力など)で盛んに利用されています。
従来から利用されている分野としては、
(5)遠隔操作・ファクトリー分野
(6)医療・福祉・公共事業分野
(7)家電・教育市場などがあります。
このページのTOPに戻る

製品について

SDK(開発キット)には何が含まれていますか。
音声認識を利用したアプリケーション開発者向けに用意されている開発キットには、ライブラリ本体、ヘッダファイル、API仕様説明書、サンプルプログラムソースコードなどが含まれています。
OSの対応はどのようになっていますか。
製品ラインアップページの各製品、サービス仕様をご覧ください。
動作させるのに必要なコンピュータの最低条件はありますか。
ご利用用途や環境により必要スペックは大きく異なりますので、個別にお問い合わせください。
開発にあたって、音声認識ソフトウェア以外に必要なものはありますか。
AndroidおよびiOSのアプリ開発環境が必要です。
SpeechRec SDKやソリューションパッケージを使った開発を行う際、外注先などにソフトウェアやドキュメント等を渡してよいのでしょうか。
機密保持契約書等の必要な契約手続きを締結した上での提供は可能な場合があります。詳しくはお問い合わせください。
このページのTOPに戻る

コンタクトセンタ(コールセンタ)利用について

オペレータの声はどこからとるのですか。
お客様の環境にもよりますが、オペレータ席において電話端末に接続されたハンドセット/ヘッドセットをご利用の場合、オペレータの音声を分離するためのアダプターを新たに設置し、そちらからオペレータの音声を収録します。
お客様(顧客側)の発声内容は認識できますか。
可能です。
ただし、オペレータ音声の認識と違って電話回線による音質の劣化や、またお客様の発声内容は予測しにくい場合が多く声の質も多様なため、どうしても認識率は下がってしまいます。
録音音声でも認識できますか。
可能です。
ただし、通常通話録音装置での音声は音声符号化によって圧縮されて蓄積されていることが多く、その場合は音質が低下するため、認識率が低下する場合があります。また、いくつかの通話録音装置ではオペレータ音声とお客様音声が分離して録音されていないものがあり、その場合は、オペレータとお客様が重なって発話されている場面での認識率は著しく低下します。まずはご相談ください。
ヘッドセットはなくて、ハンドセットしか使っていない場合も導入できますか。
可能です。
お客様音声を認識する場合、固定電話以外にも、携帯電話やPHS、IP電話(ソフトフォン含む)など、どれでもいいのですか。
問題ありません。ただし、ベストエフォート型のIP電話では、音声が途切れたり雑音が混入する場合があり、その場合には音声認識率が低下します。
音声認識のためには、専用にサーバが必要になりますか。
オペレータPC端末に音声認識ソフトウェアを導入することも可能ですが、必要スペックを満たさない場合はサーバを別途設置していただく必要があります。また、オペレータPCで音声認識を行う場合、既存のアプリケーションがCPUやメモリに負担を与えているとお互いの動作に影響を与えてしまうため、難しいケースもあります。
導入後は、どんな作業(準備や工事など)が必要になりますか。
チューニングのための音声収録、オペレータ席へのソフトウェアインストール、必要ならアダプタの設置、サーバ認識の場合はサーバの設置が必要となります。
このページのTOPに戻る