? Vocollect ? ? ? ?

Vol.003 「話者特定」と「話者不特定」

東北地方に旅行に行った時にお蕎麦屋さんにはいりました。
地元のお客さんが皆に聞こえるくらいの大きな声で話しをしています。 そこに、今入ってきた客も参加して、笑い声に変わってゆきました。 しかし、しかし、、、私は何を言っているのかさっぱりわかりません。同じ日本人なんですけどねー。

これは、会話がその地方独自の言葉で行われており、その「方言」を初めて聞く別の土地の人には、言葉の意味が理解できないからです。

システムを使う為には「マスター」をつくらないといけないのは皆さん 御存知の通りですが、音声の場合は各地方の独自の言語に相当するもの をマスターとしてもつようになります。

共通の「言語域」にいたとしても、今度は「抑揚」の問題があります。
例えば、橋と箸。文字では同じ「はし」でも、音声にした場合は、聞き取る側が当たり前として捕らえられる抑揚から、言語のもつ意味を 理解します。
スムーズにストレスなく相手に話しの内容を伝えるには、その抑揚を理解してもらうように「環境」を変える必要があります。
それまで理解できなかった東北弁も、東北に住み始めるとあっという間に理解できるようになる,,,それと同じだと思います。

今までの音声認識方法は、「話者不特定」認識でした。
「いつでも、誰でもすぐに使える」これがうたい文句。
しかし、この「誰も」には限界があります。
なぜなら、話者不特定の音声認識方法には、標準語に近いレベルの言語域 しか準備されていないからです。
地方の独特のイントネーションを持つ方言や、個人個人がもつ独特の抑揚がこの「話者不特定」認識の標準認識域にない場合は、決して音声認識されることはないのです。
よって、システムとの会話が成り立たなくなります。

そこでヴォコレクトは考えました。
どんな作業者の言語も100%理解するには何か良い方法はないかと。。。
そこで、作業者の抑揚や声の質やその特徴を音声認識システム自体が理解できればこの問題は解決するのではないかと考え、現状のシステムに到達しました。
作業者がシステムに近づくのではなく、システムが作業者の声の特性に100%近づくことに成功したのです。
作業者の「方言」を理解するために何カ月もかけるわけではありません。
ヴォコレクトはたった10分~15分という短時間で、これを実現してしまいます。

実際には作業者の言語をサンプリングし、システムがその人の声の特徴を理解し、どんな作業状態でもその作業者の声として認識することができるのです。

これがあるから、ストレスの全く感じない音声のやり取りが実現できているんです。すばらしいですね。

ヴォコレクトが提起し続けてきた、これからもそうあり続ける音声ソリューション、

Human Side Voice

常に作業者の立場に立って製品を考えるヴォコレクトだから成しえる技術なんです。

株式会社ケイ・アイ・エス・エス
ヴォコレクト事業部 担当:鈴木
電話:03-5821-6141
E-mail:suzuki@kiss21.co.jp