« はやとくん通信No.36 | トップページ | 6/22日弁連「第22回司法シンポジウム」で字幕付け »

最高裁の音声認識システムの研究開発状況,1億3000万を掛けた1年の成果

 5月30日,最高裁が音声認識システムの研究開発状況について明らかにしました。
 最高裁は,音声認識についてはもう何年も研究開発を行っており,掛けたお金も1億3000万円どころではありませんが,NECのこの1年の成果は,次の程度のようです。
 
* …… * …… * …… * …… * …… * …… * …… * …… * 
(以下,最高裁の説明です。)
 音声認識システムの平成18年度の研究開発の概況と平成19年度以降の作業予定の概要等は次のとおりである。

 音声認識システムについては,平成18年度に,研究開発業者として日本電気株式会社(以下「NEC」)を選定し,裁判所用の言語モデル,音響モデル及び音声認識エンジンを登載した音声認識ソフトの構築と,機器構成や操作画面等の検討を中心とした作業を進めているところである。

 音声認識ソフトの構築については,法廷での供述について安定した高い認識性能を確保することを研究開発の主な目的の一つとして位置付け,これまでに蓄積してきた調書データ(録音反訳の反訳書の電子データ)及び東京地裁の刑事法廷において収集している音声データを利用して,言語モデル及び音響モデルを強化したほか,NECが保有する種々の音声認識技術を投入するなどの作業をしてきており,一定の認識性能の向上が確認されたところである。

 音声データの解析作業においては,当事者本人・証人,検察官・弁護人,裁判官という各発話者グループごとに異なる特徴があることが確認され,また,パソコンのキータイプ音や紙をめくる音等が音声認識に悪影響を与えることも判明した。平成18年度においては,そのような認識率を低下させる言語的又は音響的な要因に対処するとともに,検察官及び弁護人の発話中の移動に対する対策として,従来のスタンドマイクによる音声データの収集に加えて,ピンマイク装着による収集を行い,音声収録系統の改良の有効性を検証するなどの作業も行ってきたところである。

 また,音声認識システムについては,当面,裁判員制度での利用を念頭に置いて,裁判員制度の具体的な運用等も視野に入れつつ,研究開発を進めているところである。裁判員裁判においては,評議において裁判員が法廷における証人等の供述内容を確認するためのツールが必要となるところ,裁判員裁判の評議における裁判員等の記憶喚起等のために証人尋間等を録画する法整備がなされたところであり,音声認識システムにより得られた文字データを映像・音声データとリンクさせることによって,文字データをいわばインデックスとして利用して証言等のうち評議に必要な部分を検索し,速やかに映像及び音声で再現することが可能になると考えられる。このため,音声認識システムについては,逐語調書作成事務の効率化に用いるのみならず,裁判員との評議において,特定の供述を検索し,映像・音声によってその内容を確認するためのツールとして利用することを念頭に置き,映像関連機能を盛り込むことを前提としてシステム構築の検討を行っている。
 平成19年度においても,平成18年度に引き続き,様々な話者や話題,環境に対応できるよう音響モデル及び言語モデルの構築等の作業を進める予定であり,別途説明するように。東京地裁における音声データの収集を継続するほか,裁判所間における音響環境の差異がシステムに与える影響を分析したり,方言(関西弁)への対応を検討したりするために,東京高裁管内及び大阪高裁管内の一部の地裁においても,それぞれ一定時間の音声データの収集を行う予定である。また,音声収録系統については,背景雑音や回り込みの音声を除去する技術についての検討を行う予定であり,機器構成や操作画面等についても,裁判員裁判法廷及び評議室における運用イメージを踏まえて,職員が利用しやすいものとするべく検討していきたいと考えており,職員の意見=要望等も踏まえながら、システムの構築に努めていきたいと考えている。
 なお、裁判員裁判の運用に支障が生じないよう研究開発を進めていく必要があり,研究開発の進捗状況にもよるが,平成20年度のなるべく早い段階で複数の法廷にプロトタイプ(試作機)を設置してテスト運用をしていきたいと考えている。

* …… * …… * …… * …… * …… * …… * …… * …… *
(また,全司法とのやりとりでは,以下のようなことが明らかになっています。以下,全司法情報より引用です。)

組合 音声認識システムの現在の認識率はどのくらいなのか。

当局 裁判員裁判での利用を念頭に置いて,実用化に向けた研究開発を今まさに進めているところであり,また,自由発話における認識率は発話環境等によって異なることから,現段階で何%という―定の確定した数値を示すことまできないが,いずれの事件においてもできるだけ高い認識率を確保できるよう,研究開発を進めていきたいと考えている。

組合 発話者グループごとの異なる特徴とはどのようなものか。

当局 当事者本人や証人については,他の話者グループと比べて認識率が低い傾向にあり,発音が不明瞭となりやすいこと。発話速度の変動が生じやすいこと,話者や話題が多様であること等のほか,「え一と」「う―ん」等のフィラー(発話の合間に挿入される不要語)が多い等の特徴があった。また,検察官や弁護人については,他の話者グループと比べて認識率が高い傾向にあり,平易な言葉遣いが多い一方,本来音声の入るべきマイクに音声が入らなかったり,音声が他者のマイクに回り込むことがあること等の特徴があった。さらに,裁判官については,検察官や弁護人と比べて認識率が低い傾向にあり,文法の乱れや専門的な表現が少なくないこと等の特徴があった。

組合 関西弁以外の方言にはどのように対処するのか。

当局 法廷での方言の使用状況と研究開発の進捗状況を踏まえながら,今後検討していくことになる。

組合 文字化についてはどういった状況にあるのか。

当局 音声認識システムが実用化された場合でも,一定程度の誤認識部分が生じることは避けられず,誤認識部分を確認し,修正する作業が必要になると考えている。この誤認識部分の修正については,音声認識システムの研究開発の進捗状況を見ながら,録音反訳業者の利用も視野に入れて検討していきたいと考えている。

組合 評議における文字の活用についてはどのように考えているのか,

当局 連日的に開廷される裁判員裁判においては,記憶が鮮明なうちに審理が進められ結審後速やかに評議が行われて判決が宣告されることになることから,当事者や裁判体が,審理や評議の過程において,公判調書を用いて証人等の供述内容を確認する必要性は低いと考えている。
また,裁判員に大部の調書を読んでもらうことは,過大な負担を与えるものであり,現実的でない。むしろ,裁判員の記憶喚起が必要な場合に,証人の供述等を録画した記憶媒体を再生して,必要な供述部分を映像及び音声で確認することが効果的であると考えている。

組合 評議において記憶喚起等を図るためには,紙の方が一覧性に優れているのではないか。

当局 確かに,記憶媒体には紙と同質の一覧性はないが,音声認識システムで得られた認識結果である文字データを映像及び音声データとリンクさせることによって,文字データをいわばインデックスとして利用して,証言等のうち評議に必要な部分を検索し,速やかに映像及び音声で再現できるよう研究開発を進めているところである。さらに,紙の公判調書とは異なり,記憶媒体の再生は映像と音声でなされるため,供述の際の証人の状況といったものも含め供述についての裁判員の記憶喚起という面では,より効果的であると考えている。

組合 弁護人や検察官といった訴訟関係人は,公判調書を用いて証人等の供述内容を確認したいというニーズがあるのではないか。

当局 公判調書が未整理の間の当事者の記憶喚起の便宜等のため,当事者に対して証人尋間の状況等を録取した録音体を再生する機会を与える旨の規定を最高裁判所規則等に新たに設けるなどして,裁判員裁判の審理に支障がないようにしていきたいと考えている。

組合 裁判員裁判における速記官の逐語録作成についてどう考えているのか。

当局 裁判員裁判の審理及び評議のために公判調書を作成する必要性はないと考えているが,他方,上訴審での審理等のために逐語録を作成する必要があると考えており,録音反訳方式に加えて,速記官による逐語録作成も含めて検討していくことになる。

組合 音声認識システムの機材構成はどうなるのか。

当局 機材構成については,現在,研究開発の進捗状況を踏まえながら検討中であり,説明できる段階になれば説明したいと考えている。

組合 評議室での機器の操作はだれがすることを想定しているのか。

当局 基本的には裁判官が行うことを想定しており。例外的に書記官や事務官が入室して操作の補助をすることも全く考えられないわけではないものの,書記官や事務官が評議室で機器の操作を行うような運用は基本的には想定していない.

組合 音声認識システムを法廷に設置するスケジュールはどう考えているのか。

当局 裁判員裁判での運用に支障が生じないよう。なるべく早い時期に設置して実際の運用に備えたいと考えている。
以 上
* …… * …… * …… * …… * …… * …… * …… * …… *

以下は,感想です
・1億3000万も掛けて,現物も見せられない,認識率も示せないとは,どういうことでしょうか。
・「パソコンのキータイプ音や紙をめくる音等が音声認識に悪影響を与えることも判明した」 こんなことが,わざわざ1億3000万円掛けて調べることでしょうか。
 速記官なら,経験上よく分かっていることです。ちなみに,雑音では,咳をされるのが一番困ります。空調,マイク,パソコンの冷却ファンの音,街宣車の騒音,電車の騒音,芝刈り機の音,工事の音,携帯電話の音,鳥の声など,法廷の雑音は多彩ですが,それは来年また1億円掛けないと出てこないのでしょうか。
  
・方言も,大阪弁の対応を検討するために,来年は音声データの収集を大阪地裁で行うようですが,それ以外はどうするのでしょうか。そもそも,NECは方言に対応できると思っているのでしょうか。形だけやっている振りをしているようにしか見えません。
 
・パソコンで調書を作成するとは言っておらず,音声認識を反訳業者に修正させるというようなことが書かれていますが,書記官に校正させたら暴動が起きるような代物なのでしょうか。

・「組合 裁判員裁判における速記官の逐語録作成についてどう考えているのか。」
 「当局 裁判員裁判の審理及び評議のために公判調書を作成する必要性はないと考えているが,他方,上訴審での審理等のために逐語録を作成する必要があると考えており,録音反訳方式に加えて,速記官による逐語録作成も含めて検討していくことになる。」

 速記のことを言うのに,わざわざ録音反訳に加えておまけのように検討するんだという言い方をするあたりに,現在の最高裁の速記官に対する意地悪さが,よく出ているなと思いました。
 最高裁にいるえらい方は,大抵裁判官のはずなのですが,人権意識を疑います。

・現在の音声認識の技術では,自然発話に対応するのは無理とはっきり言わずに,また来年も契約を延長して,研究開発の振りをして1億何千万かをせしめるNECにもあきれはてます。

 インデックスに使うのも,認識率が低い上に,事件ごとの専門用語や固有名詞の対応など無理で,結局,書記官が打ち込むほうが正確,確実ということになりそうです。
 
 でも,何億も掛けたものを導入したら使わない訳にはいかないし,場所をとって邪魔なうえに,使用の手間や,メンテナンス料が継続して掛かるなど,何億も掛けてとんだ厄介者を作っているような気がしてなりません。
 

« はやとくん通信No.36 | トップページ | 6/22日弁連「第22回司法シンポジウム」で字幕付け »

音声認識」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

トラックバック

« はやとくん通信No.36 | トップページ | 6/22日弁連「第22回司法シンポジウム」で字幕付け »

最近のトラックバック

2020年5月
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31