叱る 手持ちのタブレットで音声入力を試してみました。多少の早口でもゆっくり喋っても聴き分けますね。びっくりしました。大したもんです。 音声というもの、こちらの喉の声帯を震わせて口蓋で共鳴させて、口の外に飛び出させた空気の振動です。タブレットやスマホのマイクはこの空気の振動を電気信号に変えて取り込むわけですが、マイクに入ってくる空気の振動はこちらの音声だけではありません。近くの他の人の声、道路を走るクルマの音、バックグラウンドの音楽などなど、外にでれば蝉時雨に小鳥たちのさえずり、それに風の音、いろんな音がマイクの振動盤を震わせているはずです。その中からこちらの音声を拾い出すのですから、いわゆるAIなんですね。 朝のラッシュ時に駅の構内を歩いているとき、向こうの方から「お〜い」と声をかけられました。とっさに「やあ、○○さん」と応えました。大勢の人が歩く音、話す声、駅のアナウンス、電車の轟音…、でもとっさに○○さんの声を聞き分ける耳と脳を持っているなんて、人間は大したもんですね。AIにこの真似ができるでしょうか? 音声の振動をたくさん記録しておき、マイクから入ってきた振動をこの記録と突き合わせて、ほぼ似た記録をとりだす。大雑把に言えばこんな仕掛けなんです。もちろん、振動をどんなデータにしておくかなど工夫もたくさんあるでしょう。それと、たくさんの音声の記録を一生懸命に蓄えたのでしょう、いわゆるビックデータです。 私は「あんたの御里が知れない…」と言われてました。言葉の訛りが目立たないからですかね。でも“ひ”と“し”がはっきりしないほうなんで、“潮干狩り”を“ひおしがり”とか言ってしまうんです。「叱る」のつもりで「しかる」と言ったら、ピカッと「ひかる」になるのは、私の御里のなす業なんでしょうか。それともビッグデータがまだまだ小さいからでしょうか? そうそう、タブレットやスマホにはビックデータは大きすぎて保存できません。どこにあるかって? インターネットの先のどこぞのサーバー機の中です。ですので音声入力はインターネットに接続していないと出来ませんよ!。 さて、音声入力をすると、ひとまずひらがなになります。このひらがなを「かな漢字変換」するのが2番目のAI。前後のひらがなやイントネーションも考慮して変換しますが、やっぱり頼りにしているのはビッグデータです。たぶん、ルビをふったフレーズをたくさん記録しているんじゃないですかね。 でも、「あした(朝)浜辺をさまよえば」と童謡の歌詞を音声入力すると「明日……」となってしまいました。「ゆうべ(夕べ)……」も「昨夜……」になってしまいます。「明日じゃないよ朝だよ」と叱って、AIに学習させていかねば、わたし好みのAIになりません。面倒臭いなぁ、いちいち叱ってAIに勉強させなきゃならないのか…。わが子だって大変だったのに、スマホもかよ、と嘆くことしきり。ところがスマホに「叱る」機能がみあたりません。となるとビッグデータの押しつけですか…。ビックデータが標準といわれても私は私ですから困りますね。インターネットの向こう側のビッグデータを私好みには出来ませんかねぇ。 つづいて3番目のAIが、かな漢字変換した文章を解析します。そして4番目のAIが解析した文章でインターネットのサービスを検索。「○○駅に○○時に着く電車」の「乗換案内」を見つけ出して画面に表示するのでした。やれやれ…。 ハードウェアの技術が進んで、マイクの性能はもっともっと良くなるでしょう。だから、訛りなんてどんどん克服されるでしょうね。でも、性能のがあがったマイクの仕様にあわせてビックデータを作り直すのは大変ですよ、きっと。それに、ルビつきのフレーズをもっと記録してほしいですね。 AIはビッグデータがないと何もできませんので。
|