新規記事投稿 フォロー記事投稿 記事のキャンセル
From: Akitaka HOSOMI <hosomi@ga2.so-net.ne.jp>
Subject: Re: スタンプ印字された文字の読み取り方法( 試案 )
Date: 1998/08/15 00:45:23
Reference: junge/00137

8月14日に、Katuyuki Yanoさんは書きました。

>8月7日に、Akitaka HOSOMIさんは書きました。
>
>う〜ん、難しい言葉は眠くなる〜、難しい言葉は学生時代から苦手なんです〜。
>というか言ってる内容が理解できてるかが不安・・・。
>
>>先のフーリエ変換法( 試案 )は、画像のような 2 次元データにそのまま適用しようと
>>すると、取り扱う特徴データの量が必然的に多くなるので、力ずくの計算を覚悟しなけ
>>ればならない。
>
>これを行うのが視覚を実現するニューラルネットワークの第一段目の素子でしょう。


ってな具合に、理想的に学習が進むとは限らないので、困っているのさ、PC の場合は。

# 一応、学習が終わったネットワークが最適( 効率的 )かどうか? ってな問題は、まだ、
# 解決されてないんじゃないかな?



>視覚・聴覚・触覚とあとなんだったかな?
>とにかく五感というものは神経から情報を伝達してくるので、
>こういった情報変換を行っている可能性が非常に高い。


鈍足な情報伝達速度であるにも関わらず、巨大なネットワークを使って処理を並列に動か
せるので、膨大なデータ量でも、それなりに大丈夫なんだろうなぁ。そのようなネットワ
ークが自然に形成されるところが羨ましい。



>といった個人的な意見はともかくとして、
>一杯情報があると処理がたいへんだということですね〜。


余程、効率的な特徴量への変換方法を用いないと、結構、タイヘンじゃないだろうか〜。




>> 2 次元データそのままではなく、一度、投影量などを求めてから、それをフーリエ変
>>換することも考えられるが、直交変換の前の段階で可逆性のない特徴量に変えてしまう
>>のも、センスが悪く、いま一つ面白味がない。
>>
>># 要するに、そういう取ってつけたような場当たり的で姑息な手法は、わたしの趣味
>># ではないのだなぁ。
>
>直交変換の前の段階でっていうのがちょっとわからないけど、
>前に書いてあった段階処理の内容ですよね〜。(多分)
>
>確かに早い段階で可逆性のない特徴量に変換してはいけんとは思いますけど・・・。
>
>>それでは、可逆性にこだわらずに、ちと、角度をかえて考えてみる。
>
>なんだ〜、可逆性にこだわってはいけんですか?


いえ、ぜんぜん構いまへん。捉え方の問題でおます。

# ただ、両方、組み合わせてしまうのは、如何なモノか? と思ってさ。
# そういうのは、わしには、エレガントではないような気がするのだ。




>>適当な近傍領域( 例えば 3 * 3 ピクセル程度だ )を定め、領域中心ピクセルの濃度
>>と近傍ピクセルの濃度との相関量を求め、これを中心ピクセルの特徴量とする。これ
>>は、自己相関特徴と呼ばれる。
>
>確かに特徴量として有効な数字ですよね〜。
>
>>画像内の各々のピクセルの相関係数を求め、0 〜 255 の範囲に適当な量子化を施す。
>
>う〜んいきなり係数を求めってどうやるの?
>各ピクセルの自己相関特徴量を求めて、それぞれに適当な量子化を施すのでしょうか?


当たり。その場合、文字の特徴量として、なるべく独立な値が得られるように量子化で
きれば、完璧でしょう( 文字の種類が限られるので、なんとかなるんじゃないかな )。




>>その後、量子化された値のヒストグラムを計算すると、これは、その画像が持ってい
>>るピクセル位置に不変な特徴量となる( このことは、自己相関の定義から明らかだ )。
>>
>>つまり、この方法を用いても、問題点 1. はクリアできる。
>
>そうですね〜。
>ここまでは理解したつもりです〜。(本当かな〜。)


本来、こんなモンは、盆休みに考えるようなことではないのかも知れんのだが。




>>さて、得られた画像特徴は、自己相関特徴のヒストグラムなので、予め、同様の方法
>>で、不要な背景図形の大雑把な特徴を与えてやれば、ヒストグラム上の引き算で、こ
>>の不要な特徴量を除去することができる。
>>
>>そのため、問題点 2. についても、あまり心配ないように思える。
>
>背景情報を除去するのが問題なのですから。
>背景図形の特徴量がどのくらい変化するかが問題となるんですよね。
>
>確かに大勢に影響を与えるほど背景が変化するのは、
>非常識なので気にしないでおけると思います。


ま、そういうこと〜〜。




>>残りは、問題点 3.と 4.だ。今回の方法では、特徴抽出の時点で、これによる特徴の
>>荒れを回避することは難しい。
>
>
>> 3. については、今のところ、適当なフィルタで加工した画像を使うようにして、こ
>>れの相関量を正規化し、特徴の荒れを抑えるぐらいしか方法がない。
>
>そうですね〜。
>
>人間の思考判定を考えても他の状況が思考に大きな影響を及ぼしますから、
>実質的には処理していないと考えられますしね〜。
>
>># これについて、どの程度、効果が得られるかは、やってみないと判らない ....
>
>まったくそのとおりですね〜。


まぁ、あんまし関係ない↓のかも知れないけど。

人の視覚には、積分効果ってのがあって、ノイズまみれの TV 画像でも、じっと見つめ
てると、それなりのハッキリした絵が見えたりもするそうな。

# 狭帯域で伝送できる SSTV( Slow Scan TV ) ってのは、そんなモンだ。




>> 4. については、入力された時点で、既に情報欠損を起こしている画像であり、なん
>>らかの方法で、この情報の補完なり、推定なり、を行なう必要がある。
>>( はっきり言えば、3.でも、そういうことなのだけれど )
>
>人間のすごいところはそれらの処理を、自然と行っているところですね。
>ただし人間には思い込みなどで情報処理を怠る時があったり、
>思考が閉鎖され情報を正常に受信できないときがありますけど。
>
>>以上のことから、得られた特徴量の推定を、特徴抽出に続く認識部でマジメに行なう
>>ことにする。
>
>納得いたしました。
>わかんないものは、どうやってもわかんないということですね〜。
>「無い袖は振れない」ということわざが身に染みますね〜。


もともと、不完全なモンを見せられても、読めるワケがないので、思いっきり根性入れて
推定してやろう、という開き直りの姿勢だ。




>>特徴抽出で得られた自己相関量のヒストグラム、これは、何らかの確率過程に基づい
>>た分布だ、考えられる。この分布が、どの基準文字の特徴分布なのか?、を推定する
>>ことが、文字を認識するということになる。
>
>そうですね〜。
>
>>基準文字の特徴量についての分布は、予め知ることができるので、統計的指標を使っ
>>た推定が行なえる。
>
>統計的指標ってのはよくわからないけど、
>選挙予測っていうからには、部分的なアンケートから結果を予測してるやつですよね〜。
>
>
>>ごくありふれたユークリッド距離などという単純な指標は用いず、最近では、常とう
>>手段になった観のある尤度推定( バリバリ、トレンドだぁ )などを行なうと、如何に
>>も、今風のスマートさんであり、たいへんカッコウがよろしい。
>
>尤度推定ってな〜、なんざんしょ〜。
>私、明治生まれなもんでトレンドなんてものには、
>とんと疎くて・・・・。
>
>ユークリッド距離なら一応知ってるつもりでやすが・・・。
>(ほんとに単純なんですよね〜。)


一言でいうと、もっともらしさ、という指標でござりまする〜。

# 試験には出ないが、明治生まれのヒトは要チェック ! 年金が貰えんかも知れんぞよ。


統計的推定ってのは、たいへんなところまで到達してて、帰還回路のパラメータ設計など
も、尤度を使って確率過程を基盤にして求める方法があるそうな( ひぇ〜〜〜 )。

実際、ニューラルネットの重み係数なんかも、尤度を使って学習させる方法があるし。
( 計算に時間がかかるそうなんだけどね )


# 二乗誤差を使う微分学習なんてのは、もう古いんじゃないのかな。