今回は, 前回[1]の漢字認識において, エラーしたデータを確認してみることに.
前回の認識率:
---------- Total Accuracy ----------
1位 : 88.31 % ( 10387 / 11762 )
2位 : 94.68 % ( 11136 / 11762 )
3位 : 96.58 % ( 11360 / 11762 )
4位 : 97.39 % ( 11455 / 11762 )
5位 : 98.01 % ( 11528 / 11762 )
1)累積5位までに入らなかったサンプル.
データ:
認識結果:
--- No. 1 逢 ---
1位 : 誇 (0.448718)
2位 : 蜂 (0.167566)
3位 : 遥 (0.126349)
4位 : 達 (0.041905)
5位 : 雄 (0.038675)
--- No. 2 芦 ---
1位 : 妾 (0.764762)
2位 : 苗 (0.125906)
3位 : 若 (0.030263)
4位 : 芋 (0.029884)
5位 : 苓 (0.010199)
--- No. 3 宛 ---
1位 : 宋 (0.617768)
2位 : 寒 (0.191417)
3位 : 陀 (0.075346)
4位 : 憲 (0.039724)
5位 : 定 (0.024940)
--- No. 4 綾 ---
1位 : 緩 (0.978331)
2位 : 績 (0.010480)
3位 : 綬 (0.006448)
4位 : 級 (0.001939)
5位 : 継 (0.000769)
--- No. 5 綾 ---
1位 : 綬 (0.594106)
2位 : 絞 (0.337656)
3位 : 緩 (0.029053)
4位 : 絵 (0.015908)
5位 : 続 (0.011210)
:
2)累積2位以下のサンプル.
データ:
認識結果:
--- No. 1 挨 ---
1位 : 険 (0.929240)
* 2位 : 挨 (0.021944)
3位 : 硬 (0.005909)
4位 : 技 (0.005296)
5位 : 夜 (0.004957)
--- No. 2 姶 ---
1位 : 拾 (0.519972)
* 2位 : 姶 (0.292790)
3位 : 給 (0.140238)
4位 : 恰 (0.043313)
5位 : 蛤 (0.002570)
--- No. 3 姶 ---
1位 : 培 (0.303798)
2位 : 恰 (0.301362)
* 3位 : 姶 (0.235710)
4位 : 蛤 (0.077842)
5位 : 拾 (0.055255)
--- No. 4 姶 ---
1位 : 恰 (0.698592)
2位 : 給 (0.192197)
* 3位 : 姶 (0.085457)
4位 : 怜 (0.011804)
5位 : 拾 (0.011658)
--- No. 5 逢 ---
1位 : 選 (0.489746)
* 2位 : 逢 (0.416016)
3位 : 速 (0.025993)
4位 : 途 (0.019360)
5位 : 逐 (0.010881)
:
誤認識したデータの画像をみると, 誤っても仕方ないかと思うものも少しあるが, 人間はほぼ問題なく認識できる.
Neural Networkの場合, やはりなぜ誤ったのかその原因がわかりにくいのが難点である.
何とか, もう少し性能をupできないものか...
そこで, 性能を改善する案としていくつか考えてみた.
1) オンラインの手書きデータの画像化を改善する. (文字の大きさの正規化含む)
2) CNNの構造を見直す.
3) オンラインの手書きデータを直接Deep Neural Networkで処理する.
4) 学習データを増やす.
2), 3)はぜひともチャレンジしてみたい.
(注)
評価データに学習データが含まれるなどの不備が見つかったので, 再度評価を行い, 認識結果など一部内容を修正しました. (2016/6/29)
----
[1] TensorFlowで文字認識にチャレンジ(3)
はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―
|
|
|
|