偏差値20くらいのブログ

はるみちゃんのブログだよ。えへへ。

セルの素性を抽出する

タイトルのセルか、データのセルか、列見出しか行見出しか・・などを推定するための素性を設定するで。

とりあえず、以下にしたで。
x座標,y座標の算出に使うセルの原点は左上としてるで。

  • width
  • height
  • x
  • y
  • x座標(%)
  • y座標(%)
  • 面積
  • 面積(%)
  • セルの4隅の座標
  • セルの文字の種類
  • セルの文字そのもの

[width,height]
セルの横幅と縦幅。何も整形しない。

[x,y]
横から何個目、縦から何個目といった値。
問題点があって、認識されないような小さいセルは無視するから実際のものとxがズレるんやなあ。yはズレへんけど。
あと、エクセル画像が2枚以上の時は、1枚目の最後のyを引き継ぐで。

[x座標,y座標(%)]
セルの左上の座標をwidth,heightで割った値。 これはちょっとした整形処理を行ってるんや。
例えば、3枚のエクセル画像があって、それぞれ100%,30%,100%埋まってるとする。つまり、2枚目は下2/3が空白の画像って事。
このとき、100%,100%,30%と解釈して、y座標は一番下のセルまでが100%として算出されるで! だから、一番下のセルは画像に空白があっても絶対99%とかいう値になるって事や!
ええ感じやな!

[面積]
これはセルの面積そのままな。

[面積(%)]
これはセルの面積を、すべての画像の面積で割った値や。めっちゃ小さい値になるわ。

[セルの4隅の座標]
これもy座標算出のときと同じように、白紙のスペースは埋める処理をやっとるで。
それ以外の整形はしてないで。

[セルの文字の種類]
空白か文字か数字か、やな。

どの素性が分類に活きてくるかはわからんから、とりあえず思いつくものは全部とっといたで。 もっと他にも良さげな素性ないかなあ・・。なんかある気がするんよな。