頭と尻尾はくれてやる!

パソコンおやじのiPhoneアプリ・サイト作成・運営日記


Depth APIで部屋の奥の方を消してみた

iOS 11で公開された深度に絡むAPI、いわゆるDepth APIで遊んでみた。

Capturing Depth in iPhone Photography - WWDC 2017 - Videos - Apple Developer
↑これね。

サンプルコードのAVCamPhotoFilterのシェーダー部分をいじって、遠い部分を黒く塗りつぶすようにして部屋を撮影したのがこちら。

↑デバイスはiPhone 7 Plus。
なかなかしんどいですねえ、、、相当負荷が高い処理なんだろうな。

Supported Depth Resolutions for Streaming

↑上記のWWDCの動画内でこのようにリアルタイム(ストリーミング)だと320x180@24 fpsのデータが得られるとか(画像クリックで拡大)。案外小さいデータなんだな、とか思ってたんだが、、、それだけ処理が大変ってことか。

Depth APIとARKit使えば近くの人物などはそのまま表示し、周りの背景を描画したものに差し替えるような動画ができるんじゃね?とか思ってたけどこの様子じゃそれどころじゃなさそう。


機械学習におけるデータの範囲(2)

機械学習におけるデータの範囲
↑の続き。データの範囲はどうしても0から1じゃないとダメなのか問題。オチもよくわからないってことなんだがやったこと書いとく。

簡単化するためMNISTで同じようなことをやって確認してみた。ちなみに畳み込みのある方のMNIST。
これも自分でtfrecord形式のデータを作成してて、読み込む時は画像データ(輝度)の値を
tf.uint8
で得ている。8ビットの符号なし整数だから0から255。
image = tf.cast(image, tf.float32)
image /= 255.0
という感じでfloatにキャストしといてから255で割って、0から1.0になるようにしてる。当然これはちゃんと学習が進む。

輝度の確認

↑元画像はこんなので明るい部分はをチェックすると0.99近い。
なのでさっきのを
image /= 128.0 # 255.0
って書き換えたら0から2.0くらいになる。
試しにこれでやってみると、、、ちゃんと学習が進んだ!
image /= 85.0
これだと0から3.0くらいなんだが、、、学習が進むことも落ちることもあった。
データファイルの順番、バッチ作成時にランダムになるようにしてるから毎回同じってわけでは決してないので、たまたまいけることもあればたまたまダメなこともあるってことで、そこはええねん。

落ちる時のエラーメッセージにはこんなのが。
Nan in summary histogram for: conv2/weights_0

これってTensorBoardで必要なデータを出力する時の話?と思ってその辺りを消して実行すると、落ちずに処理は進むんだけど、cross entropyがずっとNanのままだった。
損失関数が発散するような場合には学習率を変えればうまくいったことがあったが、今回は全然効果なし。

ちなみに
(1)image /= 255.0(0から1.0)の場合
(2)image /= 85.0(0から3.0)で処理ができた場合
それぞれでTensorBoardのDistibutionを比較するとweight,biasの分布はさほど変わらずだけど、初期の勾配が大きくなっている。

TensorBoardによる係数の分布1

↑こちらは(1)の方。

TensorBoardによる係数の分布2

↑こちらは(2)の方。

けどこの程度で問題になるんかな?
数学的には別に0から1じゃなくてもいけるんだけど、コンピュータの処理上でどこかでオーバーフローでもやってるんだろうか?


カメラで得た画像にVision frameworkを使う

Vision.frameworkをObjective-Cでやってみた
↑この続き。

どうなんだろうな?と思って確認すると、顔画像が90度回転してたり上下逆さまだと認識しないっぽい。

横向きだと検出しない

これで何が困るかというとiPhoneのカメラから得られる画像を回転を意識せずにUIImageViewで表示すると横向きになる(デバイスの姿勢はportrait)のでカメラから得たデータを回転させる必要がある。Vision frameworkの顔認識処理に渡すのはCGImageなのでここから回転させないと具合悪い。
いろいろと調べて試してみた結果、
Ios rotate, filter video stream in ios - Stack Overflow
↑ここにあるコードを使うと意図通り回転させることができた。


↑これでカメラで得た画像に対して顔検出処理ができるとこまでOK。


↑iPhone 7 Plusのフロントカメラでリアルタイムでやってみたが、、、
顔検出処理に200msecほど必要だと測定してたから追従性はこんなもんだろうとは思っていたが、、、問題は期待ほど精度が高くないこと。顔の向きや光の具合でとんでもない判定が出ることが多い。それから動画にはないけどいわゆる変顔みたいな表情も苦手の様子。
リアルタイムではなくてもいいので正確に表情を検出したかったんだけど、これじゃ使えない感じ。ただ、こういう機械学習モノはどんどん精度が上がっていくだろうし、瞳が取得できない不具合も修正はされていくだろうから時々チェックするようにせねば。


機械学習におけるデータの範囲

最近またTensorFlowをいじってる。やったことメモ。

機械学習(TensorFlow)で位置計測っぽいことをやってみた
↑以前こういうのをやったんだけど、これを使って思い出しがてら気になってたデータの範囲について二つ確認。
1つは正解のラベルについて、もう一つは画像のデータについて。

(1)正解のラベル
この時は正解が無次元化された円の座標と半径で学習してる。座標は-1から1で半径は0超から0.5。この正解を得ようというネットワーク(CNN)だったんだが、この正解が無次元化されてなくてもいけんの?というのを確認しようとした。
座標が0から64.0の値を取る場合だと学習がうまく進まなかったので最後の出力層部分のコードをよくよく見ると、

y_conv=tf.nn.tanh(tf.matmul(h_fc2, W_fc3) + b_fc3

となってた。tan(θ)ってことは、-π/2 , π/2で発散するから-π/2 〜π/2の範囲を超えてるからか?ってことでtanhをreluに変えたらいけた。


(2)画像のデータ
画像のデータは0から1.0の値を取るとしてるんだけど、これが0〜255.0のfloatでもいいんじゃないの?といろいろと試してみたんだけど、結果から言うとなぜかできんかった。0〜2.0でもダメ。

tf.image.random_brightness(image, max_delta=0.4)
tf.image.random_contrast(image, lower=0.6, upper=1.4)

といった画像数水増し処理を特に考えず(作った時はどこかでサンプルを見つけたんだろうね)入れてたけど、これよく見ると場合によっては1.0を超えると思うんだ(すでにimageはtf.float32にキャストしてる)。もしかして今まではたまたま学習が進んだけど、実は悪さしてんじゃね?ってことで

tf.clip_by_value(image , 0.0 , 1.0 )

と言うclampと同じ処理を入れてみた。すると、どうよ。学習の進み具合がよくなってるやん!
不思議や。NNの処理をいくら見ても0〜1の範囲を超えるとまずそうな部分は俺には見つけられんのだが。いつか気付いたら追記するわ。







Vision.frameworkをObjective-Cでやってみた

最近ネット上でサンプルコードを見つけても大抵はSwiftで書かれてあるのでそれをObjective-Cにするにはどうするんだ?ってなることが多くええ加減Swiftやるか?って悪魔のささやきが聞こえたりもするけど、まだだ、まだその時では無い、、、、

そんなわけでObjective-CでVision.frameworkを使って顔の検出をしてみた。
[iOS 11] 画像解析フレームワークVisionで顔認識を試した結果 | Developers.IO
↑参考にしたのはこちら。ありがたいです。

こちらを参考にしつつFace Landmarksってのをやろうとしたんよ。顔の目や口の形状が取れるような絵があるので面白そう!ってことで。

上記リンクのコードを参考にしつつ引っかかったところをメモしておくと、、、
{
    struct CGImage *image = originalImage.CGImage;//—(1)

    VNDetectFaceLandmarksRequest *request = [VNDetectFaceLandmarksRequest new];
    NSDictionary *dictionary = [[NSDictionary alloc] init];

     VNImageRequestHandler *handler = [[VNImageRequestHandler alloc] initWithCGImage:image options:dictionary];

    [handler performRequests:@[request] error:nil];

    for(VNFaceObservation *observation in request.results) { //—(2)
        if (observation){
            NSLog(@"%@",observation);//—(3)
        }
    }
}
originalImageはUIImageオブジェクト。CGImageは(1)で取れる。
(2)の部分は取得した顔の数だけループ。一人なら一回。
(3)でやりたい処理を記述すればOK。
参考記事にもあるけどUIViewなどとは原点位置が違うので要注意。
後、Landmarksに関して
{
    VNFaceLandmarks2D *landmarks = observation.landmarks;
    VNFaceLandmarkRegion2D *outerLips = landmarks.outerLips;
}
↑こんな感じで二次元の正規化された座標を得ることができるんだけど、この場合は元画像ではなくobservation.boundingBoxに対しての位置なので注意。

landmarks結果

↑outerLipsだけやってみた結果。
得た座標を繋いでいくと閉じないので最初と最後のデータを繋いで閉じるようにしてる。リファレンスには何も記述はないけどまあそういうことなんだろう。

iPhone 7 Plus実機で実行したら検出部分でおよそ200msecほどかかってる。画像サイズを小さくしても180msec弱くらいでさほど変わらない感じ。
1秒間に5フレーム程度か、、、(-_- ;

となると先日のiPhone X発表時にあったデモみたいなスムーズな顔面のトラッキング&表示はしんどそう。

keynoteのiPhoneXデモ

↑これね、誰だかわかんないけどフェデリギさん。
iPhone Xは新しいセンサーとかあるからできるんだろうとは思うけど、そう考えるとすでに同じようなことができてるMSQRDアプリはすごいよな。どういうアルゴリズムなんだろ?





  TopPage  



Copyright ©頭と尻尾はくれてやる!. Powered by FC2 Blog. Template by eriraha.

FC2Ad