単眼深度推定とは、
一枚の写真からその写真が捉える世界の「深さ」—つまり、物体までの距離や空間の立体感を推測する技術です。
単眼深度推定の研究が進むと何が起こるのか?
深度推定の仕組み
単眼深度推定は、画像の中の物体の形状、大きさ、画像内での位置、さらには照明の影響までを分析し、
それらの情報から物体までの距離を推測します。
このプロセスは、ディープラーニングや機械学習の技術を駆使して行われます。
ニューラルネットワークは、大量の画像データから深度の手がかりを学習し、
未知の画像に対してその深度マップを生成する能力を身につけます。
技術的な進化と未来
単眼深度推定の技術は日々進化しており、その応用範囲は広がる一方です。
自動運転車からスマートフォンのアプリ、VRやARの体験まで、
私たちの生活の様々な面でこの技術が使われ始めています。
未来には、もっと直感的に深度情報を活用できる新しいフォーマットのメディアや、
リアルタイムで環境を3Dマッピングできるデバイスなど、
今までにない製品やサービスが登場するかもしれませんね。
様々な単眼深度推定モデルについて
深度推定モデルをいくつか紹介します。
- Marigold
現時点(2024-04-03)で最も最新の単眼深度推定モデルです。
Marigold-LCMという高速化バージョンも存在します。
デモサイト
標準版 – https://huggingface.co/spaces/prs-eth/marigold
高速版 – https://huggingface.co/spaces/prs-eth/marigold-lcm
- monodepth
単一の画像から深度マップを推定することを目的とした単眼深度推定モデルです。
教師あり学習または教師なし学習により訓練され、高い精度の深度推定を行うことができます。
- MiDaS
様々なシーンとオブジェクトに対して頑健な深度推定を提供するモデルです。
特に異なる種類のデータセットでの性能が高いことが特徴です。
- MegaDepth
大規模なデータセットを用いて訓練された深度推定モデルで、さまざまなシーンや環境での深度推定に優れた汎用性を示します。
インターネットから収集した画像で学習され、多様なシーンに対応可能です。
- DenseDepth
任意の単眼画像から密な深度マップを生成することができる深度推定モデルです。
ニューラルネットワークを用いており、特に屋内環境での深度推定に有効です。
これら商用利用等のライセンス規約が存在します。
利用するもののライセンスは調べてからお使いください。
実際にUnreal Engine 5上で深度情報を利用してみた
以下の手順で深度推定情報を利用してUE5で使ってみました。
- DALL-E3で生成した画像を生成
- Marigoldで深度推定
- UE5のGeometryScriptで押出し
まとめ
iPhoneにも深度測定する機能が入っていたり、深度があればできることが増えていきそうですね!
恐らく今後も研究が進んでいく技術だと思われます。要チェックしておきましょう!
コメント