Построение 3D модели сцены по одному фотоснимку Cornell University Make3D Project: http://make3d.cs.cornell.edu/ Дмитрий Вихарев студент магистратуры ГУ-ВШЭ twitter.com/vikds Наглядный пример http://www.flickr.com/photos/lofink/4501610335/ Особенность проекта diff monocular cues Современно? Ashutosh Saxena Andrew Y. Ng Learning Depth from Single Monocular Images 2005 2006 3-D Depth Reconstruction from a Single Still Image 2007 Основная статья, разъясняющая механизм обработки фотоснимков: Make3D: Learning 3-D Scene Structure from a Single Still Image (2008) Make3D: Learning 3-D Scene Structure from a Single Still Image 2008 2009 i23 - Rapid Interactive 3D Reconstruction from a Single Image 2010 2011 http://www.flickr.com/photos/lofink/4501610335/ Computer vision machine learning Обычная фотография 3D Модель сцены MRF: Markov Random Field Модель Изинга 𝐽 𝑈𝑖 𝜔 = − 2 𝜔𝑖 𝜔𝑗 − 𝑚𝐻 𝑗−𝑖 =1 𝜔𝑖 𝑖 Свойство Марковского типа 𝑃 𝜔𝑗 = 𝑎 𝜔𝑘 , 𝑘 ≠ 𝑗) = 𝑃 𝜔𝑗 = 𝑎 𝜔𝑘 , 𝑘 ∈ 𝑁𝑗 ) 1 𝑃 𝜔 = 𝑍 1 −𝑘𝑇 𝑈𝑖 (𝜔) 𝑒 𝑖 Сегментация Efficient Graph-Based Image Segmentation (2004) http://www.flickr.com/photos/lofink/4501610335/ Постановка задачи Нужно будет определить параметры: Плоскостей 𝛼 ∈ ℝ3 определяемые нормальным вектором Расстояния до суперпикселей вычисляются по 𝑑𝑖 = 1 𝑅𝑖𝑇 𝛼 𝛼= 𝛼 𝛼 В MRF учитывались Local features Coplanarity Connection Collinearity Monocular cues 𝐸𝑖 𝑛 = 𝐼 𝑥, 𝑦 ∗ 𝐹𝑛 𝑥, 𝑦 𝑘 𝑥,𝑦 ∈𝑆𝑖 𝑘 = 2,4 1 2 3 4 5 … … … 31 32 33 34 +14 http://www.flickr.com/photos/lofink/4501610335/ Monocular cues: контекст Итого: 1 34 ∗ 4 + 1 ∗ 3 + 14 = 524 2 3 4 5 … особенности для «суперпикселя» … … 521 522 523 524 Edge detection bool 1 2 3 4 5 … … … 11 12 13 14 Формальная постановка задачи Output: Input: 𝑋 Входные параметры суперпикселей (local features) 𝜃 Параметры обученной модели MRF 𝜐 «Доверие» к расстоянию до объекта, вычисленному опираясь только на локальные свойства суперпикселя 𝑦 Оценка того, насколько четко мы определили границу между суперпикселями 𝑃 𝛼 𝑋, 𝜐, 𝑦, 𝑅; 𝜃) = 1 𝑍 𝛼 Параметры плоскости, определяющие положение и ориентацию суперпикселя в пространстве 𝑓1 𝛼𝑖 | 𝑋𝑖 , 𝜐𝑖 , 𝑅𝑖 ; 𝜃 𝑖 𝑓2 𝛼𝑖 , 𝛼𝑗 | 𝑦𝑖𝑗 , 𝑅𝑖 , 𝑅𝑗 𝑖,𝑗 http://www.flickr.com/photos/lofink/4501610335/ Local features 𝑑𝑖,𝑠𝑖 − 𝑑𝑖,𝑠𝑖 𝑑𝑖,𝑠𝑖 𝑇 𝑇 = − 1 = 𝑅𝑖,𝑠 𝛼 𝑥 𝜃 −1 𝑖 𝑖,𝑠 𝑖 𝑖 𝑟 𝑑𝑖,𝑠𝑖 𝑑𝑖,𝑠𝑖 𝑆𝑖 𝑇 𝑇 𝜐𝑖,𝑠𝑖 𝑅𝑖,𝑠 𝛼 𝑥 𝜃 −1 𝑖 𝑖,𝑠 𝑖 𝑖 𝑟 𝑓1 𝛼𝑖 | 𝑋𝑖 , 𝜐𝑖 , 𝑅𝑖 ; 𝜃 = exp − 𝑠𝑖 =1 Connection ℎ𝑠𝑖 ,𝑠𝑗 𝛼𝑖 , 𝛼𝑗 , 𝑦𝑖𝑗 , 𝑅𝑖 , 𝑅𝑗 = exp −𝑦𝑖𝑗 𝑇 𝑇 𝑅𝑖,𝑠 𝛼 − 𝑅 𝛼 𝑑 𝑖 𝑗,𝑠 𝑖 𝑗 𝑗 Coplanarity ℎ𝑠′′ 𝛼𝑖 , 𝛼𝑗 , 𝑦𝑖𝑗 , 𝑅𝑗,𝑠′′ = exp −𝑦𝑖𝑗 𝑗 𝑗 𝑇 𝑇 𝑅𝑗,𝑠 ′′ 𝛼𝑖 − 𝑅 ′′ 𝛼𝑗 𝑑𝑠 ′′ 𝑗,𝑠 𝑗 𝑗 𝑗 Collinearity ℎ𝑠𝑗 𝛼𝑖 , 𝛼𝑗 , 𝑦𝑖𝑗 , 𝑅𝑗,𝑠𝑗 = exp −𝑦𝑖𝑗 𝑇 𝑇 𝑅𝑗,𝑠 𝛼 − 𝑅 𝛼 𝑑 𝑖 𝑗,𝑠 𝑗 𝑗 𝑗 Решение Обучение: MCL (Multi-Conditional Learning) Методы линейного программирования (LP) min 𝐿1 -нормы 𝜃𝑟∗ = arg max 𝜃𝑟 log 𝑓1 𝛼𝑖 | 𝑋𝑖 , 𝜐𝑖 , 𝑅𝑖 ; 𝜃𝑟 + 𝑖 Построение модели: log 𝑓2 𝛼𝑖 , 𝛼𝑗 | 𝑦𝑖𝑗 , 𝑅𝑖 , 𝑅𝑗 𝑖,𝑗 Оценивается и максимальная апостериорная вероятность (MAP) для параметров плоскостей Методы линейного программирования (LP) min 𝐿1 -нормы Модифицированный метод Ньютона для эффективного нахождения Гессиана 𝛼 ∗ = arg max log 𝑃 𝛼 | 𝑋, 𝜐, 𝑦, 𝑅; 𝜃𝑟 𝛼 Технические детали Фотоснимки 2272x1704 Всего снимков 400 Матрицы расстояний 55x305 150 Мб MATLAB + C++ *.cpp, *.c *.mex VRML *.wrl Ограничения В текущей реализации: • • • • • Обучение проводилось только на снимках ландшафтов местности Небольшое количество обучающего набора фотографий (400) Фотографии – ландафты местности Пало-Альто в летнее время Низкая разрешающая способность лазера (55x305) Несмотря на из разрешение фотографий, они все перед обработкой приводятся к одному и тому же небольшому разрешению • В математической модели жестко заданы параметры фототехники (фокусное расстояние, диафрагма…) Дальнейшее развитие проекта Построение трехмерной модели сцены по нескольким фотоснимкам Добавление элементов Интерактивности Возможное применение Microsoft «3DVIA Shape» Google «SketchUp» Демонстрация Спасибо за внимание Дмитрий Вихарев студент магистратуры ГУ-ВШЭ dmitry.vikharev@gmail.com twitter.com/vikds