Основной продукт компании — платформа Dream Machine — принимает на входе текстовое описание или готовую фотографию и превращает её в видеоролик продолжительностью несколько секунд. Внутри работает модель, обученная на огромных массивах видеозаписей, благодаря чему она улавливает закономерности физического мира: как падает тень, как ткань колышется на ветру, как меняется освещение при движении камеры. Результат нельзя назвать идеальным — иногда объекты слегка деформируются или теряют форму на стыке кадров, — но общее правило простое: чем детальнее и точнее сформулирован запрос, тем убедительнее получается сцена.
Разработчики luma ai сделали ставку не только на видео. Компания начала свой путь с технологии трёхмерной реконструкции объектов на основе так называемых нейронных полей излучения (Neural Radiance Fields, или NeRF). Проще говоря, пользователь снимает предмет или помещение на обычный смартфон, обходя его с разных сторон, а система собирает из десятков кадров полноценную трёхмерную модель с реалистичным освещением и текстурами. Этот метод избавляет от необходимости в дорогом лазерном сканировании или ручном моделировании, которое раньше требовало часов работы специалиста.
От фотографии до трёхмерного объекта
Логичным развитием NeRF-технологии стал инструмент под названием Genie, позволяющий генерировать трёхмерные модели буквально по текстовому описанию, минуя этап съёмки. Архитекторы получают возможность быстро визуализировать элемент интерьера, разработчики игр — набросать концепт персонажа, а дизайнеры упаковки — увидеть, как будет выглядеть предмет со всех сторон, прежде чем он попадёт в производство. Для человека, далёкого от трёхмерной графики, это можно сравнить с ситуацией, когда вместо скульптора, месяцами вырезающего фигуру из камня, работу выполняет мастер, способный «слепить» объект силой одной идеи за считанные минуты.
Где технологию применяют на практике
Диапазон сфер использования подобных инструментов оказался значительно шире, чем можно было предположить изначально. Среди наиболее заметных направлений выделяются:
кинопроизводство и реклама — для создания черновых версий сцен, раскадровок и визуальных эффектов без привлечения дорогостоящих съёмочных групп; игровая индустрия — для быстрого прототипирования трёхмерных объектов и окружений; архитектурная визуализация — для демонстрации проектов клиентам на ранних этапах, когда детальная модель ещё не готова; маркетинг и социальные сети — для оперативного производства короткого видеоконтента без студийного оборудования; образование и наука — для наглядного представления объектов, недоступных для обычной съёмки, например археологических артефактов или анатомических структур.
Границы возможного и вопросы, требующие ответа
Несмотря на впечатляющие результаты, технология далека от того, чтобы полностью заменить традиционные методы съёмки и моделирования. Генерируемые ролики пока ограничены по продолжительности, а сложная физика взаимодействия объектов — например, столкновение предметов или взаимодействие нескольких персонажей — иногда выглядит неубедительно. Специалисты в области компьютерного зрения отмечают, что подобные модели обучаются на реальных видеозаписях и, следовательно, наследуют все искажения и предвзятости, заложенные в исходных данных.
Более острый вопрос касается авторства и происхождения контента. Когда система создаёт сцену, вдохновлённую тысячами реальных видео, грань между оригинальным творчеством и переработкой чужого визуального материала становится размытой. Юристы и представители креативных индустрий по всему миру только начинают формулировать правила, которые определят, кому принадлежат права на изображение, рождённое алгоритмом, и как защитить труд операторов, художников и аниматоров, чьи работы легли в основу обучающих датасетов.