Максимальное разрешение генерируемого нейросетью видео составляет 20481280 пикселей, частота — 24 кадра, а хронометраж — 4,7 секунды.
NVIDIA показала VideoLDM — нейросеть, генерирующую короткие видеоролики по текстовому описанию. Компания разработала ее совместно со специалистами из Корнельского университета.
Максимальное разрешение генерируемого нейросетью видео составляет 2048 x 1280 пикселей, частота — 24 кадра, а хронометраж — 4,7 секунды.
Пока что VideoLDM распознает всего 4,1 миллиарда параметров, 2,7 миллиарда из которых использовались для тренировки. Это по меркам, например, генерирующих изображения нейросетей, довольно мало. Однако благодаря модели LDM разработчикам удалось создать множество разнообразных, согласованных по времени изображений с неплохим качеством.
Подробнее https://hi-tech.mail.ru/news/63032-sozday-s...