Deepfakes , FaceGANS и синтетические данные: добро пожаловать в Реалистичную Иллюзию 2020 года

Новые возможности и вызовы технологий ИИ, генерирующих синтетические данные "Реалистичной Иллюзии"

Интересный обзор прошедшей конференции CVPR от

Chenda Bunkasem

Две недели назад я посетила CVPR 2019 , крупнейшую на сегодняшний день международную конференцию по искусственному интеллекту в области компьютерного зрения. Помимо постоянного обсуждения этических последствий распознавания лиц, я стала свидетелем как прямых, так и косвенных обсуждений синтетических данных.

Если у вас нет доступных данных для обучения вашего алгоритма … почему бы просто … не сделать их?

Считая это новой интересной темой, люди, поверхностно знакомые с компьютерной графикой или индустрией развлечений, находят такое решение интуитивно оправданным.

Аргумент для синтетических данных

Любой инженер по машинному обучению или ученый в современном мире сталкивается с непрекращающейся дилеммой дефицита данных. Обучающие данные, доступные для их алгоритмов, обычно не соответствуют требованиям, что приводит к не оптимальной производительности.

В частности, в случае компьютерного зрения исследователи снова и снова сталкиваются с неприятными последствиями; COCO предоставляет хорошую испытательную площадку для распознавания человека, учитывая бесчисленное множество имеющихся человеческих изображений, но когда приходит время проводить обнаружение, скажем, – отличительного ювелирного изделия, – это не удается из-за отсутствия изображений ювелирных изделий в наборе данных. Кто-то на стенде Lambda Labs лаконично подчеркнул важность данных этой футболкой, которую я сейчас ищу в интернете, чтобы купить:

Почему? Потому что структуры данных – это вселенная, в которой модели ML учатся ориентироваться. Как исследователи искусственного интеллекта, мы должны понимать, что алгоритмическое проектирование – это только половина решения. Данные для обучения это основа. И для обычной задачи классификации, это либо улучшит, либо разрушит вашу производительность.

Фотореализм соединяет «разрыв реальности»

Конечно, вопрос остается открытым: достаточно ли синтетических данных для обучения? Будет ли этого достаточно в качестве замены реальных изображений?

Ответ на этот вопрос будет заключаться не в непримиримом мышлении наших скептиков, а в практических подходах к новому решению: рандомизации доменов . Движки графического рендеринга теперь обладают способностью добавлять дисперсию к своим симуляциям, что позволяет стирать грани между синтезированным, реальным и фальшивым. Компьютеры больше не смогут различать синтезированный объект от реального, что дает исследователям безграничную игровую площадку для экспериментов с проектами машинного обучения. NVIDIA 2080 RTX теперь выполняет трассировку лучей в режиме реального времени с помощью DLSS (суперсэмплинг с глубоким обучением) и позволяет обновлять эти синтезированные изображения и даже анимировать. Игровые движки, такие как Unreal Engine и Unity, возглавляют это направление, демонстрируя постоянно растущий тренд реалистичной иллюзии.

AI Gone Rogue

С ростом Deepfakes и развитием Генеративных Состязательных Сетей ( NVIDIA Style-based GAN ) мы можем только удивляться сложности, которой могут достичь эти синтезированные изображения и объекты. В BlackHat Europe 2018 состоялся доклад под названием «AI Gone Rogue», который обозначает потребность в исследователях, нацеленных на предотвращение распространения Deepfakes. Выборы 2016 года уже вызвали общественное стремление к правде – поддельные новости были одной из проблем, но что произойдет, когда для этого будут создаваться поддельные изображения? Что произойдет, когда эти изображения превратятся в видеоклипы?

Границы между реальным и фальшивым быстро стираются, и мы должны все еще осознать эти захватывающие, и в то же время, настораживающие возможности компьютерного зрения. Теперь встает вопрос: готовы ли мы к этим возможностям, которые предоставят синтетические данные? В то время как фотореализм становится нормой для графической индустрии, исследователи машинного обучения должны уловить эту новую тенденцию.

Давайте избежим этих ловушек, создавая более безопасный и менее податливый интернет в 2020 году. Учитывая запрос общества на правдивую информацию и предстоящие выборы в США, пришло время учитывать и реальность синтетических данных, а также их мощные возможности, пока не стало слишком поздно.

Поделиться...
Поделиться в facebook
Поделиться в twitter
Поделиться в vk