07.06.2017 04:18 Владимир Широков Манфред Дворжак

Говорит клон

Кто первым запишет новую песню с Майклом Джексоном? Или когда мы сможем послушать «свежего» Элвиса? Совсем скоро, уверяет Жорди Жанер, ученый, исследующий звуки. Его фирма Voctro Labs уже работает над созданием технологий, которые позволят клонировать голоса с помощью компьютера.

Достаточно нескольких часов аудиозаписи оригинала, чтобы возвратить к (искусственной) жизни навеки умолкнувшего певца. Еще в начале прошлого года фирма озадачила слушателей, предложив их вниманию… поющего Трампа. В небольшом видеороликетогдашний кандидат в президенты исполнил джазовую балладу, искусно интонируя звуки и дерзновенно переходя на вибрато. Фальшивка вышла убедительно реалистичной.

Брэд Питт заговорит по-курдски

На настоящий момент техника сделала еще один большой шаг вперед. Новейшие синтезированные голоса звучат практически как настоящие. При этом они могут спеть все, что заблагорассудится «кукловодам»: любой текст, любую мелодию. На этом основывается одна из бизнес-идей Voctro Labs. «Индустрия рекламы, – говорит Жанер, – сможет перезаписывать знаменитые шлягеры под те или иные товары». Например, не исключено, что уже в ближайшее время The Beatles споют: All You Need Is Coke («Всё, что вам нужно, – это кола»).

Жанер основал свою небольшую фирму вместе с тремя коллегами по университету, которые, как и он, входят в группу «Музыкальные технологии», известную своим изобретательским энтузиазмом. Так, одна из участниц группы уже работает над созданием искусственных хоров, каждый из которых состоит из 12 виртуальных хористов, обладающих индивидуальным голосом, благодаря этому ансамбль должен получить живое звучание. Однажды они смогут самостоятельно читать с листа хоровые произведения, убеждена она. Или – как вариант – будут помогать настоящим певцам учиться петь в хоре.

Фирма Voctro Labs намерена использовать свою технологию и для речи. Одна из первых потенциальных сфер применения – машинный дубляж кинофильмов: клонированный голос Брэда Питта сможет озвучивать роль актера на немецком или, скажем, курдском языке, сохраняя аутентичное звучание.

Таких виртуальных дикторов разрабатывают стартапы по всему миру. Особым дерзновением отличается канадская Lyrebird, основанная студентами Монреальского университета. По собственной информации, в Lyrebird уже научились делать клоны на основании всего лишь одной минуты аудиозаписи – на худой конец, даже добытойНа фирменном сайте можно послушать, как Барак Обама, Хиллари Клинтон и Дональд Трамп («This is huge» – «Грандиозно!») обсуждают возможности нового ПО. Звучание сфальсифицированного диспута еще далеко от идеала, однако технология повсеместно развивается семимильными шагами.

Еще недавно процесс создания компьютерных голосов требовал огромных затрат времени и средств. Диктор должен был прийти в студию звукозаписи и начитать тысячи предложений – медленно и быстро, громко и тихо, с разным ударением, с вопрошающей и требовательной интонацией. Такую запись разбивали на множество коротких фрагментов, из которых компьютер составлял мозаику нового текста (см. рисунок). Такая работа предполагала использование определенных хитростей, позволяющих добиться более-менее сносной фразовой интонации. Но даже после этого машинный голос часто казался металлическим и ненатуральным, словом, голосом робота.

Сегодня, напротив, синтезированные голоса кажутся на удивление живыми. Это становится возможным благодаря искусственному интеллекту: компьютер больше не выстраивает цепочку из отдельных заранее заготовленных звеньев – фрагментов слов, а «произносит» их самостоятельно. Причем говорить он учится на основании записей разных дикторов или ораторов. Так называемые нейронные сети продолжают тренировки, пока не овладевают звуками человеческой речи. Через какое-то время они начинают бегло «говорить» со скоростью 16 000 сигналов в секунду и более. Этого достаточно, чтобы обмануть подчас даже достаточно тонкий слух.

Правда, такой искусственный голос еще не владеет человеческой речью. Сам по себе он в состоянии только бормотать непонятные звуки. Но стоит ввести в компьютер связный текст, и мы услышим членораздельную речь.

©Фото: Shutterstock

Плюшевый мишка с голосом папы

Очередной прорыв разработчики совершили в сентябре прошлого года. Тогда «дочка» Google, компания DeepMind, представила принципиально новый способ синтезирования речи. Немногим позднее, в ноябре, концерн Adobe показал аналогичную технологию, получившую название Voco.

Сначала считалось, что такие синтезированные голоса требуют колоссальных вычислительных мощностей, намного превосходящих возможности персональных компьютеров. Однако затем нашлись компании, которые подсуетились и продемонстрировали, что можно сделать нечто похожее быстрее и дешевле. Конечно, качество немного страдает, но иные голоса «второго класса» тоже производят солидное впечатление.

Парижский стартап CandyVoice работает над приложением для смартфона. Пользователю достаточно записать 160 эталонных предложений, чтобы серверы CandyVoice создали модель его голоса. Дело в том, что компьютеру не приходится всякий раз учиться говорить заново. В ходе предшествующих тренировок он «выработал» своего рода универсальный голос, и теперь ему нужно только подстроиться под особенности произношения и интонации конкретного говорящего. При желании на сайте CandyVoice человек может произнести в микрофон пару слов и послушать, как его собственный голос «преобразится» в женский, детский, старческий.

Аналогичным образом можно, как на микшерном пульте, создавать сочетания из новых голосов. Теоретически можно предположить, что однажды певица средней руки сможет облагородить свой голосовой клон переливами оперного сопрано. В принципе уже также имеется возможность корректировать темп и выражение – на этом специализируется небольшая тель-авивская фирма Vivotext концертирующего пианиста Гершона Сильберта. В следующем году Vivotext планирует вывести на рынок приложение, позволяющее добавить голосу радости или печали. Компания предоставила лицензию на использование своего ПО производителю игрушек Hasbro. Поэтому возможно, что однажды в детских появятся интерактивные плюшевые зверушки, которые смогут прочитать на ночь сказку голосом непомерно занятого папы, слишком уставшей мамы или очередного кумира тинейджеров. Такая технология может оказаться полезной и для пациентов, которым грозит потеря голоса: у них будет возможность заблаговременно позаботиться о своего рода «протезе».

Фальшивая Меркель

Впрочем, использование технологий забавы ради и их практическая ценность – это две очень разные темы. Вполне предсказуем всплеск интереса к телефонным розыгрышам («Вам звонит Франц Беккенбауэр…»). Но в то же время у злоумышленников появится возможность совершать совсем не шуточные покушения на репутацию своих жертв. Что, если в интернете появится «запись» речи Ангелы Меркель, якобы потешающейся над Пророком? Иллюзия будет полной, если сопроводить такую «запись» видеороликом, в котором текстовая фальшивка будет сопровождаться соответствующими движениями губ.

Первые попытки фальсифицировать видео уже имеют место. Юстус Тис, работающий над своей диссертацией в университете Эрланген-Нюрнберг, продемонстрировал на примере видеосюжетов с Дональдом Трампом и Джорджем Бушем возможность управлять и мимикой видеогероев. Тис строил гримасы на камеру, открывал или закрывал рот – и персонажи на экране всё это за ним повторяли в режиме реального времени.

До сих пор мы знали: в подлинности голоса можно не сомневаться. Он зарождается в недрах тела, являет собой неотъемлемую часть личности, индивидуальную и легко узнаваемую. Лишь немногие люди, обладающие редким талантом, могут пародировать чужую манеру говорить. Но скоро такая возможность появится у каждого.

Казалось бы, об использовании голоса для идентификации личности можно забыть. Правда, некоторые производители уже тестируют возможность голосовой замены пароля. Так, компания Nuance предлагает колл-центрам ПО для распознавания звонящих по голосу. А крупный британский банк HSBC использует аналогичную систему для онлайн-банкинга.

Производители заверяют, что программное обеспечение, используемое для проведения судебных экспертиз, по-прежнему позволяет отличить человеческий голос от его имитации средствами нейронной сети: всегда остаются «хвосты», указывающие на искусственное происхождение. Однако и противная сторона знает, как это исправить. «Можно обучить вторую нейтронную сеть выявлять такие хвосты», – говорит канадский пионер в области искусственного интеллекта Йошуа Бенгио. Его лаборатория в Монреальском университете создала не только базу для систем синтеза речи стартапа Lyrebird – здесь же родилась идея нового уровня машинного обучения, основанная на принципе своего рода поединка. «Речь идет о конкурирующих сетях», – объясняет Бенгио: первая выискивает слабые звенья, позволяющие распознать фальшивку, вторая оптимизирует способы их маскировки. Таким образом, обе сети помогают друг другу совершенствоваться.

Бенгио уверен, что прогресс не остановится на достигнутом. Компьютер, синтезирующий речь, рано или поздно научится справляться и с видеокадрами. Самообучающиеся алгоритмы будут использовать не аудиозаписи, а видеоролики, чтобы производить аналогичные «записи», в идеале неотличимые от настоящих. «Думаю, это нанесет сокрушительный удар по нашей готовности верить картинкам и аудиозаписям», – говорит он.

Подписывайтесь на PROFILE.RU в Яндекс.Новости или в Яндекс.Дзен. Все важные новости — в telegram-канале «Профиль».