ChatGPT против фрилансеров и зачем синтезируют голоса

На сайте https://www.forbes.ru/ вышли две интересные статьи о возможностях современных технологий: о том как ChatGPT успешно заменяет людей и о возможностях и опасностях синтезирования голосов…

ChatGPT против фрилансеров: сколько бизнес экономит на специалистах благодаря ИИ

Фото Gabby Jones / Bloomberg via Getty Images

Мария Шакирова Редакция Forbes ссылка на статью

Генеративные нейросети открывают новые возможности для оптимизации бизнес-процессов. С помощью сервисов на основе искусственного интеллекта в российских компаниях пишут и переводят тексты, создают изображения, проверяют данные. Это позволяет экономить на фрилансерах. Ряд предпринимателей уже отказался от услуг специалистов на аутсорсе. Кого нейросети лишают работы, а кому пока переживать не стоит — в материале Forbes

В SMM-агентстве Soyka Agency использовать искусственный интеллект (ИИ) начали весной 2023 года, на волне массового интереса к чат-боту ChatGPT. Сервис, запущенный американской компанией Open AI, работает на основе «генеративного искусственного интеллекта». Эта технология позволяет создавать новый оригинальный контент на основе большого массива данных и алгоритмов машинного обучения. Чат-бот может писать посты, дипломы и даже книги. Сейчас с помощью чат-бота Soyka Agency создает контент для собственных социальных сетей. Раньше сотрудники тратили на это по несколько часов в день. ChatGPT справляется с задачей за секунды.

Soyka Agency не единственная российская компания, которая за последний год интегрировала инструменты на основе искусственного интеллекта в бизнес-процессы. Команды используют сервисы, чтобы писать и переводить тексты, проверять разметку данных, создавать изображения. Благодаря этому удается экономить не только время, но и деньги.

Forbes пообщался с предпринимателями и экспертами и узнал, как можно сократить расходы на сотрудников благодаря ИИ, кого можно заменить уже сейчас, а без кого пока не обойтись.

Трудности перевода

В консалтинговом агентстве Like4Like (разрабатывает стратегии и концепции ресторанов) рассказывают, что за последние два месяца отказались от пяти переводчиков-фрилансеров. Они переводили тексты для презентаций и социальных сетей компании на английский язык. За 2022 год на эти услуги команда потратила около $2000.

В феврале 2023 года компания опробовала ChatGPT. На тот момент он широко обсуждался в социальных сетях, рассказывает основательница агентства Ирина Орландини Авруцкая. Результаты перевода через сервис нравились предпринимательнице больше, чем работа профессиональных переводчиков. Те не всегда понимали специфику текста и нередко допускали ошибки и неточности в формулировках, поясняет Авруцкая. К примеру, переводчик мог вместо ресторанных терминов использовать слова, характерные для ретейла. ИИ же достаточно обозначить сферу, для которой готовится текст, и он будет использовать нужную лексику. Расходы Like4Like на перевод теперь укладываются в стоимость платной подписки на ChatGPT Plus. Она составляет $20 в месяц. Среди ее преимуществ — более быстрая выдача результата.

Расходы на англоязычных специалистов сократили и в SMM-агентстве Soyka Agency. Компания ведет социальные сети для российских и зарубежных компаний, которые работают на иностранных рынках. Среди них — европейские страны, Великобритания и другие. Основной язык коммуникации — английский. Поэтому тексты для клиентских площадок команда готовит в два этапа, рассказывает основательница компании Екатерина Козырева. Сначала материал пишет штатный редактор, затем его смотрит пруфридер на фрилансе. Это носитель языка, который занимается финальной вычиткой материала.

В марте 2023 года компания обратила внимание на ChatGPT и решила опробовать сервис. Козырева вспоминает, что чат-бот вычитал тексты качественнее, чем пруфридер, с которым команда работала на тот момент. Тогда же Soyka Agency отказалась от специалиста. Благодаря этому сейчас компания экономит несколько сотен долларов в месяц, рассказывает Козырева. Пруфридер получал по $15–20 за текст. Всего агентство отдавало на вычитку минимум по 12 текстов для каждого клиента ежемесячно. Обычно агентство работает с тремя-семью клиентами одновременно, уточнила Козырева.

В начале 2023 года от англоязычного пруфридера отказались и в компании Intch. Команда разрабатывает одноименное приложение для профессионального нетворкинга. С его помощью специалист может найти подработку по профессии. Компания работает в 155 странах, но основные рынки — США и Европа. Поэтому команда создает контент для сайта, приложения и социальных сетей на английском языке. До перехода на ChatGPT пруфридеры вычитывали тексты, которые писали штатные авторы. В месяц на эту услугу команда тратила порядка $1000, рассказывает основатель компании Яков Филиппенко.

Около 100 000 рублей в месяц с начала 2023 года экономит и агентство для продвижения экспертных профилей в соцсетях ModumUp. Столько компания платила англоязычному пруфридеру, рассказывает основательница агентства Ольга Бондарева. Он вычитывал тексты англоязычного копирайтера для клиентов. «Он [пруфридер] правил, например, фразы, которые на английском языке звучали неверно или странно», — поясняет предпринимательница. Сейчас эту задачу выполняет ChatGPT.

Райтеры и разметчики

Бизнес отказывается и от других специалистов. К примеру, после перехода на ChatGPT в Soyka Agency перестали использовать авторов на фрилансе. Те писали типовые продающие тексты для рассылок потенциальным клиентам. На эти услуги компания тратила порядка 20 000 рублей в месяц. Основательница агентства Екатерина Козырева признается, что работа чат-бота требует доработки. Но редактура, как правило, минимальна.

В феврале-марте 2023 года компания также перестала сотрудничать с дизайн-студией на аутсорсе. Команда подрядчика создавала иллюстрации по запросу агентства. Эти услуги обходились Soyka Agency в среднем от 30 000 до 60 000 рублей в месяц. Сейчас компания тратит около $30 — столько стоит подписка на нейросеть Midjourney. Она создает изображения на основе технического задания. Его составляет аккаунт-директор Soyka Agency. На это у специалиста уходит около часа. «Картинки получаются немного безумные, но нам нравится», — заключает Козырева.

Число подрядчиков сократила и компания LabelMе. Она специализируется на разметке данных для машинного обучения. Среди ее клиентов — «Газпром», «Сбер», LG, HeadHunter и другие. Для работы компания обычно привлекает по 2500 разметчиков. Они собирают тексты, видео и фото под конкретные задачи, категоризируют и маркируют. Подобная разметка позволяет программе клиента обучаться и впоследствии отличать одни данные от других. Они, к примеру, могут пометить, какие тексты относятся к новостным, какие — к рекламным, рассказывает основатель компании Федор Пылаев.

В LabelMe есть два уровня разметчиков: первые классифицируют данные, вторые проверяет разметку. В декабре 2022 года LabelMе протестировала ChatGPT для проверки работы разметчиков. Результаты оказались достойными, вспоминает Пылаев. Поэтому в январе 2023 года команда интегрировала чат в процессы. В марте 2023 года компания также начала использовать новую версию чат-бота, GPT-4. Она способна среди прочего комментировать изображения, но доступна по подписке. Ее стоимость составляет $20 в месяц. С помощью обновленного чат-бота команда смогла размечать визуальные данные. Благодаря переходу на искусственный интеллект компания отказалась от 500 проверяющих разметчиков. Это позволило снизить расходы в среднем на $10 000–15 000 в месяц, говорит Пылаев.

Внушительный список

По мнению Киры Кузьменко, основательницы сервиса анонимного поиска работы Geekjob и рекрутингового агентства NEWHR, пока искусственный интеллект в первую очередь заменяет работников, которые выполняют рутинные задачи. Это, например, сотрудники кол-центов или специалисты отделов продаж, которые используют в работе заготовленные скрипты.

С этим согласен Кирилл Николаев, сооснователь сервиса поиска IT-специалистов «Подбор». По его мнению, искусственный интеллект может снять большую часть рутинных задач с команд. «Список функций внушительный: нейросети могут проводить исследования, составлять расписание, собирать информацию из переписок клиентов и многое другое», — перечисляет Николаев. Однако он не способен принимать стратегические решения, взаимодействовать в команде, решать сложные задачи, где требуется экспертиза, утверждает Николаев. Об этом говорит и Пылаев из LabelMe. По его словам, нейросети пока не могут работать со сложными данными. К примеру, чат-бот GPT-4 не способен определить, что находится на рентгеновском снимке, или оценить качество руды по ее изображению. Для этого нужен специалист с соответствующей профессиональной подготовкой, поясняет предприниматель.

Это относится и к сфере дизайна, говорит Павел Исаенко, дизайн-директор «Яндекса». По его наблюдениям, на рынке есть инструменты, которые могут написать код или создать изображение. Среди них — сервисы Noya.io и imagica.ai. Однако системе требуется поставить задачу, а это может сделать только эксперт. Оценить качество результата, внести правки также сможет только человек, говорит Исаенко.

В связи с этим массового тренда на замену сотрудников генеративными технологиями пока нет, отмечает Новиков. С этим согласна Кузьменко. По ее мнению, на сегодня технологии не способны заменить людей, но могут повысить эффективность специалистов. Например, сервис Copilot от GitHub ускоряют работу программистов. Она анализирует код и автоматически дополняет его.

Эксперты уже отмечают рост спроса на специалистов, которые могут ставить задачи ИИ. По данным платформы для поиска работы hh.ru, за первую четверть 2023 года количество упоминаний слова «нейросеть» в описании вакансии увеличилось с 289 до 741, а количество упоминаний GPT — с трех до 66 раз. Рост спрос на специалистов с навыками владения нейросетями подтвердили и в сервисе «Работа.ру». Вакансии поступают от компаний из сфер IT, гейминга, дизайна, маркетинговых агентств. Однако пока рост «незначительный», говорит директор по аналитике в «Работа.ру» Елена Артемьева. Кузьменко уверена, что спрос будет расти. А умение грамотно сформулировать техническое задание для ИИ (промт-инжиниринг) станет одним из базовых навыков в резюме профессионалов, наравне с «уверенным пользованием персональным компьютером», говорит эксперт.

О чем речь: зачем синтезируют голоса и какие риски это влечет

Иллюстрация Getty Images

Илья Калиновский Автор ссылка на статью

От классических роботизированных голосов 1970-х годов до почти идеальных копий, которые мы слышим сегодня, технология синтеза речи претерпела удивительную эволюцию. Но по мере того, как клонирование голоса набирает популярность, возникают вопросы о потенциале технологии для обмана, а также о необходимости систем голосового антиспуфинга и четкого регламентирования индивидуальных прав на голос. Руководитель направления R&D речевых технологий Just AI Илья Калиновский рассказывает о том, как технологии могут преобразовать голос, какие при этом существуют риски и средства защиты от них

Эволюция голоса

За последние восемь лет технология синтеза речи по тексту (Text To Speech, TTS) претерпела кардинальные изменения. Многие еще помнят электрическое звучание искусственных голосов, характерное для распространенной в 2000-х технологии конкатенативного синтеза (Unit Selection, US). К слову, такой синтез еще можно услышать в IVR-системах (Interactive Voice Response) некоторых банков. Но как и во многие другие области знаний, в область синтеза речи постепенно проникли нейронные сети, полностью вытеснив все предыдущие методы генерации речевых сигналов.

Технологии нейросетевого синтеза эволюционируют быстрыми темпами не только с точки зрения качества звучания, но также и функциональных возможностей. Одна из первых нейросетевых моделей для синтеза речи WaveNet, представленная DeepMind в 2016 году, продемонстрировала существенный прогресс в плавности и естественности генерируемой речи. С этого момента стало понятно, что нейросети могут успешно применяться для генерации звука, но предстояло решить еще множество проблем: генерация в режиме реального времени, улучшение управляемости и моделирование стилей речи, мультиголосовой и мультиязыковой синтез, копирование голоса и др.

Дальнейшее развитие нейросетевых архитектур разделилось на два направления: акустические модели (отвечают за генерацию параметрического представления сигнала, например, спектрограммы) и вокодеры (непосредственно генерируют аудиосигнал по его параметрическому представлению). В этом ключе удачной связкой оказалось сочетание акустики Tacotron2, представленной Google в 2017 году и вокодера LPCNet. Стоит отметить, что в настоящее время большинство коммерческих систем TTS построены именно на этих двух архитектурах во многом из-за их вычислительной эффективности.

Позже исследователями был предложен ряд архитектур акустических моделей (FastSpeech, FastPitch, VITS и др.), которые не только генерируют качественные голоса на уровне Tacotron2, но и на базовом уровне позволяют управлять различными характеристиками речи.

Но несмотря на большой модельный «зоопарк» и множество оригинальных решений, до недавнего времени синтезированная речь по-прежнему резала слух привередливым пользователям. Ситуация стала меняться с наступлением эпохи больших акустических SSL-моделей (Self-Supervised Learning). Подобно нашумевшим LLM (Large Language Model) типа GPT, большие акустические модели способны бесконтрольно обучаться на любых наборах аудиоданных, будь то обычная речь, песни или просто музыка, безотносительно языка и прочего содержания. SSL стали универсальными инструментами для кодирования звуков, речи, музыки и прочих аудиосигналов. Более того, современные модели (например, Bark), выходят за рамки классического TTS и предлагают генерацию новых голосов, фоновой музыки и различных звуковых эффектов на основе интуитивных текстовых подсказок (промптов) по аналогии с ChatGPT.

Синтез, клонирование, voice conversion: в чем разница

Синтез речи, клонирование и преобразование голоса (voice conversion) — это родственные технологии, различающиеся только тем, какие данные поступают на вход каждому алгоритму. Давайте попробуем в них разобраться.

Программы синтеза речи принимают в качестве входных данных для озвучки текст на определенном языке, и создают голос, который читает данный текст в соответствии с выбранным стилем и эмоцией. Для разработки технологии синтеза речи требуется наличие объемной фонетически и интонационно разнообразной базы реплик целевого диктора (обычно десятки часов).

Клонирование голоса (voice cloning) — это процесс создания цифровой копии голоса человека. Для клонирования голоса для современных моделей нужно записать всего несколько минут или даже секунд речи. Сам процесс генерации голоса аналогичен задаче TTS, с той лишь разницей, что какого-либо переобучения или дообучения модели клонирования не требуется. Она работает в так называемом zero-shot режиме (нулевое обучение) и способна закодировать предоставленный образец и сразу воспроизвести тембр, манеру речи и эмоцию целевого диктора при озвучке произвольного текста.

Преобразование голоса (voice conversion) — это процесс конвертации голоса одного человека в голос другого с сохранением интонации и эмоциональной окраски источника. Это можно представить в виде автоматической генерации кавер-версии любимой песни. Голосовые характеристики оригинального голоса изменяются таким образом, чтобы голос звучал, как если бы говорил другой человек. Важно отметить, что на вход модели подается не текст, как в выше рассмотренных задачах, а непосредственно исходный аудиосигнал и образец голоса целевого диктора.

Несмотря на кажущуюся различность этих трех задач, современное состояние исследований в области синтеза речи движется по пути получения единой универсальной модели, способной решать их все.

Придать натуральности

Сам по себе текст содержит очень мало информации о том, как его нужно произнести. Человеку, чтобы произнести текст правильно, необходимо обладать знаниями и навыками в области фонетики, интонации, артикуляции и выразительности речи. Кроме того, произношение текста может зависеть от контекста и цели высказывания. Все это делает задачу синтеза речи по тексту весьма неоднозначной, то есть одному и тому же высказыванию соответствует множество вариантов его произношения.

Без обработки естественного языка система синтеза речи не сможет правильно расшифровать и согласовать падеж числительных, расставить ударения в словах и акценты в предложении, а также определить позиции пауз и сформировать правильное интонационное оформление высказывания. Таким образом, методы NLP (Natural Language Processing) и языковые модели, в частности, играют ключевую роль в синтезе речи, позволяя генерировать более естественно звучащие искусственные голоса.

Голос в опасности

Технология голосового дипфейка использует модели voice cloning или voice conversion для создания убедительной подделки голоса, которая звучит так, как будто была произнесена реальным человеком. Для создания дипфейка требуется достаточное количество аудиоданных от конкретного человека, желательно записанных в идеальных условиях, после чего эти данные анализируются с использованием нейронной сети, которая учится имитировать голос этого человека.

Угрозы, связанные с технологией голосового дипфейка, могут быть различными:

Мошенничество. Голосовые дипфейки могут быть использованы в преступных целях, например, для обмана банков, чтобы получить доступ к финансовым счетам и другим конфиденциальным данным.
Политический шантаж. С помощью голосовых дипфейков можно создавать записи, которые звучат так, будто бы определенный политик или организация произнесли компрометирующие их слова или высказали угрозы. Это может быть использовано для шантажа.
Вредоносное использование. Голосовые дипфейки могут быть использованы для создания вредоносных голосовых сообщений для атаки на систему управления зданиями или умным домом, а также взлома голосовых ассистентов — таких, как Siri, Alexa, «Салют» и другие с целью доступа к конфиденциальной информации или совершения банковских операций.

В целом технология голосового дипфейка может быть использована для дестабилизации общества и нанесения непоправимого ущерба как отдельным личностям, так и целым организациям.

Найти и обезвредить

Кража голоса из социальных сетей может осуществляться с помощью различных методов:

запись голоса через приложения для общения: злоумышленник может использовать мессенджеры с функцией пересылки голосовых сообщений, чтобы записать голос пользователя;
сбор публичной информации: злоумышленник может использовать открытые источники — такие, как видеоблоги или интервью — для сбора голосовой информации;
социальная инженерия: злоумышленник может попытаться обмануть жертву, выдавая себя за кого-то другого и попросив записать голосовое сообщение.

Для предотвращения мошенничества с использованием голосовых сообщений существуют различные системы голосового антиспуфинга, которые обычно используют комбинацию технологий для аутентификации голоса.

Биометрическая аутентификация голоса: системы используют нейронные сети и машинное обучение для сравнения нового голосового сообщения с предварительно загруженным голосовым шаблоном пользователя.
Проверка присутствия живого голоса: системы могут использовать различные методы для проверки того, что голос не записан, например, просить пользователя зачитать случайный текст, чтобы убедиться, что это живой голос.
Проверка контекста: системы могут анализировать контекст, в котором происходит голосовая аутентификация, например, местоположение или устройство, которое используется для записи голоса.
Детекция синтеза: несмотря на кажущуюся реалистичность искусственных голосов генерируемый звук содержит мелкие дефекты, которые легко распознаются специальными моделями, обучающимися отличать реальный речевой сигнал от синтетического. Основная сложность в применении такой защиты заключается в том, что при передаче по телефонным каналам звук подвергается многократному сжатию, в результате чего дефекты синтеза становятся менее выраженными.

Право на голос

Авторского право на голос как такового не существует. Однако иногда голос может быть признан объектом интеллектуальной собственности, если он идентифицируется как индивидуальная характеристика персонажа (например, голос Ленина). В таком случае обладатель прав на голос может ограничить его использование без согласия.

Аренда голосов может получить широкое применение в таких сферах, как озвучивание рекламы и аудиокниг. Дикторы и актеры могут зарабатывать деньги, предоставляя свой голос для рекламных записей, видеоигр, фильмов и т.д. Но перспективы развития этой концепции зависят от многих факторов, включая технологические возможности, а также правовые и этические нормы. Существует множество сервисов для озвучки контента с функцией клонирования голоса. Они позволяют дикторам увеличить объем заказов на озвучку, отдавая ИИ рутинные проекты, которые не требуют особой экспрессии в голосе, а заказчикам — получать результаты значительно быстрее или вообще полностью автоматизировать озвучку, например, для стриминговой платформы.

Пока нет четкого законодательства, которое регулировало бы использование таких записей в различном контексте, поэтому передача прав на голос и его аренда могут вызвать юридические сложности. Кроме того, такая практика может создать проблемы, связанные с использованием личных данных и приватностью, поэтому ее будущее не совсем ясно и требует дальнейшего изучения и законодательного регулирования.

Мнение автора может не совпадать с точкой зрения редакции

Репост с сайта Форбс.ру.

Аскар Акаев о требованиях к специалистам в новую эпоху: