Все сказанное может быть использовано для вас

Как ИИ используется в технологиях синтеза и распознавания речи
Freepik
Freepik

Синтез и распознавание речи – одна из главных областей, в которой искусственный интеллект (ИИ) нашел свое применение. Почти у каждого есть смартфон с голосовым помощником, который ищет нужную информацию, работает переводчиком («Яндекс», Google, Microsoft) или просто выступает приятным собеседником. Голосовые ассистенты (Алиса, Салют, Siri) также могут управлять вашими приборами или, распознав настроение, ставить соответствующую музыку. Эти технологии нужны и в коммерческом секторе: голосовые секретари колл-центров банков, телефонных операторов, программы речевой аналитики. Всего этого не было бы без ИИ.

Имитировать общение

Синтез речи – это процесс создания звуковой волны, имитирующей человеческую речь, по заданному тексту. Использование ИИ позволяет генерировать более естественную, живую и эмоциональную речь. Современные системы синтеза речи работают на основе глубоких нейронных сетей, которые имитируют работу нейронов мозга человека. Сначала текст, который нужно превратить в речь, преобразуется в числовое представление, а затем обрабатывается нейронной сетью, которая генерирует звуковую волну. Для достижения высокой точности и качества генерации речи важно правильно обучить нейронную сеть на большом количестве данных. Синтез речи широко применяется в различных сферах, таких как автоматизация голосовых ассистентов, чтение текста на сайтах и в приложениях, а также в системах помощи людям с нарушениями речи. Кроме того, синтез речи может быть полезен в создании аудиокниг, рекламных материалов и в других сферах.

Другая задача ИИ – распознавание речи. «Нейросети активно распознают речь, для этого есть множество типовых библиотек или сервисов. Это популярная задача – по моей оценке, где-то 5–7% всех задач по ИИ приходится на распознавание речи. Это много: даже на самые мощные темы – компьютерное зрение и ChatGPT – ложится по 15–20% всех заказов. Проекты с генерацией речи встречаются реже. Основная цель распознавания речи – перевод больших объемов аудиоинформации в текстовый вид, например, для дообучения ChatGPT на внутренней базе компании, чтобы бот отвечал на вопросы по регламентам, общался с клиентами в чатах на сайтах и т. д.», – рассказывает Дмитрий Романов, основатель Университета искусственного интеллекта.

Распознавание речи работает далеко не идеально. Во-первых, если есть шумы или несколько человек перебивают друг друга и говорят параллельно, то сервис не сможет распознать речь и выдаст пользователю либо не те слова, либо набор произвольных символов, указывает Романов. Во-вторых, нейросеть не всегда распознает профессиональную терминологию, отмечает он. Например, термины типа «нейронные сети», «сверточные сети» тот же ChatGPT не распознает, он знает только типовые слова общего лексикона людей, и это сильно ограничивает функционал.

К тому же технология эта весьма затратная. «Разработка моделей ИИ для синтеза и распознавания речи требует больших объемов высококачественных обучающих данных, сбор и разметка которых могут быть дорогостоящими и отнимать много времени. Кроме того, обучение и оптимизация моделей ИИ требуют значительных вычислительных ресурсов, таких как графические процессоры и облачная инфраструктура», – говорит Станислав Ашманов, глава комитета по искусственному интеллекту АРПП «Отечественный софт».

Ценные слова

Распознавание речи используется в речевой аналитике. Это процесс анализа голосовых данных с целью извлечения информации о говорящем, его эмоциональном состоянии и других параметрах. Использование ИИ в речевой аналитике позволяет создавать более точные и надежные модели для анализа голосовых данных, что может быть полезно в различных областях, таких как маркетинг, психология и многие другие. Сегодня ИИ может распознавать уникальные черты голоса (тональность, скорость речи и интонация), что позволяет более точно идентифицировать говорящего человека. «Более того, ИИ может проводить анализ намерений говорящего, так как нейросетевые алгоритмы и приложения, обученные на большом количестве данных, умеют быстро определять, что именно клиент имеет в виду, на основе причинно-следственных связей», – рассказывает Александр Хазариди, политолог, эксперт КГ «Полилог».

Сервисы речевой аналитики можно использовать в колл-центрах для последующего анализа разговора оператора на предмет ошибок. «Речевая аналитика полезна в том числе для контроля качества работы менеджеров, которые общаются с заказчиками, – отмечает Антон Шумилов, руководитель департамента корпоративных систем ИМБА ИТ. – Собранную и проанализированную информацию можно использовать для корректировки разговора сотрудника, дальнейшего обучения, тренировок стрессоустойчивости. Речевую аналитику можно использовать в сфере ИБ, для предотвращения утечек конфиденциальной информации или последующего анализа. Если анализ речи покажет, что информация, которую сотрудник произносит в разговоре, конфиденциальна, то разговор можно автоматически прервать и уведомить службу безопасности».

В рамках работы госорганов с обращениями граждан также делаются шаги по внедрению ИИ, рассказывает Хазариди. Например, в Якутии еще в 2021 г. внедрили единый номер для обращения к AITA, голосовому помощнику главы республики. Виртуальный ассистент распознает голос, транскрибирует и фиксирует запросы граждан, распределяя их далее по ответственным ведомствам. Анализ речи на базе ИИ может применяться даже в медицине. Тональность голоса, скорость речи и другие характеристики могут свидетельствовать о наличии определенных заболеваний, например болезни Паркинсона, множественного склероза и депрессии.