Учёные Томского государственного университета систем управления и радиоэлектроники исследуют малоизученную шёпотную речь человека для создания алгоритмов по распознаванию речи человека с высокой точностью.
На кафедре комплексной информационной безопасности электронно-вычислительных систем (КИБЭВС) с помощью созданного здесь уникального математического аппарата проводятся исследования по распознаванию речи человека на уровне параметров речевого сигнала. Их результатом может стать создание новых алгоритмов, принципиально отличающихся от существующих, для корректного и более точного распознавания речи человека.
Как пояснил доцент кафедры КИБЭВС Антон Конев, речевые технологии в ближайшем будущем будут активно развиваться – для создания голосовых ассистентов, а также других новых продуктов в сфере искусственного интеллекта. Одна из главных целей разработчиков во всём мире – добиться полностью автоматического перевода устного текста любого объёма в письменный с высокой точностью, без искажений.
«Пока эта цель не достигнута, в том числе из-за подхода, который чаще всего используется в уже работающих человеко-машинных интерфейсах: голосовом поиске, чат-ботах, где распознаваемый максимум – это отдельные словосочетания, например, поисковые запросы или голосовой набор смс-сообщений», – говорит Антон Конев.
Суть этого подхода, по словам доцента ТУСУРа, – что основой распространённых алгоритмов является обучение на большом количестве примеров произнесённых звуков, слов, словосочетаний. При распознавании система вероятностным способом определяет, к какому из заложенных примеров ближе произнесённое. Определение параметров звуков с высокой точностью, свойственной слуховой системе человека, при создании не прорабатывается.
«Поэтому, как только человек начинает произносить не самые часто употребляемые слова, аббревиатуры, редкие имена, сокращения, распознавание ухудшается, и существующие системы ошибаются очень часто, – подчёркивает исследователь. – Кроме того, такие системы не учитывают вариативность окончаний и других особенностей спонтанной устной речи, а не отдельных коротких словосочетаний – особенна высока вариативность в русском языке, где «съедается» большой процент звуков, если мы говорим в привычном быстром темпе».
Поэтому своей задачей учёные кафедры КИБЭВС ТУСУРа называют определение более точных параметров звуков, в том числе с помощью изучения шёпотной речи.
Антон Конев
Есть классический термин – форманта, максимум звука в спектре, параметры которой нам необходимы, но в звучной речи на формантную структуру накладываются колебания и искажают картину форманты. Именно поэтому мы исследуем шёпотную речь, которая отделена от голосового источника и лишена этих искажений.
Исследования, проводимые с использованием уникальной разработки учёных кафедры КИБЭВС ТУСУРа – математического аппарата, учитывающего строение слуховой системы человека, показали, что распознавание ударных звуков шёпотной речи на основе общепринятых параметров возможно с надёжностью не менее 70 %.
Такой результат позволяет говорить о перспективности исследований для выявления точных параметров звуков, которыми мало занимаются в России и за рубежом, но которые могут послужить основой для принципиально нового подхода в точном распознавании речи – для создания усовершенствованных инструментов в сфере искусственного интеллекта, человеко-машинных интерфейсов, развитие которых становится всё более актуальным.
Ректор ТУСУРа Виктор Рулевский в интервью агентству «ИНТЕРФАКС» рассказал о работе в новом для вуза направлении национальной и межгосударственной стандартизации.
В 2025/26 учебном году в ТУСУРе впервые будет проходить набор магистрантов на программу «Искусственный интеллект в биомедицинских системах», созданную в рамках программы развития «Приоритет 2030».
Новый сегмент квантовой сети ТУСУРа соединил корпуса вуза и офис компании «ИнфоТеКС».
В Передовой инженерной школе Томского госуниверситета систем управления и радиоэлектроники (ПИШ ТУСУР) разработали блок цифрой обработки сигнала с собственными алгоритмами, который в составе модема, создаваемого с использованием отечественных компонентов, предназначен для управления и передачи полезной информации с беспилотного летательного аппарата (БПЛА).