Центр коррекции слуха и речи “МЕЛФОН” получил новый патент – на “Способ доврачебной оценки качества распознавания речи, скрининговой аудиометрии и программно-аппаратный комплекс, его реализующий”. Авторы – д.т.н. Валерий Степанович Сироткин и к.т.н. Владимир Владимирович Ханыков.
Проблема, решаемая в этой работе – обеспечение автоматизированной доврачебной оценки качества распознавания речи и скрининговой аудиометрии с помощью алгоритмов на базе машинного обучения.
В нашей стране, по данным Минздрава, обеспеченность врачами-сурдологами составляет около 25% от нормативов, то есть большая часть населения России не имеет возможности провести диагностику слуха в медицинских учреждениях. Оценка слуха исключена даже из программ диспансеризации взрослого населения. Вследствие этого многие даже не подозревают о наличии у них нарушений слуха. Внедрение доврачебной автоматизированной оценки разборчивости речи и скрининговой аудиометрии позволит миллионам людей самостоятельно и достоверно оценить свои возможности к речевой коммуникации и принять обоснованное решение о срочности и необходимости дальнейшего обращения к профильным специалистам.
Всё, что нужно для такой предварительной диагностики – это описанный в данном патенте интерактивный программно-аппаратный комплекс (ПАК) для доврачебной многофакторной оценки качества распознавания речи и скрининговой аудиометрии.
УРОВЕНЬ ТЕХНИКИ
Основной характеристикой любого канала передачи речи, включая слуховой тракт восприятия речи человека, является понятность речи. Для определения этой характеристики в технических системах связи применяют статистический метод с участием большого числа слушателей и дикторов. Под разборчивостью речи понимают относительное или процентное количество принятых (понятых) элементов речи из общего числа, переданных по каналу связи. Элементы речи составляют слоги, звуки, слова, фразы, числа. В соответствии им поставлены слоговая, звуковая, словесная, смысловая и числовая разборчивость. Для измерения разборчивости разработаны артикуляционные таблицы слогов, звукосочетаний и слов с учетом встречаемости их в русской речи.
Термином «социальная адекватность слуха» обозначают способность человека воспринимать звуковые стимулы различной сложности (включая речевые) и участвовать в диалоге. У людей с уровнем слуха ниже «социально адекватного» возникают сложности в общении с окружающими, появляются проблемы на работе, в быту. Так называемая стигма тугоухости заставляет людей скрывать свою коммуникативную проблему десятилетиями!
Исследования слуховой функции осуществляется посредством двух групп методов:
Субъективных (психоакустических):
- исследование слуха речью с шумом;
- исследование слуха при помощи камертонов;
- субъективная аудиометрия.
Объективных:
- объективная (компьютерная) аудиометрия;
- акустическая рефлексометрия;
- тимпанометрия;
- отоакустическая эмиссия;
- безусловные рефлекторные реакции;
- условные реакции на звук.
При всех субъективных методах исследования слуха сам испытуемый оценивает, слышит он звук или нет, и каким-либо способом сообщает об этом специалисту. При объективных методах обследования полученные результаты не зависят от желания пациента, регистрация их в большинстве случаев происходит при помощи специальной аппаратуры.
К сожалению, результаты практически всех видов диагностики слуха, кроме прямой оценки разборчивости слуха речью, описывают результаты обследования в специфических терминах (децибелы, аудиограммы, номера пиков кривых и т.д.) и не дают пациенту объективной информации о его «реальной степени социальной адекватности». Все это множество научных терминов не дает человеку прямого ответа: как хорошо, или как плохо, он слышит и понимает «обычную» речь собеседника в реальном шуме, окружающем его ежедневно. Многочисленные результаты современных
высокоточных обследований нужны специалистам; человеку с нарушениями слуха нужно знать только одно – насколько хорошо он понимает речь собеседника в обычных условиях.
Самым простым и доступным методом является исследование слуха речью в шумовом сигнале. Достоинства этого метода заключаются в его соответствии основной роли слуховой функции у человека – служить средством речевого общения.
Основным преимуществом исследования слуха речью является его «физиологическая понятность» для испытуемого. Основными проблемными препятствиями для широкого применения являются:
- невозможность обеспечения воспроизводимости результатов для разных испытателей, так и для одного испытателя в разное время;
- относительную длительность и трудоемкость испытаний;
- необходимость выполнения исследования специально обученным медицинским персоналом.
С развитием уровня техники в области технологий, применяемых для диагностических целей различного профиля, в том числе и для проверки качества слуха, речевого распознавания и аудиометрии, все более насущной проблемой становится необходимость автоматизации всех ключевых функций, которые могут быть доступны конечному пользователю без необходимости прибегания к услугам профильных специалистов, а также упрощающих получение первичной картины состояния органов слуха, что позволяет решить проблему получения помощи населению в регионах, в которых отсутствует возможность обращения к профильному специалисту, как к таковому.
Авторами настоящего технического решения ранее был предложен метод на основании искусственного интеллекта для автоматической многофакторной оценки качества распознавания речи пациентом, за счет преобразования голосовых ответов пациента в текстовый формат и сравнения результатов с тестовой последовательностью слов, которая воспроизводилась с учетом шумовых сигналов, для повышения качества тестирования и моделирования бытовых ситуаций, критичных для пользователя с теми или иными нарушениями слуха (патент РФ No2729147, 05.08.2020).
Но эта разработка, хоть и снизила существенно трудоемкость выполнения процедуры оценки разборчивости речи в шуме, но не устранила основную ключевую проблему работоспособности всего первичного звена сурдологии – практического отсутствия в необходимых количествах подготовленных медицинских специалистов. При проведении оценки разборчивости фразовой речи требуются «человеческие способности» для перевода сгенерированного программой тестового предложения в голосовое сообщение, которое будет воспринято испытуемым человеком, как часть речи «живого» собеседника. Только решив эту проблему, можно было разработать полностью автоматический многофункциональный диагностический терминал, обеспечивший выполнение этой рутинной хорошо проработанной процедуры без участия специально подготовленного медперсонала. С помощью реализации заявленного технического решения миллионы людей смогут самостоятельно и достоверно оценить свои возможности к речевой коммуникации и принять обоснованное решение о срочности и необходимости дальнейшего обращения к специалисту.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Заявленное решение направлено на решение технической проблемы, заключающейся в создании многофункционального, простого и эффективного способа на базе стандартного вычислительного устройства для обеспечения доврачебной многофакторной оценки качества распознавания речи и скрининговой аудиометрии.
Техническим результатом является обеспечение доврачебной оценки качества распознавания речи в шуме и скрининговой аудиометрии на базе единого вычислительного устройства и формирование детального протокола для последующего использования.
Дополнительным техническим результатом является повышение эффективности и точности оценки качества распознавания речи и скрининговой аудиометрии за счет применения синтезированной речи с помощью модели машинного обучения и применении в тестировании откалиброванных устройства звукового воспроизведения в виде наушников воздушного типа и с костной звукопроводимостью.
Заявленный технический результат достигается с помощью интерактивного программно-аппаратного комплекса (ПАК) для доврачебной многофакторной оценки качества распознавания речи и скрининговой аудиометрии, содержащий связанные каналом передачи данных вычислительное устройство, устройства звукового воспроизведения, и устройство ввода речевой информации.
Структура программно-аппаратного комплекса
Вычислительное устройство (110) предназначно для:
- формирования тестовой речевой последовательности в виде слов и/или фраз с заданным уровнем громкости и на заданном языке на основании матричного теста, поддерживающего выбранный язык, причем воспроизведение тестовой речевой последовательности осуществляется с помощью имитации речи на базе модели глубокого машинного обучения;
- выбора шумового конкурирующего звука для упомянутой тестовой речевой последовательности слов;
- управления отдельно уровнями полезного сигнала тестовой речевой последовательности и шума;
- получения устного ответа пользователя с помощью устройства ввода речевой информации и автоматическое преобразование его в текст;
- автоматического анализа устного ответа пользователя по распознаванию каждого слова и/или фразы тестовой последовательности слов с отображением правильности ответа пользователя;
- автоматического расчета на основании устных ответов пользователя:
показателя качества распознавания речи;
наличия отклонения от нормы при распознавании речи, на основании анализа типа слов в тестовой последовательности;
- формирования последовательности тоновых сигналов и осуществления процедуры оценочной скрининговой аудиометрии на основании формируемой последовательности тоновых сигналов и построением скрининговой аудиограммы;
- формирования протокола оценки качества распознавания речи пользователем и данных скрининговой аудиограммы.
Устройства звукового воспроизведения, выполненные в виде наушников воздушного (112) и костного (113) звукопроведения, обеспечивают:
- селективную двухканальную подачу звукового сигнала в левый и правый каналы, или в оба канала одновременно;
- воспроизведение тестовой речевой последовательности в виде фраз из матричного теста или отдельных слов в сопровождении конкурирующего шумового сигнала;
- воспроизведение тестовой последовательности однотонных сигналов в расширенном диапазоне частот для построения скрининговой аудиограммы.
Устройство ввода речевой информации представляет собой встроенный или внешний микрофон (111).
Вычислительное устройство (110) также может быть связано посредством сети передачи данных (120), например, сети «Интернет», с удаленным сервером (130), на котором может храниться различная информация, в том числе, настройки, данные пользователей, пакеты для обновления данных, параметры и информация для осуществления тестов и т.п.
Заявленный технический результат также достигается с помощью способа доврачебной оценки качества распознавания речи и скрининговой аудиометрии с помощью вышеуказанного интерактивного ПАК, при котором с помощью вычислительного устройства
- формируют тестовую речевую последовательность в виде слов и/или фраз с заданным уровнем громкости и на заданном языке на основании матричного теста, поддерживающего выбранный язык, причем воспроизведение тестовой речевой последовательности осуществляется с помощью имитации речи на базе модели глубокого машинного обучения;
- осуществляют выбор шумового конкурирующего звука для упомянутой тестовой речевой последовательности слов;
- осуществляют управление отдельно уровнями полезного сигнала тестовой речевой последовательности и шума;
- получают устный ответ пользователя с помощью устройства ввода речевой информации;
- в автоматизированном режиме осуществляют автоматическое преобразование устного ответа пользователя в текстовый вид;
- осуществляют анализ устного ответа пользователя по распознаванию каждого слова и/или фразы тестовой последовательности слов с отображением правильности ответа пользователя;
- производят расчет на основании устных ответов пользователя показателя качества распознавания речи и наличия отклонения от нормы при распознавании речи, на основании анализа типа слов в тестовой последовательности;
- формируют последовательность тоновых сигналов, с помощью которой выполняют процедуру оценочной скрининговой аудиометрии с формированием скрининговой аудиограммы;
- формируют протокол оценки качества распознавания речи пользователем и данных скрининговой аудиограммы;
С помощью устройств звукового воспроизведения, выполненных в виде наушников воздушного и костного звукопроведения, осуществляют:
- селективную подачу звукового сигнала в левый и правый каналы;
- воспроизведение тестовой речевой последовательности в виде фраз из матричного теста или отдельных слов в сопровождении конкурирующего шумового сигнала;
- воспроизведение тестовой последовательности однотонных сигналов в расширенном диапазоне частот для построения скрининговой аудиограммы.
В частном примере такого комплекса вычислительное устройство представляет собой планшет или смартфон, устройства звукового воспроизведения – стереофонические наушники воздушного и костного звукопроведения, работающие в расширенном диапазоне частот, а звуковой тракт вычислительного устройства проходит предварительную процедуру метрологической калибровки и тарификации шкалы громкости в дБ.
Для более подробного ознакомления с методиками и алгоритмами работы программно-аппаратного комплекса приглашаем ознакомиться с полным текстом патента:
Описание изобретения – патент RU2743049