В Санкт-Петербургском государственном университете ученые обучили нейросеть Wav2Vec 2.0 распознавать речь людей, рассказывающих о сильном эмоциональном потрясении, сообщил ТАСС. Основой для обучения стали интервью с жертвами Холокоста.
Распознавание речи важно в компьютерных автоматических системах, что позволяет создавать субтитры и генерировать сводки информации. Однако при ярко выраженных эмоциях, слезах или громком крике человека, задача становится гораздо сложнее.
Решение проблемы нашли в обучении русскоязычной модели нейросети, которая должна была распознать речь профессора Новосибирского госуниверситета Ивана Бондаренко на материалах интервью. В них люди рассказывают о событиях, свидетелями которых они стали во время Холокоста.
Ученые обработали более 26 часов записей разговоров, взятых у фонда мемориального комплекса истории Холокоста Яд ва-Шем. Идея обучения нейросети заключалась в том, чтобы выучить сопоставление каждого звука устной речи соответствующей букве алфавита. В результате технология оказалась применима и к записям с речью других людей. Хотя учены предупредили, что качество распознавания может отличаться.