СЕРВИС АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ МЕДИА-БИБЛИОТЕКИ ДИСЦИПЛИНЫ
СЕРВИС АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ МЕДИА-БИБЛИОТЕКИ ДИСЦИПЛИНЫ
Евдокимова Инга Сергеевна
канд. техн. наук, доц., Восточно-Сибирский государственный университет технологий и управления,
РФ, г. Улан-Удэ
Елизова Мария Владимировна
студент, Восточно-Сибирский государственный университет технологий и управления,
РФ, г. Улан-Удэ
SERVICE FOR AUTOMATIC FORMATION OF THE DISCIPLINE'S MEDIA LIBRARY
Inga Evdokimova
candidate of technical sciences, associate Professor, East Siberia State University of Technology and Management,
Russia, Ulan-Ude
Maria Elizova
Student, East Siberia State University of Technology and Management,
Russia, Ulan-Ude
АННОТАЦИЯ
Статья посвящена разработке сервиса автоматического формирования медиа-библиотеки дисциплины. В ходе работы был разработан алгоритм работы сервиса, который основывается на методах выделения ключевых слов рабочей программы дисциплины, поиска подходящих видео-уроков на интернет-ресурсах, методах транскрибации текстового видеоряда и определения семантической близости текстов.
ABSRACT
The article is devoted to the development of a service for the automatic formation of the discipline's media library. In the course of the work, the algorithm of the service was developed, which is based on the methods of highlighting the keywords of the discipline's work program, searching for suitable video lessons on Internet resources, methods of transcribing a text video sequence, improving the quality of the received text and determining the semantic proximity of texts.
Ключевые слова: транскрибация, обработка естественного-языкового текста, семантическая близость.
Keywords: transcription, natural language text processing, semantic proximity.
Введение
Целевая модель цифровой образовательной среды предполагает необходимость предоставления обучающимся возможности для построения индивидуальных учебных планов, реализация которых обеспечит возможность формировать индивидуальные образовательные траектории. Ключевой основой для этого выступает платформа цифровой образовательной среды, включая всю ее инфраструктуру: информационные системы и ресурсы, цифровой образовательный контент, данные участников образовательного процесса.
Внедрение дистанционных технологий в учебный процесс сегодня является трендом в развитии системы образования ХХІ века. Видео-уроки и онлайн-лекции – основа когнитивного развития. Создание видеотеки по дисциплине позволит закреплять полученные теоретические и практические знания. Создание различных моделей индивидуализации образовательного маршрута, обучающегося является требованием современных образовательных стандартов. Расширение методической составляющей дисциплины позволит каждому обучающемуся строить свою траекторию обучения: изучать минимальный объем или расширять уровень знаний, опираясь на предложенные учебные материалы.
В сети Интернет есть достаточно много видео уроков, которые могли бы быть использованы в учебном процессе. Однако, чтобы найти среди них наиболее релевантный рабочей программе дисциплины видео-урок потребуется не один день. Поэтому сегодня достаточно актуальны вопросы подбора и создания медиатеки из интернет-ресурсов в автоматическом режиме.
Проблематика разработки сервиса
Источником комплектования медиа-библиотеки будут ресурсы Интернета, а именно веб-сайт YouTube. Первое понятие, которое необходимо изучить при разработке системы – это поиск по ключевым словам.
При поиске, по ключевым словам, в поле поиска вводится одно или несколько ключевых слов, которые являются главными для искомого документа. После отправки запроса поисковая система вернет аннотированный список URL-адресов видео-уроков, в которых были найдены указанные ключевые слова.
Следующим требуемыми средствами являются инструменты транскрибации, осуществляющие перевод видеоинформации в текст. Если видео поддерживает субтитры, то получить его расшифровку можно прямо на сайте YouTube. Чаще всего такие субтитры автоматически генерируемые. Для его получения требуется на странице ролика кликнуть на «Посмотреть расшифровку видео», после чего текст можно скопировать и использовать для дальнейшего использования.
Если субтитры отсутствуют, то требуется использовать сторонние средства. Например, онлайн средства голосовой записи документов: Google[1] Docs, Speechpad, Dictation.io или плееры для расшифровки текста: LossPlay, Express Scribe.
Для получения высокоточной транскрипции, на видео должны отсутствовать любые посторонние шумы или лектор должен обладать хорошей дикцией. Это не всегда так, поэтому расшифровку необходимо подвергнуть дополнительному анализу для получения семантически целостного правильного текста.
Таким образом, основными средствами разрабатываемого сервиса являются средства обработки естественного языка [1, 2].
Рассмотрим алгоритм работы сервиса с детализацией основных этапов обработки текста. В сервис загружается рабочая программа по дисциплине (РПД), с помощью средств Text Mining из текста РПД выделяются ключевые слова, на основе которых будет осуществляться поиск подходящих видео-уроков и онлайн-лекций в сети Интернет. После получения текстовой расшифровки видео и ее корректировки, будет производиться расчет семантической близости расшифровки с текстом рабочей программы дисциплины. Высокий коэффициент семантической близости будет свидетельствовать, что видео соответствует требуемой тематике и может быть включено в медиа-библиотеку изучаемой дисциплины.
Особенности распознавания речи и транскрибации
На сегодняшний день существует множество готовых продуктов для распознавания голоса от ведущих компаний, которые можно использовать в своих проектах. Например, в России самыми популярными облачными сервисами, которые предлагают речевые технологии являются: Yandex SpeechKit и Tinkoff VoiceKit, но данные продукты являются платными. Популярные открытые продукты: Silero Speech (принимает только предложения, модели не умеют работать с числами написанными цифрами), SOVA (большие временные затраты на обработку).
При решении вопроса получения транскрибации видео возникают следующие проблемы: некорректность готовых систем распознавания при работе с русским языком, качество исходного видео, присутствие посторонних шумов, дефекты речи рассказывающего.
В первую очередь необходимо извлечь их видео файла звуковую дорожку, для более быстрой обработки, после этого можно использовать цифровые данные для конвертации аудио в текст. В языке Python есть специальные пакеты для распознавания речи, но проблема их использования в том, что в основном они натренированы для распознавания английского языка. Некоторые из таких пакетов, например wit и apiai, предлагают обработку на естественном языке для определения намерений говорящего, которые выходят за рамки базового распознавания речи. Другие, такие как, google[2]-cloud-speech, сосредоточены исключительно на преобразовании речи в текст.
SpeechRecognition - пакет, используемый для создания сценария для доступа к микрофонам и обработки аудиофайлов с нуля, именно опираясь на его работу, была выполнена реализация.
Любая аудиозапись будет иметь свою степень шума, и шум без дополнительной обработки будет нарушать точность получения текстового файла. Для избежания такой проблемы необходимо, используя метод adjust_for_ambient_noise() класса Recognizer, избавиться от общего шума и посекундно считывать поток файла и калибровать распознаватель по уровню шума.
Если невозможно устранить влияние шума - сигнал слишком громкий, или с большим количеством шумов, то требуется предварительно обработать аудио файл. Для этих действий можно использовать программное обеспечение для редактирования аудио или реализовать собственный обработчик. Сделать это можно, используя пакет Python SciPy. Для работы с русской речью эффективнее использовать готовые словари.
Метод косинусных мер как средство анализа текста
Для реализации анализа целостности и связности, дальнейшего повышения качества и поиска семантической близости текстов хорошо подойдет метод косинусных мер [3]. Метод ищет сходство путем измерения косинус угла между двумя векторами A и B. Косинусное сходство, cos(θ), может быть представлено, используя скалярное произведение и норму, по следующей формуле:
где А и В – числовые вектора.
В случае информационного поиска, косинусное сходство двух документов изменяется в диапазоне от 0 до 1.
Алгоритм нахождения косинусной меры:
Шаг 1. Расчет частотности посредством применения «мешочка» слов.
Шаг 2. Нормализация термин частоты с соответствующими величинами. Для этого суммируются квадраты частоты каждого слова и рассчитывается квадратный корень.
Шаг 3. После нормализации двух векторов на длину 1, можно вычислить косинусное сходство с точечным произведением.
При использовании косинусного сходства для анализа текста в разрабатываемом сервисе необходимо найти косинусное сходство между каждым рядом стоящим словом. Тогда, если у слова с левой и правой стороны косинусное сходство высокое, то будем считать, что слово распознано верно, в противном случает выделяем участок цветом. После прохождения по всему файлу, нужно оценить количество выделенных участков, если таковые превышают 30% - текст будем считать не связным, значит необходимо повысить его качество.
Для повышения качества нужно заменить все выделенные слова (с косинусным сходством, стремящимся к нолю с двух сторон), на подходящие. Здесь используется косинусная мера и готовый словарь, для слова рядом стоящего с «выделенным» ищется такое слово, косинусное сходство которого высоко как с первым словом, так и со словом, идущим после «выделенного».
Также для повышения качества решено разделить текст – расшифровку видео, на предложения. Будем считать, что выделенные, после поиска косинусных мер, участки текста с двумя рядом стоящими словами и будут являться концом и началом соседних предложений.
В чистом виде этот способ будет эффективно использоваться для поиска семантической близости итоговых текстов (выполнения основной цели разрабатываемого сервиса), расшифровки видео и рабочей программы дисциплины.
Алгоритм работы сервиса
На рисунке 1 показана схема работы сервиса с указанием используемых средств разработки.
Рисунок 1. Схема работы сервиса
Для построения списка ключевых слов был использован инструментарий библиотеки pymorphy2. Список ключевых слов передается на этап поиска видео-файлов, для чего была использована библиотека youtube-searc-python. Найденный видеофайл передается на процесс транскрибации (SpeechRecognitio). Повышение качества расшифрованного текста осуществлялось на основе Word2Vec.
Вычислительные эксперименты
Для подтверждения корректности разработанного алгоритма и методов были проведены вычислительные эксперименты.
Для тестирования были выбраны рабочие программы по трем дисциплинам: «Тестирование и отладка программного обеспечения», «Метрология и качество программного обеспечения» и «Теоретические основы обработки естественно-языкового текста».
В таблице 1 представлен результат тестирования по рабочей программе дисциплины «Тестирование и отладка программного обеспечения». Анализируя столбцы «Косинусное расстояние» (результат выполнения программы) и «Экспертная оценка» (оценка подборки преподавателем) можно определить эффективность программы. Если косинусное расстояние стремится к 0 (меньше 0,6), то видео является не подходящим по смыслу, в обратном случае, полностью соответствует заданной тематике.
Таблица 1.
Результат тестирования 1
№ |
Название видео |
Ссылка |
Косинусное расстояние |
Экспертная оценка |
1 |
Unit тестирование в С#. Как создать Unit тест в C# |
https://www.youtube.com/watch?v=p3EUhUjv2LM |
0,98 |
+ |
2 |
Модульное тестирование и контрактное программирование на чистом Си |
https://www.youtube.com/watch?v=yO1rvJH6jlI |
0,242 |
+ |
3 |
Что делает тестировщик? Тестирование на примере |
https://www.youtube.com/watch?v=bxcvLJf19bQ |
0,22 |
+ |
Результаты тестирования сервиса по двум другим дисциплинам представлены в таблицах 2 и 3 соответственно.
Таблица 2.
Результаты тестирования 2
№ |
Название видео |
Ссылка |
Косинусное расстояние |
Экспертная оценка |
1 |
Управление рабочим процессом команды разработки через метрики |
https://www.youtube.com/watch?v=_qANFYuQsoY |
0,86 |
+ |
2 |
Все о Рабочей Программе |
https://www.youtube.com/watch?v=BJGs_HwLYZk |
0,99 |
- |
3 |
Python на практике Пишем 3 программы на Питон за 5 минут |
https://www.youtube.com/watch?v=uFzNc7D44HI |
0,240 |
+ |
Таблица 3.
Результаты тестирования 3
№ |
Название видео |
Ссылка |
Косинусное расстояние |
Экспертная оценка |
1 |
Математизация теоретического знания - Философия науки для аспирантов |
https://www.youtube.com/watch?v=YQHg0p-IFGE |
0,23 |
+ |
2 |
Как написать первую главу (теоретическую часть) |
https://www.youtube.com/watch?v=dSCJFwPrEqw |
0,22 |
+ |
3 |
Практикум по анализу художественного текста |
https://www.youtube.com/watch?v=6KtKIIXgtmE |
0,14 |
+ |
Во всех трёх случаях тестирования экспертная оценка найденной подборки полностью совпала с оценкой сервиса.
Во всех подборках один из трех найденных файлов оказывался полностью неподходящим несмотря на то, что в названии присутствовали слова, соответствующие частотному словарю заданного документа. Это объясняется такими особенностями русского языка как: присутствие омонимов и использование одинаковых слов в текстах с разным смыслом.
Таким образом, разработанный сервис позволяет найти видеоматериалы по заданной тематике и, проанализировав его содержимое, выдать результат семантической близости с рабочей программой дисциплины.
Заключение
В ходе исследования был реализован программный продукт для подбора медиа ресурсов сети Интернет по изучаемым дисциплинам. Проект был выполнен на языке Python. Разработанный сервис позволяет находить подходящие видео-уроки на канале YouTube к предварительно загруженной рабочей программе по дисциплине. Достоинством сервиса является наличие не только ссылок на видео, но и загрузка его физической копии в медиа-библиотеку. Такой сервис позволит формировать и пополнять медиа-библиотеки по учебным дисциплинам или определенным темам. Эти библиотеки помогут разнообразить способы предоставления информации, смогут послужить дополнительным источником знаний, что особо актуально в период дистанционного обучения.
Список литературы:
- Апресян, Ю.Д. Идеи и методы современной структурной лингвистики / Ю.Д. Апресян. – М.: Просвещение, 2018. - 300 с.
- Афифи, А. Статистический анализ: Подход с использованием ЭВМ / А. Афифи, С. Эйзен. – М.: Мир, 2018. - 488 с.
- Игнатов, Г. Текст Майнинг. Интеллектуальный анализ текста. Дизайн исследований, сбор данных и методы анализа/ Г. Игнатов,
Р. Михальча. – Гуманитарный центр, 2021 г. - 344 с.
[1] по требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google, является нарушителем законодательства Российской Федерации – прим.ред.
[2] по требованию Роскомнадзора информируем, что иностранное лицо, владеющее информационными ресурсами Google, является нарушителем законодательства Российской Федерации – прим.ред.