Автоматическое извлечение наиболее значимых (по смыслу), содержательных фрагментов научно-технических текстов является важной задачей аннотирования документов. Исследователь или аналитик вместо прочтения документа целиком на ранней стадии может ознакомиться с ключевыми положениями статьи, автореферата, патента или диссертации, чтобы определить, соответствует ли документ его информационной потребности, стоит ли тратить время на его детальный анализ. Кроме того, результат извлечения содержательных фрагментов научно-технических текстов может быть использован для подготовки резюме как отдельных документов [1,2], так и множеств документов. Если значимые фрагменты текстов подаются на вход большой языковой (генеративной) модели (БЯМ), то этот подход называется RAG[3].
Существуют разные способы выделения значимых фрагментов текстов. Согласно исследованиям, формулировки определений и полученных результатов в тексте научной статьи важны с точки зрения понимания её смысла [4, 5].
Классические реализации метода извлечения результатов [4, 5] для русского языка основаны на использовании правил, лексических и грамматических маркеров (слов, словосочетаний, синтаксических конструкций). Однако такой подход, будучи реализованным для русского языка, неприменим для текстов на других языках.
Пример работы существующей системы (
https://sciapp.ru/ ) на основе алгоритма на правилах приведён на рисунке выше.
Современные подходы позволяют решать сформулированную задачу различными методами машинного обучения (например, с использованием LSTM или классификаторов на основе векторных представлений текстов). Но для решения этой задачи необходимо составить большой корпус размеченных текстов, из которых выделены результаты.
При этом составление корпуса вручную является трудоёмкой и дорогостоящей задачей (в качестве асессоров должны выступать специалисты в соответствующих отраслях знаний, имеющие высшее образование и т.п.). Что нецелесообразно.
Для создания размеченного корпуса определений можно использовать БЯМ. В качестве набора научных текстов предлагается использовать
http://nlp.isa.ru/fulltext_datasets/russian_journals_ml_dataset.tar.gz. В качестве БЯМ можно использовать любую открытую реализацию через API. Предлагается реализовать для каждого текста следующую процедуру:
I. Подача текста в БЯМ с промптом "Какие результаты получены в этом тексте? Отвечай предложениями исходного текста!" (
поле для исследований и творчества).
II. Наложение ответа БЯМ на текст с указанием позиций (в абсолютных смещениях начала и конца фрагмента от начала текста).
Задание:1. Реализуйте предложенный метод для двух или более БЯМ.
2. Выполните эксперименты на наборе данных.
3. Сопоставьте результаты разных БЯМ, полученные разными промптами.
Дополнительное задание (с *****):1. Возьмите какую-либо модель (BERT для русского языка, doc_enc[5] и т.п. ) и реализуйте классификатор (результат - не результат) на его основе.
2. Выполните эксперименты на полученном наборе данных.
3. Рассчитайте метрики (полнота, точность) выделения результатов на наборе данных.
Источники.1 http://www.machinelearning.ru/wiki/images/e/e4/Voron-2019-10-24-human-machine.pdf
2. Osipov G. et al. Exactus expert—search and analytical engine for research and development support //Novel Applications of Intelligent Systems. – 2016. – С. 269-285.
3. Gao Y. et al. Retrieval-augmented generation for large language models: A survey //arXiv preprint arXiv:2312.10997. – 2023. – Т. 2.
4. Швец А. В. Взаимодействие информационных и лингвистических методов в задачах анализа качества научных текстов : дис. – Фед. исслед. центр" Информатика и управление" РАН, 2015.
5. Кузнецова, Ю. М., Осипов, Г. С., Чудова, Н. В., & Швец, А. В. (2012). Автоматическое установление соответствия статей требованиям к научным публикациям. Труды Института системного анализа Российской академии наук, 62(3), 132-138.
6. https://github.com/SemVectors/doc_enc
Контакт для связи:
https://t.me/ivsochenkov +7 909 650 52 90 Илья Соченков, к.ф.-м.н.