Preview

Цифровые решения и технологии искусственного интеллекта

Расширенный поиск

Современные методы обработки документов для расчета биржевых индикаторов

https://doi.org/10.26794/3033-7097-2025-1-4-6-15

Аннотация

В данной статье рассматриваются современные методы экстраполяции предобученных трансформеров, направленные на повышение их способности обрабатывать длинные, а также короткие текстовые последовательности на русском языке в финансовой сфере. Особое внимание уделяется задаче классификации текстов, отражающих ожидания брокерских аналитиков относительно движения рынка (ожидание роста, падения либо неопределенности изменения). Для решения данной задачи исследуется применение облегченных языковых моделей ruBERT-tiny1 и ruBERT-tiny2, адаптированных для эффективной работы с большим объемом входных данных при сохранении качества предсказаний. В работе анализируются различные подходы к расширению контекстного окна моделей, включая методы экстраполяции, а также рассматривается влияние стратегий токенизации, векторизации и эмбеддингов на итоговые результаты классификации. Дополнительно обсуждаются особенности применения трансформеров в условиях повышенной волатильности рынка и изменяющихся новостных потоков, что позволяет глубже оценить устойчивость предлагаемых решений. Кроме того, предлагается и обсуждается формула расчета опережающего индикатора для биржевых рынков, демонстрирующая практическую значимость использования трансформерных моделей в анализе финансовых текстов и формировании аналитических метрик. Представленные результаты подчеркивают перспективность применения компактных трансформеров в задачах предиктивной финансовой аналитики. Пул брокеров образует выборку мнений в виде текста с определенным смыслом, последовательность слов позволяет оценивать возможные ожидания на финансовом рынке совершенно нелинейным методом. Решение задачи обработки длинных последовательностей токенов актуально, конкретного универсального метода решения данной проблемы нет. Одним из вариантов решения задачи обработки естественного языка NLP на практике является ряд предобученных языковых моделей. Применение предобученных языковых моделей позволяет решать различные задачи классификации, исследуя тексты различных контекстов. В рамках исследования применяется метод экстраполяции предобученных трансформеров для изучения точности классификации и времени обучения, в зависимости от количества токенов в контекстном окне модели. Полученные данные могут быть использованы для дальнейших исследований и построения математической модели расчета опережающих индикаторов на рынке.

Об авторах

Э. Ф. Болтачев
Финансовый университет при Правительстве Российской Федерации
Россия

Эльдар Филаридович Болтачев — кандидат технических наук, доцент кафедры искусственного интеллекта факультета информационных технологий и анализа больших данных

Москва



А. И. Тюляков
Финансовый университет при Правительстве Российской Федерации
Россия

Александр Игоревич Тюляков — cтудент программы магистратуры кафедры искусственного интеллекта факультета информационных технологий и анализа больших данных

Москва



Список литературы

1. Липатова С.В., Бочкарева Ю.Е. Использование NLP для разработки электронных учебно-методических материалов. Аллея науки. 2023;4(79):926-931. URL: https://www.elibrary.ru/item.asp?id=54082726

2. Панкратова М.Д., Сковпель Т.Н. Модели NLP с использованием нейронных сетей в анализе тональности новостей. Аналитические технологии в социальной сфере: Теория и Практика. 2023;(15):97-107. URL: https://www.elibrary.ru/ctabku

3. Рыскин К.Э., Вечканова Ю.С., Федосин С.А. Обработка товарных номенклатур из отчетов дистрибьюторов с использованием NLP. Материалы XXV научно-практической конференции молодых ученых, аспирантов и студентов Национального исследовательского Мордовского государственного университета. Саранск: Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва; 2022:271–276; URL: https://elibrary.ru/item.asp?id=54051425

4. Дубровский В.В., Карманова Е.В. Проект разработки интеллектуального онлайн-сервиса для реферирования текстовых документов с использованием NLP. Управление проектами. Сборник статей по материалам II Всероссийской научной конференции, Магнитогорск, 01–03 декабря 2023 г. Магнитогорск: Магнитогорский государственный технический университет им. Г.И. Носова; 2024;37–45. URL: https://elibrary.ru/item.asp?id=60647866

5. Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units. Proceedings of ACL. 2016;1715–1725. DOI: 10.48550/arXiv.1508.07909

6. Song X., Salcianu A., Song Y., Dopson D., Zhou D. Fast WordPiece Tokenization. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2021:2089–2103. URL: https://aclanthology.org/2021.emnlp-main.160/

7. Vemula S.R., Sharma D.M., Krishnamurthy P. Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment.arXiv preprint; 2025:arХiv:2508.08424. DOI: 10.48550/arXiv.2508.08424

8. Condevaux C., Harispe S. LSG Attention: Extrapolation of Pretrained Transformers to Long Sequences. In: Kashima, H., Ide, T., Peng, WC., eds. Advances in Knowledge Discovery and Data Mining. PAKDD 2023. Lecture Notes in Computer Science. 2023;13935:443–454. DOI: 10.1007/978-3-031-33374-3_35

9. Марков А.К., Семеночкин Д.О., Кравец А.Г., Яновский Т.А. Сравнительный анализ применяемых технологий обработки естественного языка для улучшения качества классификации цифровых документов. International Jornal of Information Technologies. 2024;12(3):66–77. URL: https://www.elibrary.ru/tubosi


Рецензия

Для цитирования:


Болтачев Э.Ф., Тюляков А.И. Современные методы обработки документов для расчета биржевых индикаторов. Цифровые решения и технологии искусственного интеллекта. 2025;1(4):6-15. https://doi.org/10.26794/3033-7097-2025-1-4-6-15

For citation:


Boltachev E.F., Tyulyakov A.I. Modern methods of Document processing for Calculating Stock Market indicators. Digital Solutions and Artificial Intelligence Technologies. 2025;1(4):6-15. (In Russ.) https://doi.org/10.26794/3033-7097-2025-1-4-6-15

Просмотров: 49

JATS XML


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 3033-7097 (Online)