References

dsait

Цифровые решения и технологии искусственного интеллекта

Digital Solutions and Artificial Intelligence Technologies

3033-7097

Финансовый университет при Правительстве Российской Федерации

10.26794/3033-7097-2025-1-4-6-15

dsait-26

Research Article

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ

ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING

Современные методы обработки документов для расчета биржевых индикаторов

Modern methods of Document processing for Calculating Stock Market indicators

https://orcid.org/0000-0002-6375-0365

Болтачев

Э. Ф.

Boltachev

E. F.

Эльдар Филаридович Болтачев — кандидат технических наук, доцент кафедры искусственного интеллекта факультета информационных технологий и анализа больших данных

Москва

Eldar F. Boltachev — Cand. Sci. (Tech.), Assoc. Prof. of Artificial Intelligence Department of the Faculty of Information Technology and Big Data Analysis

Moscow

efboltachev@fa.ru

https://orcid.org/0009-0008-0534-0342

Тюляков

А. И.

Tyulyakov

A. I.

Александр Игоревич Тюляков — cтудент программы магистратуры кафедры искусственного интеллекта факультета информационных технологий и анализа больших данных

Москва

Alexander I. Tyulyakov — Master Programme Student of Artificial Intellegence Department of the Faculty of Information Technologies and Big Data Analysis

Moscow

244447@edu.fa.ru

Финансовый университет при Правительстве Российской ФедерацииFinancial University under the Government of the Russian Federation

2025

23012026

14615

2026

Болтачев Э.Ф., Тюляков А.И.

Boltachev E.F., Tyulyakov A.I.

Данная работа распространяется под лицензией Creative Commons Attribution 4.0.

This work is licensed under a Creative Commons Attribution 4.0 License.

https://www.digitarin.ru/jour/article/view/26

В данной статье рассматриваются современные методы экстраполяции предобученных трансформеров, направленные на повышение их способности обрабатывать длинные, а также короткие текстовые последовательности на русском языке в финансовой сфере. Особое внимание уделяется задаче классификации текстов, отражающих ожидания брокерских аналитиков относительно движения рынка (ожидание роста, падения либо неопределенности изменения). Для решения данной задачи исследуется применение облегченных языковых моделей ruBERT-tiny1 и ruBERT-tiny2, адаптированных для эффективной работы с большим объемом входных данных при сохранении качества предсказаний. В работе анализируются различные подходы к расширению контекстного окна моделей, включая методы экстраполяции, а также рассматривается влияние стратегий токенизации, векторизации и эмбеддингов на итоговые результаты классификации. Дополнительно обсуждаются особенности применения трансформеров в условиях повышенной волатильности рынка и изменяющихся новостных потоков, что позволяет глубже оценить устойчивость предлагаемых решений. Кроме того, предлагается и обсуждается формула расчета опережающего индикатора для биржевых рынков, демонстрирующая практическую значимость использования трансформерных моделей в анализе финансовых текстов и формировании аналитических метрик. Представленные результаты подчеркивают перспективность применения компактных трансформеров в задачах предиктивной финансовой аналитики. Пул брокеров образует выборку мнений в виде текста с определенным смыслом, последовательность слов позволяет оценивать возможные ожидания на финансовом рынке совершенно нелинейным методом. Решение задачи обработки длинных последовательностей токенов актуально, конкретного универсального метода решения данной проблемы нет. Одним из вариантов решения задачи обработки естественного языка NLP на практике является ряд предобученных языковых моделей. Применение предобученных языковых моделей позволяет решать различные задачи классификации, исследуя тексты различных контекстов. В рамках исследования применяется метод экстраполяции предобученных трансформеров для изучения точности классификации и времени обучения, в зависимости от количества токенов в контекстном окне модели. Полученные данные могут быть использованы для дальнейших исследований и построения математической модели расчета опережающих индикаторов на рынке.

This article discusses modern methods of extrapolating pre-trained transformers aimed at improving their ability to process long and short text sequences in Russian in the financial sector. Particular attention is paid to the task of classifying texts that reflect broker analysts’ expectations regarding market movements (expectations of growth, decline, or uncertainty of change). To solve this problem, the application of lightweight language models ruBERTtiny1 and ruBERT-tiny2 is investigated, which are adapted to work effectively with large amounts of input data while maintaining prediction quality. The paper analyzes various approaches to expanding the contextual window of models, including extrapolation methods, and considers the impact of tokenization, vectorization, and embedding strategies on the final classification results. Additionally, the paper discusses the peculiarities of using transformers in conditions of increased market volatility and changing news flows, which allows for a more in-depth assessment of the stability of the proposed solutions. Furthermore, a formula for calculating a leading indicator for stock markets is proposed and discussed, demonstrating the practical significance of using transformer models in the analysis of financial texts and the formation of analytical metrics. The presented results highlight the promising application of compact transformers in predictive financial analytics tasks.

токенизациятокеныязыковые моделиэсктраполяцияпоследовательностьвекторизацияэмбеддинги

tokenizationtokenslanguage modelsextrapolationsequencevectorizationembeddings

References1

Липатова С.В., Бочкарева Ю.Е. Использование NLP для разработки электронных учебно-методических материалов. Аллея науки. 2023;4(79):926-931. URL: https://www.elibrary.ru/item.asp?id=54082726

Lipatova S.V., Bochkareva Yu.E. Using NLP for the development of electronic teaching and methodological materials. Alley of Science. 2023;4(79):926-931. URL: https://www.elibrary.ru/item.asp?id=54082726

Панкратова М.Д., Сковпель Т.Н. Модели NLP с использованием нейронных сетей в анализе тональности новостей. Аналитические технологии в социальной сфере: Теория и Практика. 2023;(15):97-107. URL: https://www.elibrary.ru/ctabku

Pankratova M.D., Skovpel T.N. NLP models using neural networks in news sentiment analysis. Analytical technologies in the social sphere: Theory and Practice. 2023;(15):97-107. URL: https://www.elibrary.ru/ctabku

Рыскин К.Э., Вечканова Ю.С., Федосин С.А. Обработка товарных номенклатур из отчетов дистрибьюторов с использованием NLP. Материалы XXV научно-практической конференции молодых ученых, аспирантов и студентов Национального исследовательского Мордовского государственного университета. Саранск: Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва; 2022:271–276; URL: https://elibrary.ru/item.asp?id=54051425

Ryskin K.E., Vechkanova Y.S., Fedosin S.A. Processing of product items from distributors’ reports using NLP. Proceedings of the XXV Scientific and Practical Conference of Young Scientists, Postgraduate Students and Students of the National Research Mordovian State University. Saransk: National Research Mordovian State University named after N.P. Ogarev, 2022;271-276; URL: https://elibrary.ru/item.asp?id=54051425

Дубровский В.В., Карманова Е.В. Проект разработки интеллектуального онлайн-сервиса для реферирования текстовых документов с использованием NLP. Управление проектами. Сборник статей по материалам II Всероссийской научной конференции, Магнитогорск, 01–03 декабря 2023 г. Магнитогорск: Магнитогорский государственный технический университет им. Г.И. Носова; 2024;37–45. URL: https://elibrary.ru/item.asp?id=60647866

Dubrovsky V.V., Karmanova E.V. Project for the Development of an Intelligent Online Service for Abstracting Text Documents Using NLP. Project Management. Proceedings of the II All-Russian Scientific Conference, Magnitogorsk, December 01–03, 2023. Magnitogorsk: Magnitogorsk State Technical University named after G.I. Nosov; 2024:37-45. URL: https://elibrary.ru/item.asp?id=60647866

Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units. Proceedings of ACL. 2016;1715–1725. DOI: 10.48550/arXiv.1508.07909

Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units. Proceedings of ACL. 2016;1715-1725. DOI: 10.48550/arXiv.1508.07909

Song X., Salcianu A., Song Y., Dopson D., Zhou D. Fast WordPiece Tokenization. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2021:2089–2103. URL: https://aclanthology.org/2021.emnlp-main.160/

Song X., Salcianu A., Song Y., Dopson D., Zhou D. Fast WordPiece Tokenization. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2021;2089-2103. URL: https://aclanthology.org/2021.emnlp-main.160/

Vemula S.R., Sharma D.M., Krishnamurthy P. Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment.arXiv preprint; 2025:arХiv:2508.08424. DOI: 10.48550/arXiv.2508.08424

Vemula S.R., Sharma D.M., Krishnamurthy P. Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment. 2025; URL: https://arxiv.org/abs/2508.08424

Condevaux C., Harispe S. LSG Attention: Extrapolation of Pretrained Transformers to Long Sequences. In: Kashima, H., Ide, T., Peng, WC., eds. Advances in Knowledge Discovery and Data Mining. PAKDD 2023. Lecture Notes in Computer Science. 2023;13935:443–454. DOI: 10.1007/978-3-031-33374-3_35

Марков А.К., Семеночкин Д.О., Кравец А.Г., Яновский Т.А. Сравнительный анализ применяемых технологий обработки естественного языка для улучшения качества классификации цифровых документов. International Jornal of Information Technologies. 2024;12(3):66–77. URL: https://www.elibrary.ru/tubosi

Markov A.K., Semenochkin D.O., Kravets A.G., Yanovsky T.A. Comparative analysis of applied natural language processing technologies to improve the quality of digital document classification. International Journal of Information Technologies. 2024;12(3):66-77. URL: https://www.elibrary.ru/tubosi

The authors declare that there are no conflicts of interest present.