<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.3 20210610//EN" "JATS-journalpublishing1-3.dtd">
<article article-type="research-article" dtd-version="1.3" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">dsait</journal-id><journal-title-group><journal-title xml:lang="ru">Цифровые решения и технологии искусственного интеллекта</journal-title><trans-title-group xml:lang="en"><trans-title>Digital Solutions and Artificial Intelligence Technologies</trans-title></trans-title-group></journal-title-group><issn pub-type="epub">3033-7097</issn><publisher><publisher-name>Финансовый университет при Правительстве Российской Федерации</publisher-name></publisher></journal-meta><article-meta><article-id pub-id-type="doi">10.26794/3033-7097-2025-1-4-6-15</article-id><article-id custom-type="elpub" pub-id-type="custom">dsait-26</article-id><article-categories><subj-group subj-group-type="heading"><subject>Research Article</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="ru"><subject>ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И МАШИННОЕ ОБУЧЕНИЕ</subject></subj-group><subj-group subj-group-type="section-heading" xml:lang="en"><subject>ARTIFICIAL INTELLIGENCE AND MACHINE LEARNING</subject></subj-group></article-categories><title-group><article-title>Современные методы обработки документов для расчета биржевых индикаторов</article-title><trans-title-group xml:lang="en"><trans-title>Modern methods of Document processing for Calculating Stock Market indicators</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0002-6375-0365</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Болтачев</surname><given-names>Э. Ф.</given-names></name><name name-style="western" xml:lang="en"><surname>Boltachev</surname><given-names>E. F.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Эльдар Филаридович Болтачев — кандидат технических наук, доцент кафедры искусственного интеллекта факультета информационных технологий и анализа больших данных</p><p>Москва</p></bio><bio xml:lang="en"><p>Eldar F. Boltachev — Cand. Sci. (Tech.), Assoc. Prof. of Artificial Intelligence Department of the Faculty of Information Technology and Big Data Analysis</p><p>Moscow</p></bio><email xlink:type="simple">efboltachev@fa.ru</email><xref ref-type="aff" rid="aff-1"/></contrib><contrib contrib-type="author" corresp="yes"><contrib-id contrib-id-type="orcid">https://orcid.org/0009-0008-0534-0342</contrib-id><name-alternatives><name name-style="eastern" xml:lang="ru"><surname>Тюляков</surname><given-names>А. И.</given-names></name><name name-style="western" xml:lang="en"><surname>Tyulyakov</surname><given-names>A. I.</given-names></name></name-alternatives><bio xml:lang="ru"><p>Александр Игоревич Тюляков — cтудент программы магистратуры кафедры искусственного интеллекта факультета информационных технологий и анализа больших данных</p><p>Москва</p></bio><bio xml:lang="en"><p>Alexander I. Tyulyakov — Master Programme Student of Artificial Intellegence Department of the Faculty of Information Technologies and Big Data Analysis</p><p>Moscow</p></bio><email xlink:type="simple">244447@edu.fa.ru</email><xref ref-type="aff" rid="aff-1"/></contrib></contrib-group><aff-alternatives id="aff-1"><aff xml:lang="ru"><institution>Финансовый университет при Правительстве Российской Федерации</institution></aff><aff xml:lang="en"><institution>Financial University under the Government of the Russian Federation</institution></aff></aff-alternatives><pub-date pub-type="collection"><year>2025</year></pub-date><pub-date pub-type="epub"><day>23</day><month>01</month><year>2026</year></pub-date><volume>1</volume><issue>4</issue><fpage>6</fpage><lpage>15</lpage><permissions><copyright-statement>Copyright &amp;#x00A9; Болтачев Э.Ф., Тюляков А.И., 2026</copyright-statement><copyright-year>2026</copyright-year><copyright-holder xml:lang="ru">Болтачев Э.Ф., Тюляков А.И.</copyright-holder><copyright-holder xml:lang="en">Boltachev E.F., Tyulyakov A.I.</copyright-holder><license xml:lang="ru" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>Данная работа распространяется под лицензией Creative Commons Attribution 4.0.</license-p></license><license xml:lang="en" license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/" xlink:type="simple"><license-p>This work is licensed under a Creative Commons Attribution 4.0 License.</license-p></license></permissions><self-uri xlink:href="https://www.digitarin.ru/jour/article/view/26">https://www.digitarin.ru/jour/article/view/26</self-uri><abstract><p>В данной статье рассматриваются современные методы экстраполяции предобученных трансформеров, направленные на повышение их способности обрабатывать длинные, а также короткие текстовые последовательности на русском языке в финансовой сфере. Особое внимание уделяется задаче классификации текстов, отражающих ожидания брокерских аналитиков относительно движения рынка (ожидание роста, падения либо неопределенности изменения). Для решения данной задачи исследуется применение облегченных языковых моделей ruBERT-tiny1 и ruBERT-tiny2, адаптированных для эффективной работы с большим объемом входных данных при сохранении качества предсказаний. В работе анализируются различные подходы к расширению контекстного окна моделей, включая методы экстраполяции, а также рассматривается влияние стратегий токенизации, векторизации и эмбеддингов на итоговые результаты классификации. Дополнительно обсуждаются особенности применения трансформеров в условиях повышенной волатильности рынка и изменяющихся новостных потоков, что позволяет глубже оценить устойчивость предлагаемых решений. Кроме того, предлагается и обсуждается формула расчета опережающего индикатора для биржевых рынков, демонстрирующая практическую значимость использования трансформерных моделей в анализе финансовых текстов и формировании аналитических метрик. Представленные результаты подчеркивают перспективность применения компактных трансформеров в задачах предиктивной финансовой аналитики. Пул брокеров образует выборку мнений в виде текста с определенным смыслом, последовательность слов позволяет оценивать возможные ожидания на финансовом рынке совершенно нелинейным методом. Решение задачи обработки длинных последовательностей токенов актуально, конкретного универсального метода решения данной проблемы нет. Одним из вариантов решения задачи обработки естественного языка NLP на практике является ряд предобученных языковых моделей. Применение предобученных языковых моделей позволяет решать различные задачи классификации, исследуя тексты различных контекстов. В рамках исследования применяется метод экстраполяции предобученных трансформеров для изучения точности классификации и времени обучения, в зависимости от количества токенов в контекстном окне модели. Полученные данные могут быть использованы для дальнейших исследований и построения математической модели расчета опережающих индикаторов на рынке.</p></abstract><trans-abstract xml:lang="en"><p>This article discusses modern methods of extrapolating pre-trained transformers aimed at improving their ability to process long and short text sequences in Russian in the financial sector. Particular attention is paid to the task of classifying texts that reflect broker analysts’ expectations regarding market movements (expectations of growth, decline, or uncertainty of change). To solve this problem, the application of lightweight language models ruBERTtiny1 and ruBERT-tiny2 is investigated, which are adapted to work effectively with large amounts of input data while maintaining prediction quality. The paper analyzes various approaches to expanding the contextual window of models, including extrapolation methods, and considers the impact of tokenization, vectorization, and embedding strategies on the final classification results. Additionally, the paper discusses the peculiarities of using transformers in conditions of increased market volatility and changing news flows, which allows for a more in-depth assessment of the stability of the proposed solutions. Furthermore, a formula for calculating a leading indicator for stock markets is proposed and discussed, demonstrating the practical significance of using transformer models in the analysis of financial texts and the formation of analytical metrics. The presented results highlight the promising application of compact transformers in predictive financial analytics tasks.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>токенизация</kwd><kwd>токены</kwd><kwd>языковые модели</kwd><kwd>эсктраполяция</kwd><kwd>последовательность</kwd><kwd>векторизация</kwd><kwd>эмбеддинги</kwd></kwd-group><kwd-group xml:lang="en"><kwd>tokenization</kwd><kwd>tokens</kwd><kwd>language models</kwd><kwd>extrapolation</kwd><kwd>sequence</kwd><kwd>vectorization</kwd><kwd>embeddings</kwd></kwd-group></article-meta></front><back><ref-list><title>References</title><ref id="cit1"><label>1</label><citation-alternatives><mixed-citation xml:lang="ru">Липатова С.В., Бочкарева Ю.Е. Использование NLP для разработки электронных учебно-методических материалов. Аллея науки. 2023;4(79):926-931. URL: https://www.elibrary.ru/item.asp?id=54082726</mixed-citation><mixed-citation xml:lang="en">Lipatova S.V., Bochkareva Yu.E. Using NLP for the development of electronic teaching and methodological materials. Alley of Science. 2023;4(79):926-931. URL: https://www.elibrary.ru/item.asp?id=54082726</mixed-citation></citation-alternatives></ref><ref id="cit2"><label>2</label><citation-alternatives><mixed-citation xml:lang="ru">Панкратова М.Д., Сковпель Т.Н. Модели NLP с использованием нейронных сетей в анализе тональности новостей. Аналитические технологии в социальной сфере: Теория и Практика. 2023;(15):97-107. URL: https://www.elibrary.ru/ctabku</mixed-citation><mixed-citation xml:lang="en">Pankratova M.D., Skovpel T.N. NLP models using neural networks in news sentiment analysis. Analytical technologies in the social sphere: Theory and Practice. 2023;(15):97-107. URL: https://www.elibrary.ru/ctabku</mixed-citation></citation-alternatives></ref><ref id="cit3"><label>3</label><citation-alternatives><mixed-citation xml:lang="ru">Рыскин К.Э., Вечканова Ю.С., Федосин С.А. Обработка товарных номенклатур из отчетов дистрибьюторов с использованием NLP. Материалы XXV научно-практической конференции молодых ученых, аспирантов и студентов Национального исследовательского Мордовского государственного университета. Саранск: Национальный исследовательский Мордовский государственный университет им. Н.П. Огарёва; 2022:271–276; URL: https://elibrary.ru/item.asp?id=54051425</mixed-citation><mixed-citation xml:lang="en">Ryskin K.E., Vechkanova Y.S., Fedosin S.A. Processing of product items from distributors’ reports using NLP. Proceedings of the XXV Scientific and Practical Conference of Young Scientists, Postgraduate Students and Students of the National Research Mordovian State University. Saransk: National Research Mordovian State University named after N.P. Ogarev, 2022;271-276; URL: https://elibrary.ru/item.asp?id=54051425</mixed-citation></citation-alternatives></ref><ref id="cit4"><label>4</label><citation-alternatives><mixed-citation xml:lang="ru">Дубровский В.В., Карманова Е.В. Проект разработки интеллектуального онлайн-сервиса для реферирования текстовых документов с использованием NLP. Управление проектами. Сборник статей по материалам II Всероссийской научной конференции, Магнитогорск, 01–03 декабря 2023 г. Магнитогорск: Магнитогорский государственный технический университет им. Г.И. Носова; 2024;37–45. URL: https://elibrary.ru/item.asp?id=60647866</mixed-citation><mixed-citation xml:lang="en">Dubrovsky V.V., Karmanova E.V. Project for the Development of an Intelligent Online Service for Abstracting Text Documents Using NLP. Project Management. Proceedings of the II All-Russian Scientific Conference, Magnitogorsk, December 01–03, 2023. Magnitogorsk: Magnitogorsk State Technical University named after G.I. Nosov; 2024:37-45. URL: https://elibrary.ru/item.asp?id=60647866</mixed-citation></citation-alternatives></ref><ref id="cit5"><label>5</label><citation-alternatives><mixed-citation xml:lang="ru">Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units. Proceedings of ACL. 2016;1715–1725. DOI: 10.48550/arXiv.1508.07909</mixed-citation><mixed-citation xml:lang="en">Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units. Proceedings of ACL. 2016;1715-1725. DOI: 10.48550/arXiv.1508.07909</mixed-citation></citation-alternatives></ref><ref id="cit6"><label>6</label><citation-alternatives><mixed-citation xml:lang="ru">Song X., Salcianu A., Song Y., Dopson D., Zhou D. Fast WordPiece Tokenization. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2021:2089–2103. URL: https://aclanthology.org/2021.emnlp-main.160/</mixed-citation><mixed-citation xml:lang="en">Song X., Salcianu A., Song Y., Dopson D., Zhou D. Fast WordPiece Tokenization. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2021;2089-2103. URL: https://aclanthology.org/2021.emnlp-main.160/</mixed-citation></citation-alternatives></ref><ref id="cit7"><label>7</label><citation-alternatives><mixed-citation xml:lang="ru">Vemula S.R., Sharma D.M., Krishnamurthy P. Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment.arXiv preprint; 2025:arХiv:2508.08424. DOI: 10.48550/arXiv.2508.08424</mixed-citation><mixed-citation xml:lang="en">Vemula S.R., Sharma D.M., Krishnamurthy P. Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment. 2025; URL: https://arxiv.org/abs/2508.08424</mixed-citation></citation-alternatives></ref><ref id="cit8"><label>8</label><citation-alternatives><mixed-citation xml:lang="ru">Condevaux C., Harispe S. LSG Attention: Extrapolation of Pretrained Transformers to Long Sequences. In: Kashima, H., Ide, T., Peng, WC., eds. Advances in Knowledge Discovery and Data Mining. PAKDD 2023. Lecture Notes in Computer Science. 2023;13935:443–454. DOI: 10.1007/978-3-031-33374-3_35</mixed-citation><mixed-citation xml:lang="en">Condevaux C., Harispe S. LSG Attention: Extrapolation of Pretrained Transformers to Long Sequences. In: Kashima, H., Ide, T., Peng, WC., eds. Advances in Knowledge Discovery and Data Mining. PAKDD 2023. Lecture Notes in Computer Science. 2023;13935:443–454. DOI: 10.1007/978-3-031-33374-3_35</mixed-citation></citation-alternatives></ref><ref id="cit9"><label>9</label><citation-alternatives><mixed-citation xml:lang="ru">Марков А.К., Семеночкин Д.О., Кравец А.Г., Яновский Т.А. Сравнительный анализ применяемых технологий обработки естественного языка для улучшения качества классификации цифровых документов. International Jornal of Information Technologies. 2024;12(3):66–77. URL: https://www.elibrary.ru/tubosi</mixed-citation><mixed-citation xml:lang="en">Markov A.K., Semenochkin D.O., Kravets A.G., Yanovsky T.A. Comparative analysis of applied natural language processing technologies to improve the quality of digital document classification. International Journal of Information Technologies. 2024;12(3):66-77. URL: https://www.elibrary.ru/tubosi</mixed-citation></citation-alternatives></ref></ref-list><fn-group><fn fn-type="conflict"><p>The authors declare that there are no conflicts of interest present.</p></fn></fn-group></back></article>
