Preview

Цифровые решения и технологии искусственного интеллекта

Расширенный поиск

Современные методы токенизации текстов в финансовой сфере

https://doi.org/10.26794/3033-7097-2025-1-3-19-29

Аннотация

В работе рассматривается токенизация как ключевой этап обработки текстовых данных, особенно в финансовой сфере. Анализируются современные методы токенизации с примерами из последних исследований и их влияние на эффективность NLP-моделей. Исследование показывает, что алгоритмы токенизации по словам (BPE, WordPiece, Unigram) стали стандартом для языковых моделей благодаря гибкости и эффективности сжатия текста. Обсуждаются ограничения длины входной последовательности в языковых моделях (BPE и WordPiece демонстрируют склонность к избыточному разбиению, Unigram требует сложного обучения, а символьная токенизация создает чрезмерно длинные последовательности) и методы преодоления этих ограничений, включая разбиение текста на части, иерархическую обработку и экстраполяцию предобученных моделей с архитектурой трансформеров для работы с длинными входными данными. Для финансовых данных рекомендуется использование доменно-ориентированных токенизаторов или дообучение на специализированных системах, что подтверждается успешным опытом BloombergGPT. Особое внимание уделяется проблеме обработки длинных текстов. Предложены три подхода к решению: разделение текста на части; иерархическая обработка; экстраполяция моделей-трансформеров. В заключение подчеркивается значимость токенизации для финансовой аналитики, где качество обработки текста напрямую влияет на принятие решений. Развитие методов токенизации продолжается параллельно с совершенствованием NLP-моделей, что делает этот этап обработки текста критически важным компонентом современных аналитических систем.

Об авторах

Э. Ф. Болтачев
Финансовый университет при Правительстве Российской Федерации
Россия

Эльдар Филаридович Болтачев — кандидат технических наук, доцент кафедры искусственного интеллекта факультета информационных технологий и анализа больших данных; центр цифровой трансформации и искусственного интеллекта

Москва



М. П. Фархадов
Институт проблем управления им. В.А. Трапезникова РАН
Россия

Маис Паша Оглы Фархадов — доктор технических наук, старший научный сотрудник, заведующий лабораторией «Эргатические системы»

Москва



А. И. Тюляков
Финансовый университет при Правительстве Российской Федерации
Россия

Александр Игоревич Тюляков — студент факультета информационных технологий и анализа больших данных

Москва



Список литературы

1. Панкратова М. Д., Сковпень Т. Н. Модели NLP с использованием нейронных сетей в анализе тональности новостей. Аналитические технологии в социальной сфере: теория и практика. 2023;97–107. URL: https://www.elibrary.ru/ctabku

2. Марков А. К., Семеночкин Д. О., Кравец А. Г., Яновский Т. А. Сравнительный анализ применяемых технологий обработки естественного языка для улучшения качества классификации цифровых документов. International Journal of Information Technologies. 2024;12(3):66–77. URL: https://www.elibrary.ru/tubosi

3. Araci D. FinBERT: Financial Sentiment Analysis with Pre-Trained Language Models. arXiv preprint arXiv:1908.10063.2019:7. DOI: 10.48550/arXiv.1908.10063

4. Jaiswal A., Milios E. Breaking the Token Barrier: Chunking and Convolution for Efficient Long Text Classification with BERT. arXiv preprint arXiv:2310.20558. 2023:13. DOI: 10.48550/arXiv.2310.20558

5. Condevaux C., Harispe S. LSG Attention: Extrapolation of Pretrained Transformers to Long Sequences. Advances in Knowledge Discovery and Data Mining (PAKDD). 2023;13935 LNCS:443–454. DOI: 10.48550/arXiv.2210.15497

6. Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units. Proceedings of ACL. 2016;1715–1725. DOI: 10.48550/arXiv.1508.07909

7. Bostrom K., Durrett G. Byte Pair Encoding is Suboptimal for Language Model Pretraining. Proceedings of EMNLP. 2020:461–466. DOI: 10.18653/v1/2020.findings-emnlp.414

8. Wu S., et al. BloombergGPT: A Large Language Model for Finance. arXiv preprint arXiv:2303.17564.2023:63. DOI: 10.48550/arXiv.2303.17564

9. Yang Z., et al. Hierarchical Attention Networks for Document Classification. Proceedings of NAACL. 2016:1480–1489. DOI: 10.18653/v1/N16–1174

10. Beltagy I., Peters M. E., Cohan A. Longformer: The Long-Document Transformer. arXiv preprint arXiv:2004.05150.2020:12. DOI: 10.48550/arXiv.2004.05150

11. Zaheer M., et al. Big Bird: Transformers for Longer Sequences. Advances in Neural Information Processing Systems (NeurIPS). 2020;33:17283–17297. DOI: 10.48550/arXiv.2007.14062

12. Dai Z., et al. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context. Proceedings of ACL. 2019;2978–2988. DOI: 10.48550/arXiv.1901.02860


Рецензия

Для цитирования:


Болтачев Э.Ф., Фархадов М.П., Тюляков А.И. Современные методы токенизации текстов в финансовой сфере. Цифровые решения и технологии искусственного интеллекта. 2025;1(3):19-29. https://doi.org/10.26794/3033-7097-2025-1-3-19-29

For citation:


Boltachev E.F., Farhadov M.P., Tyulyakov A.I. Modern Tokenization Methods for Text Processing in the Financial Domain. Digital Solutions and Artificial Intelligence Technologies. 2025;1(3):19-29. (In Russ.) https://doi.org/10.26794/3033-7097-2025-1-3-19-29

Просмотров: 30


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 3033-7097 (Online)