Динамическая модель внимания в трансформерах
https://doi.org/10.26794/3033-7097-2025-1-4-35-42
Аннотация
Механизм внимания является основой трансформеров, ключевого компонента современных искусственных нейронных сетей, используемых при работе с данными различной природы. В статье изучается динамическая модель механизма внимания. В рамках этой модели внимание описывается как движение взаимодействующих токенов. Показано, что при подходящих предположениях внимание непрерывно по Липшицу. В частности, непрерывность по Липшицу обеспечивает нормирование токенов. Это служит основанием для исследования решений систем дифференциальных уравнений, описывающих динамику трансформеров. Целью исследования является изучение особенностей поведения токенов, составляющих промт, при неограниченном увеличении числа слоев трансформера. В одномерном случае приведено качественное описание траекторий токенов и динамики матрицы внимания. Показано, что если токен в некоторый момент времени выходит за границу достаточно узкого коридора (ширины порядка логарифма размера промта), то этот токен в дальнейшем стремится к бесконечности (положительной или отрицательной в зависимости от того, через какую границу произошел выход). Методология исследования базируется на непрерывной параметризации матрицы внимания. Распространенное представление динамики трансформеров разностными уравнениями заменено представлением с помощью систем обыкновенных дифференциальных уравнений. Описанию и изучению трансформеров посвящено огромное число публикаций, но большинство из них не содержат точных математических описаний архитектуры. В этой статье сделана попытка дать математически точное и при этом достаточно простое описание динамики трансформеров. Динамика токенов в одномерном случае, безусловно, значительно проще, чем динамика многомерных токенов. Тем не менее она дает представление о поведении трансформеров и в более общей ситуации создает каркас из точных формулировок.
Ключевые слова
Об авторе
В. Б. ГисинРоссия
Владимир Борисович Гисин — кандидат физико-математических наук, профессор, профессор кафедры математики и анализа данных факультета информационных технологий и анализа больших данных
Москва
Список литературы
1. Vaswani A., Shazeer, N., Parmar N., Uszkoreit J., Jones L., Gomez A. N. Kaiser Ł., Polosukhin I. Attention is all you need. In: Guyon I., Von Luxburg U., S. Bengio, et al, eds. Neural Information Processing Systems. 2017;30:5998–6008. URL: https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf
2. Rambelli G., Chersoni E., Testa D., Blache, P., Lenci A. Neural generative models and the parallel architecture of language: A critical review and outlook. Topics in Cognitive Science. 2024;17(4):948–961. DOI: 10.1111/tops.12733
3. Turner R. E. An introduction to transformers. ArXiv preprint. 2023; arXiv:2304.10557. DOI: 10.48550/arxiv.2304.10557
4. Amatriain X., Sankar A., Bing J., Bodigutla P. K., Hazen T. J., Kazi M. Transformer models: an introduction and catalog. ArXiv preprint. 2023; arXiv:2302.07730. DOI: 10.48550/arXiv.2302.07730
5. He S., Sun G., Shen Z., Li A. What matters in transformers? Not all attention is needed. ArXiv preprint. 2024; arXiv:2406.15786. DOI: 10.48550/arXiv.2406.15786
6. Passi N., Raj M., Shelke N. A. A review on transformer models: applications, taxonomies, open issues and challenges. 4th Asian Conference on Innovation in Technology (ASIANCON). IEEE, 2024;1–6. DOI: 10.1109/ASIANCON 62057.2024.10838047
7. Joshi S. Evaluation of Large Language Models: Review of Metrics, Applications, and Methodologies. Preprint. 2025; DOI: 10.20944/preprints202504.0369.v1
8. Sajun A. R., Zualkernan I., Sankalpa D. A historical survey of advances in transformer architectures. Applied Sciences. 2024;14(10):4316. DOI: 10.3390/app14104316
9. Canchila S., Meneses-Eraso C., Casanoves-Boix J., Cortés-Pellicer P., Castelló-Sirvent F. Natural Language Processing: An Overview of Models, Transformers and Applied Practices. Computer Science and Information Systems. 2024;21(3):1097–1145. DOI: 10.2298/CSIS 230217031C
10. Ali A., Schnake T., Eberle O., Montavon G., Müller K. R., Wolf L. XAI for transformers: Better explanations through conservative propagation. International Conference on Machine Learning. Proceedings of Machine Learning Research (PMLR). 2022;435–451. DOI: 10.48550/arXiv.2202.07304
11. Dufter P., Schmitt M., Schütze H. Position information in transformers: An overview. Computational Linguistics. 2022;48(3):733–763. DOI: 10.1162/coli_a_00445
12. Geshkovski B. Letrouit C., Polyanskiy Y., Rigollet P. The emergence of clusters in self-attention dynamics. Advances in Neural Information Processing Systems. 2023;36:57026–57037. DOI: 10.48550/arXiv.2305.05465
13. Sander M. E., Ablin P., Blondel M., & Peyré G. Sinkformers: Transformers with doubly stochastic attention. International Conference on Artificial Intelligence and Statistics. Proceedings of Machine Learning Research, 2022:3515–3530. DOI: 10.48550/arXiv.2110.11773
14. Kim H., Papamakarios G., Mnih A. The Lipschitz constant of self-attention. International Conference on Machine Learning. Proceedings of Machine Learning Research. 2021;5562–5571. DOI: 10.48550/arXiv.2006.04710
15. Geshkovski B., Letrouit C., Polyanskiy Y., Rigollet P. A mathematical perspective on transformers. Bulletin of the American Mathematical Society. 2025;62(3):427–479. DOI: 10.1090/bull/1863
16. Lu Y., Li Z., He D., et al. Understanding and improving transformer from a multi-particle dynamic system point of view. ArXiv preprint. 2019; arXiv:1906.02762. DOI: 10.48550/arXiv.1906.02762
Рецензия
Для цитирования:
Гисин В.Б. Динамическая модель внимания в трансформерах. Цифровые решения и технологии искусственного интеллекта. 2025;1(4):35-42. https://doi.org/10.26794/3033-7097-2025-1-4-35-42
For citation:
Gisin V.B. Dynamic Model of Attention in Transformers. Digital Solutions and Artificial Intelligence Technologies. 2025;1(4):35-42. (In Russ.) https://doi.org/10.26794/3033-7097-2025-1-4-35-42
JATS XML
