Мультимодальный Telegram-бот на базе LLM -оркестратора: архитектура, экономика лимитов и влияние на пользовательский опыт
Аннотация
Мультимодальные чат-боты на платформе Telegram, управляемые оркестратором на базе большой языковой модели (LLM — Large Language Model), объединяют обработку текста, изображений и речи, расширяя привычные сценарии цифрового общения и закрывая дефицит естественного многоканального взаимодействия.
Цель исследования — разработать и проанализировать архитектуру такого чат-бота, выявить ресурсные ограничения («экономику лимитов») и оценить их влияние на пользовательский опыт.
Методы исследования. Проведен аналитический обзор решений 2023–2025 гг.; создан прототип бота (Python + Telegram Bot API) с LLM-оркестратором GPT‑4-класса, модулями компьютерного зрения, ASR/TTS и Retrieval-Augmented Generation. Экспериментальная выборка — 1500 запросов трех типов (текст, изображение, голос). Замерялись латентность, расход токенов, точность ответов и субъективная оценка пользователей (шкала SUS).
Результаты. Оркестратор снизил средние затраты токенов на 41% за счет динамического выбора моделей и сжатия контекста; мультимодальные ответы подняли SUS-балл с 72 до 84; задержка ответа удержана в 6,8 с при 95-м процентиле. Гибридное хранилище знаний сократило число галлюцинаций на 36%.
Выводы. Правильная LLM-оркестрация и продуманный учет лимитов (контекст, тарифы, скорость) позволяют существенно улучшить качество и надежность мультимодального Telegram-бота при контролируемых расходах; рекомендации применимы к корпоративным и публичным AI-ассистентам.
Об авторах
Д. А. ЗайцевРоссия
Денис Андреевич Зайцев - студент факультета международных экономических отношений
Москва
А. В. Прудников
Россия
Андрей Валерьевич Прудников - студент факультета международных экономических отношений
Москва
М. Б. Хрипунова
Россия
Марина Борисовна Хрипунова - кандидат физико-математических наук, доцент, доцент кафедры математики и анализа данных
Москва
Л. А. Шмелева
Россия
Людмила Александровна Шмелева - кандидат экономических наук, доцент, доцент кафедры операционного и отраслевого менеджмента факультета «Высшая школа управления»
Москва
Список литературы
1. Shen Y., Song K., Tan X., Li D., Lu W., Zhuang Y. HuggingGPT: Solving AI tasks with ChatGPT and its friends in Hugging Face. arXiv. 2023;2303.17580. DOI: 10.48550/arXiv.2303.17580
2. Wu C., Yin S., Qi W., Wang X., Tang Z., Duan N. Visual ChatGPT: talking, drawing and editing with visual foundation models. arXiv. 2023;2303.04671. DOI: 10.48550/arXiv.2303.04671
3. Xu Y., Gao W., Wang Y., Shan X., Lin Y-S. Enhancing user experience and trust in advanced LLM-based conversational agents. Computing and Artificial Intelligence. 2024;2(2). DOI: 10.59400/cai.v2i2.1467
4. De Wynter A., Wang X., Sokolov A., Gu Q., Chen S-Q. An evaluation of large language model outputs: discourse and memorization. Natural Language Processing. 2023;4:100024. DOI: 10.1016/j.nlp.2023.100024
5. Li X., Zhang R., Xu X. Toolformer 2.0: self-augmenting large language models with multimodal tools. arXiv. 2024;2405.11223. DOI: 10.48550/arXiv.2405.11223
6. Kibkalo M., Shevtsov M., Gusev I. Gemini Ultra: multimodal generative model performance evaluation. In: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025). 2025. DOI: 10.18653/v1/2025.acl-main.219
7. Zhang Z. et. al. “It’s a Fair Game”, or Is It? Examining How Users Navigate Disclosure Risks and Benefits When Using LLM-Based Conversational Agents. 2024. URL: https://adalerner.com/ZhangCHI2024-FairGame.pdf DOI: 10.1145/3613904.3642385
Рецензия
Для цитирования:
Зайцев Д.А., Прудников А.В., Хрипунова М.Б., Шмелева Л.А. Мультимодальный Telegram-бот на базе LLM -оркестратора: архитектура, экономика лимитов и влияние на пользовательский опыт. Цифровые решения и технологии искусственного интеллекта. 2025;1(2):6-17.
For citation:
Zaitsev D.A., Prudnikov A.V., Khripunova M.B., Shmeleva L.A. Multimodal Telegram Bot Based on LLM Orchestrator: Architecture, Economics of Limits and Impact on User Experience. Digital Solutions and Artificial Intelligence Technologies. 2025;1(2):6-17. (In Russ.)
