ЕФЕКТИВНІСТЬ ЗАСТОСУВАННЯ ВІЗУАЛЬНО-МОВНИХ МОДЕЛЕЙ (VLM) ДЛЯ РОЗПІЗНАВАННЯ НАЗЕМНИХ ПРЕДМЕТІВ У БАГАТОРІВНЕВІЙ EDGE–CLOUD АРХІТЕКТУРІ БПЛА

https://doi.org/10.33815/2313-4763.2025.2.31.019-029

Ключові слова: комп’ютерний зір, візуально-мовні моделі (VLM), безпілотні літальні апарати (БПЛА), гуманітарне розмінування, багаторівневий аналіз відеозображення, мультисенсорне злиття

Анотація

Предметом дослідження є методи автоматизованого аналізу відеопотоку з безпілотних літальних апаратів (БПЛА) для задач гуманітарного розмінування. Робота присвячена актуальній проблемі підвищення надійності дистанційного виявлення вибухонебезпечних предметів (ВНП) в умовах, коли традиційні методи є повільними, а повна передача відеопотоку на сервер обмежена пропускною здатністю каналів зв’язку. Метою роботи є порівняльний аналіз ефективності сучасних візуально-мовних моделей (VLM) – GPT-4.1 Vision та Gemini 2.5 Flash – та визначення їх ролі у запропонованій багаторівневій системі обробки даних. Методологія дослідження базується на проведенні натурного експерименту з використанням спеціально сформованого датасету (2500 кадрів, отриманих з БПЛА в Україні, США та Італії), що містить зображення мін типів ПФМ-1, ПМН-3 та РМА-2 на різному фоні. Застосовано методи інженерії запитів (prompt engineering) для адаптації універсальних моделей до специфічної ролі «інспектора безпеки» та статистичний аналіз результатів із залученням ручної експертної валідації 1189 зображень. Наукова новизна полягає в обґрунтуванні концепції використання VLM не як автономних детекторів, а як «семантичного фільтра» (Verification Module) на хмарному рівні. Це дозволяє реалізувати розпізнавання нових типів загроз (open-vocabulary detection) без необхідності тривалого перенавчання нейромереж. Експериментально встановлено, що модель Gemini 2.5 Flash демонструє вищу точність на рівні окремих кадрів (67,6 %), надаючи детальні пояснення з просторовими орієнтирами, тоді як GPT-4.1 Vision забезпечує кращу чутливість на рівні об’єктів, виявивши 28 з 29 цілей. Доведено критичний вплив формулювання текстового запиту: перехід від базового промпта до спеціалізованого підвищив точність розпізнавання з 14 % до 62 %. Практичне значення роботи полягає у розробці схеми побудови мапи ризиків на основі консенсусу моделей, де зони подвійного підтвердження отримують найвищий пріоритет перевірки. Запропонована архітектура Edge–Local–Cloud дозволяє інтегрувати потужні VLM без критичного навантаження на канали зв’язку та енергоспоживання дрона. У висновках зазначено, що для досягнення необхідного рівня безпеки VLM доцільно використовувати виключно у складі мультисенсорних систем (оптика, металодетекція, магнітометрія) як інструмент додаткової верифікації.

Посилання

1. Zoltán K., István E. (2022). Landmine detection with drones. https://doi.org/10.2478/raft-2022-0012.
2. Verbickas, J. (2024). Foundational Vision Models for Mine Detection in UAV Images. URL: https://ecmlpkdd-storage.s3.eu-central-1.amazonaws.com/2024/industry_ track_papers/1575_ FoundationalVisionModelsForMineDetectionInUAVImages.pdf.
3. Chen, Y., Que, X., Zhang, J., Chen, T., Li, G., Jiachi. (2025). When Large Language Models Meet UAVs: How Far Are We. ArXiv. URL: https://arxiv.org/html/2509.12795v1.
4. Mentus, I., Yasko, V., Saprykin, I. (2024). Methods of mine detection for humanitarian demining: survey. Ukrainian Journal of Remote Sensing. https://doi.org/10.36023/ujrs.2024.11.3.271.
5. Weng, Z., Yu, Z. (2025). Cross-Modal Enhancement and Benchmark for UAV-based Open-Vocabulary Object Detection. ArXiv. URL: https://arxiv.org/html/2509.06011v1.
6. Liu, Q., Shi, L., Sun, L., Li, J., Ding, M., & Shu, F. (2020). Path planning for UAV-mounted mobile edge computing with deep reinforcement learning. IEEE Transactions on Vehicular Technology, 69(5).
7. Liu, S., Zhang, H., Qi, Y., Wang, P., Zhang, Y., & Wu, Q. (2023). AerialVLN: Vision-and-language Navigation for UAVs. International Conference on Computer Vision (ICCV).
8. Liang, Q., et al. (2025). Next-Generation LLM for UAV (NeLV) system–a comprehensive demonstration and automation roadmap for integrating LLMs into multi-scale UAV operations. ArXiv.
9. Penava, P., Buettner, R. (2024). Advancements in Landmine Detection: Deep Learning-Based Analysis with Thermal Drones. Research Gate Publication 391974681.
10. Stankevich, S., Saprykin, I. (2024). Optical and Magnetometric Data Integration for Landmine Detection with UAV. WSEAS Transactions on Environment and Development. https://doi.org/10.37394/232015.2024.20.96.
11. Kim, B., Kang, J., Kim, D. H., Yun, J., Choi, S. H., & Paek, I. (2018). Dual-sensor Landmine Detection System utilizing GPR and Metal Detector. Proceedings of the 2018 International Symposium on Antenass and Propagation (ISAP).
12. Novikov, O., Ilin, M., Stopochkina, I., Ovcharuk, M., Voitsekhovskyi, A. (2025). Application of LLM in UAV route planning tasks to prevent data exchange availability violations. Electronic Professional Scientific Journal «Cybersecurity: Education, Science, Technique», 1(29), 419–431. https://doi.org/10.28925/2663-4023.2025.29.892.
13. Kumar, C., Giridhar, O. (2024). UAV Detection Multi-sensor Data Fusion. Journal of Research in Science and Engineering. https://doi.org/10.53469/jrse.2024.06(07).02.
14. Zhang, J., Huang, J., Jin, S., Lu, S. (2024). Vision-Language Models for Vision Tasks: A Survey, IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(8), 5625–5644. https://doi.org/10.1109/TPAMI.2024.3369699.
15. Cai, H., Dong, J., Tan, J., Deng, J., Li, S., Gao, Z., Wang, H., Su, Z., Sumalee, A., Zhong, R. (2025). FlightGPT: Towards Generalizable and Interpretable UAV Vision-and-Language Navigation with Vision-Language Models. ArXiv. URL: https://arxiv.org/html/2505.12835v1.
16. Zhan, Y., Xiong, Z., Yuan, Y. (2024). SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model. ArXiv. URL: https://arxiv.org/html/2401.09712v1.
Опубліковано
2026-01-23
Розділ
АВТОМАТИЗАЦІЯ ТА КОМП’ЮТЕРНО-ІНТЕГРОВАНІ ТЕХНОЛОГІЇ