Все новости

Опубликовано исследование по ретроспективной оценке пяти независимых ИИ-алгоритмов для анализа рентгенограмм органов грудной клетки

02.08.2024
Статьи

Коллектив авторов - организаторов Московского Эксперимента по применению технологий компьютерного зрения (Mosmed AI), МИРЭА и НМХЦ Пирогова подготовил и опубликовал в журнале Quantitative Imaging in Medicine and Surgery исследование: “Независимая оценка точности пяти ИИ-систем для обнаружения образований в легких на рентгенограммах грудной клетки”.

Авторы анализировали работу следующих решений - Цельс, Фтизисбиомед, Care Mentor AI (Россия), Lunit (Южная Корея) и Qure AI (Индия).

Для исследования был создан набор данных из 100 рентгенологических исследований ОГК. Исследования были выбраны из 7 670 212 пар рентгенов и компьютерных томограмм, которые были сделаны в период с 2020 по 2022 год. Итоговый датасет содержал 25 исследований без признаков патологии, 25 исследований с признаками  патологии, не подтверждёнными на КТ ОГК, и 50 исследований с подтверждёнными лёгочными узелками.

Сравнение ИИ-систем проводились в три этапа. На первом этапе проводилась оценка способности разных ИИ-систем корректно классифицировать исследования на группы “патология” и “норма”. На втором этапе оценивалась корректность локализации найденной патологии. Наконец, на третьем этапе дополнительно учитывалась корректность классификации найденной патологии (“лёгочный узелок”, “lung nodule”). Рассчитанные метрики сравнивались с метриками, заявленными компанией-разработчиком.

Три программных решения (Цельс, Lunit INSIGHT CXR и qXR) продемонстрировали диагностические показатели, которые соответствовали или превосходили спецификации поставщика. Цельс показал наивысшие показатели метрики ROC-AUC на всех трёх этапах - 0.956, 0.885 и 0.812 соответственно. На первом этапе решение Цельс показало метрики лучше, чем заявлено производителем.

Одним из главных выводов исследования стало, что для сравнения ИИ-сервисов часто недостаточно только бинарной оценки (1 этап), при решении более точечных задач метрики сервисов могут быть ниже, и для оценки применимости ИИ-сервиса может быть необходимо использовать комплексный набор показателей.

Таблица результатов