Главная
Решения
Маммография
Сервис интеллектуального анализа и интерпретации маммограмм
Флюорография и рентген области грудной клетки
Сервис для выявления заболеваний органов грудной клетки
Комплексный сервис для анализа КТ органов грудной клетки
Сервис для выявления признаков 10 патологий
Компьютерная томография головного мозга
Сервис для выявления признаков кровоизлияний в головной мозг
Новости
О нас
Контакты

Специфика медицинских данных для обучения ИИ

17.03.2021

Статьи

В предыдущей статье мы выяснили, что медицинские данные играют очень важную роль в развитии современной медицины. Только благодаря их сбору и обработке стало возможным создание систем искусственного интеллекта, которые уже сегодня улучшают качество медицинских услуг.

Но существует целый ряд специфических проблем, присущих именно этому виду данных для обучения ИИ-моделей. Они могут значительно усложнять как доступ к этим данным, так и работу с ними. В статье перечислим основные проблемы и разберёмся, как на ситуацию влияет развитие облачных технологий.

#1: Доступность и методы хранения

Несмотря на то, что Россия вступила на путь цифровизации здравоохранения и активно внедряет медицинские информационные системы, данные во многих медицинских организациях всё ещё хранятся в бумажном виде. Это в значительной степени затрудняет процесс их обработки и вообще доступ к ним.

Более того, медицинские учреждения не только от региона к региону, но и в рамках одного населённого пункта могут иметь различные информационные системы — с собственными способами хранения и протоколами передачи данных, а также с индивидуальными настройками используемого оборудования. Доступ к таким данным весьма затруднён.

#2: Объём и качество

О вспышке нового коронавируса мы узнали ещё в декабре 2019 года. Однако первые наборы данных в области КТ-исследований лёгких с признаками вирусной пневмонии, вызванной COVID-19, начали появляться лишь в марте-апреле 2020 года — то есть лишь спустя полгода. Да и тех данных было слишком мало для построения полноценных моделей искусственного интеллекта для выявления на КТ признаков коронавируса. И лишь в июне 2020 года стали появляться более или менее хорошие решения на базе ИИ.

Или возьмём для примера другое заболевание — рак молочной железы. Оно известно человечеству уже как минимум пару тысяч лет, и тем не менее данных для построения эффективных ИИ-систем в публичном доступе до сих пор не хватает. И в особенности тех, в которых выполнена качественная разметка на объекты — а она необходима, чтобы искусственный интеллект научился верно детектировать на снимке доброкачественные и злокачественные новообразования, кальцинаты, лимфоузлы, участки с повышенной плотностью ткани и так далее.

В связи с этим компании-исследователи прибегают к процедурам разметки данных врачами. А это требует дополнительных трудо- и времязатрат.

#3: Конфиденциальность

Характерная особенность медицинских данных заключается в их крайне высокой степени конфиденциальности. «Врачебная тайна» – не просто красивое устойчивое выражение, это один из важнейших постулатов в медицине, который запрещает лечащему врачу делиться данными о пациенте с третьими лицами.

Этот же фактор обуславливает необходимость деперсонификации (обезличивания) медицинских данных, чтобы при разработке того или иного алгоритма разработчик и/или его сотрудники не могли однозначно идентифицировать владельца персональных данных — пациента.

Но даже такая процедура как обезличивание, согласно действующему законодательству (Ст. 3 ФЗ № 152-ФЗ), относится к процедуре обработки персональных данных — а значит, требует получения разрешения от каждого отдельно взятого пациента. При идеальном сценарии согласие на обработку персональных данных должно запрашиваться у пациентов самой медицинской организацией ещё на этапе их сбора. Но в реальности оно либо не запрашивается вовсе, либо (чаще) запрашивается в неявном виде — то есть без указания, например, возможности деперсонификации.

Как меняется ситуация?

Облачные технологии проникают в разные сферы нашей жизни всё плотнее, и здравоохранение не стало исключением. Обмен информацией о пациенте между медицинскими специалистами становится более оперативным благодаря почти повсеместному внедрению медицинских информационных систем и ведению электронных медицинских карт. Очевиден устойчивый прогресс в области оперативного обмена информацией между конкретными медицинскими организациями и региональным, федеральным центром.

Принят и повсеместно используется международный стандарт обмена медицинскими изображениями DICOM. Он используется для передачи медицинской информации от оборудования в PAC-систему (хранилище медицинских данных) и для связи между различными PAC-системами.

Тот факт, что на сегодняшний день с этим форматом работают все медицинские организации, избавляет разработчиков от множества проблем, связанных с разнородностью данных и необходимостью работать с каждым из их видов. Ещё одной важной особенностью DICOM-стандарта является его защищённость со стороны законодательства (ФЗ-152 «О защите персональных данных»). Разработчик имеет возможность вносить в эти данные изменения и производить с ними процедуру деперсонификации (обезличивания данных).

Переход к системному сбору больших данных, формированию отчётов, внедрению аналитических и прогнозных систем — одна из первостепенных задач российской системы здравоохранения на сегодняшний день. В перспективе эти данные помогут улучшать бизнес-процессы в медицине и принимать более эффективные управленческие решения на уровне конкретной медицинской организации, города, субъекта или целой страны.

Решением этой задачи сегодня активно занимается Минздрав РФ. К примеру, 1 февраля 2021 года вступил в силу приказ, который позволяет медицинским организациям полностью отказаться от бумажного документооборота. Он закрепляет правовой статус электронной документации и устанавливает порядок её формирования, подписания и хранения — включая обмен документами и их передачу в единую государственную информационную систему в сфере здравоохранения (ЕГИСЗ). Также приказ устанавливает правила предоставления доступа к медицинской документации, ведение которой осуществляется в электронном виде.

Кто владеет информацией — владеет миром?

Таким образом, вместе с технологиями машинного обучения в медицине развивается и область сбора и обработки данных. Страны-лидеры в области разработки медицинских систем искусственного интеллекта (такие как США и Китай) заняли и удерживают свои лидирующие позиции во многом именно благодаря накоплению большого количества качественных медицинских данных.

Российское профессиональное сообщество также осознаёт важность работы в этом направлении. Например, московский Центр диагностики и телемедицины активно способствует созданию «золотых датасетов» — наборов данных, на которых можно будет корректно и справедливо сравнивать конкурирующие ИИ-сервисы для анализа медицинских изображений. Сбор данных осуществляется в рамках масштабного проекта по развитию технологий искусственного интеллекта в медицине, частью которого является московский эксперимент по применению ИИ-сервисов в отделениях лучевой диагностик.

Во время пандемии усилиями исследователей Центра диагностики и телемедицины был собран самый большой в мире набор данных пациентов с признаками коронавирусной пневмонии. Он включал в себя медицинские изображения, которые тщательно отбирались специалистами в соответствии с определёнными критериями для ИИ-систем.

Датасет собирался в сжатые сроки, это было связано с необходимостью автоматизации процесса распознавания патологических изменений в лёгких при новой коронавирусной инфекции. Поскольку датасет был опубликован в открытых источниках, разработчики всего мира могли тестировать и улучшать свои модели искусственного интеллекта на этих данных. А значит, такую скрупулёзную подготовку базы данных можно смело назвать вкладом в борьбу с COVID-19 в мировом масштабе.

Очевидно, что в новой информационной эпохе качественные данные, их сбор и использование будут играть важнейшую роль. В глобальном, историческом масштабе работа в этом направлении только началась — но поскольку прогресс неумолимо ускоряется, всё новые и новые результаты этой работы мы можем видеть практически каждый день.

Читать похожее

Больше

AI-платформа для анализа медицинских изображений: как выбрать решение для клиники

01.01.2026

Статьи

Цельс на конференции ИТМ ИИ. Как это было?

17.02.2025

Статьи

МРТ и КТ: отличие, сходство, эффективность методов

12.04.2021

Статьи

Политика файлов cookie

Продолжая использовать настоящий сайт, вы даете согласие на обработку файлов cookie в целях обеспечения функционирования сайта в соответствии с Политикой в отношении обработки персональных данных

Регистрационное удостоверение № РЗН 2021/14449

CE mark (SK-CA-001/DVC-SK-21-06-000018)

- аккредитованная Министерством Цифрового Развития, Связи и Массовых Коммуникаций РФ ИТ-компания

ИНН 4027136373 · КПП 771401001 · ОГРН 1184027003940 · ОКВЭД 62.01

Сведения об ИТ-деятельности

Презентация

Связаться

Исследования осуществляются
при грантовой поддержке Фонда "Сколково"

+7 499 704 05-04

celsus@celsus.ai

Политика обработки персональных данных