Все новости

Специфика медицинских данных для обучения ИИ

17.03.2021
Статьи

В предыдущей статье мы выяснили, что медицинские данные играют очень важную роль в развитии современной медицины. Только благодаря их сбору и обработке стало возможным создание систем искусственного интеллекта, которые уже сегодня улучшают качество медицинских услуг.

Но существует целый ряд специфических проблем, присущих именно этому виду данных для обучения ИИ-моделей. Они могут значительно усложнять как доступ к этим данным, так и работу с ними. В статье перечислим основные проблемы и разберёмся, как на ситуацию влияет развитие облачных технологий.

#1: Доступность и методы хранения

Несмотря на то, что Россия вступила на путь цифровизации здравоохранения и активно внедряет медицинские информационные системы, данные во многих медицинских организациях всё ещё хранятся в бумажном виде. Это в значительной степени затрудняет процесс их обработки и вообще доступ к ним. 

Более того, медицинские учреждения не только от региона к региону, но и в рамках одного населённого пункта могут иметь различные информационные системы — с собственными способами хранения и протоколами передачи данных, а также с индивидуальными настройками используемого оборудования. Доступ к таким данным весьма затруднён.

#2: Объём и качество

О вспышке нового коронавируса мы узнали ещё в декабре 2019 года. Однако первые наборы данных в области КТ-исследований лёгких с признаками вирусной пневмонии, вызванной COVID-19, начали появляться лишь в марте-апреле 2020 года — то есть лишь спустя полгода. Да и тех данных было слишком мало для построения полноценных моделей искусственного интеллекта для выявления на КТ признаков коронавируса. И лишь в июне 2020 года стали появляться более или менее хорошие решения на базе  ИИ.

Или возьмём для примера другое заболевание — рак молочной железы. Оно известно человечеству уже как минимум пару тысяч лет, и тем не менее данных для построения эффективных ИИ-систем в публичном доступе до сих пор не хватает. И в особенности тех, в которых выполнена качественная разметка на объекты — а она необходима, чтобы искусственный интеллект научился верно детектировать на снимке доброкачественные и злокачественные новообразования, кальцинаты, лимфоузлы, участки с повышенной плотностью ткани и так далее.

В связи с этим компании-исследователи прибегают к процедурам разметки данных врачами. А это требует дополнительных трудо- и времязатрат.

#3: Конфиденциальность

Характерная особенность медицинских данных заключается в их крайне высокой степени конфиденциальности.  «Врачебная тайна» – не просто красивое устойчивое выражение, это один из важнейших постулатов в медицине, который запрещает лечащему врачу делиться данными о пациенте с третьими лицами. 

Этот же фактор обуславливает необходимость деперсонификации (обезличивания) медицинских данных, чтобы при разработке того или иного алгоритма разработчик и/или его сотрудники не могли однозначно идентифицировать владельца персональных данных — пациента.

Но даже такая процедура как обезличивание, согласно действующему законодательству (Ст. 3 ФЗ № 152-ФЗ), относится к процедуре обработки персональных данных — а значит, требует получения разрешения от каждого отдельно взятого пациента. При идеальном сценарии согласие на обработку персональных данных должно запрашиваться у пациентов самой медицинской организацией ещё на этапе их сбора. Но в реальности оно либо не запрашивается вовсе, либо (чаще) запрашивается в неявном виде — то есть без указания, например, возможности деперсонификации. 

Как меняется ситуация?

Облачные технологии проникают в разные сферы нашей жизни всё плотнее, и здравоохранение не стало исключением. Обмен информацией о пациенте между медицинскими специалистами становится более оперативным благодаря почти повсеместному внедрению медицинских информационных систем и ведению электронных медицинских карт. Очевиден устойчивый прогресс в области оперативного обмена информацией между конкретными медицинскими организациями и региональным, федеральным центром. 

Принят и повсеместно используется международный стандарт обмена медицинскими изображениями  DICOM. Он используется для передачи медицинской информации от оборудования в PAC-систему (хранилище медицинских данных) и для связи между различными PAC-системами. 

Тот факт, что на сегодняшний день с этим форматом работают все медицинские организации, избавляет разработчиков от множества проблем, связанных с разнородностью данных и необходимостью работать с каждым из их видов. Ещё одной важной особенностью DICOM-стандарта является его защищённость со стороны законодательства (ФЗ-152 «О защите персональных данных»). Разработчик имеет возможность вносить в эти данные изменения и производить с ними процедуру деперсонификации (обезличивания данных).

Переход к системному сбору больших данных, формированию отчётов, внедрению аналитических и прогнозных систем — одна из первостепенных задач российской системы здравоохранения на сегодняшний день. В перспективе эти данные помогут улучшать бизнес-процессы в медицине и принимать более эффективные управленческие решения на уровне конкретной медицинской организации, города, субъекта или целой страны.

Решением этой задачи сегодня активно занимается Минздрав РФ. К примеру, 1 февраля 2021 года вступил в силу приказ, который позволяет медицинским организациям полностью отказаться от бумажного документооборота. Он закрепляет правовой статус электронной документации и устанавливает порядок её формирования, подписания и хранения — включая обмен документами и их передачу в единую государственную информационную систему в сфере здравоохранения (ЕГИСЗ). Также приказ устанавливает правила предоставления доступа к медицинской документации, ведение которой осуществляется в электронном виде.

Кто владеет информацией — владеет миром?

Таким образом, вместе с технологиями машинного обучения в медицине развивается и область сбора и обработки данных. Страны-лидеры в области разработки медицинских систем искусственного интеллекта (такие как США и Китай) заняли и удерживают свои лидирующие позиции во многом именно благодаря накоплению большого количества качественных медицинских данных. 

Российское профессиональное сообщество также осознаёт важность работы в этом направлении. Например, московский Центр диагностики и телемедицины активно способствует созданию «золотых датасетов» — наборов данных, на которых можно будет корректно и справедливо сравнивать конкурирующие ИИ-сервисы для анализа медицинских изображений. Сбор данных осуществляется в рамках масштабного проекта по развитию технологий искусственного интеллекта в медицине, частью которого является московский эксперимент по применению ИИ-сервисов в отделениях лучевой диагностик.

Во время пандемии усилиями исследователей Центра диагностики и телемедицины был собран самый большой в мире набор данных пациентов с признаками коронавирусной пневмонии. Он включал в себя медицинские изображения, которые тщательно отбирались специалистами в соответствии с определёнными критериями для ИИ-систем.

Датасет собирался в сжатые сроки, это было связано с необходимостью автоматизации процесса распознавания патологических изменений в лёгких при новой коронавирусной инфекции. Поскольку датасет был опубликован в открытых источниках, разработчики всего мира могли тестировать и улучшать свои модели искусственного интеллекта на этих данных. А значит, такую скрупулёзную подготовку базы данных можно смело назвать вкладом в борьбу с COVID-19 в мировом масштабе.

Очевидно, что в новой информационной эпохе качественные данные, их сбор и использование будут играть важнейшую роль. В глобальном, историческом масштабе работа в этом направлении только началась — но поскольку прогресс неумолимо ускоряется, всё новые и новые результаты этой работы мы можем видеть практически каждый день.