В январе 2017 г. программа Libratus, разработанная в Университете Карнеги – Меллона, победила в 20-дневном покерном турнире «Brains Vs. Artifcial Intelligence: Upping the Ante»[4], что, безусловно, свидетельствует о качественном скачке в объемах производственных мощностей ИИ.
В настоящее время в мире происходит ускоренное внедрение технологий на основе ИИ в различные отрасли экономики и сферы общественных отношений, что, как ожидается, приведет к росту мировой экономики в 2024 г. не менее чем на 1 трлн долл. США.
Ускоренное внедрение технологий на основе ИИ обусловлено следующими факторами:
а) общий (сквозной) характер применения прикладных технологических решений;
б) высокая степень влияния технологий на основе ИИ на результативность деятельности организаций и человека, в том числе связанной с принятием управленческих решений;
в) высокая доступность инструментов (в том числе программ для ЭВМ с открытым кодом) для разработки технологий на основе ИИ;
г) потребность в обработке больших объемов данных, создаваемых как человеком, так и техническими устройствами, для повышения эффективности экономической и иной деятельности.
В 2018 г. мировой рынок технологических решений, разработанных на основе ИИ, составил 21,5 млрд долл. США и, по прогнозам экспертов, к 2024 г. достигнет почти 140 млрд долл. США [Указ…, 2019].
Наиболее популярными для внедрения ИИ считаются отрасли рекламы, маркетинга, торговли, банковского дела, страхования, промышленности, военного дела. Однако довольно быстро технологии ИИ добрались и до медицины. Стремительное развитие технологий на основе ИИ сопровождается существенным ростом как государственных, так и частных инвестиций в их развитие, а также в разработку прикладных технологических решений. По оценкам международных экспертов, инвестиции в такие технологии выросли с 2020 по 2021 г. более чем в два раза, составив около 67 млрд долл. США[5]. При этом интерес инвесторов к рынку технологий ИИ в здравоохранении – один из самых высоких (рис. 3).
Рис. 3. Рост инвестиций в технологии ИИ. Источник: [State of Al 2021 Report/ CBINSIGHTS. March 9. 2022. https://www.cbinsights.com/research/report/ai-trends-2021/(дата обращения: 22.10.2022), 2022].
Ведущие мировые технологические гиганты (Facebook[6], Google, Amazon, Apple, Microsof) вкладывают огромные денежные средства в разработку технологий ИИ для применения в своей бизнес-нише.
В России ИИ также активно развивается. Разработанные технологические решения на основе ИИ (например, компьютерное зрение и обработка естественного языка) уже сейчас обладают значительной коммерческой привлекательностью и высоким экспортным потенциалом на мировом рынке.
§ 3. Наборы данных для обучения и тестирования алгоритмов искусственного интеллекта
Разработка любой системы ИИ базируется на обработке и использовании определенного набора данных. Чем больше данных обработает алгоритм ИИ, тем более точно и корректно он сможет формулировать выводы на их основе. На этапах тестирования и эксплуатации системы структура и свойства набора данных также играют ключевую роль.
Подготовка набора данных включает определенные процедуры (рис. 4).
Рис. 4. Процесс подготовки набора данных для обучения и тестирования систем ИИ. Источник: [Национальный стандарт РФ ГОСТ Ρ 59921.5…].
Подробнее рассмотрим основные процедуры. Задачи подготовки набора данных должны быть определены проблемой, целью создания системы ИИ, должны включать определение предметной области и выбор методов обработки данных. Например, в случае контролируемого машинного обучения алгоритм ИИ наблюдает набор размеченных данных и обучается функции, позволяющей предсказывать аннотацию для новых входных данных. Возможными типами задач контролируемого машинного обучения являются классификация и регрессия (аппроксимация и предсказание значения непрерывных параметров какого-либо объекта). При регрессии аннотация может принимать любое действительное значение, не ограничиваясь конечным набором категорий как при классификации.
В случае неконтролируемого машинного обучения алгоритм распознает паттерны (структуру) в неразмеченных данных. Возможными типами задач неконтролируемого машинного обучения являются кластеризация (группировка экземпляров данных в кластеры со сходными характеристиками) и детекция аномалий (идентификация редких экземпляров данных, существенно отличающихся от остальных).
Подход к формированию набора данных определяется необходимостью валидации системы ИИ.
Аналитическая валидация (analytical validation) – подтверждение способности системы ИИ точно, воспроизводимо и надежно генерировать предполагаемые технические результаты вычислений из входных данных.
В этом случае необходимо представление данных: синдромов, заболеваний, исходов, отражающее максимальную вариативность (то есть и частые, и редкие случаи представлены в одинаковом объеме). Набор данных для аналитической валидации должен быть подготовлен для определения следующих характеристик: производительность (например, время, затрачиваемое на обработку системы ИИ медицинского исследования при наличии функции автоматического расчета времени и т. д.), точность интерпретации исследований с учетом функциональных возможностей системы ИИ, повторяемость, воспроизводимость.
Возможно включение исследований с нарушением технологии (внешние помехи, артефакты, неверное наложение электродов/датчиков, нарушение последовательности регистрации, укладки пациента). Такие исследования должны быть помечены должным образом. Для снижения систематической ошибки следует использовать данные из разных источников (например, из разных медицинских организаций) и разные модели оборудования.
Клиническая валидация (clinical validation) – подтверждение способности системы ИИ выдавать клинически значимые выходные данные, связанные с ее целевым использованием в рамках установленного изготовителем функционального назначения.
В этом случае необходимо представление данных согласно частоте их встречаемости, заболеваемости, распространенности в популяции. При проведении клинической валидации следует использовать верифицированный набор данных. Характеристики наборов данных (размерность, разреженность, баланс, распределение классов и др.) должны подбираться в соответствии с задачей.
Под размерностью понимается количество атрибутов, которые имеют объекты в наборе данных (например, значение артериального давления, масса тела пациента, уровень холестерина и др.). Наборы данных с высокой размерностью (с большим количеством атрибутов) выдвигают повышенные требования к алгоритмам системы ИИ, допустимому размеру таких наборов, а также к вычислительным ресурсам для их обработки. В зависимости от поставленной цели и дизайна исследования допустимо обоснованное снижение размерности набора данных, в частности, за счет кластеризации данных либо группировки взаимосвязанных по какому-либо признаку атрибутов в объединенные категории.
Высокий уровень разреженности (отсутствия) данных способен существенно осложнить для системы ИИ задачу поиска и категоризации объектов интереса, что нужно учитывать в зависимости от поставленной задачи.
Сбалансированный набор данных должен содержать одинаковое количество примеров различных категорий (классов) объектов интереса. В случае бинарной классификации это может соответствовать распределению 50/50 для случаев «патология/норма».
Важным этапом подготовки данных является деидентификация (обезличивание). Должны быть удалены любые персональные данные. В случае необходимости возможно их изменение, например замена даты рождения на возраст.
Подготовленные наборы данных могут быть структурированы посредством выделения признаков в соответствии с поставленной задачей. В процессе структурирования снижают размерность набора данных, оставляя достаточный список атрибутов для точного и полного описания элементов набора данных, что будет способствовать последующему обобщению шагов и проведению качественной разметки (аннотации) данных.
Фильтрация набора данных позволяет исключить данные, не соответствующие заданным параметрам (например, смазанные изображения), повысив их качество.
Существенную роль в подготовке данных играет разметка. Выделяется три вида
