Почему ученым не следует полагаться на ИИ в вопросах научных открытий, по крайней мере, сейчас

26.02.19
0
12473
фон:

Мы живем в золотом веке научных данных, окружив себя огромными запасами генетической информации, медицинских изображений и данных об астрономических наблюдениях. Текущий возможности алгоритмов машинного обучения позволяют искусственному интеллекту максимально быстро и в то же время очень внимательно изучать эти данные, нередко приоткрывая тем самым дверь к потенциально новым научным открытиям. Однако мы не должны слепо доверять результатам научных исследований, проводимых ИИ, считает научный специалист Университет Райса Женевера Аллен. По крайней мере, не при текущем уровне развития этой технологии. По мнению ученой, проблема заключается в том, что современные системы ИИ не обладают способностью критической оценки результатов своей работы.

По словам Аллен, ИИ-системам использующим методы машинного обучения, то есть когда обучение происходит в процессе применения решений множества сходных задач, а не просто благодаря внедрению и следованию новым правилам и инструкциям, можно доверять принятие некоторые решений. Если говорить точнее, на ИИ вполне можно возложить задачи в решении вопросов в тех сферах, где конечный результат может быть легко проверен и проанализирован самим человеком. В качестве примера можно взять, скажем, подсчет количества кратеров на Луне или прогноз повторных толчков после землетрясения.

Однако точность и эффективность более комплексных алгоритмов, которые используются для анализа очень больших массивов данных для поиска и определения ранее неизвестных факторов или взаимосвязей между различными функциями «проверить гораздо сложнее», отмечает Аллен. Таким образом невозможность проверки данных, подобранных такими алгоритмами, может приводить к ошибочным научным выводам.

Возьмем, например, точную медицину, когда для разработки эффективных методов лечения специалисты проводят анализ метаданных пациентов, стараясь отыскать определенные группы людей с аналогичными генетическими особенностями. Некоторые ИИ-программы, предназначенные для «просева» генетических данных, действительно показывают свою эффективность, успешно определяя группы пациентов со схожей предрасположенностью, например, к развитию рака груди. Однако они оказываются совсем неэффективны в вопросах определения других видов рака, например, колоректального. Каждый алгоритм проводит анализ данных по-своему, поэтому при объединении результатов может нередко возникать конфликт в классификации выборки пациентов. Это в свою очередь заставляет ученых задуматься о том, какому ИИ в конечном итоге доверять.

Эти противоречия возникают из-за того, что алгоритмы анализа данных разработаны таким образом, чтобы подчиняться заложенным в эти алгоритмы инструкциям, которые не оставляют места для нерешительности, неопределенности, объясняет Аллен.

«Если вы поставите задачу алгоритму кластеризации найти такие-то группы в своей базе данных, то он выполнит задачу и скажет, что нашел несколько групп по заданным параметрам. Скажите найти три группы, он найдет три. Запросите найти четыре, он найдет четыре», — комментирует Аллен.

«На самом же деле настоящая эффективность подобного ИИ будет демонстрироваться тогда, когда программа сможет ответить примерно так: «Я действительно считаю, что вот эта вот группа пациентов подходит под нужную классификацию, однако в случае вот этих вот людей, данные которых я также проверил и сравнил, я не совсем уверен».

Ученым не нравится неопределенность. Однако традиционные методы определения неопределенностей измерений разработаны для тех случаев, когда требуется провести анализ данных, которые были специально отобраны для оценки определенной гипотезы. Программы ИИ для интеллектуального анализа данных работают совсем не так. Эти программы не движимы какой-то руководящей идеей и просто проводят анализ массивов данных, собранных без какой-либо отдельно взятой определенной цели. Поэтому сейчас многие исследователи в области ИИ, в том числе и сама Аллен, занимаются разработками новых протоколов, которые позволят ИИ-системам нового поколения оценивать точность и воспроизводимость своих открытий.

Исследователь объясняет, что один новых методов глубинного анализа будет основан на концепте повторной выборки. Скажем, если ИИ-система предположительно сделает важное открытие, например, определит группы клинически важных для исследования пациентов, то это открытие должно отображаться и в других базах данных. Создавать новые и большие массивы данных для того чтобы проверить правильность выборки ИИ очень дорого для ученых. Поэтому, по мнению Аллан, можно использовать подход, при котором «будет использоваться уже имеющийся набор данных, информация в котором будет случайно перемешиваться таким образом, чтобы это имитировало совершенно новую базу данных». И если раз за разом ИИ сможет определять характерные особенности, позволяющие провести нужную классификацию, «то в таком случае можно будет считать, что у вас на руках появилось действительно реальное открытие», добавляет Аллан.

Источник