ML - машинное обучение

Программные комплексы для идентификации гамма-излучающих нуклидов на основе машинного обучения.

Задача гамма спектрометрии – измерение, анализ и разбор гамма-спектров с целью определения нуклидного состава и его количественных характеристик.

Необходимые составляющие для решения:
1.Выбор средства измерения: измерительного устройства, спектрометра и пр.
2.Правильный выбор методов обработки и алгоритмов для получения ответа


Проблематика задачи:

В чём состоит проблематика задачи, которую мы пытаемся решить? Мы говорим об идентификации гамма-излучающих нуклидов. Для решения лабораторных задач нами ранее был разработан программный комплекс SpectrumHero, который оперирует классическими подходами.

Классический матричный метод обработки спектров подход заключается в решении системы линейных уравнений

99a013438603c99314d18d9718aaf12b.png


Вы составляете матрицу, состоящую из найденных вами пиков и линий из библиотеки, которую вы используете. Каким-то образом вы пытаетесь библиотеку проредить, чтобы уменьшить количество линий, и дальше оставлять систему уравнений, которая в зависимости от статистики, в зависимости от пересечений, решается или не решается. В лабораторных условиях, как правило, классический подход даёт хорошие результаты. Когда же вы находитесь не в лаборатории (например, в полевых условиях), то, как правило, перед вами образец какого-то неизвестного состава, геометрия измерений неизвестна. Описанная выше сложность ведет, во-первых, к тому, что увеличивается время от измерения до получения ответа, когда оператор должен копить большую статистику, значительно большую статистику, либо он будет вынужден привлекать дополнительные методы исследования, что опять-таки усложняет, удорожает процесс идентификации.

Второе – это необходимость тонкой настройки параметров разбора, построения матричного уравнения, что приводит к тому, что вы не всегда можете автоматизировать процесс. Приходится вручную его подстраивать, поскольку сам классический подход очень чувствителен к тому, как у вас настроены параметры. В случае плохих исходных данных, этот процесс может давать не всегда качественный результат.


Альтернатива классическим методам: машинное обучение


Машинное обучение – это что-то, что действует на подобие человека. Когда вы видите много параметров, но вы в голове не вычисляете их, а вот нутром чуете, что это должен быть тот или иной нуклид, из своего эмпирического знания, накопленного с годами. И точно также наши алгоритмы машинного обучения, подобно опытному спектрометристу, могут помочь вам проводить такую идентификацию. Только при этом спектрометрист еще дополнительно обладает мощностью вычислительного компьютера. То есть, как здесь и написано, что машинное обучение хорошо именно в таких областях, где вам нужно находить сложные паттерны. И это именно тот случай, который представляется в гамма-спектрометрии.


Компетенции:

1. Подготовка данных: Преобразования исходных спектров

Конечно, для того, чтобы проводить любую обработку спектров или машинное обучение, вам нужно должным образом подготовить ваши данные. Здесь приведен условный алгоритмический цикл обработки данных, где мы к исходным данным применяем калибровки по энергии, по ПШПВ, применяем еще набор математических операций и в итоге переводим наш изначальный спектр, слева сверху, в некий конечный вид условных данных, нормированный спектр, который мы дальше даем на вход сетки для обучения

2. Визуализация областей интереса

Мы провели большую работу, связанную с тем, чтобы научиться понимать, на что обращает внимание наша нейронная сеть. Здесь приведены два спектра, - на карте вы видите помеченные места, - куда смотрит наша нейронная сеть. Красные места – с большей областью интереса, синие – с меньшей. Видно, что на спектре сверху нейронная сеть обращает внимание на пике, что кажется вполне логичным, но на нижнем она обращает внимание на начало спектра, на первый пик, или на взлет самого большого пика.

Далее мы поместили еще одну нейронную сеть внутрь нашей глобальной, которая визуализирует, - здесь приведен рыжим спектр, который она смотрит, и синим – сигналы, которые мы получаем в разных разрезах, – то есть то, куда наша нейронная сеть смотрит на разных этапах своей работы. И, таким образом, мы можем, во-первых, видеть, как было показано на предыдущем слайде. куда нейронная сеть смотрит, а во-вторых, мы можем поощрять её, если она смотрела в нужные нам места и при этом угадывала, мы можем ускорять её обучение и при этом мы можем направлять её для того, чтобы она обращала внимание на некие объекты, которые нас наибольшим образом интересуют в наших спектрах. Именно этим наша нейронная сеть и занимается, тем самым повышая скорость обучения практически на порядок, по сравнению с моделью, где она отсутствует, не говоря о точности результата.

Результаты:


Метрика сравнения:

  • Нейронная сеть выдаёт вероятность от 0 до 1 по наличию нуклида.
  • Если нейронная сеть допускала любую ошибку в идентификации мультинуклидной смеси - она получает оценку в 0 (провал).
  • Таким образом, правильный ответ нейронной сети означает верный ответ по наличию или отсутствию по всем нуклидам.

По оси абсцисс, представлено количество нуклидов в смеси: 1, 2, 3 и так до 8, например. Здесь точность определения, то есть процент, доля спектра, который мы определили правильно, где не было ни одной ошибки при разборе – от 50% до 100%.

Нами был введён дополнительный параметр - «отношением максимального к минимальному числу». То есть это отношение нуклида с максимальным весом к нуклиду с минимальным весом. О чем это говорит? О том, что если у вас есть маленький нуклид на фоне доминирующего, то такие случаи нам разбирать сложнее. И, собственно, здесь мы приводим ряд кривых для разных отношений. То есть, если у вас отношение один, то это значит, что у вас все нуклиды были с одинаковым исходным количеством. Мы видим, что для соотношений макс/мин 7,5-10, у нас, вплоть до 7-8 нуклидов, точность определения остается на уровне порядка 95%.


Справка справа