Главная Карта сайта Обратная связь Закладки

Кто на сайте?

Сейчас на сайте находятся:
 72 гостей 
Главная Статьи Моделирование пространственных переменных с помощью нейронных сетей (одномерный случай)
На примере создания одномерной математической модели пространственной переменной геохимического поля месторождения показана возможность разделения изменчивости геологического показателя на закономерную и случайную составляющие с помощью искусственных нейронных сетей. Предлагается методика выбора подходящей по определённому критерию нейросетевой модели закономерной составляющей в условиях ограниченного набора данных. Приводится статистический анализ полученных результатов с построением регрессионной модели дисперсии случайной компоненты пространственной переменной.

    В последнее время для решения плохо формализуемых задач всё шире используются технологии искусственного интеллекта, одной из которых являются искусственные нейронные сети (НС). Это направление в теории искусственного интеллекта связано с построением сетей, состоящих из нейронных элементов. Оно опирается на биологические основы естественного интеллекта и позволяет проектировать системы, способные к обучению и самоорганизации [1]. НС нашли широкое применение в различных отраслях экономики и бизнеса, а также в науке, и продолжают завоёвывать всё новые области человеческой деятельности.

    НС по своей природе являются нелинейными и способны моделировать как линейные, так и сколь угодно сложные нелинейные зависимости. Они способны учиться на примерах и находить скрытые закономерности в данных – в этом их преимущество над традиционными методами моделирования. Поскольку большинство геологических полей и процессов также являются нелинейными и плохо поддаются формальному математическому описанию, естественно предположить возможность успешного применения НС для моделирования таких объектов. Данные геологической разведки, как правило, представляют собой дискретную реализацию нестационарного случайного поля. При этом соотношение случайной и закономерной составляющих может быть самым разным, вплоть до почти полного преобладания одной из них.

    Одним из важнейших свойств НС является способность к накоплению и обобщению знаний, полученных в результате обучения. НС, натренированная на некотором обучающем множестве, генерирует ожидаемые результаты при подаче на её вход данных, относящихся к тому же множеству, но не участвующих непосредственно в процессе обучения.

    В данной статье изложена последовательность создания математической модели одномерной пространственной переменной геохимического (геологического) поля месторождения, которая сводится, в основном, к построению НС-модели закономерной составляющей под условием выбранного критерия адекватности, и модели дисперсии случайной составляющей этого поля. Выбор критерия адекватности на основе статистических свойств остатков актуален, прежде всего, при отсутствии избыточных измерений (данных разведки), что чаще всего встречается на практике. Это позволяет использовать всю совокупность данных для построения модели. Показано также, что на окончательный вид модели пространственной переменной оказывают свойства остатков, которые в результате всестороннего исследования могут дать определённую информацию, дополняющую и уточняющую модель.

    Пространственной переменной называют некоторую функцию координат пространства (одномерного, двухмерного или трёхмерного), описывающую размещение какого-либо свойства (признака, показателя) исследуемого объекта в пределах его локализации.

Принимая аддитивную модель поля пространственной переменной, представим её в виде суммы закономерной и случайной компонент:

формула 1 (1)


где x - вектор координат точек замеров (проб); может иметь размерность 1, 2 и 3.

    В отличие от известных решений задачи разделения изменчивости на закономерную (детерминированную) и случайную составляющие, когда исследователь по своему усмотрению (субъективный подход) подбирает тот или иной формальный закон для выражения пространственной переменной, нейронная сеть сама распознаёт скрытые закономерности в обучающей выборке и распространяет их непрерывно на всю область определения переменной. При этом найденное решение не выражается какими-либо аналитическими функциями (например, как в случае аппроксимации с помощью полиномиального тренда), а сохраняется в сети заданной архитектуры в виде конечного числа параметров, называемых весами сети. Алгоритмы подбора весов сети основаны на методах нелинейной оптимизации. В настоящее время выбор сети для решения какой-либо конкретной задачи происходит чисто эмпирически. В зависимости от характера решаемых задач используются различные архитектуры нейронных сетей: многослойные персептроны, радиальные базисные функции и др. Выбор структуры сети и числа её элементов (нейронов) тоже, как правило, решается эмпирически [2]. Подбор необходимого и достаточного количества нейронов зависит от многих факторов: размерности задачи, объёма обучающих данных и пространственной структуры аппроксимируемой функции. Во многих приложениях НС играет роль универсального аппроксиматора функции от нескольких переменных, реализуя нелинейную функцию [3]:

функция 3

где x – входной вектор, а y - реализация векторной функции нескольких переменных.

Для того чтобы НС могла решать поставленные задачи, её предварительно обучают. Обучение НС происходит посредством интерактивного процесса корректировки синаптических весов и порогов. Известны два подхода к обучению: обучение с учителем и обучение без учителя. Мы будем использовать первый, как соответствующий характеру поставленной задачи. При обучении с учителем предполагается, что, помимо входных сигналов, составляющих вектор x, известны также и ожидаемые выходные сигналы нейрона di, составляющие вектор d (от англ. destination). При этом НС выступает в роли универсального аппроксиматора обучающих данных (x, d) [3]. Обучение проводят на фактических данных (например, результатах опробования участка месторождения). В процессе обучения важно не допускать такие явления, как недообучение или переобучение (излишней подгонки модели к данным) сети. В первом случае модель окажется недостаточно детальной, а во втором – не приобретёт способности к обобщению. К переобучению сети может привести бесконтрольное уменьшение ошибки обучения в процессе тренировки сети. Сети с большим числом нейронов способны моделировать более сложные функции, но они более склонны к переобучению. При этом происходит адаптация сети к случайной изменчивости, т.е. к шуму. Недостаточное число нейронов может стать причиной малой гибкости сети для моделирования зависимости. Таким образом, на качества, приобретаемые сетью в результате обучения, влияют число нейронов и длительность обучения. Не существует строгого правила для нахождения идеального решения, связанного с выбором архитектуры сети и обучением. Поэтому данный процесс представляет собой ряд экспериментов по построению и сравнительному анализу НС-моделей; подходящую по тем или иным критериям модель будем считать закономерной составляющей пространственной переменной.

Случайную составляющую пространственной переменной будем оценивать статистическими методами по остаткам (отклонениям значений реализации от модели закономерной компоненты).

Для обучения НС используют представительные данные, которые подаются на вход сети. При этом важно, чтобы в данных существовала какая-либо закономерность. Существует стандартная процедура подготовки исходных данных, принятая в НС-моделировании: множество имеющихся в наличии данных случайным образом разбивается на два множества: обучающее и тестовое. Обучающее множество, в свою очередь, разбивается на два несвязанных подмножества: оценочное, используемое для выбора модели, и контрольное; «…обучающее, контрольное и тестовое множества должны быть репрезентативными (представительными) с точки зрения существа задачи (более того, эти множества должны быть репрезентативными каждое в отдельности). Известное изречение программистов «garbage in, garbage out» («мусор на входе - мусор на выходе») нигде не справедливо в такой степени, как при нейросетевом моделировании» [9].

Рекомендуемая стандартная процедура использования кросс-проверки (на контрольном подмножестве) в процессе обучения и тестирования (на тестовом множестве) полученной модели приводит к необходимости исключения из процесса обучения сети не менее половины данных. Однако такой подход далеко не всегда приемлем при моделировании геологических полей, поскольку объём исходной информации, как правило, ограничен, а исключение значительной части геологических данных из процесса непосредственно обучения сети равноценно потере этой информации. Поэтому такой вариант моделирования можно рекомендовать только при наличии достаточно больших объёмов данных, когда разрежение сети опробования в процессе резервирования контрольного и тестового множеств не приведёт к существенному снижению адекватности модели. Однако при этом неизбежно возникает следующий вопрос, который потребует дополнительных исследований: будут ли представительными подмножества после случайного разбиения программой всей совокупности данных, учитывая пространственный характер размещения показателя и нестационарность переменной?

Нейронные сети весьма устойчивы к зашумлённым данным, какими часто являются многие геологические и геофизические измерения. Шум в них может быть представлен не только в виде случайных погрешностей измерений показателя, но и как случайная составляющая изменчивости последнего. При этом, как известно, доля случайной изменчивости показателя может быть значительной или даже преобладающей. Так, например, на медно-молибденовом рудном месторождении «Эрдэнэтийн-Овоо» (Монголия) «… в целом по месторождению по всем показателям качества случайная составляющая изменчивости превалирует над природной» [4, с.97]. Но чем больше уровень шума в данных (случайная составляющая), тем сложнее задача выделения полезного сигнала (закономерной составляющей) и больше должно быть обучающее множество (число проб, замеров и т.д.). В таких условиях неограниченная минимизация дисперсии остатков и стремление максимально приблизить НС-модель к данным может привести к тому, что наряду с закономерной составляющей сеть начнёт моделировать и шум.

При выборе критерия адекватности НС-модели можно руководствоваться различными свойствами остатков (или их сочетанием), которые представляют собой реализацию случайной составляющей и обладают значительной информативностью. Желательно, чтобы этот выбор не был чисто формальным и по возможности полнее учитывал геологическую природу признака. Поэтому необходимо выбирать такой критерий разделения пространственной переменной на закономерную и случайную составляющие, который бы наиболее реально отражал структуру геологического поля признака и обеспечивал адекватность модели. В случае одномерной равномерной сети наблюдений таким формальным решением может быть равенство оценки дисперсии, вычисленной по первым или вторым разностям, и дисперсии остатков. Однако такой способ никак не обоснован с позиций свойств того или иного геологического поля, а формально пригоден только для оценивания одномерных равномерных сетей данных (равноинтервальных рядов измерений). Кроме того, формулы оценки дисперсии случайной составляющей, предлагаемые разными авторами, дают различные результаты, а их выбор не определён однозначно какими-либо условиями.

Задача выбора критерия адекватности модели применительно к упомянутому выше месторождению осложняется тем, что велика доля случайной составляющей (порядка 50%) в общей изменчивости признака при далёких от стационарности характеристиках (среднее содержание, дисперсия) геохимического поля.

Моделировать пространственную переменную будем исходя из предположения нормального распределения случайной компоненты геологического поля, а значит – остатков (может быть и другой закон распределения, если это как-то обосновано). Этот критерий будет в итоге определять уровень обученности НС и, как следствие, разделять общую изменчивость на детерминированную и случайную составляющие. В общем, решение сводится к определению по единственной реализации u(x) нестационарной случайной функции U(x) оценок закономерной m(x) и случайной R(x) компонент этой функции. В соответствии с (1) для отдельной реализации запишем:

где - оценка закономерной составляющей, r(x) - остатки.

При обучении сети будем использовать весь объём имеющейся геологической информации без разбиения на подмножества.

Для построения НС-модели по статистической базе данных обычно применяется два вида сетей: радиальных базисных функций (RBF-сети) и многослойный персептрон (MLP-сети) [2]. Первая отличается свойством локальной аппроксимации и лёгкой обучаемостью, вторая характеризуется глобальной аппроксимацией и может иметь значительные проблемы в процессе обучения. В силу отмеченных свойств, MLP-сеть можно рекомендовать, в контексте решения геологических задач, для выявления общего тренда в данных и экстраполяции значений пространственной переменной за область известных данных. Для более детального распознавания структуры обучающего множества лучше подойдёт RBF-сеть. Поэтому задача выделения закономерной составляющей из сильно зашумлённых данных представляется наиболее топологически близкой к архитектуре именно этой сети.

Создавая сети с различным числом нейронов и обучая их, получим соответствующие варианты моделей аппроксимации исходных данных, различающиеся степенью близости к этим данным, картиной распределения остатков и величиной их дисперсии. Для каждого варианта модели оцениваем распределение остатков r(x) и останавливаемся на том из вариантов, который лучше всего соответствует нормальному закону распределения (выбранному критерию).

При обучении НС входная переменная будет представлена координатами x точек замеров показателя, а выходная – соответствующими значениями u(x) показателя. После обучения сеть приобретает способность генерировать модельные значения закономерной составляющей в любых точках области определения пространственной переменной. Остатки определяются как разности между значениями показателя в пробах и модельными значениями (выборочной оценкой математического ожидания случайной функции U (x)):

Данный подход был реализован на примере создания одномерной модели пространственной переменной. Исходные данные представлены пробами детальной и опережающей эксплуатационной разведок по разведочной линии РЛ-6 на горизонте +1385 метра карьера СП «Эрдэнэт» (на упомянутом выше медно-молибденовом месторождении «Эрдэнэтийн-Овоо»). В качестве исследуемого показателя взято содержание общей меди (cuob_c, %) в композированных 15-метровых керновых пробах. Расположение 42-х вертикальных скважин по разведочной линии практически регулярное с шагом около 31 метра. Расстояние между крайними скважинами по линии – 1268 м. Границами профиля являются скважины с содержанием общей меди 0.13% и 0.11% (руда с содержанием 0.10-0.35% относится к забалансовой). Максимальное содержание в пробе по выборке 1.60% при среднем - 0.74% и оценке стандарта 0.376%. Данные представлены в виде графика размещения показателя вдоль разведочной линии (ломаная линия на рис. 1(а-д)).

Для построения НС-модели была выбрана сеть на радиальных базисных функциях – RBF-сеть. При этом использовался программный пакет STATISTICA Neural Networks v.4.0e, в котором реализованы некоторые из наиболее широко распространённых алгоритмов построения нейронных сетей. Входная переменная сети - x представлена расстояниями L (м) от начальной точки (крайней левой скважины по профилю) до каждой из проб. Выходная переменная u (x) представлена соответствующим набором значений показателя cuob_c (% вес.) - содержания общей меди в пробах. Таким образом, для обучения сети были использованы 42 пары данных. Сеть создавалась методом наращивания: начальное число нейронов промежуточного слоя было принято равным 5, что предположительно обеспечивало только грубую аппроксимацию. Это позволяло не допустить переобучения сети на начальном этапе. После обучения НС запускалась на исполнение (прогон сети) и в итоге выдавала результаты аппроксимации. Программа позволяет отслеживать ошибки обучения, а также выводит ряд итоговых статистик, в том числе среднеквадратическую ошибку, которая характеризует случайную составляющую. На рис. 1а представлены график реализации (ломаная линия) и тренд. Затем определялись остатки (3), по которым строился нормальный вероятностный график (рис. 2а). Он позволял визуально оценить, насколько распределение остатков близко к нормальному. Кроме того, на графике были представлены W-статистики критерия Шапиро-Уилка SW-W на нормальность. Они использовались при окончательном выборе варианта сети. На следующем шаге добавлялись ещё 3 нейрона и все операции повторялись. Было создано 5 вариантов RBF-сетей с числом нейронов промежуточного слоя от 5 до 17 с шагом 3. Наращивание сети продолжалось до тех пор, пока распределение остатков после улучшения (рис. 2(а -в)) в смысле близости к нормальному закону не стало ухудшаться (рис. 2(г-д)). При принятом критерии адекватности это означало, что начался процесс переобучения и наращивание сети нужно прекратить. Для лучшей визуализации результатов были осуществлены прогоны каждой из полученных сетей на совокупности исходных и новых входных данных, представленных расстояниями от начальной точки через 10 метров. Результаты работы сетей представлены на рис. 1 (а-г). На графиках чётко прослеживается тенденция приближения модели (кривой) к данным по мере роста числа нейронов, а вместе с тем – степени обученности НС. Сравнивая между собой варианты полученных решений, приходим к выводу, что лучшие показатели близости к нормальному распределению остатков (рис. 2в) у НС-модели (рис. 1в), которую построила нейронная сеть с 11-ю нейронами. Эту сеть и выбираем окончательно для моделирования. Подавая на вход сети какие угодно значения из области определения пространственной переменной (в нашем случае - расстояния от начальной скважины до точек на разведочной линии) и запуская сеть на исполнение, будем получать соответствующие модельные значения показателя, т.е. оценки закономерной составляющей.

Остатки по выбранному варианту модели можно считать реализацией случайной функции с нулевым математическим ожиданием. На рис.3 представлен график зависимости остатков от значений закономерной составляющей, т.е. от средних значений признака в окрестности проб. На графике видно, что разброс точек возрастает с ростом показателя, что вполне соответствует современным представлениям о положительной связи дисперсии и среднего содержания в окрестности точек замера. В таблице приведена корреляционная матрица, которая подтверждает наличие такой связи: абсолютные значения остатков коррелируют как с разведочными данными (r=0.39), так и с моделью (r=0.41).

Таблица
  Means Std.Dev. Абс_остатки cuob_c cuob_c_m
Абс_остатки 0.205 0.158 1.00 0.39 0.41
cuob_c 0.736 0.376 0.39 1.00 0.72
cuob_c_m 0.737 0.268 0.41 0.72 1.00

Известно, что стандарт распределения зависит от среднего содержания в окрестности замера. Для большинства месторождений цветных металлов эта зависимость линейна [5, с. 286]:

формула 4 (4)


Установить наличие подобной связи непосредственно, когда мы располагаем только одной реализацией случайной функции, да ещё представленной незначительным объёмом данных, практически невозможно. Однако статистические свойства остатков позволяют нам найти с помощью уравнения регрессии приближённую зависимость между детерминированной и случайной компонентами пространственной переменной. Поскольку дисперсия в окрестности проб с увеличением среднего содержания металла должна возрастать, то при этом должен в среднем увеличиваться и разброс значений реализаций случайной составляющей относительно закономерной компоненты. Представленная на рис. 4 регрессионная зависимость абсолютных значений остатков от закономерной составляющей признака демонстрирует наличие положительной линейной связи. Придерживаясь принятых ранее обозначений и заменив x на L (L определяет положение текущей точки на разведочной линии относительно начальной) для одномерной модели, запишем выражение для оценки средней ошибки (модуля остатков) в точке L поля:

формула 5 (5)


где L – расстояние от начальной до текущей точки на разведочной линии, м; - содержание общей меди по НС-модели в текущей точке, %.

Воспользуемся известным соотношением между средней Θ и среднеквадратической m ошибками, полученным для нормального распределения:

Подставив выражение Θ в формулу (5) вместо и заменив при этом m на , получим регрессионную зависимость стандарта случайной составляющей от модели закономерной компоненты для области определения пространственной переменной:

формула 6 (6)


где - оценка стандарта случайной составляющей. Эта зависимость отражена на совмещённом графике на рис. 1в (нижняя кривая). Пользуясь уравнением (6), можно теперь в любой точке Li поля пространственной переменной (на разведочной линии) рассчитать по значению детерминированной компоненты оценку стандарта случайной компоненты, т.е. оценить точность закономерной составляющей.

Отметим, что общее по выборке среднеквадратическое отклонение для выбранной модели, вычисленное по остаткам, равно 0.261 %. Оценка общего стандарта данных равна 0.376 %, откуда доля случайной дисперсии составила 48.1 %.

На графике (рис. 5) представлена эмпирическая автокорреляционная функция остатков с границами 95%-ой доверительной области для гипотезы о нулевом значении коэффициентов корреляции. Только один из коэффициентов ρ = - 0.45 с лагом 2 оказался значимым. Это явление называют [6] отрицательной сериальной корреляцией и оно может свидетельствовать о наличии в ряду циклической составляющей. На графике спектральной плотности (рис. 6) максимальное её значение соответствует периоду 3.8 интервала разведки (лага), или 3.8*31=118 м. Отсутствие корреляции (ρ = -0.05 с лагом 1) между пробами соседних скважин и общий вид коррелограммы позволяют сделать вывод о том, что радиус влияния проб при заданной плотности разведочных скважин не выявлен. К такому же заключению можно прийти, анализируя вариограмму остатков (рис. 7). Эта эмпирическая функция построена в соответствии с правилами геостатистики [7]. Она является функцией векторного аргумента, т.е. зависит от расстояния и направления. Вариограмма показывает, как в среднем различаются значения признака в зависимости от расстояния в заданном направлении или в заданной области пространства. Считается, что вариограмма отражает многие геологические характеристики изучаемого объекта. Поведение вариограммы остатков (рис. 7) близко по характеру к белому шуму. Это подтверждает и анализ спектральной плотности остатков, распределение которой хорошо согласуется с экспоненциальным законом (рис. 8).

Если для случайной составляющей определён радиус корреляции (зона влияния проб), то для её моделирования можно применить крайгинг. В таком случае сначала к экспериментальной вариограмме остатков подбирается модель, а затем выполняется интерполяция остатков методом обычного крайгинга [8]. В итоге полученные оценки складываются со значениями закономерной составляющей (трендом) в точках замера.

Таким образом, математическую модель пространственной переменной можно создать с помощью нейронной сети при наличии каких-либо закономерностей в данных, которые сеть способна обнаружить в результате обучения. В условиях ограниченного объёма данных уровень обученности нейронной сети должен определяться по некоторому критерию в отношении остатков (например, нормальному распределению), которые являются носителями информации о свойствах случайного геологического поля пространственной переменной. Остатки позволяют оценить случайную составляющую с помощью методов статистики и геостатистики. Используя модули остатков можно построить регрессионную зависимость стандарта случайной компоненты от модельных значений закономерной составляющей, что позволяет оценивать точность последних в любой точке поля пространственной переменной. Поскольку модели детерминированной и случайной компонент взаимосвязаны и взаимообусловлены, то результаты анализа остатков могут потребовать в некоторых случаях определённой корректировки модели пространственной переменной.

Рис. 1 (а)
Рис. 2 (а)
Рис. 1 (б)
Рис. 2 (б)
Рис. 1 (в)
Рис. 2 (в)
Рис. 1 (г)
Рис. 2 (г)
Рис. 1 (д)
Рис. 2 (д)
Рис.3
Рис.4
Рис.5
Рис.6
Рис.7
Рис.8

Литература:

  • 1. Головко В.А. Нейронные сети: обучение, организация и применение. Кн.4. – М.: ИПРЖР, 2001. – 256 с. (Научная серия «Нейрокомпьютеры и их применение»).
  • 2. Тархов Д.А. Нейронные сети как средство математического моделирования. Кн. 22. – М.: Радиотехника, 2006. – 48 с. (Научная серия «Нейрокомпьютеры и их применение»).
  • 3. Осовский С. Нейронные сети для обработки информации / Пер. с польского И.Д.Рудинского. – М.: Финансы и статистика, 2002. – 344 с.
  • 4. Отгонбилэг Ш. Управление рудной массой. - М.: Недра, 1996. – 173 с.
  • 5. Гудков В.М., Хлебников А.В. Математическая обработка маркшейдерско-геодезических измерений. – М.: Недра, 1990. – 335 с.
  • 6. Дрейпер Н., Смит Г. Прикладной регрессионный анализ, 3-е изд.: Пер. с.англ. – М.: Издательский дом «Вильямс», 2007. – 912 с.
  • 7. Давид М. Геостатистические методы при оценке запасов руд: Пер. с англ. – Л.: Недра, 1980. - 360 с.
  • 8. Капутин Ю.Е. Горные компьютерные технологии и геостатистика. – СПб.: «Недра», 2002. – 424 с.
  • 9. http://www.rmj.ru/statsoft/textbook/modules/stneunet.html#multilayerd
  •  


    Если понравилась статья и вы хотите

     

    Добавлена система комментариев. Вы можете оставлять свои комментарии к статьям. Комментирование доступно без регистрации.

    Система Orphus

    Почта (e-mail)

    Логин:
    ?
    Пароль:



    Присоединяйтесь

    MarkscheiderGeo.ru в Google+    MarkscheiderGeo.ru на Facebook

    Здравая мысль

    Учитесь так, словно вы постоянно ощущаете нехватку своих знаний, и так, словно вы постоянно боитесь растерять свои знания.
    Конфуций