Вяльцев Андрей - Базовая оценка минерализации. Ресурсный геолог стр 8.

Шрифт
Фон

Исторически сложилось так, что был выбран второй вариант  просто потому, что степенная функция является дифференцируемой во всей области определения, а модуль  нет. Для статистических расчетов, более сложных, чем обычно используются в геологии, необходимо, чтобы была возможность без лишних проблем интегрировать и дифференцировать функции. В этом отношении степенная функция значительно «удобнее», чем модуль. Поэтому мы имеем в качестве величины, характеризующей разброс данных, усредненную сумму квадратов отклонений.

Итого: чтобы не получить ноль при усреднении отклонений, требуется использовать квадрат величины отклонения. То есть выборочной дисперсией называется величина, рассчитанная по формуле:


Формула для оценки дисперсии выборки


То есть выборочная дисперсия  среднее из квадратов отклонения случайной величины от ее среднего значения.

Считается (и доказывается в классических статистических работах), что выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Для оценки дисперсии генеральной совокупности используется чуть более сложная формула:


Формула для оценки дисперсии генеральной совокупности


Выше мы с помощью несложных логических рассуждений вывели формулу дисперсии. Было бы нелишним понимать смысл этой формулы, но строгого запоминания этих формул не требуется, поскольку они заложены во всем ПО, работающем с данными (по крайней мере, авторам не встречалось ПО, где бы эти формулы не были заложены).

Выше приведены две формулы расчета дисперсии. Необходимо обратить внимание на то, что в задачах моделирования практически всегда мы имеем дело не с генеральными совокупностями, а со случайными выборками из генеральной совокупности. Поэтому мы не имеем точного значения дисперсии, а только ее оценку. В учебниках по математической статистике5 указано, что верхняя формула (где выполняется деление на численность выборки) дает смещенную оценку дисперсии, а нижняя (где деление выполняется на численность выборки минус 1)  несмещенную. Вторую формулу используют для оценки дисперсии генеральной совокупности.

Теперь о том, какую дисперсию считает ПО, которым мы имеем счастье пользоваться:

 Первым пунктом идет, естественно, великий и ужасный Excel6. В Excel существует две формулы для расчета дисперсии (на самом деле, больше, но глобально  две, остальные  это вариации на тему «использовать логические значения / не использовать логические значения»): ДИСП. В и ДИСП. Г. Причем вторая, как сказано в ее кратком описании, рассчитывает дисперсию генеральной совокупности. Вот, казалось бы, «щасстье привалило». Однако нет: ручная проверка показывает, что результат работы функции ДИСП. Г совпадает с формулой смещенной оценки. В чем же проблема? А проблема очень простая: функция ДИСП. Г считает, что то, что она получила на вход, это и есть генеральная совокупность. А при генеральной совокупности  таки да, надо делить на численность генеральной совокупности. Но у нас-то не генеральная! Хорошо, если генеральная совокупность выглядит как «непьющие мужчины за 40 деревни Чуево-Кукуево»  там вообще считать нечего. Но в моделировании мы практически всегда имеем дело со случайной выборкой. Поэтому функцию ДИСП. Г мы забываем, как страшный сон.

Вывод: Excel для выборочной дисперсии (ДИСП. В) приводит ее несмещенную оценку.

 Google таблицы7  аналогично: функция VAR рассчитывает несмещенную оценку, функция VARP совершенно аналогична ДИСП. Г Excel.

 Datamine. Дает смещенную оценку.

 Snowden Supervisor. Дает смещенную оценку.

 Micromine. Дает несмещенную оценку.

 Leapfrog. Дает несмещенную оценку.

И вот вы прочитали предыдущие 6 пунктов и сидите в ужасе: «Чему верить?» А в общем, ничего страшного в описанной ситуации нет. Заметим, что при росте объема выборки (и соответственно, приближении ее к генеральной совокупности) разница между оценкой выборочной дисперсии и дисперсии генеральной совокупности уменьшается (ну просто потому, что разница между делением на 10 и 11 вполне ощутима, а на 10000 и 9999  почти нет). Ниже представлен график разницы между смещенной и несмещенной оценкой для выборок различного объема, созданных с помощью генератора случайных чисел.

Выборка сгенерирована с помощью генератора случайных чисел (в генератор заложена дисперсия 10), поэтому абсолютные цифры могут несколько «гулять», но тенденция видна невооруженным глазом: при численности выборки более ~100 наблюдений разница между смещенной и несмещенной оценками падает ниже 1% от дисперсии (кстати, на втором листе файла Excel, ссылка на который была чуть выше, эти формулы заложены  можете поиграть с ними). Учитывая обычные объемы выборок для моделирования, можно не забивать себе голову вопросами «это смещенная или несмещенная оценка?».


График разницы между смещенной и несмещенной оценкой для выборок различного объема

Стандартное отклонение и коэффициент вариации

Глядя на формулу дисперсии, можно понять, что единицы измерения дисперсии  это квадраты тех единиц, в которых измеряется исследуемая величина. Во многих случаях это немного неудобно, поэтому имеет смысл взять квадратный корень из этой величины. Полученное значение принято называть среднеквадратичным отклонением или стандартным отклонением. Единицы измерения стандартного отклонения совпадают с единицами измерения исследуемой величины.

При работе с данными довольно часто мы имеем дело с разнопорядковыми величинами, часто еще и измеренными в разных единицах или несущих разный физический смысл. При этом время от времени возникает горячее желание сопоставить между собой разброс двух величин, имеющих разное среднее и зачастую измеренных в разных единицах. Для решения такой задачи требуется некая, видимо, безразмерная величина, которая должна показывать то, насколько разброс данных больше его среднего. То есть, например, отношение стандартного отклонения к среднему по выборке.


Формула коэффициента вариации


Эта величина называется коэффициентом вариации. Эта величина безразмерная (в том смысле, что не имеет «нормальных» единиц измерения  типа сантиметров, тонн или джоулей): и в числителе, и в знаменателе дроби присутствуют величины, измеряющиеся в одинаковых единицах. Коэффициент вариации может измеряться в долях единицы, а может в процентах (разница между «тем и этим»  100). Коэффициент вариации характеризует степень изменчивости, «неустойчивости», «непостоянства» исследуемой величины. Он может быть использован для сравнения степени изменчивости различных величин  например, содержания металла и сквозного извлечения. Также он используется при проверке того, можно ли использовать кригинг для интерполяции. Считается, что коэффициент вариации больше 2 (или 200%) препятствует удачному использованию кригинга и требуются некоторые действия для его уменьшения  например, ограничение аномальных значений (урезка ураганов) или изучение вопроса об однородности выборки.

Общепринятого ранжирования величин по степени изменчивости на основе коэффициента вариации нет. В советское время предлагалось ранжировать выборки от весьма слабой изменчивости к весьма сильной по реперным значениям коэффициента вариации 0.20.40.8. По опыту работы с данными опробования золоторудных объектов можно сказать, что подавляющее большинство рудных выборок имеют коэффициент вариации содержаний не менее 0.8 (80%). Очень часто он превышает 2.

Ваша оценка очень важна

0
Шрифт
Фон

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Если нет возможности читать онлайн, скачайте книгу файлом для электронной книжки и читайте офлайн.

fb2.zip txt txt.zip rtf.zip a4.pdf a6.pdf mobi.prc epub ios.epub fb3