Вяльцев Андрей - Базовая оценка минерализации. Ресурсный геолог стр 6.

Книгу можно купить на ЛитРес.
Всего за 1000 руб. Купить полную версию
Шрифт
Фон

Выше при объяснении механизма построения гистограммы было сказано, что диапазон значений разбивается на некоторое количество классов содержаний. Однако ничего не было сказано о том, как выбирается количество классов. Вопрос о количестве классов, на которые разбивать диапазон значений, не имеет однозначного ответа. «Классическим» вариантом разбивки на классы считается формула Стерджесса.

Количество классов 1 +3.22 * lg (N),

Здесь N  численность выборки, lg  десятичный логарифм.

Формула является эмпирической, т. е. ее единственное обоснование: «всегда так делали, и хорошо получалось».

Основной недостаток этой формулы  слишком малое количество классов, которое на больших выборках зачастую не позволяет увидеть важные особенности. Рост количества классов полностью объясняется особенностью поведения логарифма: сначала относительно быстрый рост, а затем замедление. На рисунке ниже можно увидеть зависимость между численностью выборки и количеством классов, определенных согласно этой формуле.

Выборку в 100 тыс. записей данное правило рекомендует разбить на 18 классов, в 200 тыс.  на 19, в 1 млн  только на 21. При построении гистограмм в соответствии с данной формулой можно увидеть только что-то очень явное, что чаще всего «и так понятно».


Зависимость между численностью выборки и количеством классов


Эта особенность применяемого правила, скорее всего, объясняется тем, что во времена создания «классической» статистики обычная численность выборки составляла несколько сотен замеров. В настоящее же время объемы выборок принципиально возросли и применение этой формулы может быть не вполне оправдано.

Обычно количество классов подбирается таким образом, чтобы на гистограмме были видны важные особенности, но при этом гистограмма продолжала бы быть похожей на гистограмму, а не на творение художника-абстракциониста или на картинку с одинокими столбцами, разделенными «белым безмолвием». Обычно количество классов не превышает 50 (для выборок объема в несколько десятков тысяч значений). При избыточном количестве классов на небольших выборках очень несложно обнаружить неоднородность, обусловленную исключительно разбиением на классы. На рисунке ниже представлена гистограмма, построенная для выборки в 1000 записей, представляющих собой сгенерированное однородное (нормальное) распределение со средним 20 и стандартным отклонением 5. N для данного рисунка  количество классов разбиения.


Гистограммы с различным количеством классов разбиения по выборке в 1000 записей


Можно видеть, что для выборки в 1000 значений при количестве классов, существенно превышающем правило Стерджесса, появляется ложная неоднородность (второй «горб») с границей в районе 28.

В то же время при достаточно большом количестве наблюдений получить искусственную неоднородность уже довольно сложно. На рисунке ниже показана аналогичная выборка, но с числом наблюдений 10000. То есть для выборки в 10000 наблюдений даже при десятикратном превышении правила Стерджесса явной неоднородности не отмечается. Нижняя граница численности выборки, после которой можно не очень опасаться искусственной неоднородности, вероятно, находится на уровне 45 тыс. наблюдений (в принципе, не очень большая редкость для геологии). При меньшем количестве классов, вероятно, не стоит кратно превышать те цифры, которые дает правило Стерджесса.


Гистограммы с различным количеством классов разбиения по выборке в 10000 записей

Среднее арифметическое

Генеральная совокупность в подавляющем большинстве случаев недостижима. Вы в своей работе будете всегда иметь дело с выборкой. У выборки, как и у генеральной совокупности, есть свои характеристики. В том случае, если выборка очень небольшая  например, 5-7-10 значений, вы можете видеть ее всю целиком, и никаких дополнительных характеристик выборки вам не нужно. Однако традиционно в геологии (и моделировании) вы будете иметь дело с выборками объемом в десятки, сотни и тысячи значений. Впрочем, и выборки в миллионы значений также не являются сугубо экзотичными. Поскольку физически невозможно держать эту выборку «в поле зрения», возникает необходимость каким-либо образом охарактеризовать ее относительно небольшим количеством величин, позволяющими получить представление о выборке без просмотра ее целиком.

Первое, что логично напрашивается  это минимальное и максимальное значения, а также размах. Если с минимумом и максимумом все понятно, то размах  это разница между максимумом и минимумом. То есть размах  это диапазон значений, полученных для данной выборки.

Следующая характеристика выборки  это выборочное среднее. Зачастую слово «выборочное» опускают и говорят просто о «среднем». Вообще говоря, существует довольно большое количество средних, однако чаще всего при упоминании «среднего» имеют в виду среднее арифметическое. Среднее (арифметическое)  это величина, которая рассчитывается по формуле, хорошо знакомой еще из школьного курса.


Формула расчета среднего


Например, среднее из 4, 10 и 19 равняется 11. То есть среднее  величина, промежуточная для реальных значений. Если рассматривать числа как точки на числовой прямой, то среднее  это точка «посередине» точек, соответствующих выборочным данным.

Среднее обладает некоторыми свойствами, также позволяющими лучше понять его смысл:

 если средней величиной заменить все значения выборки, то сумма значений выборки не изменится;

 если среднее значение вычесть из каждого значения выборки, то сумма этих разностей будет равна 0.

Необходимо отметить, что среднее (арифметическое) дает неплохое представление о выборке «симметричной», т. е. такой, в которой высоких и низких значений «примерно поровну». В том же случае, когда явно преобладают высокие или низкие значения, среднее дает смещенную оценку. Также на оценку среднего серьезное влияние оказывают значения, резко выделяющиеся из общей массы (причем неважно  в большую или меньшую сторону). В качестве примера можно рассмотреть коллектив небольшой организации, в которой 20 человек получают по 30 т. р., а генеральный директор  2 млн. р. Очевидно, что среднее, равное для описанного случая, ~695 т. р., вряд ли корректно отражает ситуацию с уровнем доходов сотрудников организации  причем это справедливо как в отношении рядовых сотрудников, так и в отношении директора. Ну или можно рассмотреть известную шутку о том, что все посетители бара, куда заходит Билл Гейтс, мгновенно в среднем становятся миллионерами (правда, счастье длится ровно до того момента, пока этот уважаемый человек не покинет бар). Вопрос о методах выявления и компенсации аномальных значений в выборке  не самый простой и будет относительно подробно рассмотрен в главе, посвященной урезке ураганных содержаний.

Кроме фактора симметричности и наличия/отсутствия аномальных значений, на оценку среднего может повлиять и разница в других свойствах предметов (явлений), которые приводят к смещению оценки среднего. Одним из подобных факторов является свойство, которое принято называть весом.

Представим себе ситуацию смешивания двух объемов руды: одна смешиваемая руда характеризуется содержанием золота (почему бы и не золота?) 5 г/т, вторая  10 г/т. Обычное среднее арифметическое, очевидно, в данном случае составит 7.5 г/т. То есть, если мы очень хорошо перемешаем рудный материал, то ожидаем увидеть в получившейся смеси эти самые 7.5 г/т. Но что будет, если масса «пятиграммовой» руды составит 10 т, а «десятиграммовой»  1 т? Очевидно, что в результате смешивания мы получим 11 т руды. При этом из первой порции «придет» 50 г драгоценного металла, а из второй  10 г. То есть в смеси всего будет содержаться 60 г. И среднее в этом случае составит 60/11  5.45 г/т. Очевидно, цифра несколько отличается от ранее полученных 7.5 г/т (что, безусловно, обидно, зато позволило не впасть в ошибку при ожидании).

Ваша оценка очень важна

0
Шрифт
Фон

Помогите Вашим друзьям узнать о библиотеке

Скачать книгу

Если нет возможности читать онлайн, скачайте книгу файлом для электронной книжки и читайте офлайн.

fb2.zip txt txt.zip rtf.zip a4.pdf a6.pdf mobi.prc epub ios.epub fb3