При использовании программного генератора достаточно указать название распределения и его параметры.
Нормальное распределение имеет один пик. В целом, такая форма кривой называется колоколообразной. То есть она похожа по форме на колокол.
Соответствующее английское название Probability Distribution. Probability это вероятность. Distribution распределение.
Распределение вероятностей это вероятность появления разных значений случайной величины. Когда мы обрабатываем реальные данные, эту вероятность мы можем найти только приблизительно с помощью оценок. На практике распределение это частота появления разных значений. Что-то бывает чаще, что-то бывает реже.
Чтобы сгенерировать случайные числа, мы используем программный генератор.
Рис. Запуск генератора
Всё начинается с равномерного распределения. Случайное число от нуля до единицы. Это считается своеобразным стандартом, строительным «кирпичиком» для реализации любого другого распределения.
Рис. Стандартное нормальное распределение
В некоторых случаях мы можем вручную указать тот диапазон значений, который нас интересует. Стандартные параметры это диапазон значений от нуля до единицы.
Рис. Настройка генератора
Запускаем генератор случайных чисел. В диалоговом окне указываем число переменных, см. рис. Напомним, что переменные в электронных таблицах и во многих других случаях располагаются по столбцам. Это имеет отношение к истории. Традиционно, задолго до появления компьютеров числа записывали в колонку. Внизу столбца подсчитать сумму. Вручную числа удобно складывать столбиком. Соответственно, и в компьютерах используется традиционное расположение данных. Оно интуитивно понятно.
Это касается электронных таблиц, баз данных, обработки данных в Python. И это касается настройки генератора случайных чисел. Количество случайных значений задаётся как количество строк. Количество переменных это число столбцов.
Далее указываем форму распределения равномерное.
Параметры равномерного распределения минимальное и максимальное значения. По умолчанию от нуля до единицы.
Начальное значение генератора: 1234.
Диапазон ячеек для вывода.
Рис. Вставка гистограммы как статистической диаграммы
Чтобы рассмотреть полученное распределение, используем график под названием гистограмма.
Мы рассматриваем пример в Excel.
Выделяем диапазон ячеек. Вызываем вставку гистограммы, см. рис.
В меню Insert Chart есть две похожие кнопки: Bar Chart и Histogram.
Bar Chart это простая столбиковая диаграмма, причём для каждого значения входного диапазона строится свой отдельный столбик. В некоторых вариантах перевода эта кнопка обозначена как «Гистограмма». Конечно, это запутывает пользователей. Если построить столбиковую диаграмму по 10000 значений, мы получим 10000 столбиков. Можете попробовать чтобы больше не «попадаться».
Histogram это гистограмма, то есть столбиковая диаграмма частот. Частоты считают для сгруппированных данных. Это частота попадания чисел в интервалы (диапазоны значений), см. рис.
Рис. Меню Вставка Диаграмма
Этот новый инструмент «Гистограмма как статистическая диаграмма» работает только в последней версии Excel. Поэтому рекомендуем при возможности обновить версию MS Office.
Построим гистограмму и посмотрим, чем она отличается от других графиков. Всплывающая подсказка сообщает, что этот график позволяет изучить распределение данных, сгруппированных по интервалам значений. В английском варианте интервал группировки называется bin. Буквально слово bin означает «корзина». Иногда его переводят словом «карман». Более грамотно было бы назвать его «интервал группировки данных».
Таким образом, наши данные от нуля до единицы сгруппированы по нескольким интервалам. Excel сам автоматически подсчитывает, сколько чисел в какой интервал попадает. Затем строится столбиковый график полученных частот. Так что это особый график со встроенной автоматической обработкой данных.
Рис. Гистограмма с автоматическими настройками