Категориальные данные (Categorical data) это данные, качественно характеризующие исследуемый процесс или объект, не имеющие количественного выражения. В них каждая единица наблюдения назначается определенной группе или номинальной категории на основе некоторого качественного свойства. Обычно представляют собой построчные значения из ограниченного набора категорий (например, названия городов, наименования товаров, имена сотрудников и клиентов и т.д.). В некоторых случаях могут использоваться и числа, кодирующие эти категории. При обработке таких данных применяются только операции сравнения: «равно» и «не равно», производится их упорядочение, например, по алфавиту. Применение арифметических операций к категориальным данным некорректно, даже если они представлены числами404.
Квантильное группирование (Quantile bucketing) это распределение значений объекта по сегментам таким образом, чтобы каждый сегмент содержал одинаковое (или почти одинаковое) количество примеров. Например, на следующем рисунке 44 точки разделены на 4 корзины, каждая из которых содержит 11 точек. Чтобы каждый сегмент на рисунке содержал одинаковое количество точек, некоторые сегменты охватывают разную ширину значений x405.
Квантификатор (Quantifier) в логике это количественная оценка указывает количество экземпляров в области дискурса, которые удовлетворяют открытой формуле. Два наиболее распространенных квантификатора означают «для всех» и «существует». Например, в арифметике квантификаторы позволяют сказать, что натуральные числа продолжаются вечно, записав, что для всех n (где n натуральное число) существует другое число (скажем, следующее за n), которое на единицу больше, чем n406.
Квантование (Quantization) это разбиение диапазона отсчётных значений сигнала на конечное число уровней и округления этих значений до одного из двух ближайших к ним уровней407.
Квантовые вычисления (Quantum computing) это использование квантово-механических явлений, таких как суперпозиция и запутанность, для выполнения вычислений. Квантовый компьютер используется для выполнения таких вычислений, которые могут быть реализованы теоретически или физически408,409.
Квантовые технологии (Quantum technologies) это технологии создания вычислительных систем, основанные на новых принципах (квантовых эффектах), позволяющие радикально изменить способы передачи и обработки больших массивов данных410.
Киберфизические системы (Cyber-physical systems) это интеллектуальные сетевые системы со встроенными датчиками, процессорами и приводами, которые предназначены для взаимодействия с физической окружающей средой и поддержки работы компьютерных информационных систем в режиме реального времени411.
Класс (Class) это термин из набора перечисленных целевых значений меток. Например, в модели бинарной классификации, обнаруживающей спам-рассылку, существует два класса это спам и не спам. В многоклассовой модели классификации, которая идентифицирует породы собак, классами будут пудель, бигль, мопс и так далее412.
Класс большинства (Majority class) это метка в наборе данных с несбалансированным классом. Несбалансированные данные относятся к случаям, когда количество наблюдений в классе распределено неравномерно, и часто существует основной класс -класс большинства, который имеет гораздо больший процент набора данных, и второстепенные классы, в которых недостаточно примеров413.
Класс меньшинства (Minority class) это метка в несбалансированном по классам наборе данных. Например, учитывая набор данных, содержащий 99% ярлыков, не относящихся к спаму, и 1% ярлыков для спама, ярлыки для спама относятся к классу меньшинства в наборе данных с несбалансированным классом414.
Класс сложности NP (недетерминированное полиномиальное время) (NP) в теории вычислительной сложности это класс, используемый для классификации проблем принятия решений. NP это множество проблем решения, для которых экземпляры проблемы, где ответ «да», имеют доказательства, проверяемые за полиномиальное время с помощью детерминированной машины Тьюринга415.
Классификация (Classification). В задачах классификации используется алгоритм для точного распределения тестовых данных по определенным категориям, например, при отделении яблок от апельсинов. Или, в реальном мире, алгоритмы обучения с учителем можно использовать для классификации спама в отдельной папке из вашего почтового ящика. Линейные классификаторы, машины опорных векторов, деревья решений и случайный лес все это распространенные типы алгоритмов классификации416.
Кластеризация (Clustering) это метод интеллектуального анализа данных для группировки неразмеченных данных на основе их сходства или различия. Например, алгоритмы кластеризации K-средних распределяют сходные точки данных по группам, где значение K представляет размер группировки и степень детализации. Этот метод полезен для сегментации рынка, сжатия изображений и т.д.417.
Кластеризация временных данных (Temporal data clustering) это разделение неразмеченного набора временных данных на группы или кластеры, где все последовательности, сгруппированные в одном кластере, должны быть согласованными или однородными. Хотя для кластеризации различных типов временных данных были разработаны различные алгоритмы, все они пытаются модифицировать существующие алгоритмы кластеризации для обработки временной информации418.
Кластеризация на основе центроида (Centroid-based clustering) это категория алгоритмов кластеризации, которые организуют данные в неиерархические кластеры. Алгоритм k средних (k-means) это наиболее широко используемый алгоритм кластеризации на основе центроидов, один из алгоритмов машинного обучения, решающий задачу кластеризации419.
Кластерный анализ (Cluster analysis) это тип обучения без учителя, используемый для исследовательского анализа данных для поиска скрытых закономерностей или группировки в данных; кластеры моделируются с мерой сходства, определяемой такими метриками, как евклидово или вероятностное расстояние.
Ключевые точки (Keypoints) это координаты определенных объектов на изображении. Например, для модели распознавания изображений в задачах компьютерного зрения, такие как оценка позы человека, обнаружение лиц и распознавание эмоций, обычно работают с ключевыми точками на изображении420
Примечания
1
.Чесалов А. Ю. Глоссариум по искусственному интеллекту и информационным технологиям.-М.: Ridero. 2021.-304c. [Электронный ресурс] // Ridero.ru. URL: https://ridero.ru/books/glossarium_po_ informacionnym_tekhnologiyam_i_iskusstvennomu_intellektu/
2
A/B Testing [Электронный ресурс] https://vwo.com URL: https://vwo.com/ab-testing/ (дата обращения: 28.01.2022)
3
Abductive Logic Programming (ALP) [Электронный ресурс] https://engati.com URL: https://www.engati.com/glossary/abductive-logic-programming (дата обращения 14.02.2022)
4
Abductive reasoning [Электронный ресурс] https://msrblog.com URL: http://msrblog.com/science/mathematic/about-abductive-reasoning.html (дата обращения 14.02.2022)
5
Abstract data type [Электронный ресурс] https://embeddedartistry.com URL: https://embeddedartistry.com/fieldmanual-terms/abstract-data-type/ (дата обращения 14.02.2022)
6
Abstraction [Электронный ресурс] https://riskfirst.org URL: https://riskfirst.org/thinking/Glossary