Определимся с терминологией. Массив данных это совокупность взаимосвязанных сведений, подлежащих совместной обработке и хранению. Массив данных состоит из одной или более записей – набора данных. Данные принадлежащие одному массиву записываются по общим правилам. Массив данных может быть представлен в виде одного столбца или строки – одномерный или виде нескольких столбцов и строк – двухмерный (матрица). Запись столбцов (полей) данных массива может быть разных форматов, наиболее часто используемые форматы – это число, дата и текст. Причем, число и дата могут вводиться как текст.
В Excel массив данных представлен в виде диапазона или нескольких диапазонов. Диапазон в Excel состоит из одной и более ячеек. В Excel ограничения на количество столбцов и строк на листе определены версией приложения. Версия 2010, на которой рассматриваются примеры, позволяет создать на одном листе диапазон из 16384 столбца и 1048576 строк.
Одномерный массив данных, например, перечисление ИНН физических лиц или ФИО состоящий из одного столбца.
Операции с одномерным массивом
1. Проверка на наличие дублей записей и их удаление;
2. Поиск дублирующих записей;
3. Сравнение (поиск разности и пересечения).
У нас есть массив данных, состоящий из 10000 записей и не известно, есть ли в нем повторяющие записи, а просматривать визуально потребует большие временные затраты. Для удаления дубликатов в Excel на вкладке «Данные» есть кнопка «Удалить дубликаты».
Выделяем весь диапазон данных. Для быстрого выделения необходимо выделить первую запись в списке (заголовок можно не выделять) и одновременно нажать на клавиатуре кнопки Ctrl+Shift+↓(стрелочка вниз). Это прием работает и с конца списка, достаточно выделить последнюю ячейку и одновременно нажать клавиши Ctrl+Shift+↑(стрелочка вверх). И так же и вправо и влево.
Выделив диапазон, на вкладке «Данные» нажимаем кнопку «Удалить дубликаты»
Выходит диалоговое окно.
Нажимаем «ОК»
Получаем информационное сообщение о количестве удаленных повторяющих значений и количестве оставшихся уникальных значений.
Дубли из массива удалены, все записи в нем уникальны.
Теперь необходимо узнать, какие записи и сколько раз повторяются . Вернем массив, в исходное состояние, через кнопку отмена, или используя сочетание клавиш Ctrl+Z.
Выделяем массив, копируем и вставляем рядом или на другой лист (в описываемом примере мы вставили список на этот же лист, в столбец D). И проводим над скопированным массивом операции по удалению повторяющих значений. Теперь у нас два массива, исходный и содержащий уникальные записи.
Исходному массиву присваиваем имя. Для этого выделяем его Ctrl+Shift+↓(стрелочка вниз) и не снимая выделения, нажатием правой клавиши мыши вызываем контекстное меню и выбираем пункт «Присвоить имя…»
Присваиваем имя выделенному диапазону.
При вводе недопустимого имени выходит сообщение.
(В примере диапазону ячеек массива присвоим имя «ПРИМЕР». В дальнейшем диапазонам рекомендую присваивать осмысленные имена.
Полезно знать. Присвоить имя можно и одной ячейке. Удобно это будет когда, используется функция «СЦЕПИТЬ