Наш предмет называется ЭКОНОМЕТРИКА. Существует эконометрика достаточно давно. На Западе – уже десятки лет преподаётся как самостоятельная дисциплина. В России эконометрика «появилась» лет двадцать-тридцать тому назад – как следование западной моде.
Смысл в том, что 30 лет назад это была какая-то абстрактная теория, непонятное ответвление статистики. На сегодняшний день это работающие программы и технологии. Когда мы слышим про загадочные «большие данные» – Big Data, про анализ больших данных или про науку о данных – Data Science – за этим скрывается то, что как раз и изучается в курсе «Эконометрика».
Мы с вами будем разбирать очень практические вещи. Соответственно, и в лекциях, и на лабораторных работах у вас будет именно практическая сторона материала.
Весь предмет эконометрики сводится к задаче регрессии.
У нас имеется некоторое количество данных, которые условно можно назвать «иксы» и «игреки». Их можно изобразить в виде точек. Это могут быть люди, станки, квартиры, предприятия, страны. Имеем массив числовых значений и точек на графике. По этим точкам нужно В СРЕДНЕМ провести какую-нибудь линию, см. рис.
Рис. Регрессия – линия в среднем по точкам
Это может быть прямая, или кривая, или даже ломаная.
Если нанести точки на плоском графике и нужно построить прямую линию, то достаточно приложить линейку и провести линию. Главное, что это должно в среднем. Это значит, что линия может вообще не пройти ни по одной точке. Она пройдет там, где густо. Там, где много точек.
Такая технология называется РЕГРЕССИЯ.
На занятиях по бизнес-аналитике и статистике мы с разных сторон рассмотрим историю и разберём данный раздел.
Буквально слово «регрессия» означает «движение назад». В большинстве случаев это действительно возвращение или противоположность прогрессу и т. п. – кроме нашей ситуации. В эконометрике и в статистике слово «регрессия» означает «провести по точкам подходящую линию». По сути это попытка получить очень упрощенную закономерность из большого количества данных.
Вспомним школьный курс математики и геометрии. Прямую линию можно провести только через две точки. Это математика.
В статистике и в эконометрике мы говорим по-другому. Чтобы провести прямую линию, нужно 100 точек, а лучше 1000, а ещё лучше 1000000. Наша линия пройдет по ним в среднем. Эта идея в самых разных видах и будет рассматриваться.
Самый простой инструмент, с которым мы будем работать, – это табличный редактор, или электронная таблица. Это может быть Microsoft Excel или любой другой подобный программный продукт. Существует множество программ, которые совместимы с Excel на уровне формата файла. Есть бесплатный продукт – Libre Office Calc. Это могут быть облачные средства, например, Таблицы Гугл – Google Sheets.
На экране мы видим столбец иксов и столбец игреков. На графике нанесены эти точки. Можно себе представить, что это люди разного роста и разного веса. Каждого человека измерили и взвесили.
Теперь мы хотим получить среднюю, общую закономерность. Если мы выберем людей с очень красивой фигурой и с очень хорошим здоровьем, тогда можно будет говорить про «формулу идеального веса», см. рис.
Рис. Линия регрессии в Excel
Предмет «Эконометрика» имеет некоторое отношение к экономике, к услугам, к товарам. Можно использовать знание таких закономерностей и для мониторинга здоровья сотрудников компании. Многие предприятия отправляют работников на регулярный медосмотр. При этом можно выяснить, у кого излишний вес, у кого нормальный, у кого недостаточный. Это может влиять на здоровье сотрудников, а значит, и на работу предприятия. Лучше потратить средства на поддержание здоровья, чем на лечение или срочную замену в самый неподходящий момент. Конечно, это будет важно для тех, кого интересует долгосрочное существование компании.
Другой пример. Пускай в качестве иксов у нас будет площадь квартиры, а по игреку – стоимость квартиры. Тогда мы можем рассматривать такую финансовую закономерность: сколько стоит квадратный метр в среднем и сколько может стоить конкретная квартира?
Есть множество таких ситуаций, где можно найти и использовать подобную зависимость. Хорошо, если есть всего один икс и один игрек. Это можно представить на плоскости. А если будет 20 иксов и 30 игреков? А если 120 иксов? Это на плоскости сложно изобразить – и от руки, и на компьютере.
Разберем простую демонстрацию того, как выглядит регрессионный анализ.
Запускаем Excel.
Перед нами столбец иксов и столбец игреков.
Мы выделяем эти столбцы, выбираем Вставка – График — … Находим в серединке кнопочку «Точечная диаграмма». По-английски это называется Scatter Plot, по-русски – диаграмма разброса. У нас появилась картинка, см. рис.
Рис. Исходные данные и диаграмма разброса
Наши игреки начинаются не от нуля, поэтому мы настроим ось координат. Задаём минимальное значение 40, максимальное 110.
Нажимаем плюсик справа от диаграммы и добавляем «линию тренда». Вообще-то слово «тренд» означает «тенденция изменений, общее направление развития». Но в данном случае это просто общая закономерность. Мы говорим, что нас интересует прямая линия. На графике появляется прямая.
Мы хотели бы вывести уравнение этой линии на экран. Нажимаем More Options – Дополнительные параметры. Затем Display equation on chart – Вывести уравнение на график. Получаем уравнение нашей линии, см. рис.
Рис. Уравнение и линия регрессии
Это самый простой вариант: как мы можем в среднем по точкам провести линию. Естественно, здесь есть масса нюансов, масса тонкостей. Это самая общая идея того, что нам предстоит освоить.
У нас были условные иксы – рост человека в сантиметрах – и условные игреки – вес в килограммах. Мы получили формулу для среднего веса: нужно взять икс с коэффициентом 1,14 и отнять от него число 123. Для именно этого набора данных это будет средняя закономерность.
Примерно таким образом получают полезные советы для отрывных календарей и для книг по фитнесу. Хотите узнать свой идеальный вес? Возьмите свой рост и отнимите 100.
Чтобы получить такую формулу, нужно собрать людей с правильной фигурой и с хорошим здоровьем. Вот тогда можно будет вывести уравнение.
Итак, мы рассмотрели общую идею: нужно взять большое количество данных и по ним найти общую закономерность. Всё это называется словом «регрессия», и это слово просто означает «линия в среднем по точкам».
Мы строим линию – она называется «линия регрессии». Мы получаем уравнение этой линии – оно называется «уравнение регрессии».
В качестве упражнения вам предстоит повторить то, что было в этой демонстрации. Чтобы сгенерировать исходные данные, используйте формулы, показанные на рис.
Рис. Генерируем исходные данные
Вам нужно будет построить диаграмму разброса, потом добавить линию регрессии под названием «линия тренда». Затем нажать пару кнопочек, чтобы на экране появилось уравнение связи.
Теперь по поводу полученного уравнения. Мы берем эту формулу и переводим ее на русский язык – выражаем её смысл словами. Чтобы узнать свой «идеальный» вес, возьмите рост и сделайте с ним то-то и то-то. Нужно умножить рост на что-то, а потом отнять что-то.
Это особое действие, которое выполняют в эконометрике. Это попытка перевести найденную закономерность на обычный разговорный язык. Называется он ИНТЕРПРЕТАЦИЯ уравнения регрессии. Слово «интерпретация» буквально означает «перевод с одного языка на другой». Здесь мы переводим с математического языка формул на человеческий, разговорный язык.
Наш предмет эконометрики находится на стыке нескольких дисциплин, нескольких областей деятельности. Можно обнаружить раздел «Эконометрика» в некоторых учебниках по экономической теории – обычно в самом конце. Кроме того, мы обнаруживаем очень похожий материал в курсе статистики. В математике тоже рассматриваются похожие задачи. Фактически, эконометрика находится на стыке трёх областей деятельности, трёх областей знания. На рисунке мы приводим такую схему:
– экономика;
– математика;
– статистика.
Рис. Место предмета эконометрики
На схеме мы показали другие пограничные области, которые находятся на стыке дисциплин.
Между экономикой и математикой находится математическая экономика – там изучаются математические модели экономических систем и явлений. Но они изучаются по большей части с точки зрения теории: как, в принципе, должна зависеть цена от спроса.
На стыке экономики и статистики находится так называемая экономическая статистика. Можно найти учебники, которые так и называются. Здесь обсуждается применение статистики для решения самых разных экономических задач.
Есть предмет статистики, который иногда называют «Общая теория статистики». Его тоже можно отдельно изучать.
Наконец, на границе между математикой и статистикой есть математическая статистика. Там будет много формул, много интегралов —очень тяжелый материал для тех, кто сдавал ЕГЭ.
Мы будем разбирать материал попроще и попонятней, потому что наша аудитория – специалисты по информатике. Такие работники используют готовые инструменты. Они внедряют готовые информационные системы (ИС) или, в лучшем случае, их настраивают.
Не все «информатики» занимаются разработкой и написанием программ. Чаще всего, речь идет о настройке, установки, обслуживании, сопровождении ИС. Это целая профессия.
В плане эконометрики у нас тоже есть готовые инструменты и требуется грамотно ими пользоваться. А если не нужно писать свою программу, которая будет строить линию по точкам, то работа с интегралами нам не особо потребуется. Но нам потребуется научиться грамотно нажимать некоторые кнопки и получать правильные графики. И, конечно, объяснять смысл полученных закономерностей.
Рис. Предмет эконометрики
Слово «эконометрика» состоит из нескольких частей, см. рис.
Первая часть «эконо-» намекает на экономику. Напомним, что экономика – это производство, обмен и потребление товаров и услуг. Конечно, есть и наука, которая изучает эту сторону нашей жизни. Это самое простое определение, которое можно обнаружить в любом словаре или энциклопедии. Это наша жизнь. Всё, что мы делаем. 90 процентов нашей жизни связано или с производством, или с потреблением чего-нибудь, или с посещением мест, где это можно купить или продать. даже если мы лежим на диване и смотрим телевизор, мы что-то потребляем – товар (диван) и услугу (телевизионную передачу, «контент»). Есть и другие ситуации, где не так много экономики, а просто общественные отношения.
Вторая часть – «метр» – в данном случае означает «измерить, выразить числами, количественно». Это модели с какими-то числовыми коэффициентами. Модели, в которых есть конкретные числа. Модели строятся по реальным данным.
Эти модели нужны для того, чтобы выяснить, какие взаимосвязи существуют и почему происходит то или иное событие. Почему люди посещают магазин в определённое время? Почему люди переходят из одной сотовой компании в другую? В какой момент клиенты собираются «сбежать»? Это описание и анализ текущей ситуации.
Кроме анализа, существует задача прогнозирования. Что будет дальше, если верить существующим данным? Какие прогнозы по развитию ситуации? Исходя из прогнозов, можно давать рекомендации. Вот эти клиенты собираются перейти к другому оператору. Чтобы их удержать, обычно помогает вот такой приём, такое особое предложение – для такой категории клиентов.
Другой пример. Обычно в такое-то время такая категория покупателей приобретает такой набор товаров. Эти товары часто находятся в одном чеке. Поэтому давайте эти вроде бы разные товары на соседних полочках поставим.
Есть много задач, где обработка больших массивов данных помогает что-то обнаружить и что-то улучшить, причём с небольшими затратами.
В отличие от экономической теории, здесь рассматриваются конкретные данные, числа, факты. В экономической теории описывают общие закономерности, а здесь мы смотрим на реальные события, причём в большом количестве. Всё это нужно для того, чтобы чем-то управлять, чтобы что-то улучшать и корректировать. Эта деятельность называется управление, или принятие решений.
Окончание слова «-ика» означает «наука или дисциплина, изучение чего-либо».
Эконометрика занимается построением моделей. Мы рассмотрели пример такой модели в виде уравнения, но в среднем.
Есть большое количество книг с названием эконометрика. Каждый год появляются новые книги. Есть они на русском языке, есть и на других языках. На английском языке издаются в огромном количестве. Каждый университет с большим удовольствием издаёт свой вариант этого материала.
Задание
Предлагаем выполнить одно несложное задание, чтобы сориентироваться в общей картине. Посмотрите, какие существуют на сегодняшний день онлайн-курсы – платные и бесплатные – на тему «Эконометрика», «Большие данные», «Наука о данных», «Data Science», «Программирование на языке Python».
Есть платформы для массовых открытых онлайн-курсов – МООК. Английское название: Massive Open Online Courses (MOOC). Есть и отдельные компании, которые на чём-то специализируются.
Посмотрите сколько предлагается таких курсов и сколько они стоят.