Введение в эконометрику. Учебное пособие (Валентин Юльевич Арьков) - читать бесплатно онлайн полную версию книги (1. Парная линейная регрессия) #3

1. Парная линейная регрессия

1.1. Оформление отчёта

Отчёт о работе оформляется в виде рабочей книги Excel. Саму работу мы тоже выполняем в этой же рабочей книги. Каждое отдельное задание оформляем на новом рабочем листе. Подробности оформления отчёта описаны в работе [1].

Отчёт начинаем, как обычно, с титульного листа. Это первый лист рабочей книги. На титульном листе нужно указать название министерства, ВУЗа, кафедры. Далее идёт тип и название документа. Конечно, нужно указать номер студенческой группы, а также фамилию и инициалы студента. В нижней части титульного листа располагают название города и год.

На втором листе размещают оглавление работы. В нашем случае это название разделов и ссылка на соответствующий лист рабочей книги.

На третьей странице отчёта укажите номер зачетки. Это будут настройки генератора случайных чисел для имитационного моделирования.

Задание. Создайте новый документ Excel и сохраните, выбрав уникальное информативное имя файла.

1.2. Общий план работы

В первой работе мы будем знакомиться с парной линейной регрессией. Напомним, что регрессия – это построение зависимости в среднем по большому количеству точек (исходных данных). Слово «парная» означает, что у нас всего «пара» переменных – «икс» и «игрек». Слово «линейная» указывает, что мы будем строить линейное уравнение, то есть уравнение прямой линии. В линейном уравнении «икс» участвует в первой степени

В качестве исходных данных мы будем использовать результаты имитационного моделирования. Это позволит работать с такими данными, которые заведомо содержат интересующие нас закономерности.

Мы сгенерируем два столбца, в которых будет находиться одна независимая переменная «икс» и одна зависимая переменная «игрек». В этих данных будет заложена линейная взаимосвязь на фоне случайных отклонений – случайный разброс точек вокруг прямой линии.

«Икс» называют независимой переменной – independent variable. Предполагается, что «икс» может меняться как угодно и что он ни от чего в нашей модели не зависит. Другими словами, «икс» – это вход модели.

Изменение «икса» объясняет поведение «игрека». Поэтому «икс» ещё называют «объясняющей» переменной.

«Игрек» выступает в роли зависимой переменной – dependent variable. Он зависит от «икса». Хотя бы частично.

Для моделирования мы используем генератор случайных чисел из надстройки «Анализ данных». Попутно заметим, что полученные случайные числа будут записаны как числовые значения. Они не будут меняться со временем. В других ситуациях нам как раз будет нужно, чтобы случайные числа менялись – тогда мы будем вызывать функцию RAND.

Далее мы рассмотрим методику построения линейной модели, которая описывает наши данные в среднем. Это означает, что на графике линия должна проходить в среднем – по местам сгущения точек.

Кроме уравнения такой линии, нам понадобится определить возможную неопределённость (погрешность) полученных коэффициентов.

Окончательное уравнение должно содержать как коэффициенты, так и их погрешность. Случайную ошибку обычно описывают с помощью «сигмы». Это стандартное отклонение, или среднеее квадратическое отклонение (СКО). Для каждого коэффициента указываем его сигму – под коэффициентом в скобках, см. рис.

Рис. Коэффициенты и их сигмы

Для оценки коэффициентов и их «сигм» в данной работе используем три способа:

– надстройку «Анализ данных»;

– функцию ЛИНЕЙН – LINEST;

– формулы Excel.

Затем нам нужно будет провести интерпретацию полученного уравнения. Мы сформулируем смысл уравнения регрессии в виде высказывания, понятного обычному пользователю.

1.3. Надстройка

Чтобы включить надстройку «Анализ данных», вызовите File – Options.

Рис. Меню «Файл»

В диалоговом окне Excel Options выбираем: Add-ins – Manage – Excel Add-ins – Go, см. рис.

Ставим галочку рядом пунктом AnalysisToolpak – Пакет анализа, см. рис.

Рис. Меню «Надстройки»

Рис. Включение надстройки «Анализ данных»

Если надстройка активирована, можно будет найти кнопку Data Analysis в разделе меню Data – Analysis, см. рис.

Рис. Надстройка в разделе «Анализ»

1.4. Исходные данные

Сгенерируем исходные данные. Наши переменные будут расположены по столбцам.

В данной работе мы сформируем по 100 значений в каждом столбце. Это не слишком много и не слишком мало. С одной стороны, графики будут достаточно наглядными. С другой стороны, рисунки не будут слишком основательно заполнены точками.

Первый столбец – переменная u. Сгенерируйте столбец случайных чисел с равномерным распределением от 170 до 200. Начальное состояние генератора – четыре последние цифры номера зачетки, см. рис.

Рис. Настройки генератора

Далее нам нужно сгенерировать два столбца случайных чисел e1 и e2 со стандартным нормальным распределением. У такого распределения среднее значение MEAN равно нулю, а стандартное отклонение STANDARD DEVIATION равно единице. Сразу задаём генерирование двух столбцов – число переменных равно двум. Начальное состояние генератора – четыре последних цифры номера зачетки плюс 5.

Разные настройки генератора позволят создать независимые случайные числа в разных колонках.

В следующем столбце y введём формулу, как показано на рисунке.

Рис. Формулы по столбцам

В следующем столбце сформируем x. Добавим к значениям u из первого столбца случайный разброс e1.

Наконец, округлим два последних столбца x и y до целых значений с помощью функции ROUND. Эти два столбца X и Y будут имитировать результаты измерений. Когда мы что-то измеряем, всегда появляются случайные погрешности измерений, пускай даже небольшие и незаметные. К тому же, такие параметры тела, как рост и вес, немного меняются даже в течение суток.

Наши «иксы» – это значения роста человека в сантиметрах. «Игреки» – это значения веса в килограммах. Мы закладываем в нашу выборку зависимость веса от роста. Затем добавляем в данные случайный разброс.

Рис. Линейная модель

Рис. Зашумлённые наблюдения

Рис. Постановка задачи

Рис. Имитационное моделирование

На схеме показано, как добавляются случайные погрешности измерений к значениям иксов и игреков. Таким образом, при анализе реальных данных наши числа всегда содержат случайный шум. Это зашумлённые данные.

Результаты эконометрического анализа – это ОЦЕНКИ коэффициентов уравнения. Мы говорим «оценки», чтобы подчеркнуть, что полученные значения коэффициентов отличаются от истинных, правильных, точных значений. К тому же, они изменяются, если взять другой набор таких же данных – другую выборку.

Кроме коэффициентов уравнения, нас будут интересовать ПРОНОЗ значений завипсимой переменной – игрека. Задавая значения икса, мы пронозируем возможное значение игрека. Оно тоже будет меняться; это будет случайная погрешность. Так что пронозы тоже являются оценками.

Оценки коэффициентов и пронозы зависимой переменной обозначены символом, который называют «крышка», или «крышечка». Обозначение читается так: «икс с крышкой», «игрек с крышкой», см. рис.

Рис. Условные обозначения

Мы подробно обсуждаем такие «очевидные» вещи, о которых почему-то не пишут в учебниках. Это вроде как «все знают». Хотя выясняется, что это знают только преподаватели, а вот студенты должны об этом узнать каким-то волшебным образом, ведь «это же настолько элементарно».

Один преподаватель так и сказал: «Ну я же это вам уже рассказывал». Студенты возразили: «Нет, вы нам это не рассказывали». Преподаватель просто возмутился: «Ну не вам, значит другим. Я это уже сколько раз рассказывал. Каждый год кому-нибудь обязательно рассказываю. Одним объясняю, а другие не понимают!»

Вот поэтому приходится составлять учебное пособие – для изучения учебника. Учебное пособие (по определению) должно помогать в учёбе. Слово «пособить» означает «помочь». Но пособие не может заменить учебник. Так что студентам не помешает открыть пару учебников по нашему предмету, а потом вернуться к нашему пособию и продолжить изучение материала.

Символ «крышка» – это пример того, что называется УСЛОВНЫЕ ОБОЗНАЧЕНИЯ. Это означает, что авторы о чём-то «условились», то есть «договорились». Это соглашение, доворённость о том, что и как будет в тексте и в формулах обозначено. Следите за условными обозначениями в формулах.

Чтобы всё окончательно запутать, в книгах по эконометрике и в программных продуктах используют разные условные обозначения. А ещё эти обозначения не всегда подробно объясняют и расшифровывают. Так что следите за смыслом.

1.5. Диаграмма разброса

Построим диаграмму разброса Y (X). В русском варианте пакета Excel он называется «точечный график».

Выбираем ячейку для вывода графика.

Вызываем Insert – Charts – Scatter – Scatter.

Рис. Выбор диаграммы разброса

Щёлкните по графику правой кнопкой мыши и выберите Select Data (Выбрать данные).

В диалоговом окне выберите Legend Entries / Series (Легенда графика либо ряды данных) – Add (Добавить).

Рис. Выбор данных для графика

Рис. Выбор рядов данных

Рис. Выбор диапазона ячеек

В меню Edit Series (Редактирование ряда данных) установите следующие настройки:

Series Name (Название ряда) – Исходные данные

Series X values (Ряд X) – нажмите кнопку, выделите колонку значений X и нажмите кнопку в окне Edir Series (Редактирование ряда)

Series Y values (Ряд Y) – выделите колонку значений Y

Рис. Источник данных

Обратите внимание на изменение в диалоговом окне Select Data Source (Выберите источник данных). В списке рядов данных Legend Entries (Series) появился ряд «Исходные данные». В разделе Horizontal (Category) Axis Labels (Метки горизонтальной оси) выводятся значения переменной X.

После нажатия OK появится окно графика.

Рис. Настройки график по умолчанию

Можно видеть настройки графика по умолчанию: заголовок графика – имя ряда данных, масштаб по осям начинается от нуля. Названия осей отсутствуют.

Настройте оформление графика:

Измените заголовок, сделав двойной щелчок по заголовку.

Настройте масштаб по осям. Укажите на ось, щёлкните правой кнопкой по горизонтальной оси и выберите в контекстном меню Format Axis (Форматирование оси). Можно также дважды щёлкнуть осилевой кнопкой мыши.

В правой части окна Excel появится окно Format Axis. Выберите масштаб по оси так, чтобы занять всё поле графика исходными данными, но оставить место по краям графика: Axis Options (Настройка осей) – Bounds (Граничные значения) – Minimum (Минимум) / Maximum (Максимум).

Рис. Настройка графика

Аналогично настройте масштаб по вертикальной оси.

Рис. Масштаб по оси

Настройте маркеры для точек на графике. Щёлкните по любому из маркеров. Появится меню Format Data Series (Форматировать ряд данных). Выберите Marker (Маркер) – Marker Options (Настройка маркера) – Built-in (Встроенный) – Type (Тип) и Size (Размер).

Рис. Тип маркера

Настройте заливку маркера:

Format Data Series (Форматировать ряд данных). Выберите Marker (Маркер) – Fill (Заливка) – Solid Fill (Сплошная заливка) и Color (Цвет), а также Border (Обрамление) – No line (Без обрамления).

Рис. Диаграммма с маркерами

Установите названия осей.

Щёлкните по графику. В верхнем меню появится раздел Chart Tools (Инструменты диаграмм) – Design (Конструктор).

Выберите Add Chart Element (Добавить элемент диаграммы) – Axis Titles (Заголовки осей) – Primary horizontal (Основной заголовок горизонтальной оси).

Рис. Вставка заголовков осей

Введите информативное название оси, указав параметр и единицы измерения. Для редактирования заголовка щёлкните по нему левой кнопной мыши.

Аналогично введите заголовок вертикальной оси.

Для нас это упражнение по оформлению документов / документов / отчётов. Графики, заголовки, единицы измерения и прочее – всё должно быть понятно не только автору, но и читателю. Да и сам составитель документа через неделю может и не вспомнить, что он выводил на очередной график. Так что лучше чётко указать, кто есть кто.

Рис. Оформленный график

1.6. Регрессионный анализ

Мы будем проводить регрессионный анализ тремя способами:

– надстройка;

– функция;

– формулы.

Эти способы получения оценок коэффициентов уравнения регрессии в общих чертах рассмотрены в работе [2].

В дополнение к описанным приёмам нам предстоит получить оценки с. к. о. для оценок коэффициентов уравнения. С.к.о., или среднее квадратичное отклонение, или стандартное отклонение, или просто «сигма», характеризует возможный разброс оценок. Если взять другую выборку, мы полчим немного другие оценки, очень похожие, но всё-таки разные.

Для понимания материала желательно освежить в памяти понятия распределения и сигмы. Эти вещи рассматриваются в курсе «Бизнес-аналитика и статистика».

1.6.1. Надстройка

Вызываем надстройку «Анализ данных»: Data – Data Analysis. Выбираем в диалоговом окне раздел Регрессия – Regression.

На текущем листе будут выведены многочисленные результаты регрессионного анализа. Сейчас нас будут интересовать коэффициенты и их стандартные отклонения (сигмы). Их можно найти в таблице с коэффициентами уравнения регрессии.

Постройте регрессию Y на Х.

Запустите надстройку Анализ данных:

Data (Данные) – Data Analysis (Анализ данных) – Regression (Регрессия)

Рис. Вызов модуля регрессионного анализа

Выберите факторную и результативную переменные.

Input (Исходные данные) – Input Y Range (Диапазон исходных данных по Y)

Input (Исходные данные) – Input X Range (Диапазон исходных данных по X)

Confidence Level (Доверительная вероятность) = 95%

Output Options (Параметры вывода результатов) – New Worksheet (Вывод результатов на новую страницу рабочей книги Excel)

Residuals (Остатки) – Line Fit Plots (Графики линейной регрессии)

Рис. Параметры регрессионного анализа

После нажатия OK будет сформирована новая страница с результатами регрессионного анализа.

Переименуйте листы рабочей книги, дважды щёлкнув по соответствующей вкладке.

Рис. Результаты анализа

Настройте оформление графика.

Установите приемлемые размеры графика.

Настройте заголовок графика и названия осей, дважды щёлкнув по соответствующим надписям.

Установите масштаб по осям. Всё поле графика должно быть занято данными. При этом точки не должны оказаться на границе или за пределами графика.

Настройте маркеры для исходных данных.

Настройте вывод на график линии регрессии.

Format Data Series (Формат вывода данных на график) – Series Options (Настройки вывода для ряда данных) – Fill & Line (Заливка и линии) – Marker (Маркер) – None (Без маркера)

Line (Линия) – Solid Line (Сплошная линия)

Color (Цвет линии)

Width (Толщина линии)

Удалите легенду (условные обозначения) с графика

Рис. Легенда для диаграммы

Рис. Окончательное оформление графика

Рис. Коэффициенты и их сигмы (с. к. о.)

В таблице приводятся следующие оценки:

– Coefficients (Коэффициенты)

– Standard Error (Стандартные ошибки коэффициентов)

– Intercept (Свободный член уравнения)

– X Variable 1 (Коэффициент регрессии при первой переменной X)

Запишите результаты регрессионного анализа в следующем виде:

Рис. Оценки и их ошибки

Количество значащих разрядов должно быть не меньше, чем в исходных данных. Значащие разряды относятся к представлению числа с плавающей точкой, а не к знакам после десятичной запятой, см. рис.

Рис. Три значащих разряда

Напомним, что такое «число с плавающей точкой». Это особая компьютерная запись числа. Часто встречается при выводе чисел на экран. Такое число состоит из мантиссы (значащей части) и показателя степени, см. рис.

Рис. Число с плавающей точкой

Выражение «плавающая точка» имеет свой смысл. При записи дробных чисел точка в западных странах и запятая в России разделяет целую и дробную части числа. Слово «плавающая» означает, что положение этого разделителя «плавает», то есть его можно сдвинуть влево или вправо – достаточно умножать на десять в какой-нибудь степени.

Обратим внимание, что на рисунке во всех числах имеется всего три значащих разряда. Это количество десятичных знаков в мантиссе.

Вторая часть записи – показатель степени. Между мантиссой и показателем находится английская буква Е. Это первая буква английского слова EXPONENT, которое переводится как «показатель степени». Русское слово «экспонента» звучит похоже, но означает «возведение числа Эйлера е ≈ 2,718… в какую-нибудь степень».

Перед нами очередная ловушка для переводчика. Есть такое выражение – «ложные друзья переводчика». Это иностранные слова, которые звучат точно так же, как и русские слова, но имеют другое значение.

Просмотрите статью Floating-point arithmetic в Википедии.

Посмотрите перевод слова exponent в Переводчике Яндекса.

Посмотрите значение слова экспонента и выражения экспоненциальная функция в Вики-Словаре.

В нашем примере значения роста содержат три значащих разряда, значения веса – два. Поэтому следует оставить хотя бы три значащих разряда.

Если при округлении последний разряд оказался равным нулю, записываем ноль. Это явно указывает читателю, сколько мы оставили значащих разрядов.

Рис. Коэффициенты и с. к. о. – три значащих разряда

Запишите уравнеие регрессии с указанием названия переменных.

Рис. Уравнение регрессии

Проведём интепретацию уравнения регрессии. Объясним простыми словами, что означает коэффициент 0,920 при переменной «Рост». Напомним, что в нашем примере вес измеряется в килограммах, а рост – в сантиметрах.

Чтобы число было приятнее для глаза, умножим его на десять. Вот что у нас теперь получается:

При увеличении роста в анализируемой выборке на 10 сантиметров вес увеличивается в среднем на 9,2 килограмма.

Проведите интерпретацию своего уравнения регрессии в таком же стиле.

1.6.2. Функция LINEST

Функция LINEST / ЛИНЕЙН позволяет получить оценку параметров линейного уравнения с помощью метода наименьших квадратов (МНК). Прежде всего, это коэффициенты линейного уравнения. В уравнении может быть один «игрек» и один или более «иксов». Другими словами, это модель с одним входом и несколькими выходами.

Само название функции, скорее всего, является сокращением от выражения Linear Estimates (линейные оценки) или Linear Model Estimate (оценка линейной модели).

Данная функция позволяет получить не только оценки коэффициентов уравнения регрессии. Здесь есть и дополнительные возможности, см. рис.

Рис. Параметры функции LINEST

При указании значения TRUE для аргумента stats функция выводит дополнительные статистические показатели.

В справке по данной функции приводится порядок вывода результатов. В первой строке имеем оценки коэффициентов. Во второй строке выводятся стандартные ошибки для наших коэффициентов Standard Errors (SE).

< Назад Далее >