Aug 10, 2023
Роль причинности Грейнджера в выявлении причинно-следственных связей для прогнозирования временных рядов
История только для участников Дэвид Андрес Следуйте за DataDrivenInvestor — Поделиться В предыдущей статье мы представили векторную авторегрессию или VAR. Но действительно ли имеет смысл использовать два (или более) разных
История только для участников
Дэвид Андрес
Следовать
DataDrivenИнвестор
--
Делиться
В предыдущей статье мы представили векторную авторегрессию или VAR. Но действительно ли имеет смысл использовать две (или более) разные переменные для составления прогноза? Ответ — нет, по крайней мере, не всегда. Это будет действительно полезно только в том случае, если между ними будут какие-то отношения. Использование несвязанных переменных может внести в модель шум, ухудшая прогнозы, а не улучшая их.
Отказ от ответственности: некоторые части этой статьи были улучшены с помощью ИИ с использованием сгенерированного ИИ кода Python в качестве основы или перефразирования абзаца в целях повышения ясности.
Самый простой способ проверить наличие какой-либо связи — это проверить корреляцию между переменными. Но это не единственный тип связи, которую могут иметь две переменные.
Мы также могли бы проверить, есть ли между ними какая-то причинно-следственная связь. Однако сначала необходимо понять кое-что важное: наши тесты показывают, что причинно-следственная связь не обязательно означает, что одно является причиной другого, это просто означает, что существует некая корреляция в прошлых данных.
Давайте лучше поймем эту концепцию на примере, целью которого является выяснить, связаны ли каким-либо образом случаи заболевания и смерти от COVID.
Давайте сначала импортируем данные и выполним базовую обработку. Мы будем использовать данные о COVID из Германии. Данные разделены по штатам, округам, возрасту и полу; но для простоты мы сгруппируем их вместе.