본문 바로가기

카테고리 없음

선형 회귀 및 상관 관계

반응형

선형 회귀 및 상관관계

전문가들은 종종 두 개 이상의 숫자 변수가 어떻게 관련되어 있는지 알고 싶어합니다. 예를 들어, 학생이 치르는 두 번째 수학 시험의 성적과 기말고사의 성적 사이에 관계가 있습니까? 관계가 있다면 그 관계는 무엇이며 얼마나 강한가? 다른 예로, 귀하의 소득은 교육, 직업, 경력, 능력, 성별 또는 피부색에 따라 결정될 수 있습니다. 수리 담당자에게 노동에 대해 지불하는 금액은 초기 금액에 시간당 요금을 더한 금액으로 결정되는 경우가 많습니다. 이러한 예는 모델에 연결될 수도 있고 연결되지 않을 수도 있습니다. 이는 일부 이론에서 관계가 존재한다고 제안했음을 의미합니다. 종종 모델이라고 하는 원인과 결과 사이의 연결은 과학적 방법의 기초이며 세상이 작동하는 방식에 대해 우리가 믿는 것을 결정하는 핵심입니다. 이론으로 시작하고 이론적인 관계의 모델을 개발하는 것은 우리가 이전에 가설이라고 불렀던 예측으로 귀결되어야 합니다. 이제 가설은 전체 관계 집합에 관한 것입니다. 예를 들어 경제학에서 소비자 선택 모델은 인간 행동에 관한 가정을 기반으로 합니다. 효용이라고 하는 것을 최대화하려는 욕구, 다른 제품보다 한 제품의 이점에 대한 지식, 일반적으로 선호라고 하는 좋아하는 것과 싫어하는 것 등. 이것들을 결합하여 수요 곡선을 제공합니다. 그로부터 우리는 가격이 상승함에 따라 수요량이 감소할 것이라는 예측을 가지고 있습니다. 경제학에는 상품에 대해 부과되는 가격과 기업이 운영되는 시장 구조(예: 독점 대 경쟁) 간의 관계에 관한 모델이 있습니다. 직업 훈련 위치로 가장 많이 선택될 가능성이 있는 사람, 연방 준비 제도 이사회 정책 변화의 영향, 경제 성장 등에 대한 모델입니다. 모델은 사회 과학 내에서도 경제학에만 있는 것이 아닙니다. 예를 들어 정치학에는 관료의 목표에 대한 가정을 기반으로 상황의 다양한 변화에 대한 관료의 행동을 예측하는 모델이 있습니다. 국제 관계와 국내 정치 모두에 대한 전략적 의사 결정을 다루는 정치적 행동 모델이 있습니다. 물론 소위 하드 과학은 우리 주변의 혼란스러운 세상을 설명하기 위해 수세기 동안 시도한 과학적 방법의 원천입니다. 오늘날 일부 초기 모델은 우리를 웃게 만듭니다. 예를 들어 생명의 자발적인 생성. 이러한 초기 모델은 오늘날 우리가 혼란스러워 보이는 것에 질서를 부여하는 데 도움이 되도록 개발한 기본 신화에 불과한 것으로 간주됩니다. 모든 모델 구축의 기초는 아마도 우리가 보는 결과의 원인이 무엇인지 알고 있다는 오만한 진술일 것입니다. 이것은 y = f(x)라는 기능적 형태의 간단한 수학적 진술로 구현됩니다. 반응 Y는 자극 X에 의해 발생합니다. 모든 모델은 결국 이 최종 위치에 도달하게 되며 여기에서 이론이 살거나 죽을 것입니다. 데이터가 이 가설을 뒷받침합니까? 만약 그렇다면, 우리는 더 나은 이론이 그것을 대체할 때까지 이 세상의 버전을 믿을 것입니다. 이것은 우리가 평평한 지구에서 둥근 지구로, 지구 중심 태양계에서 태양 중심 태양계로, 그리고 계속해서 이동하는 과정입니다. 과학적 방법은 항상 이론을 확증하지 않으며 "진리"를 증명하지도 않습니다. 모든 이론은 검토 대상이며 뒤집힐 수 있습니다. 이것은 우리가 이 책의 앞부분에서 가설 테스트의 개념을 처음 개발할 때 배운 교훈입니다. 여기에서 이 섹션을 시작할 때 이러한 개념을 검토할 가치가 있습니다. 여기서 개발할 도구는 과학적 방법의 초석이고 이해관계가 더 높기 때문입니다. 이 통계 도구로 인해 완전한 이론이 오르거나 내릴 것입니다. 회귀 및 고급 버전은 계량 경제학이라고 합니다. 이 장에서 우리는 인과관계 모델에 기초할 수도 있고 그렇지 않을 수도 있는 변수 간의 관계를 조사하는 상관관계로 시작할 것입니다. 변수는 단순히 동일하거나 반대 방향으로 이동합니다. 즉, 무작위로 움직이지 않습니다. 상관관계는 이것이 사실인 정도의 척도를 제공합니다. 거기에서 우리는 원인과 결과 관계를 측정하는 도구를 개발합니다. 회귀 분석. 우리는 모델과 테스트를 공식화하여 통계적으로 타당한지 판단할 수 있습니다. 만약 그들이 그렇게 판명된다면, 우리는 예측을 하기 위해 그것들을 사용할 수 있습니다: 만약 정책의 문제로 우리가 이 변수의 값을 변경한다면 이 다른 변수는 어떻게 될까요? 갤런당 50센트의 휘발유세를 부과하면 탄소 배출량, Hummers/Hybrids 판매, 대중 교통 이용 등에 어떤 영향을 미칠까요? 이러한 유형의 질문에 대한 답변을 제공하는 능력은 우리가 세상을 이해하고 사려 깊은 정책 결정을 내리는 데 도움이 되는 도구로서의 회귀의 가치입니다. 우리가 사용하고 있는 모든 데이터는 단일 변수에 대한 것입니다. 두 개의 표본에서 나온 것일 수 있지만 여전히 일변량 변수입니다. 위의 예와 모든 인과 관계 모델에 대해 설명된 데이터 유형은 이변량 데이터(두 변수의 경우 "bi")입니다. 실제로 통계학자는 많은 변수를 의미하는 다변수 데이터를 사용합니다. 작업을 위해 데이터를 시계열 데이터, 횡단면 데이터 및 패널 데이터의 세 가지 범주로 분류할 수 있습니다. 우리는 처음 두 사람을 아주 일찍 만났습니다. 시계열 데이터는 단일 관측 단위를 측정합니다. 시간이 지남에 따라 사람, 회사 또는 국가를 말합니다. 측정되는 것은 개인의 소득, 구매하는 특정 재화의 수량 및 지불한 가격과 같이 최소한 두 가지 특성이 될 것입니다. 이것은 1985년과 같이 한 기간에 3개의 정보가 될 것입니다. 우리가 시간을 가로질러 그 사람을 따랐다면 1985, 1986, 1987 등에 대한 동일한 정보를 갖게 될 것입니다. 이것은 시계열 데이터 세트를 구성할 것입니다. 우리가 이것을 10년 동안 한다면 우리는 이 사람의 지난 10년 동안 이 재화의 소비 습관에 관한 30개의 정보를 갖게 될 것이고 우리는 그들의 수입과 그들이 지불한 가격을 알게 될 것입니다. 두 번째 유형의 데이터 세트는 횡단면 데이터용입니다. 여기에서 변동은 단일 관찰 단위에 대한 시간에 따른 것이 아니라 한 시점 동안의 관찰 단위에 따른 것입니다. 특정 기간 동안 우리는 지불한 가격, 구매한 금액 및 많은 개인의 소득을 수집합니다. 세 번째 유형의 데이터 세트는 패널 데이터입니다. 여기에서 관찰 단위 패널이 시간에 따라 뒤따릅니다. 위의 예를 들면 관찰 단위인 500명을 시간, 10년에 따라 추적하고 그들의 소득, 지불 가격 및 구매한 상품의 수량을 관찰할 수 있습니다. 500명의 사람과 10년 동안의 가격, 수입, 구매 수량 데이터가 있다면 15,000개의 정보가 있을 것입니다. 이러한 유형의 데이터 세트는 구성하고 유지하는 데 비용이 매우 많이 듭니다. 그러나 그들은 매우 중요한 질문에 답하는 데 사용할 수 있는 엄청난 양의 정보를 제공합니다. 예를 들어, 여성의 출신 가족, 어머니, 아버지, 연령의 노동시장 참여율에 미치는 영향은 무엇입니까? 아니면 흡연을 시작한 연령에 따라 건강 결과에 차등적인 영향이 있습니까? 시간이 지남에 따라 여러 사람을 팔로우해야 하기 때문에 패널 데이터만이 이러한 질문 및 관련 질문에 대한 답변을 제공할 수 있습니다. 그러나 여기서 수행하는 작업은 이와 같은 데이터 세트에 완전히 적합하지 않습니다. 두 개의 독립 변수가 있는 데이터 세트로 시작하여 다음과 같은 질문을 합니다. 이것들이 관련되어 있습니까? 이 질문에 시각적으로 답하는 한 가지 방법은 데이터의 산점도를 만드는 것입니다. 이전에는 기술 통계를 수행할 때 데이터가 단변량이었으므로 그렇게 할 수 없었습니다. 이제 이변량 데이터가 있으므로 2차원으로 플롯할 수 있습니다. 3차원은 평평한 종이에서 가능하지만 완전히 개념화하기가 매우 어려워집니다. 물론 관계는 수학적으로 측정할 수 있지만 세 개 이상의 차원을 그래프로 나타낼 수는 없습니다. 우리가 보는 것의 측정에 수학적 정밀도를 제공하기 위해 상관 계수를 사용합니다. 상관 관계는 두 변수의 공동 움직임에 대해 알려주지만 이러한 움직임이 발생한 이유에 대해서는 아무것도 알려주지 않습니다. 공식적으로 상관 분석은 분석되는 두 변수가 모두 독립 변수라고 가정합니다. 이것은 어느 쪽도 다른 쪽에서 움직임을 일으키지 않는다는 것을 의미합니다. 더 나아가, 그것은 어떤 변수도 다른 변수에 의존하지 않는다는 것을 의미합니다. 이러한 제한에도 불구하고 상관 분석은 몇 가지 흥미로운 결과를 산출할 수 있습니다. 

반응형