데이터 분석 일지

[Harvard: STAT 110] 1강: Probability and Counting 본문

Lecture or Textbook Review/Statistics

[Harvard: STAT 110] 1강: Probability and Counting

-ˋˏ ♡ ˎˊ- 2024. 6. 11. 21:14

0. Introduction

 

지난 시간에는 간단하게 물리와 양자 역학이 모두 확률 문제라고 이야기 했다. 유전학도 확률 없이는 불가능하다. 이런 과학 뿐만 아니라 경제학이나 게임 이론 등도 확률 문제이다. 심지어 역사나 정치에서도 확률을 사용한다. 이처럼 여러 학문에서 확률과 통계를 응용하는 사례가 늘어나고 있다. 

 

Joe Blitzstein 교수님은 확률은 도박에서부터 시작된 것이라고 말한다. 도박은 확률론, 통계학에 있어 굉장히 친숙한 예시가 된다. 주사위나 카드, 동전과 같은 것들이 도박에서 사용되는 것으로, 우리는 이런 도구를 활용해서 푸는 확률과 통계 문제를 많이 접해왔다. 

 

또 교수님은 통계학은 불확실성의 논리라고 말한다. 모든 것은 불확실성을 가진다. 따라서 확률과 통계는 우리의 생각을 어떠헥 수치로 나타내는지에 대한 것이다. 그리고 어떻게 불확실성을 다루는지에 대한 것이다. 간단하게 불확실성을 수치로 나타내는 것을 이 강의에서 배우게 될 것이다. 

 

1. A sample space

 

이제 확률의 단순한 정의를 알아보기 위해 표본공간에 대해 알아야한다. 표본공간은 어떤 실험에서 가능한 모든 경우의 집합을 의미한다. 표본공간을 무작위 실험이라고도 할 수 있지만, 일단 무작위라는 단어는 사용하지 않겠다. 

 

A sample space is the set of all possible outcomes of an experiment.

 

2. An event

 

사건이라는 개념에 대해 알아야한다. 사건은 표본공간의 부분 집합을 의미한다. 

 

An event is a subset of the sample space. 

 

3. Naive defin of prob

 

교수님은 이 강의에서 벤다이어그램을 많이 그리신다. 그리고 보통 표본공간을 대문자 S로 표시하신다. 이것도 단순한 집합이다. 이 집합의 원소는 실험에서 가능한 결과들이 되는 것이다. 만약 실험이 두 개의 주사위를 굴리는 것이라면(6개 면을 가진 주시위일 때), 36개의 가능한 결과가 있을 것이다. 이 집합(표본공간)은 36개의 가능한 결과들로 구성될 수 있다는 것이다. 그리고 사건을 A라고 해보자. 이는 특정한 부분 집합이 된다.  

 

교수님은 이 단어들을 이용해 확률의 단순한 정의를 말해주신다. 사건 A에 대한 확률을 정의할 것인데, 이는 P(A)로 표현할 수 있다. 여기서 대문자 P는 확률을 의미한다. A는 사건이므로, 사건 A에 대한 확률은 P(A)라고 표현하는 것이다. 

 

우리가 어떤 실험을 하고 있다고 해보자. 이런 표본공간이 있다고 할 때 관심을 가지는 부분 집합을 A라 하자. 우리는 이것에 대한 확률을 알고 싶기 때문이다. 특정한 사건이 일어날 확률이 얼마나 되는지 말이다. 그럼 P(A)를 계산해야한다. 이는 간단하다. 

 

분수로 나타낼 수 있는데, 분모를 가능한 결과의 가짓수라고 하고, 분자를 원하는 결과의 가짓수를 분자에 적는다. 분자는 A 상황에 맞는 경우를 말하는 것이다. 분모는표본공간의 크기와 같고, 분자는 사건의 크기와 같다.   

 

P(A) = number of favorable outcomes / number of possible outcomes

 

예를 들어 동전 던지기를 두 번 한다고 했을 때, 총 4가지의 가능한 경우의 수가 있다. {앞앞, 앞뒤, 뒤앞, 뒤뒤} 이렇게 네 가지의 다른 경우의 수가 존재한다. 두 번 모두 뒷면이 나오는 경우의 확률을 알아보자. 위의 확률 정의에 따르면 확률은 1/4가 된다. 여기까지가 고등학생 때 배우는 확률의 정의이다. 

 

하지만 이 동전이 공정한지는 전혀 언급되지 않았다. 우선 동전이 공정하다는 것은 무슨 뜻일까? 동전이 공정하다는 것은 앞면과 뒷면이 나올 확률이 같다는 것이다. 만약 두 째에 던질 때 동진이 뒷면으로 떨어지는 성질을 가지고 있어서 또 다시 뒷면으로 떨어질 확률이 높다면? 이처럼 우리가 고려할 수 있는 다양한 가능성이 있다. 

 

여기서는 모든 경우가 같은 확률로 나온다고 가정한다. 그리고 가능한 경우가 유한하다고 가정한다. 이를 유한한 표본 공간이라고한다. 만약 분모가 무한대가 된다면 확률은 의미가 없기 때문이다. 따라서 분모는 유한한 값을 가져야한다. 

 

4. Principle of counting

 

우리는 뱡금 동전 던지기를 예시로, 모든 경우의 수를 나열하고 확률을 구해보았다. 하지만 보통의 경우에는 이것보다 훨씬 어렵다. 모든 경우의 수를 나열하는 것은 굉장히 지루할 것이다. 따라서 이 강의의 첫 번째 주제는 표본공간의 크기를 어떻게 셀 것인지에 대한 것이다.   

 

4. 1. Multiplication rule

 

셈의 가장 기본적인 법칙들에 대해 알아보자. 첫 번째는 곱의 법칙이다. 이는 굉장히 간단한데, 셈을 할때 대부분 경우에 이것이 필요하다. 어떤 첫 번째 실험에서 n_1개의 가능한 결과가 있다고 해보자. 그리고 이어지는 두 번째 실험에서는, 첫 번째 실험의 각 결과에 대해서 n_2개의 가능한 결과가 있다고 해보자. 그렇게 r번의 실험을 하였고, r-1번째 실험에서 어떤 결과가 나왔는지와 상관 없이, r번째 실험에서는 n_r개의 가능한 결과가 있을 것이다. 결론적으로 n_1 x n_2 x ... x n_r만큼의 가능한 결과가 있을 것이다. 

 

4. 2. Binomial coefficient

 

두 번째 방법은 이항계수이다. 이는 소괄호 안에 세로로 n과 k를 나열하여 표기하고, n개 중 k를 고른다고 읽는다. 또 이는 n! / (n-k)! k!로 정의된다. 순서는 상관 없이 k의 크기를 가지는 부분 집합을 선택하는 것으로 정의할 수도 있다. 그리고 k가 n보다 큰 경우는 이 값을 0으로 정의한다. 예시를 들지면, n명의 사람이 있을 때 그 중 k명을 선택하는 경우의 수에서 10명 중 11명을 선택하는 것은 불가능하기 때문이다. 

 

n명의 사람 중에서 k명을 선택하는 상황을 보자. 먼저 첫 번째 사람을 선택할 때 n가지의 선택지가 있다. 누구든지 선택할 수 있기 때문이다. 그리고 다음 사람은 이미 선택된 사람을 제외한 누군가가 된다. 따라서 n-1가지가 될 것이다. 그다음은 n-2, n-3, 이런식으로 n-k+1까지 계속할 수 있다. 만약 k가 1이라면 n에서 멈춰야하고, k가 2라면 n-1에서 멈춰야한다.

 

n · (n-1) · (n-2) ··· (n-k+1)

 

여기까진 특정한 순서로 사람을 선택할 때의 경우의 수가 된다. 하지만 여기 선택된 k명의 사람들은 어떠한 순서로든지 선택될 수 있다. 따라서 위의 수식을 k!로 나누어야 한다. 왜냐하면 이만큼 중복해서 셌기 때문이다. 그리고 k!로 나눈 수식은 n! / (n-k)! k!로 정의할 수 있다. 

 

4. 3. Full house in poker

 

풀하우스는 포커에서 5장을 랜덤으로 뽑았을 때, 3장이 같은 숫자이고 나머지 2장도 같은 숫자일 경우를 의미한다. 예를 들면 세 장의 7, 두 장의 10을 가지고 있는 경우이다. 여기에 단순한 정의를 사용한다면, 분모는 52장 중 5장을 고르는 경우의 수가 된다.

 

(52, 5)

 

분자의 경우 풀하우스에서 한 예시를 들어보겠다. 세 장의 7과 두 장의 10이 있는 경우를 보자. 가장 먼저 세 장을 고르는 것을 어떻게 해야 할까? 예시로 7을 들었지만 여기엔 다른 숫자가 올 수 있기 때문에 총 13가지의 경우가 있다. 따라서 일단 13가지 중에서 한 가지를 선택해야한다. 결국 7을 선택했다고 생각해보자. 카드 뭉치 한 개에는 총 4장의 7이 있다. 따라서 4장 중에서 3장을 골라야한다. 그리고 이제 10을 선택해야한다. 이때는 총 12 가지 중에서 한 가지를 선택해야한다. 두 장을 뽑아야하기 때문에 4장 중 2장을 뽑는 경우의 수가 된다. 이제 풀하우스의 경우의 수를 구할 수 있다. 

 

13 · (4, 3) · 12 · (4, 2)

 

5. Sampling table

 

n개 중 k를 고르는 경우의 수는 이항계수라고 부르는데, 또한 선택의 경우의 수에도 사용된다. n개 중에서 순서에 상관 없이 k개를 고르는 경우 말이다. 이제 만약 순서가 중요한 경우에 어떻게 되는지 이야기 해보겠다. n개 중에 k개를 고를 때, 여러 조건에 의해 추출하는 경우의 수를 sampling table을 통해 표현할 수 있다. 조건은 replace와 order로 이루어진다.

 

먼저 replace는, 예를 들어 설문조사를 할 때 사람 한 명을 선택해서 몇 가지 질문을 한 뒤에 그 사람이 다시 돌아간다고 치면 복원을 적용하는 경우 동일한 사람을 또 선택할 수 있다. 복원을 적용하지 않는 경우에는 다음에 선택하게 될 사람은 다른 사람이 되어야 하는 것이다. 따라서 두 가지 방법이 존재한다. 

 

또 다른 조건은 순서가 중요한 경우순서가 중요하지 않은 경우로 나뉜다. 존과 프레디를 뽑을 때, 순서가 중요한 경우에는 (존, 프레디)와 (프레디, 존)은 다른 경우로 친다. 순서가 중요하지 않은 경우에는 (존, 프레디)와 (프레디, 존)은 같은 경우로 친다. 

 

  order matter order doesn't matter
replace n^k (n+k-1, k)
don't replace n · (n-1) · (n-2) ··· (n-k+1) (n, k)