기대 극대화는 60 년대와 70 년대에 다양한 애플리케이션으로 개발 된 고전적인 알고리즘입니다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다. 최적화 절차로서,많은 상황에서 업데이트를 분석적으로 계산할 수 있다는 주요 이점을 가진 그라디언트 디센트 등의 대안입니다. 그 이상,그것은 최적화에 대해 생각을위한 유연한 프레임 워크입니다.
이 기사에서는 간단한 클러스터링 예제로 시작한 다음 일반적인 알고리즘에 대해 설명합니다.
측정값과 함께 다양한 데이터 포인트가 있는 상황을 고려하십시오. 우리는 다른 그룹에 할당 할.
예제에서 여기에 우리는 옐로 스톤의 상징적 올드 페이스 간헐천의 폭발에 대한 데이터를 가지고있다. 각 분화에 대해 우리는 그 길이와 이전 분화 이후의 시간을 측정했습니다. 우리는 분출의 두 가지”유형”(다이어그램에서 빨간색과 노란색)이 있다고 가정 할 수 있으며,각 유형의 분출에 대해 결과 데이터는(다변량)정규 분포에 의해 생성됩니다. 이 가우스 혼합물 모델이라고,부수적으로.
케이-의미 클러스터링과 유사하게,우리는 그 두 분포/클러스터가 무엇인지에 대한 무작위 추측으로 시작한 다음 두 단계를 번갈아 반복하여 개선을 진행합니다:
- (기대)각 데이터 포인트를 확률 적으로 클러스터에 할당하십시오. 이 경우 빨간색 클러스터와 노란색 클러스터에서 각각 나올 확률을 계산합니다.
- (최대화)클러스터의 점을 기반으로 각 클러스터의 매개 변수(가중 평균 위치 및 분산-공분산 행렬)를 업데이트합니다(첫 번째 단계에서 할당 된 확률에 의해 가중됨).
와는 달리 케이-의미 클러스터링,우리의 모델은 생성 적입니다. 그리고 모델을 다시 샘플링하여 더 많은(가짜)데이터를 생성 할 수 있습니다.
알았어? 이제 우리는 방정식으로 1 차원 예제를 할 것입니다.
단일 측정으로 데이터 포인트를 고려하십시오 엑스. 첫 번째 클러스터에서 데이터가 생성될 확률은 0 입니다.
그래서 우리는 5 개의 매개 변수를 가지고 있습니다: 혼합 확률 π,및 평균 μ 및 표준 편차 σ 각 클러스터입니다. 나는 그것들을 집합 적으로 다음과 같이 나타낼 것이다.
나는 이것을 두 확률 분포 사이의 거리를 거의 측정 한 쿨백-라이블러(케이엘)발산과 유사한 형태로 암시 적으로 작성했습니다. 우리가 빼면 아르 자형(큐||피)상수에서 아르 자형(피//피)우리는 얻을 것이다 케이엘-발산 0 에서 아래에 묶여 있고 0 때 큐=피.(유일한 것은 거리 3 0 분포에서 피 이다 피 자체). 즉,아르 자형 이다 최대화 때 큐=피.이것은 표준 결과입니다클-발산 젠슨의 불평등으로 입증 될 수 있습니다.4
이제 남은 것은 업데이트 단계 전후의 우도 간의 차이를 고려하는 것입니다:
이후 가능성 개선 위의 인수에 의해 아르 자형 이전 매개 변수를 첫 번째 인수로 취함으로써 최대화되므로 두 번째 항은 음수 여야합니다. 양수 마이너스 음수는 양수입니다. 따라서 각 업데이트 단계에서 가능성이 증가했습니다. 각 단계는 일을 더 좋게 만들기 위해 보장됩니다.
또한 큐를 최적화 할 필요가 없습니다. 우리가해야 할 일은 더 나은 만들 수있는 몇 가지 방법을 찾아 우리의 업데이트는 여전히 일을 더 좋게 만들기 위해 보장됩니다.
결론
희망,당신은 지금 알고리즘에 대한 좋은 느낌을 가지고있다. 수학의 관점에서,핵심 방정식은 아래의 우도 일뿐입니다. 그 후,우리는 이전 매개 변수(기대 단계)에 대한 기대치를 취하고 오른쪽의 첫 번째 항을 최적화하는 것이 괜찮다는 것을 보여줍니다. 우리가 가우스 혼합 모델 예제와 동기 부여,이 두 번째 용어는 종종 쉽게 최적화 할 수 있습니다. 세 번째 용어는 우리가 걱정할 필요가 없습니다,그것은 아무것도 엉망 하지 않습니다.
조금 뒤로 물러서서,나는 엠 알고리즘의 힘과 유용성을 강조하고 싶다. 우선,잠재 변수를 도입 한 다음 잠재 변수(매개 변수를 고정 및 알려진 것으로 간주)와 매개 변수(잠재 변수를 고정 및 알려진 것으로 간주)를 교대로 처리하여 계산할 수 있다는 아이디어를 나타냅니다. 이것은 다양한 상황에서 볼 수있는 강력한 아이디어입니다.
둘째,알고리즘은 컴퓨팅 그라디언트에 의존하지 않기 때문에 본질적으로 빠릅니다. 선형 회귀를 사용하는 것과 같이 분석적으로 모델을 해결할 수있을 때마다 더 빠를 것입니다. 그리고 이것은 우리가 분석적으로 다루기 어려운 문제를 가지고 분석적으로 그 부분을 해결할 수있게 해주 며,그 힘을 반복적 인 맥락으로 확장시킵니다.
마지막으로,나는 엠 알고리즘에 대해 할 말이 많이있다 주목하고 싶다. 그것은 최대화 단계 및 변분 베이지안 기술을 수행하는 다른 형태로 일반화되며 다른 방식으로 이해 될 수 있습니다(예:최대화-최대화 또는 통계적 매니 폴드에서 상호 이중 아핀 연결 아래에서 서브 매니폴드에 대한 교대 투영(전자-및 미디엄-연결)). 미래에 더 많은 것!