Tình cờ là hôm nay tôi có dịp theo dõi một bài giảng giải thích về bài toán Monty Hall của trường Đại học Duke trên Coursera. Điều thú vị của phần bài giảng này nằm ở đoạn cuối, trong đó có nhắc đến một lý thuyết rất lạ tên là Entropy. Vì tò mò nên tôi đã thử tìm hiểu cũng như xem qua công thức tính đại lượng này và cuối cùng nhận ra rằng nó quá khó hiểu. Với chút kiến thức ít ỏi, trong bài viết này tôi sẽ đề cập lại bài toán, thực chất là một trò chơi tên là Monty Hall và ứng dụng của một số lý thuyết xác suất liên quan đến bài toán này.

Nội dung của trò chơi xoay xung quanh 3 cánh cửa, trong đó có 1 cánh cửa chứa phần thưởng và 2 cánh còn lại không chứa gì. Người chơi sẽ chọn lấy 1 trong 3 cánh cửa mà bản thân nghĩ là phần thưởng sẽ nằm trong đó. Sau đó, người dẫn chương trình (Monty Hall) sẽ mở 1 trong 2 cánh cửa còn lại. Tất nhiên là cánh cửa được mở sẽ không chứa phần thưởng gì cả. Như vậy sẽ còn có 2 cánh cửa trên sân khấu vẫn đang đóng lại và chắc chắn 1 trong 2 cánh cửa này sẽ có phần thưởng. Người chơi đứng trước hai quyết định:

  1. Vẫn chọn cánh cửa ban đầu.
  2. Đổi cánh cửa ban đầu và chọn cánh cửa còn lại trên sân khấu theo lời khuyên của người dẫn chương trình Monty Hall.

Câu hỏi đặt ra là người chơi nên quyết định chọn phương án nào?

Để giải bài toán này, đầu tiên ta sẽ giả sử có 3 cánh cửa A, B, C và ngay từ đầu, người chơi lựa chọn cánh cửa A. Tiếp tục giả sử B là cánh cửa được Monty Hall mở và không có gì trong đó.

Ta gọi A là biến cố: “Cánh cửa A chứa phần thưởng” và B là biến cố: “Monty Hall chọn cánh cửa B”. Như vậy, P(A/B) là xác suất để cánh cửa A có phần thưởng trong điều kiện cánh cửa B đã được Monty Hall mở, tương tự như vậy ta có, P(C/B) là xác suất để cánh cửa C chứa phần thưởng khi Monty Hall mở cánh cửa B. Trong khi đó, P(B/A) sẽ là xác suất để Monty Hall chọn cánh cửa B khi cánh A chứa phần thưởng.

Theo lý thuyết xác suất, ta có phương trình:

P(A/B).P(B)= P(B/A).P(A)

Hay:     P(A/B)= P(B/A).P(A)/ P(B)    (Định lý Bayes)

Dễ nhận thấy rằng, P(A)= 1/3 vì phần thưởng đều có khả năng nằm ở bất kỳ 1 trong 3 cánh cửa và khả năng này là như nhau đối với các cánh cửa này.  Bên cạnh đó, người chơi B chỉ có hai sự lựa chọn đối với hai cánh cửa không chứa phần thưởng, chính vì thế P(B)= 1/2. Cuối cùng, sau khi biết cánh cửa A chứa phần thường, nghĩa là hai cánh còn lại không có gì, Monty Hall có thể lựa chọn bất kỳ cánh cửa còn lại nào, do đó: P(B/A)= 1/2.

Lắp vào phương trình trên, dễ dàng thu được kết quả P(A/B)= 1/3

Dễ dàng nhận thấy P(C/B) và P(A/B) là hai biến cố xung khắc nhau vì người chơi chỉ có đúng hai sự lựa chọn là chọn cánh cửa A hoặc đổi sang cánh cửa C.

Suy ra, P(C/B) = 1- P(A/B) = 2/3

Như vậy, việc nghe theo lời khuyên của Monty Hall là đổi sang cánh cửa C sẽ làm TĂNG KHẢ NĂNG dành được phần thưởng hơn là việc giữ vững quyết định chọn cánh cửa A. Điều này không hàm ý rằng việc đổi sang cánh cửa C sẽ giúp người chơi luôn luôn dành được phần thưởng.

Câu hỏi tiếp theo được đặt ra là: Hành động và lời khuyên của Monty Hall sẽ cung cấp cho người chơi bao nhiêu phần trăm thông tin về cánh cửa chứa phần thưởng?

Nhà toán học Shannon đã đưa ra một đại lượng có tên gọi là Entropy để giải quyết vấn đề này. Theo ý hiểu của tôi, Entropy đo lường một lượng thông tin CHƯA ĐƯỢC KHAI PHÁ, công thức như sau:

H(X)= \sum_{i=1}^{n}p(i){log_{2}}(1/p(i))

Trong đó, H(X) là Entropy của sự kiện X và p(i) là xác suất xảy ra biến cố i  trong sự kiện X. Trong trường hợp này, sự kiện X là một trong ba cánh cửa chứa phần thưởng.

Lưu ý: Một sự kiện càng có nhiều thông tin thì Entropy càng thấp. 

Như vậy, trước khi Monty Hall đưa ra lời khuyên dành cho người chơi, lúc này, người chơi đang đứng trước 3 sự lựa chọn vào 3 cánh cửa A, B hay C. Entropy của X là:

H(X1)= 1/3.{log_{2}}(3)+ 1/3.{log_{2}}(3)+ 1/3.{log_{2}}(3)= {log_{2}}(3)= 1,585 (bit)

Trong đó, i1, i2, i3 là các biến cố cánh cửa A, cánh cửa B hoặc cánh cửa C chứa phần thưởng.

Sau khi Monty Hall đưa ra lời khuyên, lúc này, người chơi chỉ đứng trước hai phương án là chọn cánh cửa A hay i1, hoặc cánh cửa C hay i2. Như đã phân tích ở trên, p(i1)= 1/3 và p(i2)= 2/3.

H(X2)= 1/3.{log_{2}}(3)+ 2/3.{log_{2}}(3/2)= 0,918 (bit)

Chúng ta có thể hình dung rằng, X1 là toàn bộ lượng thông tin cần được khai phá. Sau khi Monty Hall đưa ra lời khuyên thì lượng thông tin cần phải khai phá còn lại sẽ là X2.

Như vậy, lượng thông tin về phần thưởng mà người dẫn chương trình đã cung cấp cho người chơi sẽ là:

\Delta H(X)= H(X2)- H(X1) = 0,667 (bit)

Như vậy, so với toàn bộ lượng thông tin chưa được khai phá (X1) hay đây là toàn bộ thông tin về phần thưởng, thì tỷ trọng thông tin về phần thưởng mà Monty Hall đã “tiết lộ” cho người chơi (Percentage Information Gain- PIG) đó là:  0,667/ 1,585= 0,421

Điều này có nghĩa là lời khuyên của Monty Hall có chứa 42,1% lượng thông tin về phần thường.