不會「讀心術」要怎麼估算喜好?
目錄
前情提要 #
上篇(還沒看得先去看),我簡單解釋了什麼是平方投票法,為什麼平方投票法值得研究,還有我過去兩年主要在研究什麼。這篇文章會聚焦在,我的研究是怎麼設計的,以及到底要怎麼比較兩種測量方法。我會努力的把整個過程和想法寫的白話,但畢竟涉及到研究的設計和流程,有些東西我也是化簡不了。
上篇文章中我提到,我的研究想要知道,在填寫問卷的時候,究竟是李克特量表比較能表示你心中真實的想法,還是平方投票法比較接近你心中真實的想法?想回答這個問題很簡單,我需要知道三個東西:
- 你填寫李克特量表的結果 — 這個沒問題 ✅
- 你用平方投票法表達意見的結果 — 這個應該也沒問題 ✅
- 你心中真實的想法[註一]— 這個…
不是,等等哀
我又不是唐鳳,我是要怎麼知道你心中的真實想法啦?
我通靈?讀心?
為了要讀心找出問卷填答人心中真實的想法,我們參考了一些行為經濟學的理論,利用激勵相容(incentive compatible)的活動,讓參與實驗的人,把內心想法透過行為表露出來。在一個激勵相容的活動中,參與者如果想要獲取最大的利益,他不能也不應該假裝和說謊。如果你覺得這邊有點抽象,這是正常的,下面的實驗設計細節應該會比較好懂,這裡就點到就好,不做深入討論。
對了,在開始介紹我的實驗之前,先讓大家體驗一下我們開發的平方投票法平台。對了,這個平台不支援蘋果 Safari( 這不是因為我果黑, 主要是Safari不支援的一些程式碼。)玩完記得回來讀完唷。
點我體驗» 中文的平方投票法 Demo(如下)
實驗一:社會議題與捐款 #
在第一個實驗中,我們試著了解受測者(參與實驗的人)對於社會議題的態度。我們問受測者,在資源有限的情況下,大家覺得政府應該怎麼樣分配社會資源給 9 個不同的社會議題(寵物和動物、藝術文化和人文、教育、環境、健康、人道服務、國際事務、信仰和精神事業、退伍軍人)。
我們把受測者分成兩大組,一組用李克特問卷回答、另一組用平方投票法。
然後,我們設計了一個激勵相容的捐款活動來「代表」受測者心中對於這九個社會議題的「真實偏好」。什麼意思呢?先看這個捐款規則:
- 首先我們跟受測者說:「大家有 1/70 的機率可以獲得 35 美金,但是我們會等到大家都完成實驗才會公布誰獲獎。」
- 這邊我們列出了 9 個不同的社福機構(這些社福機構各對應到一個社會議題但我們沒有讓受測者知道)。
- 我們問受測者:「在你獲得這35美金的情況下,你願不願意把這 35 美金捐給這些慈善機構呢?」受測者可以自由分配這筆金額,他可以捐給一個、幾個、全部的慈善機構,只要他不超過這 35 美金。同時,我們也跟測者說:「當然,你沒有捐出去的部分,就是你參與這個實驗的額外獎勵。 」舉例來說,小珊捐了 5 美金給動物之家、3 美金給博物館基金會,在贏得35美金的情形下,小珊會帶走剩下的 27 美金。
- 我們也跟受測者說,一樣在贏得捐款的情況下,受測者捐多少,實驗人員就會捐出多少給它們指定的社福機構。
這個活動設計之所以為激勵相容(incentive compatible),是因為受測者沒有好的理由選擇說謊或隱瞞,換句話說,只有誠實表達心中的想法才能獲得最大的利益。如果受測者覺得美國教育基金會比動物之家更值得被支持,他沒有任何理由捐比較多錢給動物之家。同樣的,如果他覺得自己獲得這些錢比支持博物館基金會來的更有價值,他就應該把錢留給他自己。在我們的實驗結果中,約略有 30% 的受測者選擇不捐款;這樣的結果呼應了經濟學與社會科學家 Ernst Fehr 和 Herbert Gintis 2007 年發表的研究結果,這篇被大量引用的文獻指出,社會上約略有 3 成的人永遠會在公共事務上搭便車(free-rider,意指不願意付出卻想坐享結果的人)。
透過這樣的實驗,利用受測者捐款給這些不同的社福機構的金額分布,來代表受測者心中「真實的想法」了,集滿✅收工!
等等,這三個東西怎麼比阿? 讓我們借用一點數學,利用向量找出這三組數據的關係。我們把每一個人的問卷回答(不管是李克特還是平方投票法)轉換成一個 9 維度的向量、把捐款的金額也轉換成一個 9 維度的向量。這時候,我們就可以用餘旋角度差(cosine distance)比較透過問卷得到的意見和透過活動得到的行為有多分歧了。
TL;DR 就是,如果一個工具精準的反射了你的「偏好」,這個工具得到的向量與這個人的捐款結果會完全重和,角度為0度。
然後我們透過貝氏統計模型分析⋯(省略萬字)⋯取得很多圖,其中最重要的其中一張:
上面這張是分析後得到的平均角度差分布圖。 你這樣理解這張圖:圖中的橫軸是角度差,記得我們講過,0 度(也就是越左邊),表示這個工具越精準;縱軸是數量;所以分布圖的意思是,這個角度差有幾個[註二]。藍色的線是李克特組的平均角度差分布、另外三條[註三]則是平方投票法。
寫成白話文的結論:因為藍色線很靠右,所以可以看出,平方投票法的平均角度差比李克特量表的平均角度差還來的小,所以我們可以說,平方投票法比李克特量表更能表示人的偏好。
耶!畢業!好啦我的碩士論文真的只有寫到這邊。
於是,我們在 2019 年尾就差不多得到這個初步的結論了。但是,這世界上不是每個問題都可以被切得這麼乾淨啊!很多時候我們在做問卷調查的時候,選項之間是會互相影響的。舉那個冰淇淋的例子,你要選草莓跟巧克力就是在兩個其實沒有什麼關聯的口味之間做選擇;但是,如果我今天要選冰淇淋的綿密度或是甜度,兩個選項是互相影響的。所以,我們又花了差不多一年的時間做了下面這個實驗。
介面設計與標價 #
首先,我們設計了一個影片播放器(如下圖,真的也很想讓大家玩這個)。這個播放器很酷,他可以透過下面的選單,即時改變正在播放中的影片畫質、音質、多久會掉音訊、影片會不會突然出現黑畫面、或是聲音和影像差幾秒。有沒有注意到,一個影片的品質,必須同時存在這五個「元素」才完整。想像一下,在資源有限的情況下,我可能只能針對特定幾個「元素」進行優化或是更新。
所以在這個實驗中,我們跟受測者說:「我們正在幫一間公司設計車用天氣預報產品。因為衛星網路很貴,在有限的網路頻寬下,我們想了解不同使用者對於車用天氣預報影片的產品應該怎麼設計。」我們讓受測者體會不同的影片特性(音訊品質、影像畫質、音訊穩定度、影像穩定度、影像與音訊同步程度),對於觀看天氣預報影片的影響。
這次我們一樣要得到三樣東西:
- 李克特量表的結果 — 這個沒問題 ✅
- 平方投票法表達意見的結果 — 這個應該也沒問題 ✅
- 心中真實的想法 — 這個應該也… 等等!
這種東西不能捐款阿!
經過了非常非常非常多種的實驗設計,已經忘記為什麼讓我想起了個體經濟學會出現的名詞:
—→ 願付價格(Willingness To Pay, WTP)!!!!!
也就是我,身為購買者,到底願意付多少錢買一個商品。
於是乎,我們設計了下面這個活動。
- 我們告訴受測者:「接下來的活動中,請把自己當作是我們公司的設計師,我們邀請你設計一個車用天氣預報播放器。你會先設計這個播放器,然後標價這個產品。我們的系統會隨機分派車用天氣預報的潛在買家來檢視你的提案,如果他覺得你設計的產品性價比不錯,我們會支付你標售售價的一成當作這個實驗的額外獎勵。」
- 於是,受測者針對五個不同的播放元素選擇一種品質設定(下圖左側)。播放器會即時的「組合」出受測者設計的產品。
- 接下來,受測者會針對這個他們設計的播放器標價。針對這五個元素設定,可以標註一個 0 美元到 4 美元的售價,最後組合出這個產品的販售價格(下圖右側)。
這個活動首先透過標價,反映這個受測者心中的願付價格。同時,這個活動符合激勵相容的設計,因為如果受測者標價太低,他最後獲得的獎勵會很少;但同時,如果他標價太高,購買者就有可能不選擇購買這個產品;所以,只有誠實的估算出心中的願付價格(我覺得這個東西值這麼多),才是最有利的策略。 省略千字的分析後,我們一樣得到下面的平均餘旋角分布(藍色是李克特,橘色是平方投票法)。
我們再度得到平方投票法的平均角度差比李克特量表的平均角度差還來的小,所以我們可以說,平方投票法比李克特量表更能表示人的偏好的結論。
所以?然後? #
好了,這就是我過去兩年在做的研究,所以⋯⋯我碩士畢業了。
好啦,認真說,這兩篇文章我刻意的漏掉了很多細節,只寫了我覺得比較酷炫或是比較有趣的部分。我們在會議期刊上面有提到這兩個實驗各自的一些限制和待答問題(沒有實驗是完美的!)。同時,我們還有一些平方投票法的研究正在如火如荼的進行著。
我想說的是,讀到這邊你可能會懷疑我到底讀什麼科系。沒有錯,這是一個資工所的研究。人機互動就是想透過了解電腦怎麼影響使用者、更或是改變人的行為。就像問卷和李克特量表已經存在這個世界快要一個世紀了,但是過去這段時間,我們只不過是把紙本問卷依樣畫葫蘆的利用電話和電腦,傳送給填答者,卻好像沒有想過,是不是可以透過電腦今日的運算能力,創造出新型態的意見蒐集方法?我也要同時強調,發展新型態的意見蒐集方法不是想要取代傳統問卷,而是提供新的選擇。
至於究竟為什麼平方投票法比較接近人的喜好?有哪些情況不適合使用平方投票法?投票單上面選項有沒有上限?這些諸多問題,很抱歉,我們還沒找到答案。但歡迎你一起加入研究平方投票法的行列!:)
最後最後,如果你一字一句的讀到這裡,謝謝你的耐心與用心,希望系列文章幫你增加了一些神奇的知識。你喜歡這樣的研究嗎?有什麼心得想跟我說嗎?或是你有沒有想看到的其他文章呢?歡迎寫信,或是留言給我喔!
參考資料
- Cheng, Ti-Chung, Tiffany Wenting Li, Yi-Hung Chou, Karrie Karahalios, and Hari Sundaram. "" I can show what I really like." Eliciting Preferences via Quadratic Voting." Proceedings of the ACM on Human-Computer Interaction 5, no. CSCW1 (2021): 1-43.
- Ernst Fehr and Herbert Gintis. 2007. Human motivation and social cooperation: experimental and analytical foundations. Annu. Rev. Sociol., 33, 43-64.
- 支付意願原則
- 激勵相容
對了,我們很快會開放公開版的平方投票法系統給需要的朋友來使用,歡迎寫信跟我要早鳥測試帳號喔!
[註一]其實問卷本身存在的目的就要了解(然後量化)一個人心中的想法。但是很多文獻都發現,其實人很容易因為外在的原因,表達出不精確的想法(又稱作 Self-reporting bias,自陳報告偏誤)。這也是這個實驗花最多時間在處理的問題。
[註二]這邊沒有討論貝式分析和我們使用的模型,就直接放上 MCMC 執行結果的分布圖。簡單來說這個分布圖式模型跑完後的後驗分布(Posterier distribution)結果,不是我們實驗受測者的餘弦角分布。有興趣的話可以去看我們今年要發表的會議期刊。
[註三]這邊我省略了這個實驗中,我們同時在嘗試不同的投票點數對測量精準度影響的研究。所以中間的紅色線是點數比較少的那種平方投票法。也就是,你必須給受測者足夠多的投票點數,平方投票法才會準。這呼應了平方投票法理論原文中提到的, " […] To create the opportunity for market trade, each voter is endowed with a large sotck of ‘voice credits’ that they may spend influcing the outcome of these decisions." 但我們仍然不知道上限應該要設多少。初步看起來,超過一個定量結果就不會有太大的差異。