推 s9234032: 一場 選舉 全民上統計課 這畫面好美 111.82.61.247 11/19 05:47
推 doohan01: 前提是兩組獨立數據 27.53.232.143 11/19 05:48
沒有錯 如果數據不是獨立就要考慮相關性
第一種常態分佈的例子中誤差有可能修正
至於是變大還是變小要看兩者是正相關還是負相關
回到統計的例子 基本上你是星巴克星巳克分開問的
所以你得到的兩個對於母體推論基本上是獨立的
推 ShockHo222: 台灣人真可憐,一會兒要懂疫苗,一會 27.247.94.35 11/19 05:49
→ ShockHo222: 兒要懂統計 27.247.94.35 11/19 05:49
推 Chricey: 看到關節痛,我就想起我姨媽 112.226.206.113 11/19 05:49推 ok66: 你假設錯了啊 柯侯跟侯柯就有相關性 而且是 133.237.7.71 11/19 05:56
推 ewing: 如有天命 需要讓票?223.139.188.244 11/19 05:57
→ ok66: 正的 所以會比你估的小 133.237.7.71 11/19 05:57
我沒有在討論那個例子
你可以說這個假設下的論述不適用某個例子
而不是你假設錯了
再回來相關性這件事
首先你要放相關性進來考慮的就是第一個例子
假設有一個上帝知道的真實數值而不是有各種可能的母體
那確實正相關會使誤差傳遞比原本的誤差傳遞小
但問題來了 請問你如何知道cov(A,B)是多少呢?
推 ok66: 看民調有沒有計算這項啊 我怎知== 133.237.7.71 11/19 06:04
民調當然沒有這項
因為通常計算covariance的時候是第一種例子
你在做實驗量測 量測一個數值
而不是做民調 調查支持比例
事情是這樣的
https://imgur.com/4zQ7Ztp
這是covariance
如果假設支持算1不支持算0 讓x_i要嘛1要嘛0
可能可以算至於能不能用我持保留態度
畢竟第一種常態分佈的狀況假設的是常態分佈
但0跟1顯然不是常態分佈
總之退一萬步我們用0跟1做個估計好了
但只是估計所以實際計算結果也許跟估計不一樣
總之
甚麼時候會得到最高的負相關呢
就是同一個人喜歡星巴克就不喜歡星巳克
甚麼時候會得到最高的正相關呢
就是同一個人喜歡星巴克就喜歡星巳克
的確正相關會讓誤差變小
但是呢 我們要看的就是有沒有統計顯著可以證明喜歡星巴克的人多於星巳克的人
高度正相關基本上是否定這個看法
因為高度正相關代表的是多數人兩個都一樣喜歡
推 sofaly: 請問什麼是越位 112.78.84.56 11/19 06:11
推 brian900530: 正解就是沒有raw data都算不出來啦 1.161.213.250 11/19 06:15
→ brian900530: 沒有原始數據要怎麼知道共變異數XD 1.161.213.250 11/19 06:16
→ brian900530: DD 1.161.213.250 11/19 06:16
→ wen17: 9成的母體 你是假設各種母體機率均等吧 31.205.109.42 11/19 06:32
概念是這樣的
首先我們知道做了測量之後各種母體存在的機率就不均等了
舉例來說你測到111
母體就不可能是00000
所以一般來說我們看的是把9成5的母體挑出來
看能不能排除某種情況
換句話說 能不能挑9成6的母體出來
且這些母體實際支持率跟測量的小於3%呢?
答案是不能 一旦你做了1000份問卷 這種可能性就被排除了
至於挑出來的9成5的母體裡面各種比例是多高?
這跟誤差範圍內是兩件事
因為9成5的母體裡各種母體支持率分布的比例跟10成母體差不多
但10成母體統計誤差是100%
所以有兩個不同的問題
1.我能不能猜哪個母體最有可能
答案是可以 而且你八成會猜是你量到的那個
可是這時候你猜錯母體的機率也很高
2.我可不可以降低猜錯母體的機率
並在這個基礎上排除某事件發生的機會
可以 這就是統計誤差
→ wen17: 也就是0 1都50% 這樣能maximize interval 31.205.109.42 11/19 06:33
→ wen17: 我不是很確定同時比兩組數據這樣公平嗎 31.205.109.42 11/19 06:33
→ wen17: 而且實際上因為有賴 所以其實不論柯或侯 31.205.109.42 11/19 06:34
→ wen17: 母體比率應該都<<0.5 直接用0.5估 31.205.109.42 11/19 06:34
→ wen17: 然後要求interval不能疊 怪怪der 31.205.109.42 11/19 06:34
→ wen17: 這例子不太像星巴克 but anyway 31.205.109.42 11/19 06:35
→ wen17: 為什麼智商157還有統計學博士簽的約 31.205.109.42 11/19 06:35
→ wen17: 可以不清不楚 定義都沒定義好 31.205.109.42 11/19 06:35
推 pc011630: 學生時代的惡魔又回來了 114.33.5.252 11/19 06:45
推 tn368: 我知道的是重點在如果你要比較兩組有差異118.167.227.249 11/19 06:55
→ tn368: 的數據是不是有顯著差異你會設定一個P值,118.167.227.249 11/19 06:55
→ tn368: 就是當你的假說是真的時候,你的結果出現118.167.227.249 11/19 06:55
→ tn368: 極端情形的機率(例如常態分佈單雙尾的5% 9118.167.227.249 11/19 06:55
→ tn368: 5%,P value=0.05), 你去計算你要比較數據118.167.227.249 11/19 06:55
→ tn368: 的p value是不是低於設定值你才會知道是不118.167.227.249 11/19 06:56
→ tn368: 是有統計上有顯著差距的意義118.167.227.249 11/19 06:56
你說的沒錯 這就是第一種常態分佈的狀況
如果你在測量一個數值的時候
例如全班體重
我們會假設體重分布是常態分佈
再根據常態分佈各數值出現的機率去設定p value的閥值
至於問卷這種問題呢
基本上就是1跟0
畫成圖就是兩條bar
基本上不是常態分佈
並且處理的問題也不一樣
常態分佈是假設宇宙有個真實的值和真實的分布
這個分布就是常態分佈
所以他不用處裡母體的問題
也就是為甚麼你假設常態分佈之後就不用假設95%信心水準了
(這跟P value的5%是不太一樣的概念)
因為你的"母體"就只會是常態分佈
至於問卷呢
我們要做的事情是在95%的母體中
討論某事件發生的機會有沒有可能完全被排除
→ wen17: 不是 我是指 假設母體有10個 你測2個 31.205.109.42 11/19 06:56
→ wen17: 排除掉不可能發生的 剩下的用2選1 0/1去湊 31.205.109.42 11/19 06:56
→ wen17: 猜0.5的好處是能CI啊XD 你單純要檢定一個 31.205.109.42 11/19 06:58
→ wen17: 我覺得max CI很合理 CI最大都能跑出去 31.205.109.42 11/19 06:58
→ wen17: 肯定能跑出去了 但如果想玩兩個CI不重疊 31.205.109.42 11/19 06:59
→ wen17: 我不知道這樣做合不合適就是了 31.205.109.42 11/19 06:59
→ wen17: 不過我覺得你的排除在今天的例子不太重要? 31.205.109.42 11/19 07:00
→ wen17: 因為選民人數遠遠比民調樣本多 31.205.109.42 11/19 07:00
母體=全體選民
民調=樣本
在沒選舉之前我們做民調得到得結果呢
可以有N種對應的母體
換句話說有N種可能的選民結構
可以讓我們做出今天的民調
但是呢
我能不能猜真的選舉的時候支持率會怎樣呢
可以 你會用你做的民調結果估計
但是呢 因為你的樣本數遠小於母體
所以真實的選舉結果跟你的民調結果大概不會一樣
差距有多大呢?
你做1000份民調
真實結果跟民調結果差距在3%以內的 有95%的可能性
差距在2%以內的 有80%的可能性
有沒有沒有誤差的 有可能性很接近0
OK 讓我們再回到相關性跟常態分佈的討論
你如果問說 今天做了一個民調
我能不能用常態分佈那一套來處理
我只能說我持保留態度
但我可以告訴你為甚麼平常做問卷調查都不是用常態分佈那一套
1.0跟1不是常態分佈 所以假設只可能是一種近似
2.常態分佈是對母體的一種假設 當你要排除某種可能性的時候
基本上是盡可能做越少假設越好 畢竟沒有人有好的理由說服別人
為甚麼真實母體應該是常態分佈
有甚麼東西不是常態分佈? 很簡單年紀分布就不是常態分佈
為甚麼我是持保留態不而不是否定
是因為統計這個東西基本上還是共識決
你說你要95%信心 我可不可以說要30%就好了
可以啊 你也可以說1%信心那你誤差就不見了
或者說要99.99%信心 那你誤差可能就大到快100%
95%這個共識基本上是因為好用
但甚麼是好用 怎樣定義好用?
這都是人決定的 所以你要用常態分佈行不行
也許吧 如果你覺得很好用的話
我只能說
一般社會科學處理好不好要不要這種"民調"應該沒有人假設常態分佈
我想再補充一點 雖然這裡應該沒有人會看
為甚麼常態分佈這麼棒呢?
這是因為大部分時候我們定義"距離"的時候都是用L2 norm
舉例來說
X = {x1,x2,...}
Y = {y1,y2,...}
如果XY間距離是sqrt((x1-y1)^2+(x2-y2)^2+...) 這就是L2n norm
基本上差距 誤差這種東西就是距離
如果我們是這樣定義距離的
那你要找到一個"正確"的分布
使得該分布跟所有可能分布的距離最小的話
那這個分布就是常態分佈
如果距離不再是L2 norm了 那這個分布就不會再是常態分佈
推 xru03: 推 27.240.170.3 11/19 07:28
推 intointo: 已經上了一天的統計學了 114.42.42.17 11/19 07:35
→ wen17: 懂你的意思了 謝謝 31.205.109.42 11/19 07:35
推 wen17: 但我沒有假設是常態分佈吧? 31.205.109.42 11/19 07:38
→ wen17: data當然不是常態分佈 31.205.109.42 11/19 07:38
→ wen17: 但你抽出來的樣本參數 與平行世界比 會是 31.205.109.42 11/19 07:39
→ wen17: 比方說你抽出來這次mean=0.42 31.205.109.42 11/19 07:39
→ wen17: 假定母體mean=0.5 (最大化區間) 31.205.109.42 11/19 07:40
→ wen17: 可以下去估如果你抽了很多次 31.205.109.42 11/19 07:40
→ wen17: 這些mean的std 是這樣嗎? 31.205.109.42 11/19 07:40
抱歉我不確定你有沒有再講常態分佈的事
主要是因為我回的那篇文在講的是常態分佈的統計
所以我話癆就多講了一點
針對你這個問題
估計總是可以的
但估計會估錯 統計誤差範圍處理的問題是給定信心水準我不要我估錯
我要確定可以排除是誤差導致或是說不能排除誤差影響
換言之
估計做的是是說"很有可能" 但不能告訴你多有可能
統計誤差要說的是"哪些不可能"
事情是這樣子的
只做民調我們"可能"活在各種各式各樣的平行宇宙中
但歸根究柢 我們只活在其中一個
舉例來說
我們抽到111
假設我要我有70%信心回答問題 那我的誤差範圍就要有20%
母體有可能是111111
也有可能是111110
你問我有沒有可能知道我再做一次民調會出現甚麼狀況呢?
答案是不能
如果我的母體是第一種
那我再怎麼做民調都不會找到0
如果我的母體是第二種
我就有可能抽到0
而我們只活在其中一種
※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 07:57:13
→ wen17: 也就說 你會有mean1 mean2 mean3..mean1000 31.205.109.42 11/19 07:41
噓 RiverMan1: 是需要多懂?叫你讓就讓,不然自己出錢223.138.126.195 11/19 07:41
→ wen17: 考慮這些mean的分布,會是常態分佈? 31.205.109.42 11/19 07:42
推 womanloveme: 一早起來上統計,傷痛都回來了 101.12.26.40 11/19 07:42
推 abiggun: 統計學答案不重要 國民黨就是要正的 203.160.80.203 11/19 07:43
推 bmjack: 推~~可以跟我說一下,民調結果就以你們專 27.52.101.249 11/19 07:48
→ bmjack: 家來看,猴猴是立論是正確的嗎?柯翻桌有 27.52.101.249 11/19 07:48
→ bmjack: 理嗎? 若你是柯,以當初協議來看這結果, 27.52.101.249 11/19 07:48
→ bmjack: 你也會翻桌嗎?謝謝。 27.52.101.249 11/19 07:48
推 xm32: 謝謝您的解釋,但我仍聽不懂 114.32.191.192 11/19 07:58