看板 Gossiping
認真回 這篇文章在講的事情是error propagation 如果我有兩個實驗數據 這兩個數據是獨立量測的 那我測到的第一組是A+/-a 第二組是B+/-b 假設你的實驗量總是常態分佈 有統計顯著意義應該是要 |A-B|>sqrt(a^2+b^2) 舉例來說 如果A=40 B=44 a=b=3 他認為統計顯著意義應該要是 |40-44|>sqrt(3^2+3^2)=4.26 但這條沒有成立 所以沒有統計顯著意義 那比較confidence interval的意義是甚麼呢 就是當我們設定95%信心水準樣本數1000 母體數很大的時候不太重要 但我們可以假設個一千萬 那對應的confidence interval大約是3% 也就是說我做無限次調查的時候 有95%的結果我可以肯定 支持某個選項的比例跟某個數值A的差距在3%之內 那在某些社會科學(有些自然科學好像也是)的慣例中 在誤差範圍內=在誤差範圍外的相反 甚麼是在誤差範圍外 就是我可以肯定我量測到的數值跟A的差距不是誤差導致的 換句話說就是 在誤差範圍內=A跟B的差距有可能是誤差導致的 但你可能會問這樣的機率很小怎麼辦 這就是為甚麼一開始要設定95%信心水準 當設定信心水準之後你基本上就可以確定95%情況(母體真實情況)的範圍 接著再來比較這95%情況下有沒有可能(有沒有一種母體) 抽樣調查有可能測到A也有可能測到B 如果有可能 就是在誤差範圍內 如果不可能 就是在誤差範圍外 舉例來說 調查你喜歡買星巴克嗎 1是喜歡 0是不喜歡 母體可能是 100011111000 支持率是41% 也可能是 110011111000 支持率是58% 也可能是 110000000000 支持率是17% ... 但你調查的時候只抽3個 你抽到 010 所以喜歡比例是33% 但有沒有誤差值? 有 95%信心下 誤差大概是50% 在這95%的母體中 有沒有可能有一個母體的真實支持率是60%? 有 有沒有可能有母體的真實支持率是90%? 沒有 (根據你的實驗結果 這樣的母體存在的機率不到5%) 為甚麼可以用實驗結果反推母體? 這也很簡單 因為你測到110 所以有沒有可能有母體是 000000000000? 不可能 所以實驗結果是可以反推可能的母體 跟他對應的比例的 所以統計觀念就進來了 95%信心水準下誤差50%的意思是 真實母體的支持率跟33%有沒有可能差超過50% 有可能 例如111111111110 但這種母體存在的比例不到5% 接著問題來了 現在有一間星巳克 你要調查對消費者來說喜歡星巴克跟星巳克有沒有區別 所以你做了一樣的調查 結果呢你一樣抽三個 這次抽到111 喜歡比例是100% 接著你問根據這樣的實驗結果 有沒有可能出現一種母體 消費者對星巴克跟星巳克的喜歡是一樣的 答案是有 而且還蠻常見的 大約有9成的母體容許這種實驗結果 舉例來說 母體可能是 111000000001 111100000001 111110000001 ..... 如果你支持3% 你可能會覺得奇怪 支持率差距是66% 怎麼66%超過誤差50%還有這麼多可能的母體 但是但是 這些都是假設信心95%的情況下 95%只是常用的標準 你可以說 我想要誤差0.001%可不可以 當然可以 如果你的信心只有1% 誤差就會很小 換句話說 你做了一個測量 你只要求母體實際支持率跟你量到的差距在0.001%內 那你就只會撈到可能1%左右的母體 那用這個基礎進行討論你就可以說 你有不到1%的信心 消費者喜歡星巳克多於星巴克 當然這是極端的例子 也許你會有80%的信心可以下這種結論 但通常習慣是用95%90%之類的就是了 回過頭來講 要用error propagation通常的假設是你預期你做的測量背後有一個確定的真實值 你的平行世界就只有一個 不會有這種背後有不同母體不同情況的可能性 而因為誤差 你實際做測量的時候的測量值大約是常態分佈 至於喜好調查這種東西呢 當你只抽樣調查 你是不會知道背後母體真實長的樣子的 所以你只能討論眾多可能性中 在某種給定條件的各種可能性下的結果 我知道風向不對 但科學精神就是這樣 如果你說我錯 你要講出我哪裡錯 如果你提出一個說法 這個說法要有可以被證明是錯的可能性(不一定錯 但要有可證偽性) ※ 引述《Popechiou (是我)》之銘言: : https://i.imgur.com/XpDyyD8.jpg
: 剛剛在友版問問題,有朋友回應我這張圖,我看不懂,我只知道投降輸一半,不懂統計, : 這張圖好像很厲害,請問有卦嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.53.238.53 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1700343468.A.4B3.html ※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 05:44:04
JC910: https://i.imgur.com/aJyPVrU.jpg 1.200.77.247 11/19 05:43
s9234032: 一場 選舉 全民上統計課 這畫面好美 111.82.61.247 11/19 05:47
doohan01: 前提是兩組獨立數據 27.53.232.143 11/19 05:48
沒有錯 如果數據不是獨立就要考慮相關性 第一種常態分佈的例子中誤差有可能修正 至於是變大還是變小要看兩者是正相關還是負相關 回到統計的例子 基本上你是星巴克星巳克分開問的 所以你得到的兩個對於母體推論基本上是獨立的
ShockHo222: 台灣人真可憐,一會兒要懂疫苗,一會 27.247.94.35 11/19 05:49
ShockHo222: 兒要懂統計 27.247.94.35 11/19 05:49
Chricey: 看到關節痛,我就想起我姨媽 112.226.206.113 11/19 05:49
ok66: 你假設錯了啊 柯侯跟侯柯就有相關性 而且是 133.237.7.71 11/19 05:56
ewing: 如有天命 需要讓票?223.139.188.244 11/19 05:57
ok66: 正的 所以會比你估的小 133.237.7.71 11/19 05:57
我沒有在討論那個例子 你可以說這個假設下的論述不適用某個例子 而不是你假設錯了 再回來相關性這件事 首先你要放相關性進來考慮的就是第一個例子 假設有一個上帝知道的真實數值而不是有各種可能的母體 那確實正相關會使誤差傳遞比原本的誤差傳遞小 但問題來了 請問你如何知道cov(A,B)是多少呢?
ok66: 看民調有沒有計算這項啊 我怎知== 133.237.7.71 11/19 06:04
Chricey: 有人知道UC2和其他關節保健品的差異嗎? 112.296.206.45 11/19 06:04
民調當然沒有這項 因為通常計算covariance的時候是第一種例子 你在做實驗量測 量測一個數值 而不是做民調 調查支持比例 事情是這樣的 https://imgur.com/4zQ7Ztp 這是covariance 如果假設支持算1不支持算0 讓x_i要嘛1要嘛0 可能可以算至於能不能用我持保留態度 畢竟第一種常態分佈的狀況假設的是常態分佈 但0跟1顯然不是常態分佈 總之退一萬步我們用0跟1做個估計好了 但只是估計所以實際計算結果也許跟估計不一樣 總之 甚麼時候會得到最高的負相關呢 就是同一個人喜歡星巴克就不喜歡星巳克 甚麼時候會得到最高的正相關呢 就是同一個人喜歡星巴克就喜歡星巳克 的確正相關會讓誤差變小 但是呢 我們要看的就是有沒有統計顯著可以證明喜歡星巴克的人多於星巳克的人 高度正相關基本上是否定這個看法 因為高度正相關代表的是多數人兩個都一樣喜歡
sofaly: 請問什麼是越位 112.78.84.56 11/19 06:11
brian900530: 正解就是沒有raw data都算不出來啦 1.161.213.250 11/19 06:15
brian900530: 沒有原始數據要怎麼知道共變異數XD 1.161.213.250 11/19 06:16
brian900530: DD 1.161.213.250 11/19 06:16
Chricey: 喔喔喔,UC2 真的是超讚的啦 112.330.206.21 11/19 06:16
wen17: 9成的母體 你是假設各種母體機率均等吧 31.205.109.42 11/19 06:32
概念是這樣的 首先我們知道做了測量之後各種母體存在的機率就不均等了 舉例來說你測到111 母體就不可能是00000 所以一般來說我們看的是把9成5的母體挑出來 看能不能排除某種情況 換句話說 能不能挑9成6的母體出來 且這些母體實際支持率跟測量的小於3%呢? 答案是不能 一旦你做了1000份問卷 這種可能性就被排除了 至於挑出來的9成5的母體裡面各種比例是多高? 這跟誤差範圍內是兩件事 因為9成5的母體裡各種母體支持率分布的比例跟10成母體差不多 但10成母體統計誤差是100% 所以有兩個不同的問題 1.我能不能猜哪個母體最有可能 答案是可以 而且你八成會猜是你量到的那個 可是這時候你猜錯母體的機率也很高 2.我可不可以降低猜錯母體的機率 並在這個基礎上排除某事件發生的機會 可以 這就是統計誤差
wen17: 也就是0 1都50% 這樣能maximize interval 31.205.109.42 11/19 06:33
wen17: 我不是很確定同時比兩組數據這樣公平嗎 31.205.109.42 11/19 06:33
wen17: 而且實際上因為有賴 所以其實不論柯或侯 31.205.109.42 11/19 06:34
Chricey: 剛開始吃UC2,期待 112.311.206.127 11/19 06:34
wen17: 母體比率應該都<<0.5 直接用0.5估 31.205.109.42 11/19 06:34
wen17: 然後要求interval不能疊 怪怪der 31.205.109.42 11/19 06:34
wen17: 這例子不太像星巴克 but anyway 31.205.109.42 11/19 06:35
wen17: 為什麼智商157還有統計學博士簽的約 31.205.109.42 11/19 06:35
Chricey: 關節痛睡覺就能治了,吃什麼UC2 112.285.206.63 11/19 06:35
wen17: 可以不清不楚 定義都沒定義好 31.205.109.42 11/19 06:35
pc011630: 學生時代的惡魔又回來了 114.33.5.252 11/19 06:45
tn368: 我知道的是重點在如果你要比較兩組有差異118.167.227.249 11/19 06:55
tn368: 的數據是不是有顯著差異你會設定一個P值,118.167.227.249 11/19 06:55
Chricey: 長時間坐著工作,關節痛越來越嚴重,該怎麼辦?推薦UC2 112.302.206.229 11/19 06:55
tn368: 就是當你的假說是真的時候,你的結果出現118.167.227.249 11/19 06:55
tn368: 極端情形的機率(例如常態分佈單雙尾的5% 9118.167.227.249 11/19 06:55
tn368: 5%,P value=0.05), 你去計算你要比較數據118.167.227.249 11/19 06:55
tn368: 的p value是不是低於設定值你才會知道是不118.167.227.249 11/19 06:56
Kroner: 有人知道UC2和其他關節保健品的差異嗎? 112.284.206.138 11/19 06:56
tn368: 是有統計上有顯著差距的意義118.167.227.249 11/19 06:56
你說的沒錯 這就是第一種常態分佈的狀況 如果你在測量一個數值的時候 例如全班體重 我們會假設體重分布是常態分佈 再根據常態分佈各數值出現的機率去設定p value的閥值 至於問卷這種問題呢 基本上就是1跟0 畫成圖就是兩條bar 基本上不是常態分佈 並且處理的問題也不一樣 常態分佈是假設宇宙有個真實的值和真實的分布 這個分布就是常態分佈 所以他不用處裡母體的問題 也就是為甚麼你假設常態分佈之後就不用假設95%信心水準了 (這跟P value的5%是不太一樣的概念) 因為你的"母體"就只會是常態分佈 至於問卷呢 我們要做的事情是在95%的母體中 討論某事件發生的機會有沒有可能完全被排除
wen17: 不是 我是指 假設母體有10個 你測2個 31.205.109.42 11/19 06:56
wen17: 排除掉不可能發生的 剩下的用2選1 0/1去湊 31.205.109.42 11/19 06:56
wen17: 猜0.5的好處是能CI啊XD 你單純要檢定一個 31.205.109.42 11/19 06:58
Kroner: 長時間坐著工作,關節痛越來越嚴重,該怎麼辦?推薦UC2 112.263.206.97 11/19 06:58
wen17: 我覺得max CI很合理 CI最大都能跑出去 31.205.109.42 11/19 06:58
wen17: 肯定能跑出去了 但如果想玩兩個CI不重疊 31.205.109.42 11/19 06:59
wen17: 我不知道這樣做合不合適就是了 31.205.109.42 11/19 06:59
wen17: 不過我覺得你的排除在今天的例子不太重要? 31.205.109.42 11/19 07:00
Kroner: 樓下關節痛都吃鞏固力 112.328.206.252 11/19 07:00
wen17: 因為選民人數遠遠比民調樣本多 31.205.109.42 11/19 07:00
母體=全體選民 民調=樣本 在沒選舉之前我們做民調得到得結果呢 可以有N種對應的母體 換句話說有N種可能的選民結構 可以讓我們做出今天的民調 但是呢 我能不能猜真的選舉的時候支持率會怎樣呢 可以 你會用你做的民調結果估計 但是呢 因為你的樣本數遠小於母體 所以真實的選舉結果跟你的民調結果大概不會一樣 差距有多大呢? 你做1000份民調 真實結果跟民調結果差距在3%以內的 有95%的可能性 差距在2%以內的 有80%的可能性 有沒有沒有誤差的 有可能性很接近0 OK 讓我們再回到相關性跟常態分佈的討論 你如果問說 今天做了一個民調 我能不能用常態分佈那一套來處理 我只能說我持保留態度 但我可以告訴你為甚麼平常做問卷調查都不是用常態分佈那一套 1.0跟1不是常態分佈 所以假設只可能是一種近似 2.常態分佈是對母體的一種假設 當你要排除某種可能性的時候 基本上是盡可能做越少假設越好 畢竟沒有人有好的理由說服別人 為甚麼真實母體應該是常態分佈 有甚麼東西不是常態分佈? 很簡單年紀分布就不是常態分佈 為甚麼我是持保留態不而不是否定 是因為統計這個東西基本上還是共識決 你說你要95%信心 我可不可以說要30%就好了 可以啊 你也可以說1%信心那你誤差就不見了 或者說要99.99%信心 那你誤差可能就大到快100% 95%這個共識基本上是因為好用 但甚麼是好用 怎樣定義好用? 這都是人決定的 所以你要用常態分佈行不行 也許吧 如果你覺得很好用的話 我只能說 一般社會科學處理好不好要不要這種"民調"應該沒有人假設常態分佈 我想再補充一點 雖然這裡應該沒有人會看 為甚麼常態分佈這麼棒呢? 這是因為大部分時候我們定義"距離"的時候都是用L2 norm 舉例來說 X = {x1,x2,...} Y = {y1,y2,...} 如果XY間距離是sqrt((x1-y1)^2+(x2-y2)^2+...) 這就是L2n norm 基本上差距 誤差這種東西就是距離 如果我們是這樣定義距離的 那你要找到一個"正確"的分布 使得該分布跟所有可能分布的距離最小的話 那這個分布就是常態分佈 如果距離不再是L2 norm了 那這個分布就不會再是常態分佈
xru03: 推 27.240.170.3 11/19 07:28
intointo: 已經上了一天的統計學了 114.42.42.17 11/19 07:35
wen17: 懂你的意思了 謝謝 31.205.109.42 11/19 07:35
Chricey: 我阿嬤說吃豬腳補關節,豬腳吃起來 112.289.206.140 11/19 07:35
wen17: 但我沒有假設是常態分佈吧? 31.205.109.42 11/19 07:38
wen17: data當然不是常態分佈 31.205.109.42 11/19 07:38
wen17: 但你抽出來的樣本參數 與平行世界比 會是 31.205.109.42 11/19 07:39
wen17: 比方說你抽出來這次mean=0.42 31.205.109.42 11/19 07:39
Kroner: 本魯關節痛始祖,葡萄糖胺保證沒用,乖乖吃UC2 112.231.206.219 11/19 07:39
wen17: 假定母體mean=0.5 (最大化區間) 31.205.109.42 11/19 07:40
wen17: 可以下去估如果你抽了很多次 31.205.109.42 11/19 07:40
wen17: 這些mean的std 是這樣嗎? 31.205.109.42 11/19 07:40
抱歉我不確定你有沒有再講常態分佈的事 主要是因為我回的那篇文在講的是常態分佈的統計 所以我話癆就多講了一點 針對你這個問題 估計總是可以的 但估計會估錯 統計誤差範圍處理的問題是給定信心水準我不要我估錯 我要確定可以排除是誤差導致或是說不能排除誤差影響 換言之 估計做的是是說"很有可能" 但不能告訴你多有可能 統計誤差要說的是"哪些不可能" 事情是這樣子的 只做民調我們"可能"活在各種各式各樣的平行宇宙中 但歸根究柢 我們只活在其中一個 舉例來說 我們抽到111 假設我要我有70%信心回答問題 那我的誤差範圍就要有20% 母體有可能是111111 也有可能是111110 你問我有沒有可能知道我再做一次民調會出現甚麼狀況呢? 答案是不能 如果我的母體是第一種 那我再怎麼做民調都不會找到0 如果我的母體是第二種 我就有可能抽到0 而我們只活在其中一種 ※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 07:57:13
wen17: 也就說 你會有mean1 mean2 mean3..mean1000 31.205.109.42 11/19 07:41
Kroner: 關節痛就老人病 112.191.206.207 11/19 07:41
RiverMan1: 是需要多懂?叫你讓就讓,不然自己出錢223.138.126.195 11/19 07:41
wen17: 考慮這些mean的分布,會是常態分佈? 31.205.109.42 11/19 07:42
womanloveme: 一早起來上統計,傷痛都回來了 101.12.26.40 11/19 07:42
abiggun: 統計學答案不重要 國民黨就是要正的 203.160.80.203 11/19 07:43
Chricey: 哇勒,UC2 這個東西真的是太讚了 112.325.206.216 11/19 07:43
bmjack: 推~~可以跟我說一下,民調結果就以你們專 27.52.101.249 11/19 07:48
bmjack: 家來看,猴猴是立論是正確的嗎?柯翻桌有 27.52.101.249 11/19 07:48
bmjack: 理嗎? 若你是柯,以當初協議來看這結果, 27.52.101.249 11/19 07:48
bmjack: 你也會翻桌嗎?謝謝。 27.52.101.249 11/19 07:48
Chricey: 求推薦UC2,樓下請提供三家 112.213.206.152 11/19 07:48
xm32: 謝謝您的解釋,但我仍聽不懂 114.32.191.192 11/19 07:58