概念
在統(tǒng)計(jì)學(xué)中,交叉表是矩陣格式的一種表格,顯示變量的(多變量)頻率分布。交叉表被廣泛用于調(diào)查研究,商業(yè)智能,工程和科學(xué)研究。它們提供了兩個(gè)變量之間的相互關(guān)系的基本畫面,可以幫助他們發(fā)現(xiàn)它們之間的相互作用。卡爾·皮爾遜(Karl Pearson)首先在“關(guān)于應(yīng)變的理論及其關(guān)聯(lián)理論與正常相關(guān)性”中使用了交叉表。
多元統(tǒng)計(jì)學(xué)的一個(gè)關(guān)鍵問題是找到高維應(yīng)變表中包含的變量的(直接)依賴結(jié)構(gòu)。如果某些有條件的獨(dú)立性被揭示,那么甚至可以以更智能的方式來完成數(shù)據(jù)的存儲(chǔ)。為了做到這一點(diǎn),可以使用信息理論概念,它只能從概率分布中獲得信息,這可以通過相對(duì)頻率從交叉表中容易地表示。1
舉例假設(shè)我們有兩個(gè)變量,性別(男性或女性)和手性(右或左手)。 進(jìn)一步假設(shè),從非常大的人群中隨機(jī)抽取100個(gè)人,作為對(duì)手性的性別差異研究的一部分。 可以創(chuàng)建一個(gè)應(yīng)變表來顯示男性和男性,男性和左撇子,女性和右撇子以及女性和左撇子的個(gè)人數(shù)量。 這樣的應(yīng)變表如下所示。
男性,女性以及右撇子和左撇子個(gè)體的數(shù)量稱為邊際總數(shù)??傆?jì)(即應(yīng)急表中所代表的個(gè)人總數(shù))是右下角的數(shù)字。
這張桌子讓我們一目了然地看到,右撇子男子的比例與右撇子女性的比例大致相同。兩種比例差異的意義可以通過各種統(tǒng)計(jì)檢驗(yàn)來評(píng)估,包括Pearson的卡方檢驗(yàn),G檢驗(yàn),F(xiàn)isher精確檢驗(yàn)和巴納德檢驗(yàn),條件是表中的條目代表從人口我們想得出結(jié)論。如果不同列中的個(gè)體的比例在行之間變化很大(反之亦然),則我們說兩個(gè)變量之間存在偶然性。換句話說,這兩個(gè)變量不是獨(dú)立的。如果沒有偶然性,我們說這兩個(gè)變量是獨(dú)立的。
上面的例子是最簡單的交叉表,每個(gè)變量只有兩個(gè)級(jí)別的表:這被稱為2×2交叉表。原則上可以使用任何數(shù)量的行和列。也可能有兩個(gè)以上的變量,但較高階的偶然事件表難以在視覺上表示。序數(shù)變量之間或序數(shù)變量與分類變量之間的關(guān)系也可以用交叉表來表示,盡管這種做法很少見。2
交叉表的標(biāo)準(zhǔn)內(nèi)容(1)多列(歷史上,它們被設(shè)計(jì)為占用打印頁面的所有空格)。 每個(gè)行指的是群體中的特定子組(例如男性),這些列有時(shí)稱為橫幅點(diǎn)(并且行有時(shí)稱為存根)。
(2)通常,任一列比較,其測試列之間的差異并使用字母顯示這些結(jié)果,其使用顏色或箭頭來標(biāo)識(shí)以某種方式突出的表格中的單元格(如上例所示)。
(3)一個(gè)或多個(gè):百分比,行百分比,列百分比,索引或平均值。
(4)未加權(quán)樣本大?。从?jì)數(shù))。
關(guān)聯(lián)度兩個(gè)變量之間的關(guān)聯(lián)程度可以通過多個(gè)系數(shù)進(jìn)行評(píng)估。 最簡單的,僅適用于2×2交叉表的情況,是由下式定義的phi系數(shù):
其中χ2按照Pearson的卡方檢驗(yàn)計(jì)算,N是觀察值的總和。 φ從0(對(duì)應(yīng)于變量之間無關(guān)聯(lián))變?yōu)?或-1(完全關(guān)聯(lián)或完全不關(guān)聯(lián)),前提是它基于2×2表中的頻率數(shù)據(jù)。 然后其符號(hào)等于表的主要對(duì)角線元素的乘積的符號(hào)減去非對(duì)角元素的乘積。 當(dāng)且僅當(dāng)每個(gè)邊際比例等于.50(兩個(gè)對(duì)角線單元為空)時(shí),φ取最小值-1.00或最大值1.00。
備選方案包括四方相關(guān)系數(shù)(也僅適用于2×2表),交叉系數(shù)C、Cramér's V。
C的缺點(diǎn)是它不達(dá)到最大值1或最小值-1;在2×2表中可達(dá)到的最大值為0.707;在4×4表中可達(dá)到的最大值為0.870。在具有更多類別的應(yīng)急表中,它可以達(dá)到接近1的值。 因此,它不應(yīng)用于比較具有不同數(shù)目類別的表之間的關(guān)聯(lián)。此外,它不適用于不對(duì)稱表(行數(shù)和列數(shù)不相等的表)。
C和V系數(shù)的公式為:
k是行數(shù)或列數(shù),以較小者為準(zhǔn)。
可以通過將C除以在任意數(shù)量的行和列的表中完全關(guān)聯(lián),使其最大值達(dá)到1。
四分相關(guān)系數(shù)假設(shè)每個(gè)二分法的基礎(chǔ)變量是正態(tài)分布的。四分相關(guān)系數(shù)提供了“等級(jí)測量已經(jīng)減少到兩個(gè)類別時(shí),相關(guān)性的便利度量。”四分位相關(guān)不應(yīng)與通過分配計(jì)算的皮爾遜積矩相關(guān)系數(shù)相混淆 ,例如,值0和1表示每個(gè)變量的兩個(gè)級(jí)別(在數(shù)學(xué)上等于phi系數(shù))。 涉及多于兩個(gè)等級(jí)變量的四方相關(guān)性的擴(kuò)展是多相關(guān)系數(shù)。
λ系數(shù)是當(dāng)標(biāo)稱水平測量變量時(shí)交叉表的關(guān)聯(lián)強(qiáng)度的度量。 值范圍從0(無關(guān)聯(lián))到1(理論最大可能關(guān)聯(lián))。 不對(duì)稱lambda測量因變量預(yù)測的百分比改善。 對(duì)稱λ測量兩個(gè)方向進(jìn)行預(yù)測時(shí)的百分比改善。
不確定系數(shù)是名義水平上變量的另一個(gè)測量。3
交叉報(bào)表交叉報(bào)表是報(bào)表當(dāng)中常見的類型,屬于基本的報(bào)表,是行、列方向都有分組的報(bào)表。這里牽涉到另外一個(gè)概念即分組報(bào)表。這是所有報(bào)表當(dāng)中最普通,最常見的報(bào)表類型,也是所有報(bào)表工具都支持的一種報(bào)表格式。從一般概念上來講,分組報(bào)表就是只有縱向的分組。傳統(tǒng)的分組報(bào)表制作方式是把報(bào)表劃分為條帶狀,用戶根據(jù)一個(gè)數(shù)據(jù)綁定向?qū)е付ǚ纸M,匯總字段,生成標(biāo)準(zhǔn)的分組報(bào)表。