版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-概率抽樣

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

簡介

概率抽樣又稱隨機(jī)抽樣(probability—sampling),即在抽樣時,母體中每一個抽樣單位被選人樣本的概率相同。隨機(jī)抽樣具有健全的統(tǒng)計(jì)理論基礎(chǔ),可用概率理論加以解釋,是一種客觀而科學(xué)的抽樣方法。

一般而言,概率抽樣調(diào)查的基本組織形式分為單階段抽樣和多階段抽樣兩大類。單階段抽樣是指只需一次的抽樣過程,它有以下四種:簡單隨機(jī)抽樣、等距抽樣、分層抽樣、整群抽樣。多階段抽樣是指將總體分層、再逐層抽取樣本的過程。多階段抽樣在總體特別大時使用。不管哪種隨機(jī)抽樣,樣本必須始終被看作總體的近似而不是總體自身。1

概率抽樣是一種數(shù)理統(tǒng)計(jì)學(xué)上的專業(yè)化術(shù)語。它是指根據(jù)隨機(jī)性理論在單位樣本量中抽取同樣數(shù)目的樣本作為研究對象。理論上講,每個樣本被抽中的概率相等,這樣就保證了抽選樣本中沒有摻雜所謂的人為因素。概率抽樣是定量研究中的基本抽樣方式,也是定量研究效度的體現(xiàn)方式概率抽樣的具體抽樣方法還有很多。簡單隨機(jī)
抽樣法、系統(tǒng)抽樣法以及分層抽樣法等??傮w而言,建立在數(shù)學(xué)概率理論基礎(chǔ)上的概率抽樣方法有著無可避免的自然科學(xué)化的傾向。在一般情況下的定性研究中。研究者較少使用這種抽樣方式選取研究對象。2

但它所依據(jù)的是大數(shù)定律,而且能計(jì)算和控制抽樣誤差,因此可以正確地說明樣本的統(tǒng)計(jì)值在多大程度上適合于總體,根據(jù)樣本調(diào)查的結(jié)果可以從數(shù)量上推斷總體,也可在一定程度上說明總體的性質(zhì),特征.概率抽樣主要分為簡單隨機(jī)抽樣,系統(tǒng)抽樣,分類抽樣,整群抽樣,多階段抽樣等類型.現(xiàn)實(shí)生活中絕大多數(shù)抽樣調(diào)查都采用概率抽樣方法來抽取樣本。

原則概率抽樣的基本原則是:樣本量越大,抽樣誤差就越小,而樣本量越大,則成本就越高。根據(jù)數(shù)理統(tǒng)計(jì)規(guī)律,樣本量增加呈直線遞增的情況下(樣本量增加一倍,成本也增加一倍),而抽樣誤差只是樣本量相對增長速度的平方根遞減。因此,樣本量的設(shè)計(jì)并不是越大越好,通常會受到經(jīng)濟(jì)條件的制約。

原理概率抽樣之所以能夠保證樣本對總體的代表性,其原理就在于它能夠很好的按總體內(nèi)在結(jié)構(gòu)中所蘊(yùn)含的各種隨機(jī)事件的概率來構(gòu)成樣本,使樣本成為總體的縮影。

優(yōu)缺點(diǎn)⑴ 概率抽樣包括以下幾個方面的優(yōu)點(diǎn):

調(diào)查者可獲得被抽取的不同年齡、不同層次的人們的信息; 能估算出抽樣誤差; 調(diào)查結(jié)果可以用來推斷總體。 例如,在一項(xiàng)使用概率抽樣法的調(diào)查中,如果有 5 %的被訪者給出了某種特定回答,那么,調(diào)查者就可以以此百分比再結(jié)合抽樣誤差,推及總體情況。

⑵ 另一方面,概率抽樣也有一些弊?。?/p>

-在大多數(shù)案例中,同樣規(guī)模的概率抽樣的費(fèi)用要比非概率抽樣高;

-概率抽樣比非概率抽樣需要更多時間策劃和實(shí)施;

-必須遵守的抽樣計(jì)劃執(zhí)行程序會大量增加收集資料的時間。

下面,我們將介紹幾種友邦顧問最常采用的概率抽樣技術(shù)。

要求概率抽樣應(yīng)滿足的要求是:

隨機(jī)性——總體中的所有個體都有同樣被抽出的機(jī)會。

可行性——抽樣的方法在實(shí)際中是可實(shí)施的。

信息性——抽得的樣本盡可能反映出分析時所期望的各種信息。

方法概率抽樣包括有簡單隨機(jī)抽樣、系統(tǒng)抽樣(等距抽樣)、分層抽樣(類型抽樣)、整群抽樣、多段抽樣、PPS抽樣和戶內(nèi)抽樣。例如:

簡單隨機(jī)抽樣簡單隨機(jī)抽樣是一種廣為使用的概率抽樣方法。是最完全的概率抽樣。如前面提到的,隨機(jī)抽樣就是總體中每個單位在抽選時有相等的被抽中的機(jī)會。

在簡單隨機(jī)抽樣條件下,抽樣概率公式為:

抽樣概率=樣本單位數(shù)∕總體單位數(shù)

例如,如果總體單位數(shù)為 10000 ,樣本單位數(shù)為 400 ,那么抽樣概率為 4 %。

簡單隨機(jī)抽樣的優(yōu)點(diǎn)在于,它看起來簡單,并且滿足概率抽樣的一切必要的要求,保證每個總體單位在抽選時都有相等的被抽中的機(jī)會。簡單隨機(jī)抽樣可以通過電話隨機(jī)撥號功能完成這個步驟,可以從電腦檔案中挑選調(diào)查對象。

同樣,簡單隨機(jī)抽樣會遇到“樣本可能分布不均勻”以及“沒有好的抽樣框”等問題。

友邦顧問在簡單隨機(jī)抽樣過程中常使用的技巧為“抽簽法”和“隨機(jī)表”法。

等距抽樣在定量抽樣調(diào)查中,等距抽樣常常代替簡單隨機(jī)抽樣。由于該抽樣方法簡單實(shí)用,所以應(yīng)用普遍。等距抽樣得到的樣本幾乎與簡單隨機(jī)抽樣得到的樣本是相同的。

等距抽樣的基本做法是,將總體中的各單元先按一定的順序排列、編號,然后決定一個間隔,并在此間隔基礎(chǔ)上選擇被調(diào)查的單位個體。

樣本距離可通過下面公式確定:

樣本距離 =總體單位數(shù)∕樣本單位數(shù)

例如,假設(shè)你使用本地電話本并確定樣本距離為 100 ,那么 100 個中取 1 個組成樣本。這個公式保證了整個列表的完整性。

等距抽樣方式隨意用一個起點(diǎn),例如,如果你把一本電話本作為抽樣框,必須隨意取出一個號碼決定從該頁開始翻閱。假設(shè)從第 5 頁開始,在該頁上再另選一個數(shù)決定從該行開始。假定選擇從第 3 行開始,這就決定了實(shí)際開始的位置。

等距抽樣方式相對于簡單隨機(jī)抽樣方式最主要的優(yōu)勢就是經(jīng)濟(jì)性。等距抽樣方式比簡單隨機(jī)抽樣更為簡單,花的時間更少,并且花費(fèi)也少。使用等距抽樣方式最大的缺陷在于總體單位的排列上。一些總體單位數(shù)可能包含隱蔽的形態(tài)或者是“不合格樣本”,調(diào)查者可能疏忽,把它們抽選為樣本。

分層抽樣定量調(diào)查中的分層抽樣是一種卓越的概率抽樣方式,在友邦公司以往的調(diào)查中經(jīng)常被使用。

又稱分類抽樣或類型抽樣。分層抽樣是先將總體的單位按某種特征分為若干次級總體(層),然后再從每一層內(nèi)進(jìn)行簡單隨機(jī)抽樣,組成一個樣本。分組減小了各抽樣層變異性的影響,抽樣保證了所抽取的樣本具有足夠的代表性??梢蕴岣呖傮w指標(biāo)估計(jì)值的精確度。

分層抽樣的具體程序是:把總體各單位分成兩個或兩個以上的相互獨(dú)立的完全的組(如男性和女性),從兩個或兩個以上的組中進(jìn)行簡單隨機(jī)抽樣,樣本相互獨(dú)立。

總體各單位按主要標(biāo)志加以分組,分組的標(biāo)志與我們關(guān)心的總體特征相關(guān)。例如,我們正在進(jìn)行有關(guān)啤酒品牌知名度方面的調(diào)查,初步判別,在啤酒方面男性的知識與和女性不相同,那么性別應(yīng)是劃分層次的適當(dāng)標(biāo)志。如果不以這種方式進(jìn)行分層抽樣,分層抽樣就得不到什么效果,花再多時間、精力和物資也是白費(fèi)。

分層抽樣與簡單隨機(jī)抽樣相比,我們往往選擇分層抽樣,因?yàn)樗酗@著的潛在統(tǒng)計(jì)效果。也就是說,如果我們從相同的總體中抽取兩個樣本,一個是分層樣本,另一個是簡單隨機(jī)抽樣樣本,那么相對來說,分層樣本的誤差更小些。另一方面,如果目標(biāo)是獲得一個確定的抽樣誤差水平,那么更小的分層樣本將達(dá)到這一目標(biāo)。

在調(diào)查實(shí)踐中,為提高分層樣本的精確度實(shí)際上要付出一些代價。通常,我們現(xiàn)實(shí)正確的分層抽樣一般有三個步驟:

首先,辯明突出的(重要的)人口統(tǒng)計(jì)特征和分類特征,這些特征與所研究的行為相關(guān)。例如,研究某種產(chǎn)品的消費(fèi)率時,按常理認(rèn)為男性和女性有不同的平均消費(fèi)比率。為了把性別作為有意義的分層標(biāo)志,調(diào)查者肯定能夠拿出資料證明男性與女性的消費(fèi)水平明顯不同。用這種方式可識別出各種不同的顯著特征。調(diào)查表明,一般來說,識別出 6 個重要的顯著特征后,再增加顯著特征的辨別對于提高樣本代表性就沒有多大幫助了。

第二,確定在每個層次上總體的比例(如性別已被確定為一個顯著的特征,那么總體中男性占多少比例,女性占多少比例呢?)。利用這個比例,可計(jì)算出樣本中每組(層)應(yīng)調(diào)查的人數(shù)。

最后,調(diào)查者必須從每層中抽取獨(dú)立簡單隨機(jī)樣本。

整群抽樣以上各種抽樣類型全部是按單位抽取的,即按樣本單位數(shù),分別一個單位一個單位地抽取。在整群抽樣中,樣本是一組單位一組單位地抽取。

整群抽樣有兩個關(guān)鍵步驟:

-同質(zhì)總體被分為相互獨(dú)立的完全的較小子集。

-隨機(jī)抽選子集構(gòu)成樣本。

如果調(diào)查者在抽中的子集中觀察全部單位,我們就有了一級整群樣本。如果在抽中的子集中再以概率方式抽取部分單位觀察,我們就有了二級整群樣本。分層和整群抽樣都要將總體分為相互獨(dú)立的完全子集。它們的區(qū)別是,分層抽樣的樣本是從每個子集中抽取,而整群抽樣則是抽取部分子集。

地理區(qū)域抽樣是整群抽樣的典型方式。挨門挨戶去調(diào)查一個特定城市的調(diào)查者也許會隨機(jī)抽選一些區(qū)域,較集中地訪查一些群體,大量減少訪問時間和經(jīng)費(fèi)。整群抽樣被認(rèn)為是概率抽樣技術(shù),因?yàn)樗S機(jī)抽出群和隨機(jī)抽出單位。值得注意的是,在整群抽樣下,我們假定群中單位與總體一樣存在異質(zhì)性。如果一群中單位的特征非常相似,如果由于共同環(huán)境使群內(nèi)差異小而群與群之間差異大。一般來說,要解決這個問題可以擴(kuò)大群數(shù),然后從各群中抽取少量單位數(shù),以保證樣本的代表性。

系統(tǒng)抽樣使用系統(tǒng)抽樣(systematic sampling)時,調(diào)研人員首先選取一個隨機(jī)的起點(diǎn),然后連續(xù)地在抽樣框架中每隔i個個體就選出一個樣本。其選取樣本的間隔i被稱作抽樣間距(sampling interval)。它是由總體大小N除以樣本量聹的結(jié)果四舍五人后得出的。例如.假設(shè)總體中共有100 000個個體,樣本量大小為l 000。在這一情況下,抽樣間距為100,即從1至100之間隨機(jī)選擇一個數(shù)字。如果選取的是數(shù)字23,那么樣本就包括個體23、123、223、323、423、523等。

使用系統(tǒng)抽樣方法時,調(diào)研人員通常會按照某一方式把總體中的個體進(jìn)行排列。如果電話簿被用作抽樣框架,其中的個體就會被按照首字母順序進(jìn)行排列。在一些情況下,這一順序也許會與調(diào)研人員感興趣的某些特征有關(guān)。例如,調(diào)研人員可能會按照未償還余額對信用卡使用者進(jìn)行排列,或按照年銷售額對某一行業(yè)內(nèi)的公司進(jìn)行排列。當(dāng)調(diào)研人員按照與某些被調(diào)研的特征有關(guān)的方式對個體進(jìn)行排列時,利用系統(tǒng)抽樣獲得的抽樣結(jié)果會與利用SRS獲得的抽樣結(jié)果存在很大的不同。如果對一份按銷售額遞增順序排列的公司名單進(jìn)行系統(tǒng)抽樣,那么所得到的樣本就既包括大型公司也包括小型公司。相比之下,利用簡單隨機(jī)抽樣所得到的樣本就缺乏代表性。例如,使用簡單隨機(jī)抽樣時.調(diào)研人員所得到的樣本可能只包含小型公司,或者包含較少數(shù)量的小型公司。

在使用系統(tǒng)抽樣時,如果抽樣框架被設(shè)計(jì)成循環(huán)結(jié)構(gòu),那么其樣本的代表性就會降低。假如使用系統(tǒng)抽樣。從包含60年以來每個月月銷量的抽樣框架中可以產(chǎn)生出一個商場月銷量的抽樣。如果抽樣間隔為12,那么最終的抽樣則不會反映月銷量的變化情況。

系統(tǒng)抽樣要比SRS更加經(jīng)濟(jì)和簡單,因?yàn)殡S機(jī)選擇的過程只有一次。此外.系統(tǒng)抽樣也不需要了解抽樣框架的構(gòu)成。例如,每第i個離開商場或商店的顧客都可以被攔截。由于以上原因,系統(tǒng)抽樣經(jīng)常被應(yīng)用于顧客郵件、電話和商場攔截式訪談。下面的例子就很好地說明了這一點(diǎn)。3