第三節 正常值範圍的估計
在醫學科研中有時需要根據樣本數據推論總體中個體值範圍,其中最常用的是估計正常值範圍。
一、正常值範圍的意義
正常人體的解剖、生理、生化、心理等各種數據的波動範圍稱正常值範圍,簡稱正常值。如成人白細胞總數的正常值為4000~10000個/mm3。以一定數量「正常人」為樣本,觀察某個或幾個變量,根據所得樣本數據,推論總體中變量值的範圍,稱正常值範圍估計。一些與人體有關的外界環境如噪音強度、粉塵濃度、昆蟲密度、水中微量元素的含量等,在某一地域、某段時期內亦在一定範圍內波動;某病患者在病程的某段時期內,某種檢驗結果亦常在一定範圍內波動。雖然這些範圍不一定是正常的,有的超過了衛生標準或正常值,但若從樣本數據估計總體中變量值的範圍來說,那麼也可以用本章的估計方法,得出的波動範圍可稱為個體值範圍。
二、確定正常值範圍的一般原則和步驟
1.確定研究總體。即對研究總體的同質性基礎作出規定。以「正常人」為例,所謂正常人不是指任何組織與器官的形態及機能都無異常的人,而是指排除了影響被研究指標的疾病和有關因素的人。例如某單位研究血清谷一丙轉氨酶活性的正常值,選取「正常人」的條件為無肝、腎、心、腦、肌肉等器質性疾患,近期無特殊用藥史(如氯丙嗪、異煙肼等),測定前未作劇烈運動等。上述條件就是保證研究對象的同質性作出的規定。但不允許以所研究指標值的大小來劃分是否「正常人」。對研究總體,如「正常人」的規定要根據研究目的、技術力量與水平以及人力物力等條件來考慮,往往牽涉到多方面的專業知識。但一般可從地區、民族、性別、年齡、勞動條件(如是否與有害物質接觸)、時間(季節與晝夜)、月經、妊娠、飲食、藥物、生活習慣等來考慮。例如紅細胞數及血紅蛋白量,高原居民與平原不同,男子各異;人體血清膽固醇含量隨年齡的增長而增加,妊娠期高於非妊娠期,冬季高於夏季,且受飲食影響;服用某些藥物可直接增加檢測的有關成分或幹擾檢測結果的準確性。
各種影響因素,有些可通過詢問與體檢嚴格控制,如排除那些與被研究指標有關的各病患者,或處於妊娠、經期的婦女,近期內服用某種藥物者等;有些可用對調查資料分組統計的辦法加以控制或研究。如先按男、女分別統計,然後檢驗兩組數據的分布、均數與標準差等,有無差別,若有差別則分別求正常值,否則可合併求通用的正常值。
2.確定觀察例數。正常值範圍的影響因素複雜,要使樣本分布能正確估計總體分布,例數不能太少,一般認為應在200例左右。數據變異不大,觀測比較精確的,例數可相應少些;影響因素複雜、數據變異大,觀測方法不夠穩定的,例數相應要多一些。但要防止片面追求數量,而抽選樣本不按規定,觀測方法不統一,粗率馬虎,以致影響原始數據的可靠性。
3.統一測定方法,控制實驗誤差,保證數據的可靠性。為達到上述要求應注意對檢測人員(醫生、檢驗人員等)的培訓,以統一認識、統一方法和操作,標準化儀器和試劑,建立質量控制防止記錄差錯等。但也要儘量與應用正常值範圍時的實際情況相一致,例如臨床檢驗每一個標本只作一次,那麼為確定正常值的檢驗每個標本亦只作一次,不能作兩個平行樣本求平均數後再估計正常值。否則可能定出的正常值範圍較窄。
4.確定取單側還是雙側界值。某些指標如白細胞總數,無論過低或過高都不正常,因此需要確定下限和上限兩個界值,稱雙側界值。有的指標如肺活量一般只認為過低是不正常,所以只需定下測界值,即下限;但血鉛只是過高不正常,只需定上限。只需定下限或上限的,稱單側界值。確定取單側還是雙側界值,應根據業務知識與指標用途。
5.確定適當的百分範圍。調查一定數量的正常人若以某指標的最小、最大值作為正常值範圍,常因調查例數的增加等遇到少數極端值,使正常值範圍不穩定。因此統計上常採用一些方法,刪去一定比例的極端值,使得出的正常值能較穩定地反映絕大多數正常人該指標的數值。那麼絕大多數是指正常人的百分之多少呢?一般包括正常人的80%、90%、95%或99%等。這樣,若按單側計算,相應地將有20%、10%、5%或1%的正常人該指標值在正常值範圍以外;若按雙側計算,相應地,過高、過低者各有10%、5%、2.5%或0.5%。這些指標值在正常值範圍以外的正常人,將被錯判為不正常。將正常錯判為不正常,稱為I型錯誤,或假陽性,其假陽性率或誤診率用α表示。但亦有些病人的指標值,可能落在正常值範圍以內,這時就會將病人錯判為正常人,這種錯判Ⅱ型錯誤,或假陰性,假陰性率即漏診率用β表示。確定合適的百分範圍應根據研究目的,結合正常人和病人的數值分布,同時考慮α及β,一般有下列兩種情況:
(1)正常人和病人的數據分布無重疊(見圖5.4a)。這時只考慮減少α;
(2)正常人和病人的數據分布有重疊(見圖5.4b)。這時兩分布重疊部分內既有病人亦有正常人,若欲減少α,界值向右移,那麼β將加大;若欲減少β,界值向左移,那麼α將加大。通常兼顧α及β,取兩曲線交點的橫座標為界值,這時α與β之和為最小。但實用時還要考慮該正常值範圍的主要用途,若用以普查初篩病人,則要減少假陰性,取80%或90%正常值範圍;若用以確診病人,則要避免假陽性,以取95%或99%正常值範圍為宜。
圖 5.4 正常人和病人數據分布示意圖
6.確定估計方法進行估計。估計正常值範圍的方法較多,主要根據頻數的分布類型和樣本含量選用。常用的有百分位數法和正態分布法。運用百分位數法的條件是樣本含量大,適用正態分布法的條件是資料服從正態分布或經過轉換後服從正態分布。此外尚有曲線擬合法等。
三、確定正常值範圍的方法
1.百分位數法。本法根據正常人樣本數據,按照選定的百分範圍計算相應的百分位數作為正常值範圍的界值。可根據原始數據直接計算,亦可根據頻數表進行計算。計算步驟為:
(1)按已確定的百分範圍從表5.1查得應計算的百分位數;
(2)計算出各百分位數的所在位置;
(3)代入公式計算界限Px
表5.1 估計正常值範圍的計算項目
百分範圍(%) 百分位數法 正態分布法 雙側 單側
下(或上)限 雙側 單側
下(或上)限 80 P
10及P
90P
20(或P
80) X±1.282S X-(或+)0.842S 90 P
5及P
95P
10(或P
90) X±1.645S X-(或+)1.282S 95 P
2.5及P
97.5P
5(或P
95) X±1.960S X-(或+)1.645S 98 P
1及P
99P
2(或P
98) X±2.326S X-(或+)2.054S 99 P
0.5及P
99.5P
1(或P
99) X±2.576S X-(或+)2.326S
例5.2 某地測得200例健康成人的血鉛值(微克/100克)得頻數分布如下,試估計單側95%上限。
(1)查表5.1,百分範圍95,百分位數法,單側上限應求P95。
(2)求P95的位置200×0.95=190即為第190個數據處,因此知A=188,Lx=35,fx=4,ix=5。
代入公式(4.5)
表5.2 百分位數法計算單側上限(200例健康成人的血鉛值)
血鉛值(微克/100克) 頻數 累計頻數 0- 6 6 5- 48 54 10- 43 97 15- 36 133 20- 28 161 25- 13 174 30- 14 188 35- 4 192 40- 4 196 45- 1 197 50- 2 199 55- 0 199 60- 1 200 合計 200 -
健康成人血鉛值的95%正常值上限為37.5微克/100克。
若根據原始資料計算,已算得Px的位置為第190個數據後,將原始數據從大至小排,第10個數據的值即為Px。
此法的優點是不拘資料的分布類型,計算簡便,樣本含量較大,分布較穩定時結果穩定。但估計結果受樣本極差的限制,受兩側尾部數據的影響較大,尤其是百分範圍較大(如大於95%)。樣本含量不夠在時,結果不夠穩定。
2.正態分布法。正態分布法運用正態曲線下面積與μ±μασ的關係來估計數值範圍的。在圖5.2中曾提到μ±1.96σ的範圍內包含了曲線下總面積的95%,亦就是總例數的95%。在此範圍外則有2.5%的例數其數據值大於μ±1.96σ,另2.5%小於μ-1.96σ。因此,就可用μ±1.96σ來估計雙側95%的正常值範圍。同理可用μ與相應的μασ 估計所需百分範圍,μ可從附表2查得。但在實際中μ與σ常常是不知道的,只能用它們的估計值X與S
來代替。估計正常值範圍時常用的百分範圍與相應的X±us見表5.1。用正態分布法估
計正常值範圍的公式為
X±uαs (5.4)
例5.3 測得西安市7歲男童102人坐高,X=66.72,S=2.08,試用正態分布法估計
雙側95%正常值範圍。
查表5.1,百分範圍95,正態分布法雙側,應求X±1.96S。
代入公式(5.4)
66.72±1.96×2.08=(62.6432,70.7968)
西安市7歲男童坐高的95%正常值範圍為62.6~70.08公分。
此法適用於正態分布資料,樣本均數和標準差比較穩定者,其優點是結果穩定,受兩端尾部數據影響較小,也不受樣本數據極差的限制,缺點是只適用於正態分布資料。醫學上不少資料呈偏態分布,但計算較繁。
(胡琳 編)