漢語中的詞頻及筆畫數分布規律探析

2021-03-02 科學知識前沿圖譜
漢語中的詞頻及筆畫數分布規律探析

漢語中的詞頻及筆畫數分布規律探析一、引言二、漢語詞頻分布規律三、漢字筆畫數分布規律四、結論五、參考資料

一、引言

大約八十年前,哈佛大學的語言學家喬治·金斯利·齊普夫(George Kingsley Zipf)對英語中的詞頻分布進行了研究,發現了一條經驗規律,他發現:如果把一篇較長文章中每個詞出現的頻次統計起來,按照高頻詞在前、低頻詞在後的遞減順序排列,並用自然數個這些詞編上的等級序號,即頻次最高的詞等級為1,頻次次之的等級為2等等,若用表示頻次,表示序號,則有(為常數),也就是說詞語的頻次和其頻次排名呈反比例關係。假如以單詞的頻次排名為橫軸,以單詞的頻次為縱軸繪製散點圖,會發現圖形大致呈現雙曲線形。為了數學上處理的方便,我們可以對詞頻及詞頻排名取對數(自然對數或以十為底的對數均可),考慮到:,則有:

所以應呈線性關係,在圖形上應該是一條直線,如下:

受到齊普夫的啟發,其它學者也紛紛驗證該定律對其它語言的適用性,他們發現齊普夫定律在很多語言中也是成立的。如上圖,頻次排名對數與頻次的對數成線性關係。一個很自然的問題是,該定律在漢語中的適用性如何?

漢字作為象形文字,顯著不同於以英語為代表的拼音文字,其語言的基本單位為單字,然後再由單字組成兩字詞、三字詞等以表達更加複雜的意義。拼音文字的基本單位為單詞,意義的擴展通過創造新詞彙或者拼接已有單詞組成新詞彙來實現。因此,英語可以以單詞為單位來統計詞頻,而漢語則必須以詞語為基本單位來統計,這既包括單字,也包括多字詞,只有這樣才能準確描述漢語詞頻的分布規律

利用教育部語言文字應用研究所計算語言學研究室提供的在線語料庫字詞頻數據,我們可以檢驗齊普夫定律在漢語中的適用性,加深我們對漢語詞頻分布規律的認識。由於以上數據並不包括漢字的筆畫數數據,我們可以利用笪駿提供的現代漢語單字頻率列表,進一步研究漢字筆畫數的分布規律。

我們使用jupyter notebook對以上數據進行分析,相關notebook及數據文件已經上傳到這個倉庫,大家可以下載數據進行分析驗證。數據文件版權歸原作者所有,如有侵權請通知我刪除。

二、漢語詞頻分布規律

首先,我們導入一些數據分析必要的庫,並做一些初始化設置:

import numpy as np

import statsmodels.api as sm

import matplotlib.pyplot as plt

import warnings

warnings.filterwarnings("ignore")

import seaborn as sns

sns.set(style="white",color_codes=True)

import pandas as pd

%matplotlib inline

plt.rcParams['figure.figsize'] = (15,9.27)

然後導入word_freq.xlsx這個數據文件,這個數據文件收錄了現代漢語語料庫中出現次數大於50次的詞的出現次數、頻率與累計頻率數據。該語料庫的規模為2000萬字,該表共收集了14629個詞,既包括單字,也包括多字詞。讓我們先看下數據的基本情況:

df = pd.read_excel('word_freq.xlsx')

df.head(10)


rankwordfreqfreq_percentcum_freq_percent01的7448637.79467.794612了1301911.36249.157023在1188231.243410.400434是1185271.240311.640745和839580.878612.519356一811190.848913.368267這651460.681714.049978有535560.560414.610389他529120.553715.1640910我527280.551815.7158

數據的前十行顯示如上表:其中第一列為漢字中詞語按出現頻次從高向低排名,如「的」字在語料庫中出現的次數最多,則排在第一名;第二列為對應的漢字及詞語;第三列為該漢字或詞語在語料庫中出現的次數,如「的」在語料庫中共出現了744863次;第四列表示該漢字或詞語在語料庫中出現的頻率的百分比,如「的」出現的頻率為7.7946%;第五列為累計頻率,為該漢字(詞語)及排名靠前的漢字(詞語)累計出現的頻率,如到排名第十的漢字「我」,前十名漢字出現的累計頻率為15.7158%。

為了之後分析的方便,我們需要另外計算三列數據,分別為詞語頻次排名的以10為底的對數、頻次以10為底的對數及詞語中漢字數(單字詞還是多字詞),則:

df['log_rank'] = np.log10(df['rank'])

df['log_freq'] = np.log10(df['freq'])

df['word_count'] = df['word'].apply(len)

df.head(10)


rankwordfreqfreq_percentcum_freq_percentlog_ranklog_freqword_count01的7448637.79467.79460.0000005.872076112了1301911.36249.15700.3010305.114581123在1188231.243410.40040.4771215.074901134是1185271.240311.64070.6020605.073817145和839580.878612.51930.6989704.924062156一811190.848913.36820.7781514.909123167這651460.681714.04990.8450984.813888178有535560.560414.61030.9030904.728808189他529120.553715.16400.9542434.7235541910我527280.551815.71581.0000004.7220411

從word_count列,我們可以看到,詞頻表中收錄的最長的詞包含十個單字,平均而言包含兩個單字。通過簡單的統計,我們可以看到詞語中漢字個數的分布規律如下表:其中兩字詞出現的次數最多,為10476次,佔比達到71.61%;其次為單字詞,為2391次,佔比達到16.34%。

word_length = pd.DataFrame(df.word_count.value_counts()).sort_index()

word_length.columns = ['freq']

word_length['freq_percent'] = 100*word_length['freq']/sum(word_length['freq'])

word_length.head(10)


freqfreq_percent1239116.34424821047671.611183311818.07300645063.4588835430.2939376220.150386780.054686810.0068361010.006836

現在讓我們看看漢語中詞頻的分布規律是否符合齊普夫定律:

sns.regplot(df.log_rank,df.log_freq)

plt.xlim(0,4.3)

plt.ylim(1,7)

plt.title('The relationship between the logarithm of the frequency ranking and the logarithm of the frequency')

從上圖可以看出,頻次排名的對數與頻次的關係大致是線性關係,基本符合齊普夫定律。讓我們對兩個變量做一個線性回歸,觀察相關指標是否表明兩者之間的線性關係足夠強。首先,我定義了一個輔助函數,調用statmodels庫中的相關函數進行線性回歸併返回回歸結果。

def reg(y,*args):

    import statsmodels.api as sm

    x = np.vstack((args)).T

    mat_x = sm.add_constant(x)

    res = sm.OLS(y,mat_x).fit()

    print(res.summary())

reg(df.log_rank,df.log_freq)

                            OLS Regression Results                            

==============================================================================

Dep. Variable:               log_rank   R-squared:                       0.990

Model:                            OLS   Adj. R-squared:                  0.990

Method:                 Least Squares   F-statistic:                 1.502e+06

Date:                Sat, 15 Sep 2018   Prob (F-statistic):               0.00

Time:                        10:27:07   Log-Likelihood:                 25420.

No. Observations:               14629   AIC:                        -5.084e+04

Df Residuals:                   14627   BIC:                        -5.082e+04

Df Model:                           1                                         

Covariance Type:            nonrobust                                         

==============================================================================

                 coef    std err          t      P>|t|      [0.025      0.975]

---

const          5.7144      0.002   3450.432      0.000       5.711       5.718

x1            -0.8846      0.001  -1225.535      0.000      -0.886      -0.883

==============================================================================

Omnibus:                    15756.722   Durbin-Watson:                   0.007

Prob(Omnibus):                  0.000   Jarque-Bera (JB):          2257816.630

Skew:                          -5.242   Prob(JB):                         0.00

Kurtosis:                      62.952   Cond. No.                         12.8

==============================================================================

Warnings:

[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

我們可以發現回歸的,並且常數項與自變量的p值都小於1%,這都表明頻次的對數與頻次排名的對數在很大程度上呈線性關係,這與齊普夫定律的預言一致。但是,我們也可以從回歸圖形中發現,低頻詞語的擬合程度更好,而高頻詞語的擬合程度較差,這表現在,前者基本都位於擬合直線上,而後者則大多位於擬合直線的下方。這說明對於漢語的高頻詞語而言,齊普夫定律預言的頻率要高於高頻詞語的實際出現頻率。我們可以通過下面的殘差圖更加直觀的觀察到這一點:

sns.residplot(df.log_rank,df.log_freq)

plt.ylabel('resid')

plt.title('The relationship between the residual and the logarithm of the frequency ranking')

因此,為了觀察不同頻次詞語的分布規律,我們可以用四分位將頻次與排名數據分為四組:前25%的詞語為出現次數大於等於296;25%至50%分位的詞語的出現次數位於126與296之間;50%分位至75%分位的詞語出現次數位於51至126之間;最後25%的詞語出現頻次小於等於51次,由於原數據中刪除了所有出現次數小於等於50次的詞語,則最後一部分數據的頻次都為51次為一個常數,此一部分的回歸沒有什麼意義,但為了完整性,我們還是將其列出來。我們對這四組數據分別做回歸併觀察其殘差圖:

log_rank_first = df.log_rank[df.freq>=296]

log_freq_first = df.log_freq[df.freq>=296]

log_rank_second = df.log_rank[(126<=df.freq) & (df.freq<296)]

log_freq_second = df.log_freq[(126<=df.freq) & (df.freq<296)]

log_rank_third = df.log_rank[(51<df.freq) & (df.freq<126)]

log_freq_third = df.log_freq[(51<df.freq) & (df.freq<126)]

log_rank_fourth = df.log_rank[df.freq<=51]

log_freq_fourth = df.log_freq[df.freq<=51]

plt.subplot(221)

sns.regplot(log_rank_first,log_freq_first)

plt.title('$frequency \geq 296,R^2=0.992$')

plt.xlabel('')

plt.subplot(222)

sns.regplot(log_rank_second,log_freq_second)

plt.title('$126 \leq frequency \leq 296,R^2=0.999$')

plt.xlabel('')

plt.ylabel('')

plt.subplot(223)

sns.regplot(log_rank_third,log_freq_third)

plt.title('$51<frequency<126,R^2=1.000$')

plt.subplot(224)

sns.regplot(log_rank_fourth,log_freq_fourth)

plt.title('$frequency \leq 51,R^2=0.000$')

plt.ylabel('')

 

plt.subplot(221)

sns.residplot(log_rank_first,log_freq_first)

plt.title('$frequency \geq 296,R^2=0.992$')

plt.xlabel('')

plt.ylim(-1,0.2)

plt.subplot(222)

sns.residplot(log_rank_second,log_freq_second)

plt.title('$126 \leq frequency \leq 296,R^2=0.999$')

plt.xlabel('')

plt.ylabel('')

plt.ylim(-0.1,0.1)

plt.subplot(223)

sns.residplot(log_rank_third,log_freq_third)

plt.title('$51<frequency<126,R^2=1.000$')

plt.ylim(-0.1,0.1)

plt.subplot(224)

sns.residplot(log_rank_fourth,log_freq_fourth)

plt.title('$frequency \leq 51,R^2=0.000$')

plt.ylabel('')

我們可以看到對於25%-75%分位的詞語,線性回歸的擬合情況非常好,均接近於一,而前25%的高頻詞語擬合程度就不太好,只有,而大部分的回歸殘差都來自於排名前300名的詞語。總之,漢語詞頻的分布規律基本與齊普夫定律保持一致,而低頻詞語的一致性程度更高。從回歸結果我們可以得到,則頻次排名每增加1%,其出現頻次要下降0.88%。

三、漢字筆畫數分布規律

在這篇論文裡,Bengt Sigurd等人發現英語中詞語的長度與其出現頻率的關係大致服務伽馬分布,如下圖:

儘管在漢語中沒有單詞長度這種說法,但漢字的筆畫數與其有一定相似之處,它們都衡量了人們為了表達特定的含義而願意付出多少代價。詞語的長度不能太短,因為這樣能夠形成的詞語就太少,不能表達足夠豐富的含義;詞語的長度也不能太長,這樣記憶與表達的難度會提升,從而影響溝通的效率。這就使得英語中長度太長或太短的詞語出現的頻率都比較低,同樣的道理對於漢字的筆畫數也是適用的。我們可以使用現有數據,來檢驗一下漢字筆畫數的分布規律是否與英語單詞長度的分布規律類似,都服從伽馬分布。

首先,讓我們導入數據並看一下數據的基本信息:

sc = pd.read_excel('char_stroke_count.xlsx')

sc.head(10)


rankcharstroke_count01的812一123是934不445了256在667人278有689我7910他5

該表格共收錄了10000個漢字,其中第三列為漢字的筆畫數,我們可以首先看下漢字筆畫數的直方圖,從而讓我們對漢字筆畫數的分布情況有一個直觀的理解(如下圖)。我們可以看到,筆畫數為10,11與12的漢字較多,頻率均處於9%-10%之間。如果筆畫數小於11,則隨著筆畫數下降,出現的頻率逐漸降低;反之,筆畫數大於11,則隨著筆畫數上升,出現的頻率逐漸降低。

count_pert = []

for i in range(1,36):

    count_pert.append(len(sc.stroke_count[sc.stroke_count==i])/100.)

x = np.arange(1,36)

sns.barplot(x,count_pert)

plt.xlabel('Number of strokes of Chinese characters')

plt.ylabel('Frequency')

plt.title('Histogram of the number of strokes in Chinese characters')

接下來讓我們比較漢字筆畫數的實際分布與伽馬分布與正態分布的相似程度(如下圖),我們可以發現,實際分布與伽馬分布非常接近,而與正態分布相距較遠。通過繪製quantiles-quantiles圖,我們可以更加直觀的觀察到這一點:

from scipy.stats import norm,gamma,probplot

sns.distplot(sc.stroke_count,hist=False,kde_kws={"shade": True,"label":"actual distribution"},

             fit=gamma,fit_kws={"label":"gamma distribution"},color='c')

sns.distplot(sc.stroke_count,hist=False,fit=norm,

             fit_kws={"label":"norm distribution","color":"red","linestyle":"--"})

plt.ylabel('frequency')

plt.title('real distribution v.s. gamma distribution v.s. norm distribution')

plt.ylim(0,0.1)

plt.legend(frameon=True,fontsize=12)

plt.subplot(121)

probplot(sc.stroke_count,plot=plt,dist='gamma',sparams=(12.68,),fit=True)

plt.title('actual distribution v.s. gamma distribution')

plt.subplot(122)

probplot(sc.stroke_count,plot=plt,dist='norm',fit=True)

plt.title('actual distribution v.s. norm distribution')

四、結論

有趣的是,雖然英語與漢語之間存在著天壤之別,它們的分布規律卻有著很大的相似性。至於為什麼會出現這種分布規律,現在還沒有一個統一的解釋。對於齊普夫定律的成因,目前至少有三種解釋:

第一種是齊普夫本人的解釋,他認為這體現了人思維的經濟性,即人類在不影響溝通效率的情況下儘可能的減少記憶詞語的負擔,這導致了某些常用詞彙出現的頻率非常高,已經完全足以應付日常生活中的大多數溝通場景。

第二種觀點認為齊普夫定律是「強者愈強、弱者愈強」這一規律的結果,某些常用詞彙會被使用的越來越多,最終會導致類似於冪律分布的情況,其表現形式便是齊普夫定律。

第三種觀點:很多學者發現,齊普夫定律不僅在語言領域存在,而且在某些與語言並無關係的領域,如城市人口數排名與其人口的關係也服從齊普夫定律。這使得學者們傾向於相信,齊普夫定律的真正原因恐怕與語言的性質關係不大,而是與某種數據生成的過程有關。如Gabaix(1999)曾經指出只要所有城市人口都以一個同分布的隨機速度增長,那麼最後的城市人口分布規律就會符合齊普夫定律,這可能是齊普夫定律為什麼會在語言學、經濟學等諸多領域都會出現的深層次原因。

如果有機會,我會在之後的文章對漢字分布規律之所以如此的統計上的原因進行一些分析,我相信通過對數據生成過程的理解,我們可以撥開數據表層規律的迷霧,而認識其背後的根本原因。

五、參考資料

Zipf’s law. (2018). In Wikipedia. Retrieved from https://en.wikipedia.org/w/index.php?title=Zipf%27s_law&oldid=859042231

The mystery of Zipf. (2008, August 21). Retrieved 14 September 2018, from https://plus.maths.org/content/mystery-zipf

Powers, D. M. (1998). Applications and explanations of Zipf’s law. In Proceedings of the joint conferences on new methods in language processing and computational natural language learning (pp. 151–160). Association for Computational Linguistics.

Gabaix, X. (1999). Zipf’s law for cities: an explanation. The Quarterly Journal of Economics, 114(3), 739–767.

Li, W. (1992). Random texts exhibit Zipf’s-law-like word frequency distribution. IEEE Transactions on Information Theory, 38(6), 1842–1845.

Newman, M. E. (2005). Power laws, Pareto distributions and Zipf’s law. Contemporary Physics, 46(5), 323–351.

Shtrikman, S. (1994). Some comments on Zipf’s law for the Chinese language. Journal of Information Science, 20(2), 142–143.

Sicilia-Garcia, E. I., Ming, J., & Smith, F. J. (2003). Extension of Zipf’s Law to Word and Character N-grams for English and Chinese. International Journal of Computational Linguistics & Chinese Language Processing, Volume 8, Number 1, February 2003: Special Issue on Word Formation and Chinese Language Processing, 8(1), 77–102.

Kanter, I., & Kessler, D. A. (1995). Markov processes: linguistics and Zipf’s law. Physical Review Letters, 74(22), 4559.

來源:

https://github.com/sorrowise/chinese_data_analysis

https://md.metaquant.org/2018/words.html

https://github.com/sorrowise/chinese_data_analysis/blob/master/chinese_data_analysis_CH.ipynb

相關焦點

  • 齊夫定律:描述詞頻分布規律的強大數學工具
    該研究的負責人科拉爾(á.Corral)稱,如果進一步忽略只出現3至5次的詞語,符合齊夫定律的文本數還會更多。  研究者使用古登堡資料庫(包含31075本書)對齊夫定律最常見的三種表述形式進行了驗證,發現所有作品,有的只有100個字,有的則有100多萬字,它們中的超過40%都符合三種表述中的一種,結論具有統計顯著性(p>0.05)。
  • 漢語雙字詞常模特徵跨詞性對比研究
    漢語中不同詞性詞有不同常模特徵規律。
  • 中央凹加工負荷與副中央凹信息在漢語閱讀眼跳目標選擇中的作用
    詞在漢語閱讀中也具有重要的作用,有研究者認為詞是漢語閱讀的基本加工單元。閱讀過程中讀者從每個注視點上所獲得的信息是有限的。當詞落在視網膜的中央凹處(fovea)時視敏度最高, 即1°~2°視角內。在中央凹處周圍, 雙側視角為 10°左右的區域是副中央凹處(parafovea), 這一區域的視敏度顯著下降。
  • 國考判斷推理易混知識點:直線數與筆畫數
    但這裡的「文化公平」並不是絕對的,對於中國人來說,漢字筆畫數是從識字開始就學起的,對於沒有學過漢語的人來說,不公平;但公務員考試招考的對象是中華人民共和國公民,所以,在圖形推理中考察筆畫數,對來自五湖四海的報考者而言,還是公平。從教學實踐來看,許多考生把「點線角面素」中「線」的外延,僅僅理解為了直線數,曲線數和幾筆畫問題,其實這是片面的。
  • 詞頻對學習判斷的影響:信念和加工流暢性的貢獻(上)
    實驗設計被試內部唯一的變量是詞頻(高詞頻與低詞頻)。實驗材料本研究選取了《現代漢語詞頻詞典》中的158個漢語詞彙作為研究對象。我們要求31名獨立評分員按照筆畫數、習得年齡(7分制,1=0-2歲;7=13歲及以上)、熟悉度(5分制,1=非常陌生;5=非常熟悉)和具體性(5分制,1=非常抽象;5=非常具體)對單詞進行編碼。
  • 2012國考備考:圖形推理中的「一筆畫成」的規律
    在公務員考試之行測試卷的判斷推理模塊,其中圖形推理試題常考規律中,有一類較為典型的規律被稱之為「一筆畫成」規律。下面,京佳的老師們將結合公考真題為大家詳細解讀一下。  一、「一筆畫出」規律簡介  所謂「一筆畫成」規律,即一個圖形從起點到終點可由一筆畫成而線路不中斷。其實,在行測試卷中,圖形推理部分需要的不僅是經驗的累積,也需要廣大考生有一雙尖銳的「慧眼」,而「一筆畫成」規律,事實上有內在規律可循——關鍵在於判別奇點、偶點的個數。
  • 圖形推理:找「點」分秒算筆畫數
    遇見這類問題,我們常會疑惑,如何判斷圖形為一筆畫圖形。這時我們應知道如何算圖形筆畫數,對於計算筆畫數,有一個簡單快捷的方法,即找點—奇點。奇點是從一點出發的線條數為奇數的點,更要注意的是:端點也為奇點。其次,如何通過奇點判斷圖形筆畫數?當圖形是連通的且奇點數為0或2時,圖形為一筆畫。最少筆畫數=奇點數/2。如「H」,共有6個奇點,即為三筆畫。
  • 行測圖形推理:一筆「算」出筆畫數
    對於行測考試中的圖形推理題型,有些同學可能已經採取了「放棄治療」的態度,具體表現就是在做題時盯著題目看,到底選哪個呢,隨緣吧。於是隨便勾一個。至於對不對,看命吧。但是其實有很多圖形推理的題目考查的都是一些常見的規律,而我們需要做的就是熟練掌握這些常見規律並結合題目特點進行運用。
  • 【揭秘】姓名學中筆畫數的正確計算方法是?
    今天就跟大家分享姓名學中的筆畫數正確計算方法。以姓名學的觀點,就是按照筆畫的原理來確定名字吉兇的,因此姓名的一點一畫皆有數的規律與意義,一點都不能疏忽。因此,要想知道筆畫的數理,就必須會算文字的正確筆畫數。若有一點之差,將會影響整個名字的準確含義。欲知更多精彩內容,微信搜索關注:名正運順。
  • 公務員考試:「筆畫數」必會解題技巧
    多個圓套在一起,有基礎的同學能看出來,本圖可以一筆畫成,如果真的動筆畫會浪費時間。這篇文章中給出畫圖路徑,有興趣的同學可以當作趣味題,畫一畫。公務員考試過程中筆畫數是有方法和技巧的,要 15-20 秒之內判定能否一筆畫成。
  • 2020國家公務員行測圖形推理:一筆「算」出筆畫數
    對於行測考試中的圖形推理題型,有些同學可能已經採取了「放棄治療」的態度,具體表現就是在做題時盯著題目看,到底選哪個呢?隨緣吧!於是隨便勾一個。至於對不對?看命吧!但是其實有很多圖形推理的題目考查的都是一些常見的規律,而我們需要做的就是熟練掌握這些常見規律並結合題目特點進行運用。
  • 【職測備考】圖形推理:找「點」分秒算筆畫數
    遇見這類問題,我們常會疑惑,如何判斷圖形為一筆畫圖形。這時我們應知道如何算圖形筆畫數,對於計算筆畫數,有一個簡單快捷的方法,即找點—奇點。奇點是從一點出發的線條數為奇數的點,更要注意的是:端點也為奇點。其次,如何通過奇點判斷圖形筆畫數?當圖形是連通的且奇點數為0或2時,圖形為一筆畫。最少筆畫數=奇點數/2。如「H」,共有6個奇點,即為三筆畫。
  • 數學趣味故事:「一筆畫」的規律
    早在18世紀,瑞士的著名數學家歐拉就找到了一筆畫的規律。歐拉認為,能一筆畫的圖形必須是連通圖。連通圖就是指一個圖形各部分總是有邊相連的,這道題中的三個圖都是連通圖。  但是,不是所有的連通圖都可以一筆畫的。能否一筆畫是由圖的奇、偶點的數目來決定的。什麼叫奇、偶點呢?與奇數(單數)條邊相連的點叫做奇點;與偶數(雙數)條邊相連的點叫做偶點。如圖1中的①、④為奇點,②、③為偶點。
  • 書法入門教程:基本筆畫接筆規律
    筆畫接筆規律 (一)、相接法 1、實接法:一筆畫起筆或收筆被另一筆畫所掩蓋。這一方法像木匠接榫頭一樣,要把兩根木頭接得嚴絲合縫,牢固無比,做成的家具才結實耐用。 2、虛接法:一筆畫起筆或收筆的筆鋒與另一筆畫相搭。
  • 圖推中的VVVIP考點—一筆畫,你掌握了嗎?
    一、何為「一筆畫」圖形?一筆畫圖形也叫連通圖,即一個圖形從起點到終點不間斷線路可由一筆畫成的圖形。一般是通過奇點和偶點的個數來判定。奇點個數為0、2的連通圖形既是一筆畫圖形。所謂奇點就是指從該點出發的直線或線段數為奇數的點;偶點就是從該點出發的直線或線段數為偶數。
  • 2014年黑龍江公務員行測衝刺備考:如何數漢字的筆畫數
    在行測題目當中,圖形推理裡會有數漢字筆畫數的題目,這類題目很是考驗我們書寫漢字的基本功,最根本的就是要回寫楷書的漢字。想要查清筆畫,首先要知道什麼是筆畫。   筆畫是構成漢字字形的各種點和線,是漢字的最小構件。寫字的時候,從開始下筆到把筆提起叫做一筆或一畫。筆畫是構成漢字的最小單位。
  • 質數的數量和分布規律破解
    首先,這個質數是在十進位的範圍內定義的,質數是不能被分解的數。我們做一個以十進位的陣列,那麼質數首先全部分布在尾數為1、3、7、9的數列當中。其他的列都是合數。第二,我們列出300以內的質數62個。然後我們發現,合數的分布是有規律的,1、2和5比較特殊,先放在一邊。從3和7開始計算。
  • 目中無漢字全是筆畫數 河南「筆畫王」在漢展絕技
    荊楚網(楚天金報)(記者饒純武 實習生孫亞瓊 金依萍)任何漢字,只看一眼就能準確說出筆畫數,昨日,記者在洪山一招待所見到了這名河南「奇人」王國營。王國營今年38歲。因侄子來漢參加研究生複試,他陪侄子前日一同抵漢。昨日下午,記者在其下榻的招待所,親眼目睹了他的這一絕活。王國營拿出昨日的《楚天金報》。
  • 當代美國英語中漢語十大高頻詞(你絕對想不到)
    當代美國英語中漢語詞頻前10位編號原詞英文詞典收錄COCA檢索詞頻
  • 揚州「筆畫哥」見字能報筆畫數:60秒報出70個
    沈亮在標每個字的筆畫數。周旭 供圖  □通訊員 周旭 金陵晚報記者 姜靜  看一眼漢字,不管這個字是否認識,在揚州的29歲小夥子沈亮,都能在極短時間內準確地說出這個字的筆畫。  沈亮說,最快時,他一分鐘可報出80個字的筆畫數,有機會想挑戰一下這個項目的金氏世界紀錄。昨天上午,記者採訪了這個神奇的小夥子。