


行業(yè)語(yǔ)言文化當(dāng)前位置:首頁(yè) > 語(yǔ)言應(yīng)用 > 行業(yè)語(yǔ)言文化 >
《北京晚報(bào)》高頻詞與語(yǔ)言的社會(huì)制約因素
來(lái)源:北京語(yǔ)言文字工作協(xié)會(huì) | 發(fā)布時(shí)間:2017-01-06 16:12:27 | 瀏覽次數(shù):
本文和《<北京晚報(bào)>高頻用字與社會(huì)語(yǔ)言生活》是姊妹篇,運(yùn)用的語(yǔ)料是完全一樣的。需要特別說(shuō)明的是,本次統(tǒng)計(jì)區(qū)分詞性,即一個(gè)詞在語(yǔ)料中出現(xiàn)了兩種及以上詞性時(shí),詞種數(shù)按照詞性來(lái)計(jì)數(shù)。例如“報(bào)告”,在語(yǔ)料中既作名詞,又作動(dòng)詞,那就應(yīng)該將“報(bào)告”算作兩個(gè)詞種,分別統(tǒng)計(jì)詞頻。周有光曾將90%的覆蓋率作為高頻的界限,參照此,本次統(tǒng)計(jì)中將詞覆蓋率達(dá)到90%的所有詞稱為高頻詞。
一、高頻詞的統(tǒng)計(jì)與分析
1.基本情況
表1:2011-2014年度高頻詞詞種數(shù)比較
年度 | 高頻詞種數(shù) | 比例 |
2011年 | 10342 | 27.92% |
2012年 | 10707 | 19.09% |
2013年 | 10147 | 19.8% |
2014年 | 8745 | 30.17% |
全部語(yǔ)料 | 11683 | 14.76% |
2.高頻詞用字統(tǒng)計(jì)
在11683個(gè)高頻詞中,排除掉阿拉伯?dāng)?shù)字,共使用漢字21863字次,計(jì)2764個(gè)字種,占全部字種數(shù)的49.12%。平均每個(gè)詞由1.87個(gè)漢字構(gòu)成,每個(gè)漢字平均使用7.91次。表2:高頻詞用字分布
構(gòu)詞數(shù) | ≥100 | 99-80 | 79-50 | 20-49 | 19-10 | 9-3 | 2 | 1 | 字種數(shù) |
字?jǐn)?shù) | 6 | 3 | 40 | 230 | 375 | 961 | 418 | 731 | 2764 |
比例 | 0.22% | 0.11% | 1.45% | 8.32% | 13.57% | 34.77% | 15.12% | 26.45% | 100% |
表3:構(gòu)詞能力最強(qiáng)的前10個(gè)字種
序號(hào) (用字總表) |
字種 | 構(gòu)詞數(shù) | 分布情況 | ||
前410(50%) | 411-4543(50-80%) | 4544-11683(80%-90%) | |||
13 | 年 | 187 | 5 | 67 | 115 |
6 | 人 | 170 | 6 | 62 | 102 |
10 | 大 | 145 | 3 | 53 | 89 |
5 | 不 | 136 | 5 | 31 | 100 |
2 | 一 | 125 | 10 | 46 | 69 |
33 | 子 | 110 | 2 | 31 | 77 |
16 | 上 | 92 | 2 | 40 | 50 |
19 | 生 | 88 | 5 | 39 | 44 |
15 | 學(xué) | 87 | 6 | 42 | 39 |
30 | 出 | 79 | 3 | 33 | 43 |
就分布情況而言,這10個(gè)字種集中分布在累積覆蓋率的80%-90%之間,比例均在50%以上,最高的“不”字在這一段的比例甚至達(dá)到了73.5%。其次是在50%至80%之間,分布最少的是在核心詞區(qū),即累積覆蓋率大于等于0%,小于50%。這10個(gè)字種總共構(gòu)成了47個(gè)核心詞,占全部核心詞的11.46%,其中“一”一個(gè)字種就構(gòu)成了10個(gè)核心詞,占核心詞的2.44%。
3.高頻詞詞長(zhǎng)分析
高頻詞詞長(zhǎng)最短為1字詞,最長(zhǎng)為8字詞,6字詞在高頻詞中并沒有出現(xiàn)。詞長(zhǎng)為7字和8字的高頻詞各有1個(gè),分別為“中華人民共和國(guó)”和“中央人民廣播電臺(tái)”,均屬于專有名詞。詞長(zhǎng)在兩個(gè)字的高頻詞最多,有7900個(gè),占所有高頻詞的67.62%,其次是1字詞、3字詞,詞長(zhǎng)在4個(gè)字及以下的高頻詞累積比例高達(dá)99.27%,符合現(xiàn)代漢語(yǔ)用詞特點(diǎn)。另外,詞長(zhǎng)為5個(gè)字的高頻詞共83個(gè),除了“筆記本電腦”“人民大會(huì)堂”“中國(guó)共產(chǎn)黨”“高爾夫球場(chǎng)”“奧斯瓦爾德”“泰坦尼克號(hào)”“皮斯托瑞斯”“中央電視臺(tái)”這9個(gè)專有名詞外,其余74個(gè)全是“1996年”“2014年”這種模式的時(shí)間表達(dá)式。高頻詞不同詞長(zhǎng)詞種數(shù)的具體比例詳見表4。表4:高頻詞不同詞長(zhǎng)的詞種數(shù)
詞長(zhǎng) | 詞種數(shù) | 比例 | 累積比例 |
1 | 2614 | 22.37% | 22.37% |
2 | 7900 | 67.62% | 89.99% |
3 | 875 | 7.49% | 97.48% |
4 | 209 | 1.79% | 99.27% |
5 | 83 | 0.71% | 99.98% |
7 | 1 | 0.01% | 99.99% |
8 | 1 | 0.01% | 100.00% |
總計(jì) | 11683 | 100.00% | 100.00% |
4.高頻詞詞性分析
表5列出了高頻詞不同詞性的詞種分布情況,高頻詞中名詞仍然占了絕大比例,接近高頻詞詞種數(shù)的一半。動(dòng)詞、形容詞分別以25.38%、7.58%的比例緊隨其后。副詞、介詞、連詞、助詞、語(yǔ)氣詞等虛詞和實(shí)詞中偏功能性的嘆詞、擬聲詞的比例總和為7.15%左右,還不如形容詞一種詞類所占的比例。由此可見,高頻詞中具有實(shí)在的詞匯意義的實(shí)詞占了絕大多數(shù),而意義比較虛泛,且偏功能性、語(yǔ)法性的其他詞比例甚少。而高頻詞中熟語(yǔ)的使用也很少,只有57個(gè),占了不到0.5%的比例,這大概是受熟語(yǔ)詞長(zhǎng)的影響。表5:高頻詞不同詞性詞種數(shù)
類別 | 詞種數(shù) | 比例 |
語(yǔ)素 | 645 | 5.52% |
名詞 | 5661 | 48.46% |
動(dòng)詞 | 2965 | 25.38% |
形容詞 | 885 | 7.58% |
數(shù)詞 | 243 | 2.08% |
量詞 | 209 | 1.79% |
代詞 | 167 | 1.43% |
嘆詞 | 3 | 0.03% |
擬聲詞 | 3 | 0.03% |
副詞 | 603 | 5.16% |
介詞 | 70 | 0.60% |
連詞 | 106 | 0.91% |
助詞 | 29 | 0.25% |
語(yǔ)氣詞 | 20 | 0.17% |
量詞詞組 | 17 | 0.15% |
熟語(yǔ) | 57 | 0.49% |
總計(jì) | 11683 | 100.00% |
二、年度高頻詞與社會(huì)生活熱點(diǎn)
高頻詞具有穩(wěn)定性,因此歷年來(lái)的高頻詞統(tǒng)計(jì)中,相同的詞種占了絕大部分,且多為基本詞匯,獨(dú)用詞種數(shù)較少。1.基本情況
從表6,我們可以看出2011-2014年的高頻詞獨(dú)用詞種數(shù)比例不一,其中2011年最高,接近20%。2013年最低,不到13%。獨(dú)用詞中名詞,尤其是專有名詞居多。
表6:2011-2014年度高頻詞詞種數(shù)比較
年度 | 獨(dú)用詞種數(shù) | 比例 |
2011年 | 1997 | 19.31% |
2012年 | 1769 | 16.52% |
2013年 | 1313 | 12.94% |
2014年 | 1222 | 13.97% |
表7:2011-2014年度高頻詞獨(dú)用詞中的特色詞
年度 | 前120個(gè)高頻獨(dú)用詞中具有年度特色的詞舉例 |
2011 | 鄭淵潔、辛亥革命、溥儀、袁世凱、油價(jià)、辛亥、紫禁城、馮玉祥、王妃、梁山、 1911年、汪精衛(wèi)、哈利、盧作孚、清政府、革命黨、好漢、同盟會(huì)、水滸傳、武昌起義 |
2012 | 火星、法醫(yī)、雷雨、火柴、賽事、陳祖德、林兆華、小劇場(chǎng)、莫言、焦菊隱、圍棋、京味、雷鋒、索馬里、突擊隊(duì)、膠囊、末日、龍年、摩加迪沙、瑞典、火炬、海嘯、婚姻法、明膠、開幕式 |
2013 | 段振豪、外援、張國(guó)榮、貝克漢姆、足協(xié)、卡馬喬、達(dá)喀爾、助學(xué)金、恒大、肯尼迪、恐怖主義、伊拉克、斯諾登、奧斯瓦爾德、鄭曉龍、冤假錯(cuò)案 |
2014 | 幾內(nèi)亞、醫(yī)療隊(duì)、付麗、張昆鵬、童星、姚貝娜、速遞、鄧波兒、家風(fēng)、北約、英拉、反貪、軌道、交通、醫(yī)護(hù)、值班、華約、凈化器、大操大辦 |
2011年正好是辛亥革命的100周年。10月9日,北京人民大會(huì)堂舉行了紀(jì)念辛亥革命100周年大會(huì),全國(guó)媒體都聚焦于辛亥革命及其紀(jì)念活動(dòng),所以《北京晚報(bào)》在2011出現(xiàn)了“辛亥革命、溥儀、袁世凱、辛亥、紫禁城、馮玉祥、1911年、汪精衛(wèi)、盧作孚、清政府、革命黨、同盟會(huì)”等詞。2011年4月19日,英國(guó)威廉王子和凱特王妃的世紀(jì)婚禮同樣舉世矚目,故2011獨(dú)現(xiàn)詞中出現(xiàn)了“王妃”。“油價(jià)”反映了2011年不穩(wěn)定的原油價(jià)格。另外,“梁山、好漢、水滸傳”和“哈利”則分別反映了2011年的電視劇《新水滸傳》和哈利波特系列電影終結(jié)篇《哈利·波特與死亡圣器(下)》的火熱程度。這些無(wú)一不是當(dāng)年國(guó)際國(guó)內(nèi)的熱點(diǎn)事件。
3.北京人藝院慶活動(dòng)、莫言獲獎(jiǎng)等與2012年度高頻詞
2012年是北京人民藝術(shù)劇院(簡(jiǎn)稱“北京人藝”)成立的60周年,北京人藝是國(guó)家級(jí)的藝術(shù)殿堂,從2012年年初就啟動(dòng)了北京人藝建院六十周年的系列慶?;顒?dòng),《北京晚報(bào)》里出現(xiàn)了“雷雨、林兆華、小劇場(chǎng)、焦菊隱、京味”等詞,它們或是北京人藝上演的劇目,或是北京人藝的導(dǎo)演,或是北京人藝的特色,都與北京人藝密切相關(guān)。2012年10月11日,瑞典文學(xué)院授予了莫言諾貝爾文學(xué)獎(jiǎng),這是迄今為止第一個(gè)真正意義上屬于中國(guó)的諾貝爾獎(jiǎng),引發(fā)了全國(guó)轟動(dòng),“莫言”也成為了《北京晚報(bào)》2012年的高頻詞。2012年也是雷鋒逝世的50周年,全國(guó)上下紛紛開展了“學(xué)雷鋒”活動(dòng),“雷鋒”在2012年成為高頻詞正是反映了這一現(xiàn)象。“賽事、火炬、開幕式”等詞的出現(xiàn)則是與2012年倫敦舉辦的第30屆奧運(yùn)會(huì)有關(guān)。“索馬里、摩加迪沙”反映了2012年2月8日發(fā)生在索馬里首都摩加迪沙的汽車炸彈襲擊事件。“膠囊、明膠”則是與引發(fā)了熱議的“毒膠囊”事件和“老酸奶、果凍添加工業(yè)明膠”事件有關(guān)。另外,“婚姻法”反映了2012年熱點(diǎn)社會(huì)事件之一,即新《婚姻法》的頒布。而“火星、末日、火柴、瑞典”則涉及到2012年的“末日”傳言,這一傳言宣稱地球?qū)⒃?012年12月21日發(fā)生重大災(zāi)難,或出現(xiàn)“連續(xù)的三天黑夜”等異象,因此“移居到火星”、“世界末日”、“瘋搶火柴、蠟燭”“瑞典火柴銷售額大幅增長(zhǎng)”等相關(guān)新聞便接踵而至。
4.足壇要聞、助學(xué)金政策等與2013年度主題詞
“外援、貝克漢姆、卡馬喬、足協(xié)、恒大”等的出現(xiàn)反映了2013年足壇的重大新聞,比如2013年5月16日,貝克漢姆正式宣布將退出職業(yè)足壇,引起全世界關(guān)注。6月,國(guó)足主教練卡馬喬與中國(guó)足協(xié)解約;8月,北京律師熊智向中國(guó)國(guó)家稅務(wù)總局提交實(shí)名舉報(bào),舉報(bào)卡馬喬團(tuán)隊(duì)偷逃稅款,要求嚴(yán)懲足協(xié);11月,廣州恒大足球俱樂部獲得了亞冠聯(lián)賽的冠軍,取得了歷史最好成績(jī)。2013年也是美國(guó)總統(tǒng)肯尼迪遇刺身亡的50周年,“肯尼迪、恐怖主義、奧斯瓦爾德”的出現(xiàn)就是基于這一事件。2013年司法機(jī)關(guān)平反了5起,涉及14名當(dāng)事人的冤假錯(cuò)案,并啟動(dòng)防冤案機(jī)制,響應(yīng)了十八大以來(lái)習(xí)近平總書記在法治建設(shè)工作中強(qiáng)調(diào)“要努力讓人民群眾在每一個(gè)司法案件中都感受到公平正義”的號(hào)召,“冤假錯(cuò)案”成為2013年的高頻詞便是由于這個(gè)原因。另外,“助學(xué)金”則反映了2013年財(cái)政部、教育部將研究生普通獎(jiǎng)學(xué)金調(diào)整為研究生“國(guó)家助學(xué)金”,并規(guī)定博士生的標(biāo)準(zhǔn)為每生每年不低于1萬(wàn)元,碩士生的標(biāo)準(zhǔn)為每生每年不低于6000元的教育政策。
5.社會(huì)熱點(diǎn)事件與2014年度主題詞
2014年只統(tǒng)計(jì)了3個(gè)月的語(yǔ)料,所以獨(dú)用詞也較少。“付麗、張昆鵬、速遞”和“醫(yī)護(hù)、值班”分別反映了中通速遞員張昆鵬入室謀財(cái)害命和2014年2月25日南京醫(yī)護(hù)人員被打這兩個(gè)惡性社會(huì)事件。“反貪、大操大辦”則是由于習(xí)近平總書記頒布的關(guān)于《加強(qiáng)黨員領(lǐng)導(dǎo)干部廉潔自律嚴(yán)禁大操大辦宴席的規(guī)定》。2014年,姚貝娜登上中央電視臺(tái)馬年春晚,并在零點(diǎn)鐘聲敲響前獻(xiàn)唱壓軸歌曲《天耀中華》,成為人們關(guān)注的焦點(diǎn),“姚貝娜”成為2014的高頻詞也與此相關(guān)。2014年2月10日,美國(guó)曾經(jīng)的著名童星鄧波兒去世,引發(fā)了人們對(duì)她的懷念和追憶,“童星、鄧波兒”則是這一事件的關(guān)鍵詞。
前面已經(jīng)提到,2011-2014年高頻詞中的獨(dú)現(xiàn)詞以專有名詞居多,而這些專有名詞往往反映了當(dāng)年社會(huì)的熱點(diǎn)、焦點(diǎn)人物或事件。這些焦點(diǎn)、熱點(diǎn)來(lái)自社會(huì)生活的方方面面,既囊括國(guó)際焦點(diǎn),又含有國(guó)內(nèi)熱點(diǎn);既涵蓋政治、經(jīng)濟(jì)熱點(diǎn),又網(wǎng)羅社會(huì)、生活事件;既涉及體育、娛樂焦點(diǎn),又包括文化、教育熱點(diǎn)。言而總之,語(yǔ)言生活不僅來(lái)自于社會(huì)生活,也全面反映了社會(huì)生活。
附錄:《北京晚報(bào)》詞的總體使用情況
一、基本情況
1.詞的年度使用情況
(1)分詞單位總數(shù):由分詞軟件對(duì)語(yǔ)料切分得到的字符串的總數(shù)為4209587次。其中標(biāo)點(diǎn)符號(hào)出現(xiàn)649969次,其他分詞單位出現(xiàn)3559618次。
(2)總詞次:在排除純阿拉伯?dāng)?shù)字后,得到總詞次共計(jì)3530389次。
(3)詞種數(shù):79158個(gè)。
(4)2011-2014年度詞使用情況:和漢字的使用情況相似,由于2011、2014年的語(yǔ)料較2012、2013年少,因此2011、2014年得出的總詞次和詞種數(shù)明顯要少于另外兩年。而2012、2013年的詞種數(shù)都穩(wěn)定在50000詞以上,其中2012年的詞種數(shù)比2013年多了4833個(gè)。具體數(shù)據(jù)見表1。
表1:2011-2014年度詞語(yǔ)使用情況
年度 | 總詞次 | 詞種數(shù) | |
2011年 | 473368 | 37038 | |
2012年 | 1476810 | 56080 | |
2013年 | 1248944 | 51247 | |
2014年 | 331267 | 28985 | |
總計(jì) | 3530389 | 79158 |
2.詞種覆蓋率
表2分別統(tǒng)計(jì)了不同覆蓋率的詞種數(shù)。
表2:不同覆蓋率的詞種數(shù)
覆蓋率(%) | 詞種數(shù) | 比例(%) |
10 | 3 | 0.00% |
20 | 20 | 0.03% |
30 | 65 | 0.08% |
40 | 173 | 0.22% |
50 | 430 | 0.54% |
60 | 962 | 1.22% |
70 | 2054 | 2.59% |
80 | 4543 | 5.74% |
90 | 11683 | 14.76% |
91 | 13081 | 16.52% |
92 | 14734 | 18.61% |
93 | 16708 | 21.11% |
94 | 19102 | 24.13% |
95 | 22077 | 27.89% |
96 | 25859 | 32.67% |
97 | 30898 | 39.03% |
98 | 38161 | 48.21% |
99 | 50330 | 63.58% |
100 | 79158 | 100% |
除此之外,我們也可以看到,詞種數(shù)的第一次大幅增長(zhǎng)出現(xiàn)在80%以后,共增加了7140個(gè)詞種,提升約9.02個(gè)百分點(diǎn)。接下來(lái)90%~98%這段,詞種數(shù)穩(wěn)步增長(zhǎng),增長(zhǎng)幅度在2%~9%之間。最后98%~100%這段,詞種數(shù)迅速增長(zhǎng)了41001個(gè),增長(zhǎng)幅度超過51個(gè)百分點(diǎn)。意味著,超過一半的詞種數(shù)只占了全部語(yǔ)料的2%。由此得出,頻率越高的詞種,效用也越大。
根據(jù)累積詞頻,可以將詞種分到四個(gè)不同的詞區(qū)。累積頻率不超過50%的詞處于極高頻詞區(qū),這一詞區(qū)的詞雖然數(shù)量少,但使用頻率卻極高,可以說(shuō)是《北京晚報(bào)》里的核心詞。累積頻率大于50%,但卻不超過90%的詞是高頻詞。為了方便稱呼,可以把極高頻詞區(qū)和高頻詞區(qū)里的詞都統(tǒng)稱為高頻詞。累積頻率在90%-99%的詞是中頻詞,使用頻率在高頻詞和低頻詞之間,累積頻率越靠近99%,使用頻率越低。最后99%-100%這一段的詞是低頻詞,數(shù)量占了極大部分,但使用頻率卻最低。詞區(qū)的具體分布情況見表3。
表3:2011—2014年度詞區(qū)分布
字區(qū) | 詞種數(shù)量 | 比例 | |
核心詞區(qū) (0-50%) |
全部語(yǔ)料 | 430 | 0.54% |
2011年 | 407 | 1.10% | |
2012年 | 433 | 0.77% | |
2013年 | 419 | 0.82% | |
2014年 | 407 | 1.40% | |
高頻詞區(qū)(50%-90%) | 全部語(yǔ)料 | 11253 | 14.22% |
2011年 | 9935 | 26.82% | |
2012年 | 10274 | 18.32% | |
2013年 | 9728 | 18.98% | |
2014年 | 8338 | 28.77% | |
中頻詞區(qū)(90%-99%) | 全部語(yǔ)料 | 39077 | 48.82% |
2011年 | 21963 | 59.30% | |
2012年 | 30604 | 54.57% | |
2013年 | 28610 | 55.83% | |
2014年 | 16927 | 58.40% | |
低頻詞區(qū) (99%-100%) |
全部語(yǔ)料 | 29828 | 36.42% |
2011年 | 4734 | 12.78% | |
2012年 | 14769 | 26.34% | |
2013年 | 12490 | 24.37% | |
2014年 | 3313 | 11.43% |
3.不同頻次范圍的詞種情況
從表4中,我們可以看出在全部語(yǔ)料中只使用過一次的詞語(yǔ)就占了28.25%。頻次不超過5的詞種數(shù)占全部詞種的60%左右。頻次不超過20的詞種數(shù)占81.96%。頻次在100以下的詞種就已經(jīng)達(dá)到94.67%。頻次不超過1000的詞種高達(dá)99.48%,接近100%了。頻次在1000以上的詞種不到1%。低頻詞的詞種數(shù)有很多,極高頻詞只有極少一部分,不到500個(gè)。
表4:不同頻次范圍的詞種數(shù)
頻次 | 詞種數(shù) | 比例(%) | 累計(jì)(%) |
1 | 22356 | 28.25% | 28.25% |
2 | 9987 | 12.62% | 40.86% |
3 | 6341 | 8.01% | 48.87% |
4 | 4707 | 5.95% | 54.82% |
5 | 3483 | 4.40% | 59.22% |
6-10 | 10030 | 12.67% | 71.89% |
11-20 | 7990 | 10.09% | 81.96% |
21-100 | 10047 | 12.69% | 94.67% |
101-1000 | 3803 | 4.80% | 99.48% |
1001以上 | 414 | 0.52% | 100.00% |
(李秋逸,教育部語(yǔ)言文字應(yīng)用研究所)
