99r精品视频这里免费|亚洲影视无码se01|97人人超碰国产精品最新老片|美日韩国产无码

<center id="i0ows"><li id="i0ows"></li></center>
  • <abbr id="i0ows"><acronym id="i0ows"></acronym></abbr>
  • <center id="i0ows"><small id="i0ows"></small></center>
  • <menu id="i0ows"></menu>
    <dfn id="i0ows"><kbd id="i0ows"></kbd></dfn> <menu id="i0ows"><acronym id="i0ows"></acronym></menu>
    <center id="i0ows"></center>
  • <menu id="i0ows"><kbd id="i0ows"></kbd></menu>

    行業(yè)語(yǔ)言文化當(dāng)前位置:首頁(yè) > 語(yǔ)言應(yīng)用 > 行業(yè)語(yǔ)言文化 >

    《北京晚報(bào)》高頻詞與語(yǔ)言的社會(huì)制約因素

    來(lái)源:北京語(yǔ)言文字工作協(xié)會(huì)  |  發(fā)布時(shí)間:2017-01-06 16:12:27  |  瀏覽次數(shù):


          本文和《<北京晚報(bào)>高頻用字與社會(huì)語(yǔ)言生活》是姊妹篇,運(yùn)用的語(yǔ)料是完全一樣的。需要特別說(shuō)明的是,本次統(tǒng)計(jì)區(qū)分詞性,即一個(gè)詞在語(yǔ)料中出現(xiàn)了兩種及以上詞性時(shí),詞種數(shù)按照詞性來(lái)計(jì)數(shù)。例如“報(bào)告”,在語(yǔ)料中既作名詞,又作動(dòng)詞,那就應(yīng)該將“報(bào)告”算作兩個(gè)詞種,分別統(tǒng)計(jì)詞頻。周有光曾將90%的覆蓋率作為高頻的界限,參照此,本次統(tǒng)計(jì)中將詞覆蓋率達(dá)到90%的所有詞稱為高頻詞。

          一、高頻詞的統(tǒng)計(jì)與分析
          1.基本情況
    表1:2011-2014年度高頻詞詞種數(shù)比較
    年度 高頻詞種數(shù) 比例
    2011年 10342 27.92%
    2012年 10707 19.09%
    2013年 10147 19.8%
    2014年 8745 30.17%
    全部語(yǔ)料 11683 14.76%
          從表1,可以看出2011-2013年度的高頻詞種數(shù)量差不多都在10000詞左右,2014年只有不到9000個(gè)高頻詞種,這是因?yàn)?014年只統(tǒng)計(jì)了前三個(gè)月,總詞種數(shù)還不到30000個(gè)詞??偟膩?lái)說(shuō),《北京晚報(bào)》這幾年的高頻詞數(shù)量比較穩(wěn)定。

          2.高頻詞用字統(tǒng)計(jì)

          在11683個(gè)高頻詞中,排除掉阿拉伯?dāng)?shù)字,共使用漢字21863字次,計(jì)2764個(gè)字種,占全部字種數(shù)的49.12%。平均每個(gè)詞由1.87個(gè)漢字構(gòu)成,每個(gè)漢字平均使用7.91次。
    表2:高頻詞用字分布
    構(gòu)詞數(shù) ≥100 99-80 79-50 20-49 19-10 9-3 2 1 字種數(shù)
    字?jǐn)?shù) 6 3 40 230 375 961 418 731 2764
    比例 0.22% 0.11% 1.45% 8.32% 13.57% 34.77% 15.12% 26.45% 100%
          表2是2764個(gè)字種在高頻詞中的構(gòu)詞情況,構(gòu)成100及以上個(gè)高頻詞的字種有6個(gè),分別為“年、人、大、不、一、子”,在下面會(huì)有對(duì)它們具體的分析。構(gòu)詞數(shù)在2個(gè)以內(nèi)的字種高達(dá)41.57%,其中只構(gòu)成1個(gè)詞的字種有731個(gè),占字種數(shù)的26.45%,而這些字種在字區(qū)分布上主要處于低頻區(qū)或靠近低頻區(qū)的中頻區(qū),如“艾”(2096)、“掰”(2612)、“盞”(3031)、“釗”(3224)等,由此,我們可以推斷出構(gòu)詞能力弱是字種使用頻率低的一個(gè)重要原因。表9列出了在高頻詞中構(gòu)詞能力最強(qiáng)的前10個(gè)字種及其分布情況。
    表3:構(gòu)詞能力最強(qiáng)的前10個(gè)字種
    序號(hào)
    (用字總表)
    字種 構(gòu)詞數(shù) 分布情況
    前410(50%) 411-4543(50-80%) 4544-11683(80%-90%)
    13 187 5 67 115
    6 170 6 62 102
    10 145 3 53 89
    5 136 5 31 100
    2 125 10 46 69
    33 110 2 31 77
    16 92 2 40 50
    19 88 5 39 44
    15 學(xué) 87 6 42 39
    30 79 3 33 43
           從表3,可以發(fā)現(xiàn)在《北京晚報(bào)》用字總表中,這10個(gè)字種的頻率排在前20位的共有8個(gè),其中排在前10的就有4個(gè)。只有“子”和“出”是排在第30位和第33位。雖然“子”和“出”的字頻并不是最靠前的,但是這兩個(gè)字的構(gòu)詞能力都很強(qiáng)。首先說(shuō)“子”,“子”在古代漢語(yǔ)中指兒女,發(fā)展到現(xiàn)代漢語(yǔ)中,“子”有多個(gè)詞義,而且“子”經(jīng)常附加在名詞、動(dòng)詞和形容詞后,使之具有名詞性,如房子、院子、樣子、椅子,這類名詞在日常生活中經(jīng)常使用,因此“子”在高頻詞中屬于構(gòu)詞能力最強(qiáng)的前10位也很正常。“出”在現(xiàn)代漢語(yǔ)中有13個(gè)義項(xiàng),就詞義而言,比另外9個(gè)都要多。除了具體的實(shí)義外,“出”還經(jīng)常放在動(dòng)詞后,表示趨向或效果,如“展出”、“播出”、“派出”等,大大增強(qiáng)了它的構(gòu)詞能力。另外,“年”是高頻詞中構(gòu)詞能力最強(qiáng)的字種,這主要是由《北京晚報(bào)》的報(bào)刊性質(zhì)決定的,因?yàn)樾侣勛非笳鎸?shí)性、時(shí)效性、準(zhǔn)確性,所以內(nèi)容中涉及到很多時(shí)間詞,“年”排在第一位就不難理解了。
            就分布情況而言,這10個(gè)字種集中分布在累積覆蓋率的80%-90%之間,比例均在50%以上,最高的“不”字在這一段的比例甚至達(dá)到了73.5%。其次是在50%至80%之間,分布最少的是在核心詞區(qū),即累積覆蓋率大于等于0%,小于50%。這10個(gè)字種總共構(gòu)成了47個(gè)核心詞,占全部核心詞的11.46%,其中“一”一個(gè)字種就構(gòu)成了10個(gè)核心詞,占核心詞的2.44%。

          3.高頻詞詞長(zhǎng)分析

          高頻詞詞長(zhǎng)最短為1字詞,最長(zhǎng)為8字詞,6字詞在高頻詞中并沒有出現(xiàn)。詞長(zhǎng)為7字和8字的高頻詞各有1個(gè),分別為“中華人民共和國(guó)”和“中央人民廣播電臺(tái)”,均屬于專有名詞。詞長(zhǎng)在兩個(gè)字的高頻詞最多,有7900個(gè),占所有高頻詞的67.62%,其次是1字詞、3字詞,詞長(zhǎng)在4個(gè)字及以下的高頻詞累積比例高達(dá)99.27%,符合現(xiàn)代漢語(yǔ)用詞特點(diǎn)。另外,詞長(zhǎng)為5個(gè)字的高頻詞共83個(gè),除了“筆記本電腦”“人民大會(huì)堂”“中國(guó)共產(chǎn)黨”“高爾夫球場(chǎng)”“奧斯瓦爾德”“泰坦尼克號(hào)”“皮斯托瑞斯”“中央電視臺(tái)”這9個(gè)專有名詞外,其余74個(gè)全是“1996年”“2014年”這種模式的時(shí)間表達(dá)式。高頻詞不同詞長(zhǎng)詞種數(shù)的具體比例詳見表4。
    表4:高頻詞不同詞長(zhǎng)的詞種數(shù)
    詞長(zhǎng) 詞種數(shù) 比例 累積比例
    1 2614 22.37% 22.37%
    2 7900 67.62% 89.99%
    3 875 7.49% 97.48%
    4 209 1.79% 99.27%
    5 83 0.71% 99.98%
    7 1 0.01% 99.99%
    8 1 0.01% 100.00%
    總計(jì) 11683 100.00% 100.00%
          在高頻詞中的430個(gè)核心詞里,長(zhǎng)度最短為1字,最長(zhǎng)為3字。其中1字詞有223個(gè),2字詞有205個(gè),3字詞只有2個(gè),分別為“為什么”和“越來(lái)越”兩個(gè)短語(yǔ)。而在前2000個(gè)高頻詞中,1字詞739個(gè),2字詞1203個(gè),3字詞48個(gè),4字詞2個(gè),5字詞雖然有8個(gè),但均為時(shí)間表達(dá)式。由此也可以看出,使用頻率越高、詞長(zhǎng)越短的大致規(guī)律。

          4.高頻詞詞性分析

          表5列出了高頻詞不同詞性的詞種分布情況,高頻詞中名詞仍然占了絕大比例,接近高頻詞詞種數(shù)的一半。動(dòng)詞、形容詞分別以25.38%、7.58%的比例緊隨其后。副詞、介詞、連詞、助詞、語(yǔ)氣詞等虛詞和實(shí)詞中偏功能性的嘆詞、擬聲詞的比例總和為7.15%左右,還不如形容詞一種詞類所占的比例。由此可見,高頻詞中具有實(shí)在的詞匯意義的實(shí)詞占了絕大多數(shù),而意義比較虛泛,且偏功能性、語(yǔ)法性的其他詞比例甚少。而高頻詞中熟語(yǔ)的使用也很少,只有57個(gè),占了不到0.5%的比例,這大概是受熟語(yǔ)詞長(zhǎng)的影響。
    表5:高頻詞不同詞性詞種數(shù)
    類別 詞種數(shù) 比例
    語(yǔ)素 645 5.52%
    名詞 5661 48.46%
    動(dòng)詞 2965 25.38%
    形容詞 885 7.58%
    數(shù)詞 243 2.08%
    量詞 209 1.79%
    代詞 167 1.43%
    嘆詞 3 0.03%
    擬聲詞 3 0.03%
    副詞 603 5.16%
    介詞 70 0.60%
    連詞 106 0.91%
    助詞 29 0.25%
    語(yǔ)氣詞 20 0.17%
    量詞詞組 17 0.15%
    熟語(yǔ) 57 0.49%
    總計(jì) 11683 100.00%

     

    二、年度高頻詞與社會(huì)生活熱點(diǎn)

           高頻詞具有穩(wěn)定性,因此歷年來(lái)的高頻詞統(tǒng)計(jì)中,相同的詞種占了絕大部分,且多為基本詞匯,獨(dú)用詞種數(shù)較少。
          1.基本情況
          從表6,我們可以看出2011-2014年的高頻詞獨(dú)用詞種數(shù)比例不一,其中2011年最高,接近20%。2013年最低,不到13%。獨(dú)用詞中名詞,尤其是專有名詞居多。
    表6:2011-2014年度高頻詞詞種數(shù)比較
    年度 獨(dú)用詞種數(shù) 比例
    2011年 1997 19.31%
    2012年 1769 16.52%
    2013年 1313 12.94%
    2014年 1222 13.97%
           獨(dú)用詞種數(shù)的出現(xiàn)往往取決于當(dāng)年大眾的關(guān)注焦點(diǎn),也就是社會(huì)生活的熱點(diǎn)。因此我們通過比較歷年來(lái)的獨(dú)用詞種數(shù),不僅可以了解當(dāng)年的用詞情況,還能知曉當(dāng)年的“大事記”。由于數(shù)量眾多,這里以高頻詞獨(dú)用詞中使用頻率的前120位為范圍,從中挑選出特色詞,并以此為基礎(chǔ),挖掘出語(yǔ)言生活中的社會(huì)現(xiàn)象。詳情如表7所示。
    表7:2011-2014年度高頻詞獨(dú)用詞中的特色詞
    年度 前120個(gè)高頻獨(dú)用詞中具有年度特色的詞舉例
    2011 鄭淵潔、辛亥革命、溥儀、袁世凱、油價(jià)、辛亥、紫禁城、馮玉祥、王妃、梁山、 1911年、汪精衛(wèi)、哈利、盧作孚、清政府、革命黨、好漢、同盟會(huì)、水滸傳、武昌起義
    2012 火星、法醫(yī)、雷雨、火柴、賽事、陳祖德、林兆華、小劇場(chǎng)、莫言、焦菊隱、圍棋、京味、雷鋒、索馬里、突擊隊(duì)、膠囊、末日、龍年、摩加迪沙、瑞典、火炬、海嘯、婚姻法、明膠、開幕式
    2013 段振豪、外援、張國(guó)榮、貝克漢姆、足協(xié)、卡馬喬、達(dá)喀爾、助學(xué)金、恒大、肯尼迪、恐怖主義、伊拉克、斯諾登、奧斯瓦爾德、鄭曉龍、冤假錯(cuò)案
    2014 幾內(nèi)亞、醫(yī)療隊(duì)、付麗、張昆鵬、童星、姚貝娜、速遞、鄧波兒、家風(fēng)、北約、英拉、反貪、軌道、交通、醫(yī)護(hù)、值班、華約、凈化器、大操大辦
     
            2.辛亥革命紀(jì)念活動(dòng)與2011年度高頻詞
            2011年正好是辛亥革命的100周年。10月9日,北京人民大會(huì)堂舉行了紀(jì)念辛亥革命100周年大會(huì),全國(guó)媒體都聚焦于辛亥革命及其紀(jì)念活動(dòng),所以《北京晚報(bào)》在2011出現(xiàn)了“辛亥革命、溥儀、袁世凱、辛亥、紫禁城、馮玉祥、1911年、汪精衛(wèi)、盧作孚、清政府、革命黨、同盟會(huì)”等詞。2011年4月19日,英國(guó)威廉王子和凱特王妃的世紀(jì)婚禮同樣舉世矚目,故2011獨(dú)現(xiàn)詞中出現(xiàn)了“王妃”。“油價(jià)”反映了2011年不穩(wěn)定的原油價(jià)格。另外,“梁山、好漢、水滸傳”和“哈利”則分別反映了2011年的電視劇《新水滸傳》和哈利波特系列電影終結(jié)篇《哈利·波特與死亡圣器(下)》的火熱程度。這些無(wú)一不是當(dāng)年國(guó)際國(guó)內(nèi)的熱點(diǎn)事件。
           3.北京人藝院慶活動(dòng)、莫言獲獎(jiǎng)等與2012年度高頻詞
           2012年是北京人民藝術(shù)劇院(簡(jiǎn)稱“北京人藝”)成立的60周年,北京人藝是國(guó)家級(jí)的藝術(shù)殿堂,從2012年年初就啟動(dòng)了北京人藝建院六十周年的系列慶?;顒?dòng),《北京晚報(bào)》里出現(xiàn)了“雷雨、林兆華、小劇場(chǎng)、焦菊隱、京味”等詞,它們或是北京人藝上演的劇目,或是北京人藝的導(dǎo)演,或是北京人藝的特色,都與北京人藝密切相關(guān)。2012年10月11日,瑞典文學(xué)院授予了莫言諾貝爾文學(xué)獎(jiǎng),這是迄今為止第一個(gè)真正意義上屬于中國(guó)的諾貝爾獎(jiǎng),引發(fā)了全國(guó)轟動(dòng),“莫言”也成為了《北京晚報(bào)》2012年的高頻詞。2012年也是雷鋒逝世的50周年,全國(guó)上下紛紛開展了“學(xué)雷鋒”活動(dòng),“雷鋒”在2012年成為高頻詞正是反映了這一現(xiàn)象。“賽事、火炬、開幕式”等詞的出現(xiàn)則是與2012年倫敦舉辦的第30屆奧運(yùn)會(huì)有關(guān)。“索馬里、摩加迪沙”反映了2012年2月8日發(fā)生在索馬里首都摩加迪沙的汽車炸彈襲擊事件。“膠囊、明膠”則是與引發(fā)了熱議的“毒膠囊”事件和“老酸奶、果凍添加工業(yè)明膠”事件有關(guān)。另外,“婚姻法”反映了2012年熱點(diǎn)社會(huì)事件之一,即新《婚姻法》的頒布。而“火星、末日、火柴、瑞典”則涉及到2012年的“末日”傳言,這一傳言宣稱地球?qū)⒃?012年12月21日發(fā)生重大災(zāi)難,或出現(xiàn)“連續(xù)的三天黑夜”等異象,因此“移居到火星”、“世界末日”、“瘋搶火柴、蠟燭”“瑞典火柴銷售額大幅增長(zhǎng)”等相關(guān)新聞便接踵而至。
           4.足壇要聞、助學(xué)金政策等與2013年度主題詞
          “外援、貝克漢姆、卡馬喬、足協(xié)、恒大”等的出現(xiàn)反映了2013年足壇的重大新聞,比如2013年5月16日,貝克漢姆正式宣布將退出職業(yè)足壇,引起全世界關(guān)注。6月,國(guó)足主教練卡馬喬與中國(guó)足協(xié)解約;8月,北京律師熊智向中國(guó)國(guó)家稅務(wù)總局提交實(shí)名舉報(bào),舉報(bào)卡馬喬團(tuán)隊(duì)偷逃稅款,要求嚴(yán)懲足協(xié);11月,廣州恒大足球俱樂部獲得了亞冠聯(lián)賽的冠軍,取得了歷史最好成績(jī)。2013年也是美國(guó)總統(tǒng)肯尼迪遇刺身亡的50周年,“肯尼迪、恐怖主義、奧斯瓦爾德”的出現(xiàn)就是基于這一事件。2013年司法機(jī)關(guān)平反了5起,涉及14名當(dāng)事人的冤假錯(cuò)案,并啟動(dòng)防冤案機(jī)制,響應(yīng)了十八大以來(lái)習(xí)近平總書記在法治建設(shè)工作中強(qiáng)調(diào)“要努力讓人民群眾在每一個(gè)司法案件中都感受到公平正義”的號(hào)召,“冤假錯(cuò)案”成為2013年的高頻詞便是由于這個(gè)原因。另外,“助學(xué)金”則反映了2013年財(cái)政部、教育部將研究生普通獎(jiǎng)學(xué)金調(diào)整為研究生“國(guó)家助學(xué)金”,并規(guī)定博士生的標(biāo)準(zhǔn)為每生每年不低于1萬(wàn)元,碩士生的標(biāo)準(zhǔn)為每生每年不低于6000元的教育政策。
            5.社會(huì)熱點(diǎn)事件與2014年度主題詞
    2014年只統(tǒng)計(jì)了3個(gè)月的語(yǔ)料,所以獨(dú)用詞也較少。“付麗、張昆鵬、速遞”和“醫(yī)護(hù)、值班”分別反映了中通速遞員張昆鵬入室謀財(cái)害命和2014年2月25日南京醫(yī)護(hù)人員被打這兩個(gè)惡性社會(huì)事件。“反貪、大操大辦”則是由于習(xí)近平總書記頒布的關(guān)于《加強(qiáng)黨員領(lǐng)導(dǎo)干部廉潔自律嚴(yán)禁大操大辦宴席的規(guī)定》。2014年,姚貝娜登上中央電視臺(tái)馬年春晚,并在零點(diǎn)鐘聲敲響前獻(xiàn)唱壓軸歌曲《天耀中華》,成為人們關(guān)注的焦點(diǎn),“姚貝娜”成為2014的高頻詞也與此相關(guān)。2014年2月10日,美國(guó)曾經(jīng)的著名童星鄧波兒去世,引發(fā)了人們對(duì)她的懷念和追憶,“童星、鄧波兒”則是這一事件的關(guān)鍵詞。
     
           前面已經(jīng)提到,2011-2014年高頻詞中的獨(dú)現(xiàn)詞以專有名詞居多,而這些專有名詞往往反映了當(dāng)年社會(huì)的熱點(diǎn)、焦點(diǎn)人物或事件。這些焦點(diǎn)、熱點(diǎn)來(lái)自社會(huì)生活的方方面面,既囊括國(guó)際焦點(diǎn),又含有國(guó)內(nèi)熱點(diǎn);既涵蓋政治、經(jīng)濟(jì)熱點(diǎn),又網(wǎng)羅社會(huì)、生活事件;既涉及體育、娛樂焦點(diǎn),又包括文化、教育熱點(diǎn)。言而總之,語(yǔ)言生活不僅來(lái)自于社會(huì)生活,也全面反映了社會(huì)生活。
     
     
     
     
     
     
     
     
     
     
     
     
     
    附錄:《北京晚報(bào)》詞的總體使用情況
    一、基本情況
    1.詞的年度使用情況
    (1)分詞單位總數(shù):由分詞軟件對(duì)語(yǔ)料切分得到的字符串的總數(shù)為4209587次。其中標(biāo)點(diǎn)符號(hào)出現(xiàn)649969次,其他分詞單位出現(xiàn)3559618次。
    (2)總詞次:在排除純阿拉伯?dāng)?shù)字后,得到總詞次共計(jì)3530389次。
    (3)詞種數(shù):79158個(gè)。
    (4)2011-2014年度詞使用情況:和漢字的使用情況相似,由于2011、2014年的語(yǔ)料較2012、2013年少,因此2011、2014年得出的總詞次和詞種數(shù)明顯要少于另外兩年。而2012、2013年的詞種數(shù)都穩(wěn)定在50000詞以上,其中2012年的詞種數(shù)比2013年多了4833個(gè)。具體數(shù)據(jù)見表1。
    表1:2011-2014年度詞語(yǔ)使用情況

    年度 總詞次 詞種數(shù)  
     
    2011年 473368 37038  
    2012年 1476810 56080  
    2013年 1248944 51247  
    2014年 331267 28985  
    總計(jì) 3530389 79158  

     

    2.詞種覆蓋率
    表2分別統(tǒng)計(jì)了不同覆蓋率的詞種數(shù)。
    表2:不同覆蓋率的詞種數(shù)

    覆蓋率(%) 詞種數(shù) 比例(%)
    10 3 0.00%
    20 20 0.03%
    30 65 0.08%
    40 173 0.22%
    50 430 0.54%
    60 962 1.22%
    70 2054 2.59%
    80 4543 5.74%
    90 11683 14.76%
    91 13081 16.52%
    92 14734 18.61%
    93 16708 21.11%
    94 19102 24.13%
    95 22077 27.89%
    96 25859 32.67%
    97 30898 39.03%
    98 38161 48.21%
    99 50330 63.58%
    100 79158 100%
    由表可知,“的”“是”“在”是頻率最高的前3個(gè)詞,它們占詞種數(shù)的比例幾乎為0,卻覆蓋了全部語(yǔ)料的10%。僅430個(gè)詞種,就已經(jīng)覆蓋了語(yǔ)料的一半左右。而不到15%的詞種,累積覆蓋率已經(jīng)高達(dá)90%。覆蓋率在99%-100%這一段的詞種數(shù)有28828個(gè),占詞種數(shù)的36.42%,卻只覆蓋了語(yǔ)料的1%。由此可見,讀者只要掌握一萬(wàn)多個(gè)詞,就可以順暢地閱讀《北京晚報(bào)》了。
    除此之外,我們也可以看到,詞種數(shù)的第一次大幅增長(zhǎng)出現(xiàn)在80%以后,共增加了7140個(gè)詞種,提升約9.02個(gè)百分點(diǎn)。接下來(lái)90%~98%這段,詞種數(shù)穩(wěn)步增長(zhǎng),增長(zhǎng)幅度在2%~9%之間。最后98%~100%這段,詞種數(shù)迅速增長(zhǎng)了41001個(gè),增長(zhǎng)幅度超過51個(gè)百分點(diǎn)。意味著,超過一半的詞種數(shù)只占了全部語(yǔ)料的2%。由此得出,頻率越高的詞種,效用也越大。
    根據(jù)累積詞頻,可以將詞種分到四個(gè)不同的詞區(qū)。累積頻率不超過50%的詞處于極高頻詞區(qū),這一詞區(qū)的詞雖然數(shù)量少,但使用頻率卻極高,可以說(shuō)是《北京晚報(bào)》里的核心詞。累積頻率大于50%,但卻不超過90%的詞是高頻詞。為了方便稱呼,可以把極高頻詞區(qū)和高頻詞區(qū)里的詞都統(tǒng)稱為高頻詞。累積頻率在90%-99%的詞是中頻詞,使用頻率在高頻詞和低頻詞之間,累積頻率越靠近99%,使用頻率越低。最后99%-100%這一段的詞是低頻詞,數(shù)量占了極大部分,但使用頻率卻最低。詞區(qū)的具體分布情況見表3。
    表3:2011—2014年度詞區(qū)分布

    字區(qū) 詞種數(shù)量 比例
    核心詞區(qū)
    (0-50%)
    全部語(yǔ)料 430 0.54%
    2011年 407 1.10%
    2012年 433 0.77%
    2013年 419 0.82%
    2014年 407 1.40%
    高頻詞區(qū)(50%-90%) 全部語(yǔ)料 11253 14.22%
    2011年 9935 26.82%
    2012年 10274 18.32%
    2013年 9728 18.98%
    2014年 8338 28.77%
    中頻詞區(qū)(90%-99%) 全部語(yǔ)料 39077 48.82%
    2011年 21963 59.30%
    2012年 30604 54.57%
    2013年 28610 55.83%
    2014年 16927 58.40%
    低頻詞區(qū)
    (99%-100%)
    全部語(yǔ)料 29828 36.42%
    2011年 4734 12.78%
    2012年 14769 26.34%
    2013年 12490 24.37%
    2014年 3313 11.43%
    從上表,我們可以看出高頻詞(包括核心詞區(qū)和高頻詞區(qū))中占總詞種數(shù)的14.76%,卻覆蓋了全部語(yǔ)料的90%,其中的核心詞區(qū)以0.54的比例覆蓋了一半的語(yǔ)料,其使用頻率之高顯而易見。中頻詞區(qū)占的比例達(dá)到了48.82%,接近詞種總數(shù)的一半,低頻區(qū)也高達(dá)36.42%。由此可見,《北京晚報(bào)》的詞種集中在中頻詞區(qū)和低頻詞區(qū),高頻詞數(shù)量少,低頻詞占了絕大多數(shù)。如果排除2011和2014年,單看2012和2013年,高頻詞穩(wěn)定在10000-11000個(gè)左右,比例在19%-20%之間,其他幾個(gè)詞區(qū)總體來(lái)說(shuō)也比較穩(wěn)定。
    3.不同頻次范圍的詞種情況
    從表4中,我們可以看出在全部語(yǔ)料中只使用過一次的詞語(yǔ)就占了28.25%。頻次不超過5的詞種數(shù)占全部詞種的60%左右。頻次不超過20的詞種數(shù)占81.96%。頻次在100以下的詞種就已經(jīng)達(dá)到94.67%。頻次不超過1000的詞種高達(dá)99.48%,接近100%了。頻次在1000以上的詞種不到1%。低頻詞的詞種數(shù)有很多,極高頻詞只有極少一部分,不到500個(gè)。
    表4:不同頻次范圍的詞種數(shù)

    頻次 詞種數(shù) 比例(%) 累計(jì)(%)
    1 22356 28.25% 28.25%
    2 9987 12.62% 40.86%
    3 6341 8.01% 48.87%
    4 4707 5.95% 54.82%
    5 3483 4.40% 59.22%
    6-10 10030 12.67% 71.89%
    11-20 7990 10.09% 81.96%
    21-100 10047 12.69% 94.67%
    101-1000 3803 4.80% 99.48%
    1001以上 414 0.52% 100.00%
     
     
     
    (李秋逸,教育部語(yǔ)言文字應(yīng)用研究所)
     

    網(wǎng)站首頁(yè)  |  關(guān)于協(xié)會(huì)  |  新聞動(dòng)態(tài)  |  會(huì)員風(fēng)采  |  語(yǔ)文建設(shè)  |  語(yǔ)言應(yīng)用  |  語(yǔ)言博覽  |  友情鏈接  |  聯(lián)系我們

    Copyright ? 2016  北京語(yǔ)言文字工作協(xié)會(huì)  版權(quán)所有
    地址:北京市東城區(qū)和平里七區(qū)16號(hào)樓院610室  電話:010-84504550
    京ICP備16040353號(hào)-1 京公網(wǎng)安備11010102004415