Diksyunaryo ng Dalas ng Pambansang Corpus ng Wikang Ruso: Konsepto at Teknolohiya ng Paglikha.

DALASANG DICTIONARY

uri ng diksyunaryo (Tingnan ang Diksyunaryo) (karaniwan ay monolingual), kung saan ang mga leksikal na yunit ay nailalarawan sa mga tuntunin ng antas ng paggamit ng mga ito sa kabuuan ng mga teksto na kumakatawan sa alinman sa kabuuan ng wika, o para sa isang hiwalay na istilo ng pagganap (Tingnan ang Estilo), o para sa isang may-akda . Depende sa uri, ang mga lexical unit ay naiiba sa Ch. mga anyo ng salita, mga salita (lexemes), mga base ng salita (ginamit sa computer science), mga salita sa ilang mga kahulugan (semantic Ch. with.), mga parirala. Mayroong ganap at kaugnay na mga katangian ng paggamit ng isang leksikal na yunit ( x).Ang ganap na katangian ay ang dalas ( f) ng ibinigay na lexical unit ( X), katumbas ng bilang ng mga gamit X sa sinuri na hanay ng mga teksto f(x). Sa Ch. alinman f(x), o ang normalized na dalas

saan N- ang bilang ng mga pinag-aralan na salita ng teksto. Ang relatibong katangian ng paggamit ng isang lexical unit ay ang ranggo nito (ang bilang ng mga lexical unit na sa isang partikular na Ch. ay may ganap na katangian ng paggamit na mas mataas o katumbas ng absolute na katangian ng isang partikular na lexical unit), o ilang palatandaan kung saan maaaring kalkulahin ang ranggo nang may higit o mas kaunting katumpakan. Sa karamihan ng Ch. parehong ganap at kamag-anak na mga katangian ay ibinigay. Ch. s. ay ginagamit upang lumikha ng mga epektibong pamamaraan ng pagtuturo ng wika, upang i-highlight mga keyword(sa computer science), upang lumikha ng mga rational code (sa teorya ng komunikasyon).

Lit.: Ermolenko G.V., Linguistic statistics. Maikling sanaysay at bibliographic index, Alma-Ata, 1970; Steinfeldt E. A., Diksyunaryo ng Dalas ng Modernong Wikang Pampanitikan ng Ruso, M., 1973; Diksyunaryo ng Dalas ng Wikang Ruso, ed. Na-edit ni L. N. Zasorina. Moscow, 1977. Kučera H., Francis W., Computational analysis ng kasalukuyang American English, Providence, 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier H., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des fréquences vocabulaire littéraire des XIX et XX siecles, v. 1-4, P.-Nancy, 1971 (Centre de recherche pour un trésor de la langue française); Bailey R., Doležel L., Isang annotated na bibliograpiya ng istatistikal na estilista, Ann Arbor, 1968.

Mula sa Wikipedia, ang malayang ensiklopedya

Diksyunaryo ng Dalas(o listahan ng dalas) - isang hanay ng mga salita ng isang partikular na wika (o sublanguage) kasama ang impormasyon tungkol sa dalas ng paglitaw ng mga ito. Ang diksyunaryo ay maaaring pagbukud-bukurin ayon sa dalas, ayon sa alpabeto (pagkatapos para sa bawat salita ay ipahiwatig ang dalas nito), ayon sa mga pangkat ng mga salita (halimbawa, ang unang libong pinakamadalas na salita, na sinusundan ng pangalawa, atbp.), ayon sa tipikal (mga salitang ay madalas para sa karamihan ng mga teksto), atbp. Ang mga listahan ng dalas ay ginagamit para sa pagtuturo ng wika, paglikha ng mga bagong bokabularyo, computational linguistics application, linguistic typology research, atbp.

Mga listahan ng dalas ng pagbuo

Karaniwan, ang mga diksyunaryo ng dalas ay binuo batay sa text corpora: isang set ng mga teksto ang kinuha na kumakatawan sa kabuuan ng wika, para sa ilang paksa o isang partikular na may-akda (tingnan ang Griboedov's Frequency Dictionary), at mga anyo ng salita, lemmas, at ang mga bahagi ng pananalita ay kinukuha mula rito (ang huli ay kinukuha kung ang corpus ay may morphological markings).

Ang mga problema sa paggawa ng mga listahan ng dalas ay:

  • reproducibility (kung ang mga resulta ay magiging magkapareho sa isa pang katulad na kaso),
  • pagsabog sa dalas ng mga indibidwal na salita (ang dalas ng isang salita sa isang teksto ay maaaring makaapekto sa posisyon nito sa listahan ng dalas),
  • kahirapan sa pagtukoy sa posisyon ng mga hindi gaanong madalas na salita, na ginagawang imposibleng ranggo ang mga ito nang makatwiran; halimbawa, ang salita basura ay kasama sa 20,000 pinaka-madalas na salita, habang ang salita ungol ay nasa labas ng listahan ng unang 40 libo.

Ang lahat ng mga problemang ito ay nauugnay sa katotohanan na, mula sa isang istatistikal na pananaw, ang isang wika ay isang malaking bilang ng mga bihirang pangyayari(Zipf's Law), bilang isang resulta kung saan ang isang maliit na bilang ng mga salita ay madalas na nangyayari, at ang karamihan sa mga salita ay may napakababang dalas. dalas ng salita at(ang pinakamadalas na salita sa wikang Ruso) ay halos 10 beses na mas mataas kaysa sa dalas ng salita tungkol sa, na kung saan ay nangyayari nang 100 beses na mas madalas kaysa sa mga ordinaryong salita gaya ng paglalakbay, katandaan o fashion.

Maaaring gamitin ang isang metapora ng hobbit upang ilarawan ang mga pagsabog ng dalas (orihinal na ginamit ni Adam Kilgarriff ang medyo bihirang salitang Ingles na whelk, isang uri ng sea mollusc, eng. whelk ): kung mayroong ilang mga teksto sa corpus tungkol sa mga hobbit, kung gayon ang salitang ito ay gagamitin sa halos bawat pangungusap. Bilang resulta, ang dalas nito sa mga tekstong ito ay maihahambing sa dalas ng mga functional na salita, ngunit sa listahan ng dalas ng isang malaking corpus, na kinabibilangan ng mga naturang teksto, ang salitang ito ay magkakaroon ng hindi kapani-paniwalang mataas na ranggo. Ang ganitong mga pagsabog ng dalas ay maaaring matantya gamit ang koepisyent ng pagkakaiba-iba: ang ratio ng karaniwang paglihis sa ibig sabihin ng dalas.

Paghahambing ng kaso

Ang mga diksyunaryo ng dalas ay nagbibigay ng kakayahang maghambing ng dalawang corpora upang matukoy ang mga salitang pinaka katangian ng bawat isa. Dahil sa katotohanan na ang mga sukat ng corpora ay maaaring magkaiba, ang isang mas maaasahang pagtatantya ng dalas ng mga salita ay batay sa pagbabawas ng mga ito sa CMS (frequency per million word forms, eng. ipm, mga pagkakataon sa bawat milyong salita ). salita at ay may dalas na humigit-kumulang 30,000 hms, ang salita matandang edad- mga 30.

Upang matukoy ang hanay ng mga keyword na nagpapakilala sa isang corpus mula sa isa pa, maaari kang gumamit ng iba't ibang mga istatistikal na sukat: chi-square, ratio ng posibilidad (eng. Pagsubok sa ratio ng posibilidad ) atbp.

Tingnan din

Sumulat ng pagsusuri sa artikulong "Frequency Dictionary"

Panitikan

  • Adam Kilgarriff// International Journal of Lexicography. - 1997. - No. 10(2). - P. 135-155.
  • Lyashevskaya O. N., Sharov S. A.. - M .: Azbukovnik, 2009. - 1087 p. - ISBN 978-5-91172-024-7.
  • Diksyunaryo ng Dalas // Great Soviet Encyclopedia: [sa 30 volume] / ch. ed. A. M. Prokhorov. - 3rd ed. - M. : Encyclopedia ng Sobyet, 1969-1978.
  • Diksyunaryo ng Dalas ng Wikang Ruso / Ed. L. N. Zasorina. - M .: Wikang Ruso, 1977.
  • // Lermontov Encyclopedia / USSR Academy of Sciences. In-t rus. naiilawan (Pushkin. Bahay); Scientific-ed. council ng publishing house na “Mga Kuwago. Encyclo." - M .: Sov. Encycl., 1981. - S. 717-774.
  • Sharov S. A. .
  • Steinfeldt E. A. Diksyunaryo ng Dalas ng Modernong Wikang Pampanitikan ng Ruso. - M., 1973.

Mga link

Isang sipi na nagpapakilala sa Frequency Dictionary

Ang tumigil na mga sundalong impanterya, na nagsisiksikan sa putik na natapakan ng tulay, ay tumingin sa malinis, makikinang na mga hussar, na magkakasuwato na dumaraan sa kanila, na may espesyal na hindi palakaibigang pakiramdam ng pagkalayo at pangungutya na kadalasang nakakasalubong ng iba't ibang sangay ng hukbo.
- Magaling guys! Kung lamang sa Podnovinskoye!
- Anong silbi nila! Para lamang sa palabas at pagmamaneho! sabi naman ng isa.
– Infantry, hindi alikabok! - biro ng hussar, kung saan ang kabayo, naglalaro, nagsaboy ng putik sa infantryman.
"Itataboy sana kita ng isang knapsack para sa dalawang transition, ang mga laces ay napudpod na," sabi ng infantryman, pinupunasan ang dumi sa kanyang mukha gamit ang kanyang manggas; - kung hindi, ito ay hindi isang tao, ngunit isang ibon ang nakaupo!
"Mas mabuting isakay ka sa kabayo, Zikin, kung ikaw ay magaling," biro ng korporal sa payat na sundalo, na napilipit sa bigat ng knapsack.
"Kumuha ng baton sa pagitan ng iyong mga binti, narito ang isang kabayo para sa iyo," sagot ng hussar.

Ang iba pang impanterya ay nagmamadaling tumawid sa tulay, umiikot sa pasukan. Sa wakas ang lahat ng mga bagon ay lumipas, ang crush ay naging mas kaunti, at ang huling batalyon ay pumasok sa tulay. Ang ilang mga hussars ng iskwadron ni Denisov ay nanatili sa kabilang panig ng tulay laban sa kaaway. Ang kaaway, na nakikita sa malayo mula sa kabaligtaran ng bundok, mula sa ibaba, mula sa tulay, ay hindi pa nakikita, dahil mula sa guwang kung saan dumadaloy ang ilog, ang abot-tanaw ay nagtatapos sa kabaligtaran na taas nang hindi hihigit sa kalahating verst. Sa unahan ay isang disyerto, kung saan sa ilang lugar ay gumagalaw ang mga grupo ng aming naglalakbay na Cossack. Biglang, sa kabilang elevation ng kalsada, lumitaw ang mga tropa na naka-blue hood at artilerya. Ito ang mga Pranses. Ang tropa ng Cossacks ay lumipat pababa ng burol. Ang lahat ng mga opisyal at tao ng iskwadron ni Denisov, kahit na sinubukan nilang makipag-usap tungkol sa mga estranghero at tumingin sa paligid, ay hindi tumigil sa pag-iisip lamang tungkol sa kung ano ang naroroon, sa bundok, at walang tigil na sumilip sa mga lugar na lumitaw sa abot-tanaw, na kinikilala nila bilang. tropa ng kaaway. Muling lumiwanag ang panahon sa hapon, maliwanag na lumubog ang araw sa ibabaw ng Danube at ang madilim na kabundukan na nakapalibot dito. Tahimik ito, at mula sa bundok na iyon ay paminsan-minsan ay nanggagaling ang mga tunog ng mga busina at hiyawan ng kaaway. Walang sinuman sa pagitan ng squadron at ng kaaway, maliban sa maliliit na siding. Walang laman na espasyo, tatlong daang dupa, ang naghiwalay sa kanya. Huminto sa pagpapaputok ang kalaban, at mas malinaw na naramdaman ang mahigpit, mabigat, hindi mapipigilan at mailap na linyang naghihiwalay sa dalawang tropa ng kaaway.
“Isang hakbang sa kabila ng linyang ito, na nagpapaalala sa linyang naghihiwalay sa mga buhay mula sa mga patay, at - ang hindi nalalaman ng pagdurusa at kamatayan. At anong meron? Sinong nandyan? doon, sa likod ng bukid na ito, at isang puno, at isang bubong na naiilawan ng araw? Walang nakakaalam, at may gustong malaman; at nakakatakot tumawid sa linyang ito, at gusto kong tumawid dito; at alam mo na maya-maya ay kailangan mong tumawid at alamin kung ano ang naroroon, sa kabilang linya, tulad ng hindi maiiwasang malaman kung ano ang naroroon, sa kabilang panig ng kamatayan. At siya mismo ay malakas, malusog, masayahin at magagalitin, at napapaligiran ng mga malulusog at masiglang buhay na tao. Kaya't kung hindi siya nag-iisip, kung gayon ang bawat tao na nakikita ng kaaway ay nararamdaman, at ang pakiramdam na ito ay nagbibigay ng isang espesyal na kinang at masayang talas ng mga impresyon sa lahat ng nangyayari sa mga sandaling ito.
Ang usok ng isang pagbaril ay lumitaw sa isang burol malapit sa kaaway, at ang bola, sumisipol, ay lumipad sa mga ulo ng hussar squadron. Ang mga opisyal na nakatayong magkasama ay naghiwa-hiwalay sa kanilang mga lugar. Ang mga hussar ay masigasig na nagsimulang ituwid ang mga kabayo. Natahimik ang lahat sa iskwadron. Ang lahat ay tumingin sa unahan sa kaaway at sa kumander ng iskwadron, naghihintay ng utos. Ang isa pang, ikatlong core ay lumipad. Halata na pinaputukan nila ang mga hussar; ngunit ang cannonball, na sumisipol nang pantay-pantay, ay lumipad sa mga ulo ng mga hussar at tumama sa isang lugar sa likod. Ang mga hussar ay hindi lumingon, ngunit sa bawat tunog ng isang lumilipad na bola ng kanyon, na tila sa pag-uutos, ang buong iskwadron, na may pantay na pagkakaiba-iba ng mga mukha, na pinipigilan ang kanyang hininga habang lumilipad ang bola ng kanyon, ay bumangon sa mga stirrups at muling nahulog. Ang mga sundalo, nang hindi lumingon ang kanilang mga ulo, ay nagkatinginan sa isa't isa, mausisa na naghahanap ng impresyon ng isang kasama. Sa bawat mukha, mula kay Denisov hanggang sa bugler, malapit sa mga labi at baba, isang karaniwang katangian ng pakikibaka, pangangati at kaguluhan ang lumitaw. Kumunot ang noo ng sarhento, nakatingin sa mga kawal, na parang nagbabanta ng parusa. Si Junker Mironov ay yumuko sa bawat daanan ng core. Si Rostov, na nakatayo sa kaliwang flank sa kanyang hinawakan ngunit nakikitang Grachik, ay may masayang tingin ng isang estudyante na tinawag sa harap ng isang malaking audience para sa isang pagsusulit, kung saan siya ay sigurado na siya ay magiging mahusay. Siya ay tumingin sa paligid ng malinaw at maliwanag sa lahat, na parang humihiling sa kanila na bigyang pansin kung paano siya kalmado na nakatayo sa ilalim ng mga kanyon. Ngunit sa kanyang mukha, masyadong, ang parehong tampok ng isang bagay na bago at mahigpit, laban sa kanyang kalooban, ay ipinakita malapit sa bibig.
- Sino ang yumuko doon? Yunkeg "Mig" ons! Hexog "oh, tumingin ka sakin" ite! - sigaw ni Denisov, na hindi makatayo at umiikot sa isang kabayo sa harap ng iskwadron.
Ang matangos na ilong at itim na buhok na mukha ni Vaska Denisov at ang kanyang buong maliit, natumba na pigura gamit ang kanyang matipuno (na may maiikling daliri na natatakpan ng buhok) na kamay, kung saan hawak niya ang hilt ng iginuhit na saber, ay eksaktong kapareho ng lagi, lalo na sa gabi, pagkatapos uminom ng dalawang bote. Siya ay mas mapula lamang kaysa karaniwan, at, ibinabato ang kanyang makapal na ulo na parang mga ibon kapag sila ay umiinom, walang awa na idiniin ang kanyang mga spurs sa gilid ng magandang Bedouin gamit ang kanyang maliliit na paa, siya, na parang nahuhulog sa likod, ay tumakbo sa kabilang gilid ng squadron at sa paos na boses ay sumigaw upang siyasatin ang mga pistola. Nagdrive siya papunta kay Kirsten. Ang kapitan ng kawani, sa isang malawak at mahinahong kabayo, ay sumakay patungo kay Denisov nang mabilis. Ang mga tauhan ng kapitan, na may mahahabang bigote, ay kasingseryoso gaya ng dati, tanging ang kanyang mga mata lamang ang kumikinang kaysa karaniwan.

Ang mga diksyunaryo ng dalas ay mga diksyunaryo na naglalaman ng mga numerical na katangian ng paggamit ng salita; ang mga salita sa mga ito ay nakaayos depende sa dalas ng paggamit ng mga salita sa mga teksto ng isang tiyak na haba. Ang medyo bagong uri ng mga publikasyong lexicographic na ito ay aktibong umuunlad sa mga nakaraang taon dahil sa pagpapakilala ng mga bagong teknolohiya sa leksikograpiya.

Ang mga diksyunaryo ng dalas ay nagbibigay ng mahusay na materyal para sa paglutas ng ilang pangkalahatang teoretikal at inilapat na mga problema sa linggwistika, kinakailangan ang mga ito para sa pag-iipon ng mga diksyunaryong pang-edukasyon, pagbuo ng mga aklat-aralin, at linguo-methodological adaptation ng mga teksto.

Ang unang diksyunaryo ng dalas sa linggwistika ng Russia ay ang "Frequency Dictionary of the Modern Russian Literary Language" ni E.A. Steinfeldt, na pinagsama-sama sa batayan ng mga materyales mula sa modernong panitikan, press, mga broadcast sa radyo (50-60s ng XX siglo) at pangunahing tinutugunan ang mga guro ng Russian bilang isang hindi katutubong wika. Nagpapakita ito ng data sa dalas ng mga salita na nakuha batay sa pagproseso ng mga teksto ng 400,000 salita. Ang diksyunaryo ay naglalaman ng mga salita na sumasaklaw ng hanggang 80% ng iba't ibang mga teksto. Bilang karagdagan sa karaniwang mga indikasyon ng bilang ng mga gamit, ang bilang ng mga teksto kung saan ang ibinigay na salita ay nabanggit. Ibinigay ang mga istatistikal na katangian ng ilang kategoryang morphological. Diksyunaryo ng E.A. Nagsilbi si Steinfeldt bilang batayan para sa pag-iipon ng maraming mga diksyunaryong pang-edukasyon na nagpapaliwanag at pinakamababang mga diksyunaryo.

"Frequency Dictionary of the Russian Language" na na-edit ni L.N. Ang Zasorina ay isang koleksyon ng mga istatistikal na data sa lexical na komposisyon ng modernong wikang Ruso. Ang diksyunaryo ay pinagsama-sama sa batayan ng computer processing ng 1 milyong mga paggamit ng salita; ito ay sumasaklaw ng higit pa sa wika kathang-isip, ngunit din sa pamamahayag at talumpati sa negosyo, na umiral sa larangan komunikasyong masa. Kronolohikal na balangkas ang diksyunaryo, gaya ng tala ng mga compiler, "ay yumakap sa panahon mula sa mga gawa nina Lenin at Gorky hanggang 60s," kaya ang mga mananaliksik ay tumatanggap ng mahalagang materyal para sa pag-aaral ng bokabularyo panahon ng Sobyet. Kasama sa alphabetic-frequency dictionary ang lahat ng lexemes na makikita sa mga text, bawat lexical unit ay binibigyan ng quantitative na katangian. Naglalaman ang diksyunaryo ng dalas ng mga salita na may dalas na 10 pataas, sa kabuuan na 9044 na mga yunit, na nakaayos sa pababang pagkakasunud-sunod ng mga frequency. Ang iba't ibang mga istatistikal na katangian ng mga yunit ng diksyunaryo ay bumubuo ng batayan para sa pag-aaral ng istatistikal na istraktura ng bokabularyo ng wikang Ruso, para sa pagtukoy ng mga hangganan ng pangunahing bokabularyo. Ang apendiks ay naglalaman ng isang malaking praktikal na halaga listahan ng mga homograph at grammatical homonyms.

Ang mga modernong database ay nagbigay ng isang malakas na puwersa sa pagbuo ng mga diksyonaryo ng dalas. Ang "Frequency Dictionary of the Modern Russian Language" ni O. N. Lyashevskaya at S. A. Sharov ay batay sa koleksyon ng mga teksto ng National Corpus of the Russian Language, na kumakatawan sa modernong wikang Ruso noong panahon 1950-2007. Ang laki ng sample, kung saan binuo ang karamihan sa mga seksyon ng diksyunaryo, ay 92 milyong mga paggamit ng salita. Ang diksyunaryo ay naglalaman ng iba't ibang istatistikal na impormasyon tungkol sa 50,000 karaniwang mga pangngalan at 3,000 pangngalang pantangi at pagdadaglat. Ang mga listahan ng dalas ng bokabularyo na tipikal para sa pamamahayag, pasalitang pananalita at iba pang mga istilo ng pagganap, pati na rin ang mga listahan ng mga pinakakaraniwang pangngalan, adjectives, pandiwa at salita ng iba pang bahagi ng pananalita ay ibinibigay. Ang elektronikong bersyon ng diksyunaryo ay nai-publish sa website ng Institute of the Russian Language. V. V. Vinogradova Russian Academy Mga Agham (http://dict.ruslang.ru).

Ang proyektong "Frequency Dictionary of Word Forms of the Russian Language" ni A. V. Ventsov at E. V. Grudeva ay ang unang pagtatangka sa kasaysayan ng pag-compile ng mga frequency ng mga diksyonaryo ng wikang Ruso upang ayusin hindi lexemes, ngunit pinatingkad ang mga form ng salita ayon sa dalas ng paglitaw. Ang diksyunaryo ay pinagsama-sama sa batayan ng isang milyong Corpus ng Russian Literary Language (www.narusco.ru). Ang proyekto ay nagpapakita ng kumpletong paglalarawan ng diksyunaryo at ang mga pangunahing seksyon nito sa anyo ng mga limitadong seleksyon.

Sa "Frequency thematic dictionary" Urban pampublikong transportasyon 44 » G.A. Inilalahad ni Martinovich ang mga resulta ng distributive-statistical analysis ng isang conceptual area - 74,521,000 mga paggamit ng salita na kinuha mula sa corpus mga pahayagan sa Russia Kagawaran ng pondo ng makina ng wikang Ruso ng Institute ng wikang Ruso. V. V. Vinogradov, at 29,500 halimbawa mula sa mga teksto ng 9 na pahayagan sa Russia noong 1997.

Maraming mga diksyonaryo ng dalas ay may isang inilapat na kalikasan at pangunahing tinutugunan sa mga compiler ng mga programa, minimum na mga diksyunaryo, mga aklat-aralin sa wikang Ruso. Ang ilan sa kanila ay nag-aayos ng karaniwang bokabularyo, ang iba ay nauugnay sa isang espesyal o genre at naayos sa istilong bahagi ng bokabularyo.

"Dalas ng Diksyunaryo ng Modernong Wikang Ruso" P.I. Binubuo ang Charakose ng dalawang bahagi, na dalawang magkaibang diksyonaryo ng dalas, na ginawa sa magkaibang materyal sa pagsasalita: isa sa mga teksto ng mga aklat-aralin mababang Paaralan, ang iba pa - sa materyal ng nursery kolokyal na pananalita. Ang unang bahagi ay naglalaman ng 5025 na salita, na bumubuo sa 91.6% ng lahat ng paggamit ng salita sa 15 mga aklat-aralin. Ang mga salita ay ipinakita sa dalas at alpabetikong mga listahan. Ang ikalawang bahagi ay nagtatanghal ng 2830 salita ng pang-araw-araw na pagsasalita ng mga bata, na nakaayos ayon sa dalas at ayon sa alpabeto.

Ang diksyunaryo na "2830 na salita na pinakakaraniwang ginagamit sa Russian na kolokyal na pananalita" ay sumasalamin sa core ng mga pinakakaraniwang salita sa modernong kolokyal na pananalita; ito ay pinagsama-sama sa batayan ng isang pagsusuri ng live na kolokyal na pananalita na naitala sa magnetic tape (noong 1964-1966). Ang kabuuang dami ng nakolektang materyal ay 400,000 mga paggamit ng salita. Ang listahan ay ipinakita sa dalawang bersyon - ayon sa alpabeto at ayon sa pagkalat.

"Listahan ng mga pinakakaraniwang salita ng wikang Ruso" na na-edit ni Z.P. Kasama sa Daunene ang mga salita ng unang libong 13 dalas na mga diksyunaryo at mga listahan ng wikang Ruso, na pinagsama-sama sa batayan ng iba't ibang mga materyales. Ang listahan ay naglalaman ng 3917 salita, kasama ang parehong makabuluhan at pantulong na mga salita. Sa tabi ng bawat salita ay ipinahiwatig ang mga mapagkukunan kung saan ito naitala, at ang bilang ng mga mapagkukunang ito, na ginagawang posible na i-highlight ang pinakakaraniwang ginagamit na bokabularyo.

Sa "Frequency Dictionary of the Language of the Newspaper" G.P. Polyakova at G.Ya. Kasama ni Solganika ang 1997 na salita na may dalas na hindi bababa sa 12 sa mga paksa sa pahayagan na may haba na 200,000 mga paggamit ng salita. Ang diksyunaryo ay naglalaman ng isang pangkalahatang listahan ng mga salita sa pagbaba ng dalas, na sumasaklaw sa average na 80-83% ng teksto ng pahayagan.

"Kumplikadong dalas ng diksyunaryo ng Russian siyentipiko at teknikal na bokabularyo" P.N. Ang Denisova et al. ay naglalaman ng mga listahan ng 3047 pinakakaraniwang salita sa panitikang pang-agham at teknikal na Ruso (dalas, alpabeto, pagbabaligtad, pinagsama-sama ng mga bahagi ng pananalita), pati na rin ang mga talahanayan na nagpapahintulot sa isa na hatulan ang paglaganap ng ilang partikular na gramatika na phenomena sa wika ng siyentipiko at teknikal na panitikan.

Kasama sa "Frequency Dictionary of General Scientific Vocabulary" ang 2074 na salita. Ang diksyunaryo ay batay sa isang teksto ng 400,000 salita (mga anyo ng salita). Ang mga mapagkukunan ay mga aklat-aralin para sa mga unibersidad sa anim na sangay ng kaalaman: matematika, pisika, kimika, biology, medisina, heolohiya at heograpiya. Isang sipi ng 2000 na anyo ng salita ang kinuha mula sa bawat pinagmulan. 200 tulad ng mga sample ay napagmasdan. Ang mga salita ay ipinakita sa dalas at alpabetikong mga listahan.

Ang paglalathala ng isang pinagsama-samang uri ng pangkalahatan ay ang aklat na "Lexical Minima ng Wikang Ruso", na nilikha sa ilalim ng pag-edit ni V. V. Morkovkin. Ang diksyunaryo ay bubukas na may listahan na "Basic structural lexical units ng Russian language", na pinagsasama ang mga hindi maliwanag na salita at parirala na nagsisiguro sa paggana ng mga salitang may ganap na halaga at bumubuo ng modal na istraktura ng teksto (halimbawa, upang maging, sa anyo ng, sa pananaw ng, lamang, sa sandaling, bilang karagdagan, sa katunayan, sa ganitong paraan, bagaman, ang kabuuan atbp.). Ang mga sumusunod ay mga listahan ng mga salita na tumataas ang volume, na sumasaklaw sa lexical core ng modernong wikang Ruso: 1) 500 pinakakaraniwang salitang Ruso, 2) 1000 pinakakaraniwang salitang Ruso, 3) 1500 salita, 4) 2000 salita, 5) 2500 salita , 6) 3000 salita, 7) 3500 salita. Ang ikatlong bahagi ng aklat ay isang pampakay na minimum na diksyunaryo ng modernong wikang Ruso, ang layunin nito ay upang ayusin at ipakita ang mga hanay ng pinakamahalagang salitang Ruso na kinakailangan upang matiyak ang mga produktibong uri ng aktibidad sa pagsasalita - pagsasalita at pagsulat. Ang isang mahalagang bahagi ng aklat ay isang seksyon na nagpapakita ng paghahambing at pangkalahatan na halaga ng mga pinakakaraniwang salita sa wikang Ruso ayon sa 8 dalas na mga diksyunaryo. Kaya, ang diksyunaryo ay isang mahalagang tool para sa mga metodologo at guro ng wikang Ruso na kasangkot sa pag-iipon ng mga pantulong sa pagtuturo, mga libro para sa pagbabasa, paghahanda ng mga praktikal na materyales para sa gawaing pang-edukasyon.

Ang isang espesyal na lugar sa mga diksyunaryo ng dalas ay inookupahan ng mga diksyunaryo na maaaring magamit sa mga awtomatikong sistema ng pagkuha ng impormasyon. Kaya, ang "Frequency Dictionary of Indexing" (na-edit ni L. V. Sakharny) ay pinagsama-sama upang malutas ang mga problema sa pagkuha ng impormasyon. Ang materyal para sa diksyunaryo ay 1660 abstract sa mga instrumento sa pagsukat ng elektrikal (mga 105 libong salita sa kabuuan). Ang mga prinsipyo ng pag-compile ng isang diksyunaryo ay naaangkop sa anumang sangay ng kaalaman. Ang diksyunaryo ay batay sa isang bagong yunit para sa lexicography - isang hyperlexeme (isang tiyak na hanay ng mga single-root lexemes ng isa o iba't ibang bahagi ng pananalita, na magkakaugnay ng mga relasyon ng pagbabagong-anyo, derivation: pagkawalang-galaw, pagkawalang-galaw, pagkawalang-galaw ; ngipin, ngipin, may ngipin, may ngipin). Sa diksyunaryo, ang mga hyperlexemes ay nakaayos ayon sa antas ng dalas.

"Dalas ng Diksyunaryo ng Semantic Multiplier ng Wikang Ruso" Yu.N. Ang Karaulov ay pinagsama-sama sa batayan ng mga kahulugan sa mga paliwanag na diksyonaryo ng modernong wikang pampanitikan ng Russia. Ang mga unit ng account sa loob nito ay mga semantic multiplier, na nagsisilbing mga segment ng mga salitang may buong halaga, na mga bahagi ng mga kahulugan. Sinasalamin ang istatistikal at semantiko na istraktura ng kanang bahagi ng mga paliwanag na diksyunaryo, ang frequency dictionary ay maaaring gamitin para sa pananaliksik sa larangan ng lexical semantics, gayundin sa pagsasagawa ng lexicography at pagkuha ng impormasyon. Ang panimulang artikulo ay nagpapakita ng mga posibilidad ng paggamit ng diksyunaryo upang mahanap ang semantikong koneksyon ng mga salita sa awtomatikong pagbuo ng Russian thesaurus.

Ang "Frequency Dictionary of the Language of Mass Communication" ni B.V. Krivenko ay ang unang karanasan ng isang frequency dictionary na binuo sa materyal ng hindi lamang nakasulat na mga teksto (newspaper " TVNZ”, mga pahayagang pangrehiyon), kundi pati na rin ang tunog ng pagsasalita (radyo, telebisyon, newsreel). Ang diksyunaryo ay nagbibigay ng kasabay na hiwa ng leksikal na antas ng wika ng pahayagan, mga pagsasahimpapawid ng impormasyon ng radyo at telebisyon para sa 1965-1985. Ang kabuuang haba ng sample ng teksto ay 71,164 na paggamit ng salita. Ang diksyunaryo ay naglalaman ng mga listahan ng mga salita sa pababang pagkakasunud-sunod ng dalas, mga listahan ng mga salita sa alpabetikong pagkakasunud-sunod. Ang mga unang lugar sa listahan ng mga pinakamadalas na salita (maliban sa mga function na salita at pronoun) ay inookupahan ng mga salita taon, trabaho, bansa, araw, kolektibong bukid, negosyo, oras, partido, bago, konseho, manggagawa, soviet, mga tao, distrito, ngayon, lungsod, organisasyon, tao, tagapangulo, sekretarya, malaki, rehiyon, pangalan, mundo, republika , plano. Dalas ng mga salita sa wika ng ibig sabihin mass media perpektong sumasalamin sa mga tampok ng pampulitikang diskurso ng Sobyet, isang hanay ng mga ideologem ng panahon ng Sobyet. "Statistical dictionary ng Russian newspaper" A.Ya. Si Shaikevich at iba pa ay nagbibigay ng ideya ng dalas ng bokabularyo sa mga pahayagan ng 90s. ika-20 siglo Ang parehong mga layunin ay hinahabol ng diksyunaryo ng O. V. Golovan.

Ang pag-aaral ng dalas ng mga lexical unit ay nagpapahintulot sa amin na gumuhit ng mahahalagang konklusyon tungkol sa mga tampok ng wika at estilo ng manunulat. Ito ay hindi nagkataon na sa mga nakaraang taon isang malaking bilang ng dalas na mga diksyonaryo ng wika ng mga gawa ng sining ng mga manunulat at makata ng Russia ang nai-publish (tingnan ang seksyong "Mga Diksyonaryo ng May-akda").

Ventsov L.V., Grudeva E.V. Diksyunaryo ng dalas ng mga anyo ng salita ng wikang Ruso: proyekto. Cherepovets: Cherepovets, estado. un-t, 2008. 204 p.

Golovan O.V. diksyunaryo ng dalas modernong wika media: isang gabay sa pag-aaral. Barnaul: Alt. estado tech. un-ta im. I.I. Polzunova, 2006. 622 p.

Graudina L.K., Itskovich V.A., Katlinskaya L.P. Mga variant ng gramatika: karanasan ng diksyunaryo ng dalas / Ros. acad. Sciences, Institute of Linguistics, Pananaliksik. M.: Nauka, 1971. 102 p.

Denisov P.N., Morkovkin V.V., Safyan Yu.A. Kumplikadong diksyunaryo ng dalas ng pang-agham at teknikal na bokabularyo ng Ruso. M.: Wikang Ruso, 1978. 406 p.

Karaulov Yu.N. Diksyunaryo ng dalas ng mga semantic multiplier ng wikang Russian / otv. ed. S.G. Barkhudarov. M.: Nauka, 1980. 207 p.

Kumplikado diksyunaryong pang-edukasyon. Ang lexical na batayan ng wikang Ruso: / V.V. Morkovkin, N.O. Boehme, I.A. Dorogonova, T.F. Ivanova, I.D. Uspenskaya; ed. V.V. Morkovkin. M. : ACT, 2004. 880 p. .

Krivenko B.V. Diksyunaryo ng Dalas ng Komunikasyon sa Masa. Voronezh: Publishing house Voronezh, un-ta, 1992. 218 p.

Kudasheva M.A., Levina R.I. Diksyunaryo ng dalas ng mga pinakakaraniwang participle sa geology, mineralogy, crystallography, geodesy: textbook. L.: Leningrad. bundok in-t im. G. V. Plekhanova, 1974. 29 p.

Lexical minima ng modernong wikang Ruso / VV Morkovkin, Yu.A. Safyan, E.M. Stepanova, I.V. Dorofeeva; ed. V. V. Morkovkina; In-t rus. lang. sila. A.S. Pushkin. M. : Wikang Ruso, 1985. 608 p.

Lexical minimum para sa Russian bilang isang wikang banyaga: isang pangunahing antas ng: karaniwang pagmamay-ari / comp. N.P. Andryushina, T.V. Kozlov.

4th ed., rev. at karagdagang St. Petersburg: Zlatoust, 2004. 111 p. (Pagsubok sa Russian bilang isang wikang banyaga). [Gayundin noong 2001].

Lexical minimum sa Russian bilang isang wikang banyaga: ang pangalawang antas ng sertipikasyon: pangkalahatang kaalaman / comp. N.P. Andryushin (responsable ed.) [at iba pa]. ika-3 ed. SPb. : Chrysostom, 2011. 162 p. (Sistema ng estado ng Russia ng pagsubok sa mga mamamayan ibang bansa Sa Russian). [Ganoon din noong 2009].

Lexical minimum sa Russian bilang isang wikang banyaga: ang unang antas ng sertipikasyon: pangkalahatang kaalaman / comp. N.P. Andryushin (responsable ed.) [at iba pa]. 5th ed., rev. at karagdagang St. Petersburg: Zlatoust,

2011. 195 p. (Sistema ng Estado ng Russia para sa Pagsubok sa mga Mamamayan ng mga Banyagang Bansa sa Wikang Ruso). [Gayundin noong 2002, 2005].

Lexical minimum sa Russian bilang isang banyagang wika: elementarya antas: pangkalahatang kaalaman / comp. N.P. Andryushina, T.V. Kozlov. 4th ed., rev. SPb. : Chrysostom, 2012. 79 p. (Pagsubok sa Russian bilang isang wikang banyaga). [Gayundin noong 2000, 2004].

Lyashevskaya O.N., Sharov S.A. Diksyunaryo ng Dalas ng Modernong Wikang Ruso (batay sa mga materyales ng Pambansang Corpus ng Wikang Ruso) [impormasyon sa istatistika sa 50,000 karaniwang pangngalan at 3,000 wastong pangalan at pagdadaglat] / Ros. acad. Agham, Institute of Rus. lang. sila. V. V. Vinogradova. M.: Azbukovnik, 2009. 1087 p.

Martinovich G.A. Dalas na pampakay na diksyunaryo "Urban pampublikong sasakyan". SPb. : Philol. peke. St. Petersburg. estado unibersidad,

Polyakova G.P., Solganik G.Ya. Diksyunaryo ng Dalas ng Wika ng Pahayagan. M.: Publishing House Moek. estado un-ta, 1971. 281 p.

Safyan Yu.A. Diksyunaryo ng dalas ng teknikal na bokabularyo ng Ruso. Yerevan: Bartsraguin Dproc, 1971. 128 p.

Ang sistema ng mga lexical na minimum ng modernong wikang Ruso: 10 lexical na listahan: mula 500 hanggang 5000 pinakamahalagang salitang Russian / Estado. sa-t rus. lang. sila. A.S. Pushkin; comp. T.F. Bogacheva, N.M. Lutskaya, V.V. Morkovkin, Z.P. Popova; ed. V. V. Morkovkina. M.: Astrel: ACT, 2003. 768 p.

Listahan ng mga pinakakaraniwang salita ng wikang Russian / comp. L.G. Vishnyakova, Z.P. Daunene, T.P. Ishanova, R.M. Nefedov; sa ilalim ng kabuuang ed. Z.P. Downene. M. : Acad. ped. Mga Agham ng USSR, Scientific Research Institute ng guro. Ruso lang. sa pambansa paaralan, 1974. 160 p.

Ter-Misakyants 3. T. Diksyunaryo ng dalas ng bokabularyo sa matematika / ed. V.M. Grigoryan, R.S. Manucharyan. Yerevan: Yerevan, estado. un-t, 1973. 67 p.

Kharakoz P.I. Diksyunaryo ng Dalas ng Modernong Wikang Ruso. Frunze: Mektep, 1971. 180 p.

Diksyunaryo ng dalas ng bokabularyo ng geological: aklat-aralin / comp. SA AT. Rubkaleva, M.A. Kudasheva, E.M. Val [at iba pa]; siyentipiko ed. SA AT. Rubkalev. L.: Leningrad. bundok in-t im. G. V. Plekhanova, 1973. 64 p.

Pag-index ng Diksyunaryo ng Dalas / ed. ed. L. V. Sakharny.

Perm: Publishing House Perm. un-ta, 1974. 828 p.

Diksyunaryo ng dalas ng pangkalahatang pang-agham na bokabularyo / comp. M.I. Zykina, V.I. Krupchanova, M.M. Nakabina [id.]; ed. KUMAIN. Stepanova. M.: Publishing House Moek. estado un-ta, 1970. 87 p. Diksyunaryo ng dalas ng wikang Ruso [mga 40,000 salita] / ed. L.N. Zasorina; comp. V.A. Agraev, V.V. Borodin, L.N. Zasorina, V.M. Muratova, E.V. Tisenko; espesyalista. siyentipiko ed. M.I. Privalov. M.: Wikang Ruso, 1977. 934 p.

Shaikevich L.Ya., Andryushchenko V.I., Rebetskaya N.A. Diksyonaryo ng istatistika ng pahayagan ng Russia: (1990s) / Ros. acad. Agham, Institute of Rus. lang. sila. V.V. Vinogradov. M.: Mga Wika ng Slavic na kultura: publisher A. Koshelev, 2008. T. 1. 578 p. (Studia philologica).

Shilova G.E., Sternin I.A. Diksyunaryo ng dalas ng mga salitang banyaga: (batay sa pamamahayag) / Voronezh, estado. un-t, Mezhregion, sentro ng komunikasyon. pananaliksik Voronezh: Origins, 2005. 126 p. Steinfeldt E.A. Diksyunaryo ng dalas ng modernong wikang pampanitikan ng Russia: isang sanggunian na libro para sa mga guro ng wikang Ruso / ed. V.A. Itskovich. M. : Pag-unlad, 1973. 228 p. .

Shurpaeva M.I. Naiiba ang diksyunaryo-minimum ng wikang Ruso ayon sa mga uri ng aktibidad sa pagsasalita para sa elementarya na baitang ng Dagestan pambansang paaralan. Makhachkala: Daguchpedgiz, 1982. 153 p.

DALASANG DICTIONARY
NG NATIONAL CORPORATION NG WIKANG RUSSIAN: KONSEPTO AT TEKNOLOHIYA NG PAGLIKHA

DALASANG DICTIONARY NG RUSSIAN NATIONAL CORPUS: PRINSIPYO AT TEKNOLOHIYA

Lyashevskaya O.N. ([email protected] ) , Institute ng Wikang Ruso. V.V. Vinogradova, Moscow
Sharov S.A.
([email protected] ), Unibersidad ng Leeds, UK

Ang diksyunaryo ay naglalaman ng isang kinatawan na pangunahing diksyunaryo ng modernong wikang Ruso (2nd kalahati XX - simula ng XXI siglo), na binibigyan ng impormasyon tungkol sa dalas ng paggamit, pamamahagi ng istatistika ayon sa mga teksto at genre, at sa oras ng paglikha ng mga teksto. Ang diksyunaryo ay batay sa mga teksto ng National Corpus ng Wikang Ruso na may dami ng 100 milyong salita.

1. Panimula

Maraming mga diksyunaryo ng dalas ang binuo para sa wikang Ruso. Ang pioneer ay ang diksyunaryo ni G.Yosselson, na inilathala noong 1953 sa Detroit sa materyal ng par excellence ng wika pre-rebolusyonaryong Russia. Mga diksyunaryo E.A. Steinfeld (1963), L.N. Zasorina (1977), L. Lenngren (1993) at iba pa ay nilikha batay sa medyo maliit na mga koleksyon ng mga teksto (400 libo - 1 milyong salita) at sa isang malaking lawak ay sumasalamin sa mga detalye ng wikang Ruso noong panahon ng Sobyet: salita mga frequency kasama at ang padala sa kanila ay maihahambing sa mga salita ng paglilingkod, at ang salita brush ng buhok ay wala. Mayroon ding mga dalubhasang diksyunaryo, lalo na, ang diksyunaryo ng E.M. Stepanova (1976), nakatuon sa pangkalahatang pang-agham na bokabularyo. Ang isang hiwalay na sangay ng mga istatistikal na diksyunaryo ay ang mga diksyunaryo ng wika ng Pushkin, Dostoevsky, Griboyedov, Tsvetaeva (Vinogradov 1956-1961, Shaikevich et al. 2003, Polyakov 1999, Belyakov et al. 1996), na ganap na naglalarawan sa wika ng isang naibigay na manunulat.

Ang bagong diksyunaryo ng dalas ay pangkalahatan. Sa kabila ng katotohanan na ang huling direktang hinalinhan nito ay inilabas 15 taon na ang nakalilipas (Lenngren 1993), malinaw na marami ang nagbago sa panahong ito - kapwa ang wika mismo at ang teknolohiya para sa paghahanda ng mga diksyunaryo ng dalas. Nilalayon ng aming diksyunaryo na magbigay ng istatistikal na larawan ng modernong paggamit ng salita (1950-2005), pinupunan, lalo na, ang agwat ng huling dalawang dekada, gayundin upang ipakita ang mga pagbabagong naganap sa wika mula noong 1950.

Ang diksyunaryo ay batay sa isang 100 milyong corpus, habang ang mga nakaraang diksyunaryo ay umaasa sa materyal mula 400 libo hanggang 1 milyong paggamit ng salita. Ang pambansang corpus (www.ruscorpora.ru, NKRYA 2005) ay higit na kinatawan sa mga tuntunin ng saklaw ng materyal, dahil naglalaman ito ng balanseng koleksyon ng mga teksto ng iba't ibang uri, genre at istilo, kabilang ang mga teksto mula sa diaspora ng Russia. Pamamahagi ng mga teksto sa subcorpus ng modernong wikang Ruso (mula noong 1950) ni mga istilo ng pagganap ipinapakita sa Talahanayan 1. Ang mga di-fiction na teksto ay nabibilang sa higit sa 50 paksa (ekonomiya at pananalapi, batas, paglalakbay, atbp.), at ang kanilang tipolohiya ay nag-iiba mula sa mga batas at mga artikulong siyentipiko sa mga panayam, tagubilin at anunsyo (higit sa 100 mga uri sa kabuuan). Mga masining na teksto isama ang mga nobela, maikling kwento, sanaysay, dula, engkanto, sanaysay, liham pampanitikan, atbp.

Fiction

Publisismo

Iba pang non-fiction

pasalitang panitikan

Tab. 1. Mga functional na istilo ng subcorpus ng modernong wikang Ruso

Malaki at ang estilistang balanse ng corpus ay isang paunang kinakailangan para makapagbigay ito ng maaasahang mga resulta ng istatistika para sa pinakamadalas na salita: halimbawa, ang komposisyon ng unang 20,000 elemento ay hindi magbabago nang malaki kung, habang pinapanatili ang proporsyon, ang mga tekstong ito ay papalitan ng iba o ilang mga subsample ng corpus ang inihambing. Ito ay ipinapakita ng karanasan sa pag-compile ng mga frequency na diksyunaryo ng iba pang 100 milyong pambansang korporasyon, gaya ng British, Czech ( Leech et al. 2001, Čermak & Křen 2004), pati na rin ang mga hulls Espanyol ( Davies 2005) . Natural na ang frequency dictionary ng NKRYA sa maraming aspeto, kapwa sa teknolohikal na usapin at sa nilalaman, ay ginagabayan ng mga sample na ito.

2. Laki ng kaso at pagiging maaasahan ng sampling

Ang umiiral na mga diksyunaryo ng dalas para sa wikang Ruso ay binuo sa medyo maliit na corpora: ang mga unang henerasyong computer ay hindi maaaring gumana sa corpora mas malaking sukat. Kapansin-pansin, pinatunayan din ng mga teoretikal na rekomendasyon na binuo noong 1970s (Piotrovsky et al. 1972) na para sa isang mapagkakatiwalaang paglalarawan ng 1600–1700 na pinakamadalas na salita, sapat na ang paggamit ng corpus ng 400,000 na paggamit ng salita. Ang argumentong ito ay nakabatay sa konsepto ng isang agwat ng kumpiyansa, na malawakang ginagamit sa mga istatistika at sosyolohiya: kung alam natin ang laki ng sample at ang pang-eksperimentong posibilidad ng isang kaganapan sa sample na ito (ibig sabihin, ang dalas ng isang salita sa ating corpus), pagkatapos ay maaari nating kalkulahin ang agwat ng kumpiyansa para sa posibilidad ng kaganapang ito sa buong populasyon (i.e. ang dalas ng paggamit ng parehong salita sa buong espasyo ng wika).

Ang talahanayan 2 ay nagbibigay ng mga halimbawa ng dalas ng mga indibidwal na salita sa mga diksyunaryo ng Lenngren, Zasorina, at Steinfeld kumpara sa mga frequency ng NKRS at ang 150 milyong corpus ng wikang Ruso na nakolekta mula sa Internet (para sa huli, tingnan ang Sharoff 2006). Kahit na ang mga salita isipin, gawain, pag-ibig tiyak na kabilang sa core ng wika (sila ay kabilang sa 200-500 na pinakamadalas na lemmas), sa maliit na corpora kahit na ang kanilang dalas ay naiiba nang malaki. Ang dalas ng medyo hindi gaanong madalas na mga salita ( polusyon, pag-aaral, cute) ay nag-iiba-iba pa. Kahit na ang komposisyon ng Internet Corpus ay naiiba nang malaki mula sa NCRL (na may malaking bilang ng mga teknikal na teksto at forum at isang mas maliit na halaga ng fiction), ang mga pagkakaiba sa dalas ng mga yunit na ito sa pagitan ng mga ito ay hindi masyadong malaki.

Lemma

Lenngren

pagbara

Steinf.

NRC

Internet

kapangyarihan

isipin mo

1094

1058

polusyon

gawain

pag-aaral ng

magmahal

ang cute

Tab. 2: Paghahambing ng dalas ng mga indibidwal na salita (average bawat milyong salita).

Tulad ng nakikita mo, ang mga teoretikal na rekomendasyon tungkol sa isang sapat na laki ng kaso sa kasong ito ay hindi masyadong maaasahan. Ang dahilan nito ay nakasalalay sa mga paunang pagpapalagay sa normal na pamamahagi ng Gaussian ng dalas ng mga salita, ayon sa kung saan ang bawat salita ay nangyayari na may parehong dalas sa lahat ng mga teksto. Kung ang salita ay nangyayari sa teksto nang isang beses, kung gayon normal na pamamahagi hindi ito nakakaapekto sa posibilidad na magamit ito doon sa pangalawang pagkakataon. Ngunit sa katotohanan ay hindi ito ang kaso. Ang bawat teksto ay may sariling paksa, ang mga salita kung saan sa tekstong ito ay gagamitin nang mas madalas kaysa sa karaniwan. Sa teksto tungkol sa mga hobbit, ang salita hobbit ay gagamitin nang kasingdalas ng maraming mga function na salita, na makabuluhang magpapataas ng dalas nito sa corpus, na magsasama ng kahit isang ganoong teksto. Bilang resulta, ang listahan ng dalas na binuo batay sa corpus ay sumasalamin sa mga detalye ng mga tekstong iyon na nahulog sa ito kapag drafting.

Ipinapakita sa talahanayan 2 ang di-kasakdalan ng mga diksyunaryo ng dalas na binuo sa medyo maliit na corpora, ngunit hindi rin ginagarantiyahan ng simpleng pagtaas ng laki ng corpora ang katatagan ng mga resulta. Kapag binibigyang-kahulugan ang mga listahan ng dalas ng diksyunaryo, dapat tandaan na ang anumang corpus, gaano man kalaki, ay isang may hangganang subset ng isang potensyal na walang katapusang hanay ng mga teksto sa isang partikular na wika. Ang anumang iba pang sample ng subset na ito ay gagawa ng bahagyang naiibang listahan na mag-iiba sa mga elementong hindi gaanong madalas. Ang isang mas malaking enclosure na sumasalamin sa mas maraming tema at functional na istilo (BNC o NKR enclosure) ay nagbibigay ng mahusay na pagiging maaasahan para sa pinakamadalas na elemento. Gayunpaman, ang isang karagdagang pagtaas sa dami ng mga teksto sa kapinsalaan ng kanilang pagkakaiba-iba (tingnan, halimbawa, mga proyekto para sa paglikha ng giga-corpuses ng Ingles at Intsik na naglalaman ng higit sa isang bilyong paggamit ng mga salita ng mga teksto ng balita, Cieri & Liberman 2002) ay maaaring humantong sa hindi gaanong pagiging maaasahan ng listahan ng dalas sa naturang corpora sa pamamagitan ng paglilipat ng kanilang bokabularyo patungo sa bokabularyo ng balita.

Dahil ang gawain ng diksyonaryo ng dalas ay hindi lamang ang pagraranggo ng mga salita ayon sa dalas ng mga ito sa isang hiwalay na corpus, kundi pati na rin upang matukoy ang lexical core ng wika, kinakailangan na paghiwalayin ang mga salita na madalas na nangyayari sa maraming mga teksto mula sa mga na ang lexical na pag-uugali ay katulad ng mga salita Noriega o hobbit, at hindi sinasadyang napunta sa isa o ibang posisyon ng listahan ng dalas. Kaya, ang Czech National Corpus ay gumagamit ng konsepto ng Average Reduced Frequency (ARF, Average Reduced Frequency), kung saan ang dalas ng isang salita ay binibigyang timbang ng distansya sa pagitan ng mga indibidwal na paggamit ng salita (Čermak & Křen 2005). Maraming frequency dictionaries (Lenngren, British National Corpus, Dictionary of French Business Vocabulary) ang gumagamit ng D factor na ipinakilala ni A. Juilland (Juilland et al. 1970), na isinasaalang-alang ang bilang ng mga dokumento kung saan nangyayari ang isang salita at ang kamag-anak nito. dalas sa mga dokumentong ito:


kung saan ang μ ay ang average na frequency ng salita sa buong corpus, σ ay ang standard deviation ng frequency na ito sa mga indibidwal na dokumento,nay ang bilang ng mga dokumento kung saan nangyayari ang salitang ito.

Ang halaga ng D para sa mga salita na nangyayari sa karamihan ng mga dokumento ay malapit sa 100, at para sa mga salitang madalas na nangyayari sa isang maliit na bilang lamang ng mga dokumento, ito ay malapit sa 0. Ang listahan ng dalas ng diksyunaryo ni Lenngren ay pinagsunod-sunod pa ayon sa halaga ng produkto ng koepisyent na ito sa pamamagitan ng karaniwang dalas ng salita. Dahil sa ang katunayan na ang teoretikal na katayuan ng gawaing ito ay hindi malinaw, hindi namin itinuring na angkop na pagbukud-bukurin ang aming diksyunaryo ayon dito. Gayunpaman, ang indikasyon nito para sa bawat salita ay ginagawang posible upang masuri kung gaano ito tiyak sa mga indibidwal na paksa. Halimbawa, ang mga salitang nakakatakot, tiyak, at hilaw ay may halos parehong dalas (21 paglitaw sa bawat milyong salita), ngunit ang tiyak ay may D coefficient na 66, raw ay 18, at katakut-takot ay may 78, na nangangahulugang ang huling salita makabuluhan para sa higit pa Ang mga lugar ng paksa at (ceteris paribus) ay may mataas na pagkakataon ng isang lugar sa isang di-espesyalisadong diksyunaryo.

3. Istraktura ng diksyunaryo

Ang konsepto ng diksyunaryo ay nagsasangkot ng paglalathala ng isang "papel" na bersyon na may kasamang elektronikong bersyon, na kumakatawan sa dalas ng diksyunaryo sa isang mas kumpletong volume. Ang bahagi ng bokabularyo ay naglalaman ng mga sumusunod na seksyon:

I. Pangkalahatang bokabularyo

alpabetikong listahan ng mga lemma

listahan ng dalas ng mga lemma

pamamahagi ng mga lemma sa pamamagitan ng mga functional na istilo:

Ø dalas ng diksyunaryo ng fiction,

bokabularyo ng makabuluhang bokabularyo ng fiction

Ø dalas ng diksyunaryo ng pamamahayag,

diksyunaryo ng makabuluhang pahayagan at bokabularyo ng balita

Ø dalas ng diksyunaryo ng iba pang non-fiction,

makabuluhang bokabularyo

Ø dalas ng diksyunaryo ng live na pagsasalita,

diksyunaryo ng makabuluhang bokabularyo ng buhay na sinasalitang wika

alpabetikong listahan ng mga anyo ng salita

II. Mga bahagi ng pananalita

listahan ng dalas ng mga pangngalan

listahan ng dalas ng mga pandiwa

listahan ng dalas ng mga pang-uri

listahan ng dalas ng mga pang-abay at panaguri

listahan ng dalas ng mga panghalip (pronouns-nouns, adjectives, adverbs, predicatives)

listahan ng dalas ng mga lemma ng serbisyo ng mga bahagi ng pananalita

III. Mga pantulong na mesa

data sa dalas ng part-speech classes at iba pang istatistikal na impormasyon

IV . Mga wastong pangalan at pagdadaglat

alpabetikong listahan ng mga lemma

Ang alpabetikong listahan ng mga lemma ay naglalaman ng pangalan ng lemma, ang bahagi ng pananalita, ang pangkalahatang dalas ng lemma, ang bilang ng mga dokumento kung saan ito nangyayari, at ang koepisyent ng pagkakaiba-iba D. Ang kabuuang dalas ay tumutukoy sa bilang ng mga paglitaw bawat milyon mga salita ng corpus, o ipm (mga pagkakataon sa bawat milyong salita). Ginagawa ito upang gawing mas madaling ihambing ang dalas ng isang salita sa iba't ibang corpora, na maaaring mag-iba nang malaki sa laki. Halimbawa, kung ang salitang kapangyarihan ay lumabas ng 55 beses sa isang corpus na 400,000 salita, 364 beses sa isang corpus ng isang milyong salita, at 40,598 beses sa isang corpus na 100,000,000 na salita sa modernong Russian, at 55,673 beses sa isang malaking 135,000,000 ng NCRL, kung gayon ang dalas nito sa ipm ay magiging 137.5, 364.0, 372.06 at 412.39, ayon sa pagkakabanggit. Kasama sa alpabetikong listahan ng elektronikong edisyon ang 60,000 sa mga pinakamadalas na lemma.

Ang listahan ng mga lemma, na pinagsunod-sunod ayon sa dalas, ay kinabibilangan ng pangalan ng lemma, bahagi ng pananalita, pangkalahatang dalas ng lemma, bilang ng mga dokumento, D factor, at pamamahagi ng dalas sa pamamagitan ng dekada. Kasama sa listahan ng dalas ang 20,000 sa mga pinakamadalas na lemma.

Ang mga diksyonaryo ng dalas ng mga istilo ng pagganap ay pinagsama-sama batay sa mga subcorpus ng fiction, journalism, iba pang non-fiction at oral speech. Kasama sa listahan ang 5000 pinakamadalas na lemma ng mga subcorpus na ito. Ang listahan ng mga pinakakaraniwang lemma para sa bawat uri ng teksto ay pinili batay sa isang paghahambing ng dalas ng mga lemma sa naturang mga teksto at sa iba pang bahagi ng corpus. Bilang sukatan ng paghahambing, ginamit ang criterion ng log-likelihood, na kinakalkula batay sa sumusunod na matrix:

Subcorpus

Iba pang mga teksto

Buong katawan

Dalas

a + b

Ang sukat


Batay sa matrix na ito, ang ratio ng posibilidad ng G2 ay maaaring kalkulahin gamit ang sumusunod na formula (Rayson & Garside 2000):

Kasama sa mga diksyunaryo ng makabuluhang bokabularyo para sa iba't ibang istilo ng pagganap ang 500 lemma bawat isa.

Kasama sa alpabetikong listahan ng mga anyo ng salita ang lahat ng anyo ng salita ng corpus na may dalas na higit sa 0.1 ipm (mga 15 libo sa kabuuan); ibinibigay ang pangkalahatang dalas ng anyo ng salita. Ang mga homonymous na anyo ng salita ay minarkahan ng *.

Sa seksyong "Mga Bahagi ng Pananalita", ang listahan ng dalas ng mga lemma ay nahahati sa anim na sublist: mga pangngalan, pandiwa, pang-uri, pang-abay at panaguri, panghalip at pantulong na bahagi ng pananalita. Para sa bawat lemma, ang pangkalahatang dalas at ranggo nito (serial number) ay nakasaad sa pangkalahatang listahan. Ang bawat listahan ay naglalaman ng 1 libo sa mga pinakamadalas na lemma.

Mga pantulong na mesa isama ang data sa dalas ng part-of-speech classes, iba pang mga kategorya ng gramatika, pati na rin ang impormasyon sa saklaw ng teksto na may mga lexemes, ang average na haba ng isang salita, mga anyo ng salita at mga pangungusap.

Ang diksyunaryo ay nagtatapos sa isang alpabetikong listahan ng mga wastong pangalan at pagdadaglat. Ang mga wastong pangalan ay pinaghihiwalay mula sa pangunahing bahagi ng bokabularyo, dahil bumubuo sila ng isang pangkat na hindi gaanong matatag ayon sa istatistika, at ang dalas ng mga ito ay higit na nakadepende sa pagpili ng mga teksto sa corpus at kanilang chronotope. Sa Lengren 1993, ang opinyon ay ipinahayag na ang pagsasama ng mga wastong pangalan sa isang frequency dictionary sa pangkalahatang batayan ay hindi maiiwasang humahantong sa napaaga nitong pagkaluma.

Upang makakuha ng isang listahan ng mga wastong pangalan at pagdadaglat mula sa konkordans ng corpus, ang mga pangngalan at pagdadaglat ay pinili, ang pagbabaybay nito sa mga tekstong may Malaking titik lumampas sa 95% threshold, cf. Russia, Smirnov, State District Power Plant, Ministry of Foreign Affairs, Labor Code. Kasama sa diksyunaryo ang nuklear na bahagi ng listahang ito, na may bilang na 3,000 sa mga pinakamadalas na yunit.

Ayon sa tradisyon na binuo para sa mga publikasyon ng ganitong uri, ang mga pahina ng diksyunaryo ay naglalaman ng pamagat na " Interesanteng kaalaman»: mga listahan ng pinakasikat na salita ng iba't ibang leksikal na grupo (mga araw ng linggo, lagay ng panahon, mga kulay, pandiwa ng paggalaw, atbp.), pati na rin ang pinakamahabang anyo ng salita at ang listahan ng dalas ng mga bantas.

6429

suit

2288

kapote

4890

boot

2179

palda

3696

amerikana

1904

pang-overcoat

3696

kamiseta

1894

damit*

3410

jacket

1822

sapatos

3396

isang sumbrero

1668

kamiseta

3126

sapatos

1633

maong

3041

panyo

1585

guwantes

2962

blazer

1522

fur coat

2955

pantalon

1356

uniporme

2840

pantalon

1251

takip

2686

sumbrero

1235

panglamig

2617

beret

1134

bota

Tab. 3: Listahan ng dalas ng mga pagtatalaga ng damit at sapatos.

Bilang halimbawa, sa Talahanayan 3 ibinibigay namin ang mga frequency ng mga pangngalan na nagsasaad ng mga damit at sapatos. Tulad ng maaari mong asahan, ang listahan ay sumasalamin, sa isang banda, ang "pagkakaraniwan" ng mga item sa wardrobe ( nadama bota sumasakop lamang sa ika-26 na lugar sa listahan), at sa kabilang banda, ang kanilang "kabuluhan" kapag inilalarawan ang hitsura ng isang tao sa mga teksto ( suit- isang mas perceptual na nakikilalang bagay kaysa bota).

4. Paghahanda ng materyal sa bokabularyo

Ang mga pangunahing listahan ng frequency dictionary ay awtomatikong nakuha, gamit ang metatextual at lexical-grammatical markup ng corpus. Sa batayan ng metatextual na impormasyon, ang mga listahan ng dalas ay binuo at inihambing sa isa't isa sa magkahiwalay na mga sample ng corpus (sa pamamagitan ng mga istilong gumagana, sa oras na nilikha ang teksto). Ang isa pang uri ng markup, lexico-grammatical, ay nagpapahintulot sa iyo na itatag ang orihinal na anyo ng salita (lemma), ang bahagi ng pananalita nito at ang mga katangiang gramatikal tulad ng kaso, numero, oras, atbp. Ginawa nitong posible na mangolekta ng data sa dalas ng hindi lamang mga indibidwal na anyo ng salita, kundi pati na rin ang mga lexemes, gayundin ang paggamit ng ilang partikular na kategorya ng gramatika. Sa paggawa ng diksyunaryong ito, ginamit ang isang variant ng lexico-grammatical annotation ng corpus na may awtomatikong paglutas ng morphological homonymy.

Ang wikang Ruso, bilang isang wika na may mayaman na inflection, ay lumilikha ng karagdagang mga paghihirap para sa mga compiler ng isang frequency dictionary, dahil maraming mga anyo ng salita sa mga teksto ay homonymous (cf. word form maging bilang anyong pandiwa maging at pangngalan bakal, anyo ng salita banga kumakatawan sa mga lemma bangko at banga, mga salitang tulad ng Vera at Pananampalataya). Gayunpaman, sa isang diksyunaryo ng dalas, ang orihinal na anyo ng salita, o lemma, ay dapat na malinaw na nakatalaga sa anumang anyo ng salita.

Sa mga diksyunaryo ng nakaraang henerasyon (Zasorina 1977, Lenngren 1993), ang homonymy ay nalutas nang manu-mano, dahil ang dami ng naprosesong corpus ay hindi gaanong mahalaga. Malinaw na ang gayong solusyon ay hindi angkop para sa ika-100 milyong corpus. Kapag kino-compile ang diksyunaryo na ito, ang karanasan ng mga kasamahan sa Czech ay isinasaalang-alang, na kailangang pinuhin ang morphological analyzer, lagyang muli ang diksyunaryo at magsagawa ng manu-manong pag-edit. Sa una, ang NCRS corpus ay minarkahan ng morphological analyzer na Mystem (Segalovich, Maslov 1998). Ang kalabuan sa lexico-grammatical markup ay nalutas gamit ang programa ng A.V. Sokirko, na gumagamit ng trigram model at isang training subcorpus na may hand-remony homonymy (Sokirko, Toldova 2005).

Ang mga salitang hindi diksyunaryo ay nagpapakita rin ng isang makabuluhang problema para sa lemmatization (Lyashevskaya et al. 2007). Kung ang salita ay wala sa gramatikal na diksyunaryo ng morphological parser, kung gayon ang isa o higit pang mga hypotheses tungkol sa orihinal na anyo ng salita at ang mga katangian ng gramatika nito ay itinalaga dito. Bilang isang resulta, tulad ng "lemmas" bilang pasasalamat(cf. anyo ng salita pasasalamat), Jansny(cf. Jansen), Barclay(cf. Barclay). Samantala, ang bahagi ng mga di-diksyonaryong anyo ng salita sa NCSL ay 3% ng lahat ng paggamit ng salita at 45% ng listahan ng mga corpus word form. Para sa madalas na mga anyo ng salita na hindi diksyunaryo, gumamit kami ng mga post-processing program para sa morphological markup ng NKRY, na pinagsama-sama ng B.P. Kobritsov at G.K. Bronnikov, pati na rin ang mga resulta ng pagpapatunay ng gawain ng mga programang ito na nakuha ng O.N. Lyashevskaya at D.K. Bronnikova (Lyashevskaya 2007, Bronnikova 2007). Dalawang diskarte sa lemmatization ng mga di-diksyonaryong salita ang naging pinaka-epektibo: clustering hypotheses tungkol sa lemma at ang uri ng paradigm (ang pinaka-malamang para sa isang anyo ng salita ay ang pagsusuri na nangyayari sa iba pang mga non-dictionary na anyo ng salita, kaya , mga anyo ng salita na "hanapin" ang kanilang mga kapitbahay sa inflectional na paradigm) at ang pagpili ng mga pinakaproduktibong gadget.

Dahil ang awtomatikong paglutas ng homonymy at ang interpretasyon ng mga non-dictionary form ay nagbibigay-daan sa isang tiyak, kahit na hindi gaanong mahalaga, error, ang mga homonym na kasama sa unang 20 libong frequency na salita ay sumailalim sa karagdagang manu-manong pag-verify.

***

Ang mga may-akda ay nagpapasalamat sa V.A. Plungyan, A.Ya. Shaikevich, pati na rin E.A. Grishina, B.P. Kobritsov, E.V. Rakhilina, D.V. Sichinava at iba pang kalahok ng seminar ng NCRL, na nakibahagi sa talakayan ng mga prinsipyo ng paglikha ng diksyunaryo. Nagpapasalamat kami kay O. Uryupina, D. at G. Bronnikovs, B. Kobritsov, mga empleyado ng Yandex LLC A. Abroskin, N. Grigoriev, A. Sokirko para sa kanilang tulong sa pagkolekta at pagproseso ng materyal.

O.G. (comp.). Talasalitaan patula na wika Marina Tsvetaeva. Sa 4 na volume. M: House Museum ng Marina Tsvetaeva, 1996.

Vinogradov V.V. (responsableng ed.). Diksyunaryo ng wika ng Pushkin. T. I-IV. M., 1956-1961.

Zaliznyak A.A. Grammar Dictionary of the Russian Language: Inflection. M., 197 7 ; Ika-4 na ed.: M.: Mga diksyunaryong Ruso, 2003.

pagbara L.N. (ed.). Diksyunaryo ng dalas ng wikang Ruso. Moscow: wikang Ruso, 1977 .

Lönngren L. (ed.). Diksyunaryo ng Dalas ng Makabagong Wikang Ruso [ Lönngren, Lennart. Ang Diksyunaryo ng Dalas ng Modernong Ruso. Acta Univ. Ups., Studia Slavica Upsaliensia Uppsala 32]. uppsala, 1993.

Lyashevskaya O.N. Sa problema ng lemmatization ng mga di-diksyonaryong salita // Computational linguistics at matalinong teknolohiya: Mga pamamaraan ng internasyonal na kumperensya "Dialogue 2007". M, 2007.

Lyashevskaya O.N., Kobritsov B.P., Sichinava D.V. Pag-automate ng pagbuo ng isang diksyunaryo sa materyal ng isang hanay ng mga non-dictionary na form ng salita // Internet Mathematics 2007. Ekaterinburg, 2007.

NCRL: Pambansang Corpus ng Wikang Ruso 2003-2005: Mga Resulta at Pananaw. M.: Indrik, 2005.

Piotrovsky R.G., Bektaev K.B., PiotrovskayaA.A. Mathematical linguistics. M.: graduate School, 1972.

Polyakov A.E. Electronic Dictionary of the Writer's Language (sa halimbawa ng wika ng A.S. Griboyedov) // Proceedings of the International Seminar Dialog-99 on Computer Linguistics and its Applications. Tarusa, 1999. M., 1999 . T. 2. S. 230-236.

Segalovich I., Maslov M.. Russian morphological analysis at synthesis kasama ang pagbuo ng mga inflection models para sa mga salitang hindi inilarawan sa diksyunaryo // Proceedings of the international seminar Dialogue "98 on computational linguistics at mga aplikasyon nito. Kazan, 1998. V.2. P. 547– 552.

Sokirko A.V., Toldova S.Yu. Paghahambing ng pagiging epektibo ng dalawang pamamaraan para sa pag-alis ng lexical at morphological ambiguity para sa wikang Ruso // International Conference "Corpus Linguistics 2004". S.-Pb. , 2004.

Stepanova KUMAIN. Diksyunaryo ng dalas ng pangkalahatang pang-agham na bokabularyo. M., 1976 .

Shaikevich A.Ya., Andryushchenko V.M., Rebetskaya SA. Diksyonaryo ng istatistika ng wika ng Dostoevsky. M.: Mga wika ng kulturang Slavic, 2003.

Steinfeld E.A. Diksyunaryo ng Dalas ng Modernong Wikang Pampanitikan ng Ruso. Tallinn, 1963 .

Čermák F. , Křen M. (eds.). Frekvenční slovník češtiny (Dalas na diksyunaryo ng Czech). Prague: NLN, 2004 .

Čermák F., Křen M. Bagong henerasyong corpus-based na frequency dictionaries: Ang kaso ng Czech // International Journal of Corpus Linguistics, 10, 2005. P. 453-467.

Simbahan K.W. Mga empirikal na pagtatantya ng adaptasyon: ang pagkakataon ng dalawang Noriegas ay mas malapit sa p/2 kaysa sa p 2 // Proceedings of the 18th Sa onference sa Computational Linguistics (COLING). Saarbrücken, Germany, 2000. Vol. 1. P. 180-186.

Cieri Ch., Liberman M. Paglikha at pamamahagi ng mga mapagkukunan ng wika sa Linguistic Data Consortium // Proceedings of LREC 02. Las Palmas, Spain, 2002. C. 1327-1333.

Davies M. A Frequency Dictionary of Spanish: Core Vocabulary for Learners. London–N.Y.: Routledge, 2005.

Josselson H.H. Ang Bilang ng Salita ng Ruso at Pagsusuri ng Dalas ng Mga Kategorya ng Gramatiko ng Standard Literary Russian. Detroit: Wayne University Press, 1953.

Juilland A., Brodin D., Davidovitch C. Diksyunaryo ng Dalas ng mga Salitang Pranses. Ang Hague- Paris: Mouton, 1970.

Kilgarriff A. Paglalagay ng mga frequency sa diksyunaryo // International Journal of Lexicography, 10 (2), 1997. P. 135-155.

Leech G., Rayson P. , Wilson A. Mga Dalas ng Salita sa Nakasulat at Salitang Ingles: batay sa British National Corpus. London: Longman, 2001.

Rayson P., Garside R. Paghahambing ng corpora gamit ang frequency profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000. Hong Kong, 2000. P. 1-6.

Sharoff S. Paglikha ng general-purpose corpora gamit ang mga automated na query sa search engine // Baroni M., Bernardini S. (eds.), WaCky! Mga gumaganang papel sa Web bilang Corpus. Bologna: Gedit, 2006.

053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 345 Mga pamamaraan ng internasyonal na kumperensya na "Dialogue 2008" DALAS NG DICTIONARY NG RUSSIAN NATIONAL CORPS. ( [email protected]), Institute ng Wikang Ruso. V.V. Vinogradov RAS Sharov S.A. ( [email protected]), Unibersidad ng Leeds, UK Ang diksyunaryo ay naglalaman ng isang kinatawan ng pangunahing diksyunaryo ng modernong wikang Ruso (ika-2 kalahati ng XX - simula ng XXI siglo), na binibigyan ng impormasyon tungkol sa dalas ng paggamit, pamamahagi ng istatistika ayon sa mga teksto at genre, at sa oras ng paglikha ng mga teksto. Ang diksyunaryo ay batay sa mga teksto ng National Corpus ng Wikang Ruso na may dami ng 100 milyong salita. 1. Panimula Maraming mga diksyonaryo ng dalas ang binuo para sa wikang Ruso. Ang pioneer ay ang diksyunaryo ni G. Yosselson, na inilathala noong 1953 sa Detroit sa materyal ng wikang pangunahin sa pre-rebolusyonaryong Russia. Mga diksyunaryo E.A. Steinfeld (1963), L.N. Zasorina (1977), L. Lenngren (1993) at iba pa ay nilikha batay sa medyo maliit na mga koleksyon ng mga teksto (400 libo - 1 milyong salita) at sa isang malaking lawak ay sumasalamin sa mga detalye ng wikang Ruso noong panahon ng Sobyet: ang ang dalas ng mga salitang kasama at partido sa mga ito ay maihahambing sa mga opisyal na salita, at ang salitang suklay ay nawawala. Mayroon ding mga dalubhasang diksyunaryo, lalo na, ang diksyunaryo ng E.M. Stepanova (1976), nakatuon sa pangkalahatang pang-agham na bokabularyo. Ang isang hiwalay na sangay ng mga istatistikal na diksyunaryo ay ang mga diksyunaryo ng wika ng Pushkin, Dostoevsky, Griboyedov, Tsvetaeva (Vinogradov 1956-1961, Shaikevich et al. 2003, Polyakov 1999, Belyakov et al. 1996), na ganap na naglalarawan sa wika ng isang naibigay na manunulat. Ang bagong diksyunaryo ng dalas ay pangkalahatan. Sa kabila ng katotohanan na ang huling direktang hinalinhan nito ay inilabas 15 taon na ang nakalilipas (Lenngren 1993), malinaw na marami ang nagbago sa panahong ito - kapwa ang wika mismo at ang teknolohiya para sa paghahanda ng mga diksyunaryo ng dalas. Nilalayon ng aming diksyunaryo na magpakita ng istatistikal na larawan ng modernong paggamit ng salita (1950-2005), pinupunan, lalo na, ang agwat ng huling dalawang dekada, gayundin upang ipakita ang mga pagbabagong naganap sa wika mula noong 1950. Ang diksyunaryo ay batay sa isang corpus na 100 milyon, habang ang mga nakaraang diksyunaryo ay umaasa sa materyal mula 400 libo hanggang 1 milyong paggamit ng salita. Ang pambansang corpus (www.ruscorpora.ru, NKRYA 2005) ay higit na kinatawan sa mga tuntunin ng saklaw ng materyal, dahil naglalaman ito ng balanseng koleksyon ng mga teksto ng iba't ibang uri, genre at istilo, kabilang ang mga teksto mula sa diaspora ng Russia. Ang pamamahagi ng mga teksto sa subcorpus ng modernong wikang Ruso (mula noong 1950) sa pamamagitan ng mga istilo ng pagganap ay ipinapakita sa Talahanayan 1. Ang mga tekstong hindi kathang-isip ay nabibilang sa higit sa 50 mga paksa (ekonomiya at pananalapi, batas, paglalakbay, atbp.), at ang kanilang tipolohiya ay nag-iiba mula sa mga batas at siyentipikong artikulo hanggang sa mga panayam, tagubilin at anunsyo (higit sa 100 mga uri sa kabuuan). Kabilang sa mga fiction text ang mga nobela, maikling kwento, sanaysay, dula, fairy tale, sanaysay, liham pampanitikan, atbp. Fiction 36% Journalism 42% Iba pang non-fiction 17% Oral literature 5% ang unang 20,000 na elemento ay hindi magbabago nang malaki kung, pinapanatili ang proporsyon, papalitan natin ang mga tekstong ito ng iba o magkumpara ng ilang mga subsample ng corpus. Ito ay ipinapakita sa pamamagitan ng karanasan ng pag-compile ng mga diksyunaryo ng dalas ng iba pang 100 milyong salita. pambansang corpora gaya ng British, Czech (Leech et al. 2001, Čermák & Křen 2004) at Spanish corpora (Davies 2005). Natural na ang frequency dictionary ng NKRYA sa maraming aspeto, kapwa sa teknolohikal na usapin at sa nilalaman, ay ginagabayan ng mga sample na ito. 2. Laki ng corpus at pagiging maaasahan ng sample Ang mga umiiral na diksyonaryo ng dalas para sa wikang Ruso ay binuo sa medyo maliit na corpora: ang mga unang henerasyong computer ay hindi maaaring gumana sa mas malaking corpora. Kapansin-pansin, pinatunayan din ng mga teoretikal na rekomendasyon na binuo noong 1970s (Piotrovsky et al. 1972) na para sa isang mapagkakatiwalaang paglalarawan ng 1600–1700 na pinakamadalas na salita, sapat na ang paggamit ng corpus ng 400,000 na paggamit ng salita. Ang argumentong ito ay batay sa konsepto ng isang confidence interval, na malawakang ginagamit sa mga istatistika at sosyolohiya: kung alam natin ang laki ng sample at ang probabilidad na pang-eksperimento ng isang kaganapan sa sample na ito (ibig sabihin, ang dalas ng isang salita sa ating corpus), pagkatapos ay maaari nating kalkulahin ang agwat ng kumpiyansa ng posibilidad ng kaganapang ito sa buong populasyon (ibig sabihin, ang dalas ng parehong salita sa buong espasyo ng wika). Ang talahanayan 2 ay nagbibigay ng mga halimbawa ng dalas ng mga indibidwal na salita sa mga diksyunaryo ng Lenngren, Zasorina, at Steinfeld kumpara sa mga frequency ng NKRS at ang 150 milyong corpus ng wikang Ruso na nakolekta mula sa Internet (para sa huli, tingnan ang Sharoff 2006). Sa kabila ng katotohanan na ang mga salitang think, task, love ay tiyak na nabibilang sa core ng wika (sila ay kabilang sa 200-500 na pinakamadalas na lemmas), sa maliit na corpora kahit na ang kanilang dalas ay naiiba nang malaki. Ang dalas ng medyo hindi gaanong madalas na mga salita (polusyon, pag-aaral, cute) ay higit na nag-iiba. Kahit na ang komposisyon ng Internet Corpus ay naiiba nang malaki mula sa NCRL (na may malaking bilang ng mga teknikal na teksto at forum at isang mas maliit na halaga ng fiction), ang mga pagkakaiba sa dalas ng mga yunit na ito sa pagitan ng mga ito ay hindi masyadong malaki. Lemma Lenngren Zasorina Steinf. Kapangyarihan ng internet 202 364 138 422 428 mag-isip 609 1094 1058 865 818 polusyon 69 1 0 9 11 gawain 499 421 250 228 292 pag-aaral 193 110 8 0 6 3 5 5 6 7 8 8 9 10 10 20 20 20 20 20 20 20 20 20 20 20 . Tulad ng nakikita mo, ang mga teoretikal na rekomendasyon tungkol sa isang sapat na laki ng kaso sa kasong ito ay hindi masyadong maaasahan. Ang dahilan nito ay nakasalalay sa mga paunang pagpapalagay sa normal na pamamahagi ng dalas ng salita ng Gaussian, ayon sa kung saan ang bawat salita ay nangyayari na may parehong dalas sa lahat ng mga teksto. Kung ang salita ay nangyayari sa teksto nang isang beses, pagkatapos ay sa isang normal na pamamahagi ay hindi ito makakaapekto sa posibilidad ng paggamit nito doon sa pangalawang pagkakataon. Ngunit sa katotohanan ay hindi ito ang kaso. Ang bawat teksto ay may sariling paksa, ang mga salita kung saan sa tekstong ito ay gagamitin nang mas madalas kaysa sa karaniwan. Sa isang teksto tungkol sa mga hobbit, ang salitang hobbit ay gagamitin nang kasingdalas ng maraming pantulong na salita, na makabuluhang magpapataas ng dalas nito sa isang corpus na magsasama ng kahit isang ganoong teksto1. Bilang resulta, ang listahan ng dalas na binuo batay sa corpus ay sumasalamin sa mga detalye ng mga tekstong iyon na kasama dito sa panahon ng pagsasama-sama nito. Ipinapakita sa talahanayan 2 ang di-kasakdalan ng mga diksyunaryo ng dalas na binuo sa medyo maliit na corpora, ngunit hindi rin ginagarantiyahan ng simpleng pagtaas ng laki ng corpora ang katatagan ng mga resulta. Kapag binibigyang-kahulugan ang mga listahan ng isang diksyunaryo ng dalas, dapat tandaan na ang anumang corpus, gaano man kalaki, ay isang may hangganang subset ng isang potensyal na walang katapusan na hanay ng mga teksto sa isang partikular na wika. Ang anumang iba pang sample ng subset na ito ay bubuo ng isang bahagyang naiibang listahan, na mag-iiba sa mga hindi gaanong madalas nitong elemento. Ang isang mas malaking corpus na sumasalamin sa higit pang mga tema at mga istilo ng pagganap (Tinawag ni Kenneth Church ang sitwasyong ito na Noriega problem (Church 2000), tinawag ni Adam Kilgarriff ang whelk problem, mula sa isang medyo bihirang salitang Ingles para sa isang uri ng mollusc (Kilgarriff 1997). 346 053- Ljashevskaja -SharovSA:_Layout 1 13.05.2008 22:07 Page 347 Frequency Dictionary of the National Corpus of the Russian Language, uri ng BNC o NKRYA), ay nagbibigay ng mahusay na pagiging maaasahan para sa pinakamadalas na elemento. Gayunpaman, ang karagdagang pagtaas sa dami ng mga teksto sa gastos ng kanilang pagkakaiba-iba (tingnan, halimbawa, ang mga proyekto upang lumikha ng Giga corpora ng mga wikang Ingles at Tsino na naglalaman ng higit sa isang bilyong paggamit ng mga salita ng mga teksto ng balita, Cieri & Liberman 2002) ay maaaring humantong sa hindi gaanong pagiging maaasahan ng listahan ng dalas.sa naturang corpora sa pamamagitan ng paglilipat ng kanilang bokabularyo patungo sa bokabularyo ng balita. Dahil ang gawain ng isang diksyonaryo ng dalas ay hindi lamang ang pagraranggo ng mga salita ayon sa dalas ng mga ito sa isang hiwalay na corpus, kundi pati na rin upang matukoy ang lexical core ng wika, kinakailangan na paghiwalayin ang mga salita na madalas na nangyayari sa maraming mga teksto mula sa mga lexical na pag-uugali ay katulad ng mga salita ni Noriega o ang hobbit, at hindi sinasadyang napunta sa ganito o ganoong posisyon ng listahan ng dalas. Kaya, ang Czech National Corpus ay gumagamit ng konsepto ng Average Reduced Frequency (ARF, Average Reduced Frequency), kung saan ang dalas ng isang salita ay binibigyang timbang ng distansya sa pagitan ng mga indibidwal na paggamit ng salita (Čermak & Křen 2005). Maraming frequency dictionaries (Lönngren, British National Corpus, Dictionary of French Business Vocabulary) ang gumagamit ng D coefficient na ipinakilala ni A. Juilland (Juilland et al. 1970), na isinasaalang-alang ang parehong bilang ng mga dokumento kung saan nangyayari ang isang salita at ang relatibong dalas sa mga dokumentong ito: kung saan ang µ ay ang average na dalas ng salita sa buong corpus, σ ay ang karaniwang paglihis ng dalas na ito sa mga indibidwal na dokumento, n ay ang bilang ng mga dokumento kung saan nangyayari ang salitang ito. Ang halaga ng D para sa mga salita na nangyayari sa karamihan ng mga dokumento ay malapit sa 100, at para sa mga salitang madalas na nangyayari sa isang maliit na bilang lamang ng mga dokumento, ito ay malapit sa 0. Ang listahan ng dalas ng diksyunaryo ni Lenngren ay pinagsunod-sunod pa ayon sa halaga ng produkto ng koepisyent na ito sa pamamagitan ng karaniwang dalas ng salita. Dahil sa ang katunayan na ang teoretikal na katayuan ng gawaing ito ay hindi malinaw, hindi namin itinuring na angkop na pagbukud-bukurin ang aming diksyunaryo ayon dito. Gayunpaman, ang indikasyon nito para sa bawat salita ay ginagawang posible upang masuri kung gaano ito tiyak sa mga indibidwal na paksa. Halimbawa, ang mga salitang nakakatakot, tiyak, at raw ay may halos parehong dalas (21 paglitaw sa bawat milyong salita), ngunit ang D coefficient para sa partikular ay 66, raw ay 18, at nakakatakot ay 78, na nangangahulugang ang huling salita ay makabuluhan. para sa higit pang mga asignatura at (ceteris paribus) ay may mataas na pagkakataon ng isang lugar sa isang di-espesyalisadong diksyunaryo. 3. Ang istraktura ng diksyunaryo Ang konsepto ng diksyunaryo ay nagsasangkot ng paglalathala ng isang "papel" na bersyon na may kasamang elektronikong bersyon, na kumakatawan sa frequency dictionary sa isang mas kumpletong volume. Ang bahagi ng bokabularyo ay naglalaman ng mga sumusunod na seksyon: I. Pangkalahatang bokabularyo ● listahan ng mga lemma ayon sa alpabetikong ● listahan ng dalas ng mga lemma ● pamamahagi ng mga lemma ayon sa mga istilo ng pagganap: diksyunaryo ng frequency ng fiction, diksyunaryo ng makabuluhang bokabularyo ng fiction frequency dictionary ng journalism, diksyunaryo ng makabuluhang pahayagan at bokabularyo ng balita frequency dictionary ng iba pang non-fiction, diksyunaryo ng makabuluhang diksyunaryo ng dalas ng bokabularyo ng live na oral speech, diksyunaryo ng makabuluhang bokabularyo ng buhay na oral speech ● alpabetikong listahan ng mga anyo ng salita II. Mga bahagi ng pananalita ● listahan ng dalas ng mga pangngalan ● listahan ng dalas ng mga pandiwa ● listahan ng dalas ng mga pang-uri ● listahan ng dalas ng mga pang-abay at panaguri ● listahan ng dalas ng mga panghalip (pangngalan, pang-uri, pang-abay, panaguri) ● listahan ng dalas ng mga lemma ng mga pantulong na bahagi ng pananalita III . Mga auxiliary table 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 ● data sa dalas ng mga part-speech classes at iba pang istatistikal na impormasyon IV. Wastong mga pangalan at pagdadaglat ● alpabetikong listahan ng mga lemma Ang alpabetikong listahan ng mga lemma ay naglalaman ng pangalan ng lemma, ang bahagi ng pananalita, ang pangkalahatang dalas ng lemma, ang bilang ng mga dokumento kung saan ito naganap, at ang koepisyent ng variation D. Ang Ang kabuuang dalas ay tumutukoy sa bilang ng mga paglitaw sa bawat milyong salita ng corpus, o ipm (mga pagkakataon sa bawat milyong salita). Ginagawa ito upang gawing mas madaling ihambing ang dalas ng isang salita sa iba't ibang corpora, na maaaring mag-iba nang malaki sa laki. Halimbawa, kung ang salitang kapangyarihan ay lumilitaw ng 55 beses sa isang corpus na 400,000 salita, 364 beses sa isang corpus ng isang milyong salita, at 40,598 beses sa isang corpus ng 100,000,000 na salita sa modernong wikang Ruso, at 55,673 beses sa isang malaking corpus ng 135,000,000 salita, kung gayon ang dalas nito sa ipm ay magiging 137.5 , 364.0, 372.06 at 412.39, ayon sa pagkakabanggit. Kasama sa alpabetikong listahan ng elektronikong edisyon ang 60,000 pinakamadalas na lemma. Ang listahan ng mga lemma, na pinagsunod-sunod ayon sa dalas, ay kinabibilangan ng pangalan ng lemma, bahagi ng pananalita, pangkalahatang dalas ng lemma, bilang ng mga dokumento, D factor, at pamamahagi ng dalas sa pamamagitan ng dekada. Kasama sa listahan ng dalas ang 20,000 sa mga pinakamadalas na lemma. Ang mga diksyonaryo ng dalas ng mga istilo ng pagganap ay pinagsama-sama batay sa mga subcorpus ng fiction, journalism, iba pang non-fiction at oral speech. Kasama sa listahan ang 5000 pinakamadalas na lemma ng mga subcorpus na ito. Ang listahan ng mga pinakakaraniwang lemma para sa bawat uri ng teksto ay pinili batay sa isang paghahambing ng dalas ng mga lemma sa naturang mga teksto at sa iba pang bahagi ng corpus. Ginamit ang criterion ng log-likelihood bilang sukatan ng paghahambing, na kinakalkula batay sa sumusunod na matrix: formula (Rayson & Garside 2000): Kasama sa mga diksyunaryo ng makabuluhang bokabularyo para sa iba't ibang istilo ng pagganap ang 500 lemma bawat isa. Kasama sa alpabetikong listahan ng mga anyo ng salita ang lahat ng anyo ng salita ng corpus na may dalas na higit sa 0.1 ipm (mga 15 libo sa kabuuan); ibinibigay ang pangkalahatang dalas ng anyo ng salita. Ang mga homonymous na anyo ng salita ay minarkahan ng *. Sa seksyong Mga Bahagi ng Pananalita, ang listahan ng dalas ng mga lemma ay nahahati sa anim na sublist: mga pangngalan, pandiwa, pang-uri, pang-abay at panaguri, panghalip at mga bahagi ng pananalita. Para sa bawat lemma, ang pangkalahatang dalas at ranggo nito (serial number) sa pangkalahatang listahan ay ipinahiwatig. Ang bawat listahan ay naglalaman ng 1 libo sa mga pinakamadalas na lemma. Kasama sa mga auxiliary table ang data sa dalas ng part-of-speech classes, iba pang grammatical na kategorya, pati na rin ang impormasyon sa coverage ng text na may mga lexemes, ang average na haba ng salita, mga anyo ng salita at mga pangungusap. Ang diksyunaryo ay nagtatapos sa isang alpabetikong listahan ng mga wastong pangalan at pagdadaglat. Ang mga wastong pangalan ay pinaghihiwalay mula sa pangunahing bahagi ng bokabularyo, dahil bumubuo sila ng isang pangkat na hindi gaanong matatag ayon sa istatistika, at ang dalas ng mga ito ay higit na nakadepende sa pagpili ng mga teksto sa corpus at kanilang chronotope. Sa Lengren 1993, ang opinyon ay ipinahayag na ang pagsasama ng mga wastong pangalan sa isang frequency dictionary sa pangkalahatang batayan ay hindi maiiwasang humahantong sa napaaga nitong pagkaluma. Upang makakuha ng isang listahan ng mga wastong pangalan at pagdadaglat mula sa konkordans ng corpus, ang mga pangngalan at pagdadaglat ay pinili, ang pagbaybay nito sa mga tekstong may malaking titik ay lumampas sa 95% na threshold, cf. Russia, Smirnov, State District Power Plant, Ministry of Foreign Affairs, Labor Code.2 Kasama sa diksyunaryo ang nuklear na bahagi ng listahang ito, na may bilang na 3,000 sa pinakamadalas na unit. Ayon sa tradisyon na binuo para sa mga publikasyon ng ganitong uri, ang mga pahina ng diksyunaryo ay naglalaman ng pamagat na "Mga Kawili-wiling Katotohanan": mga listahan ng mga pinakasikat na salita ng iba't ibang lexical na grupo (mga araw ng linggo, mga phenomena ng panahon, mga kulay, mga pandiwa ng paggalaw. , atbp.) ay nai-publish, pati na rin ang pinakamahabang anyo ng salita at isang listahan ng dalas ng mga bantas. 2 Napansin namin sa partikular na ang mga pang-uri tulad ng Hristov, Petin, Kostroma/Kostroma ay nabibilang sa pangkalahatang bokabularyo. 348 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 349 Dalas Diksyunaryo ng Pambansang Corpus ng Wikang Ruso 6429 kasuutan 2288 kapote 4890 bota 2179 palda 36096 damit 19 dyaket 6096 suotan 6 kapote 6 dyaket 10 dyaket 333 1633 maong 3041 scarf 1585 glove 2962 jacket 1522 fur coat 2955 pantalon 1356 uniform 2840 pantalon 1251 cap 2686 sombrero 1235 sweater 2617 beret 1134 felt boots Bilang halimbawa, sa Talahanayan 3 ibinibigay namin ang mga frequency ng mga pangngalan na nagsasaad ng mga damit at sapatos. Tulad ng inaasahan, ang listahan ay sumasalamin, sa isang banda, ang "katangian" ng mga elemento ng wardrobe (nadama na ang mga bota ay sumasakop lamang sa ika-26 na lugar sa listahan), at, sa kabilang banda, ang kanilang "kabuluhan" sa paglalarawan ng hitsura ng isang tao sa mga teksto (ang suit ay mas perceptual na isang dedikadong item kaysa sa mga bota). 4. Paghahanda ng materyal sa bokabularyo Ang mga pangunahing listahan ng frequency dictionary ay awtomatikong nakuha, gamit ang metatextual at lexico-grammatical marking ng corpus. Sa batayan ng metatextual na impormasyon, ang mga listahan ng dalas ay ginawa at inihambing sa isa't isa sa magkahiwalay na mga sample ng corpus (sa pamamagitan ng mga functional na istilo, sa oras na ang teksto ay nilikha). Ang isa pang uri ng markup, lexico-grammatical, ay ginagawang posible na maitatag ang orihinal na anyo ng isang salita (lemma), bahagi ng pananalita nito, at mga katangiang gramatikal gaya ng case, number, tense, atbp.3 Naging posible ito sa pagkolekta ng data sa dalas ng hindi lamang mga indibidwal na anyo ng salita, ngunit at mga lexemes, pati na rin ang paggamit ng ilang mga kategorya ng gramatika. Sa paggawa ng diksyunaryong ito, ginamit ang isang variant ng lexico-grammatical annotation ng corpus na may awtomatikong paglutas ng morphological homonymy. Ang wikang Ruso, bilang isang wika na may mayaman na inflection, ay lumilikha ng karagdagang mga paghihirap para sa mga compiler ng frequency dictionary, dahil maraming mga anyo ng salita sa mga teksto ay homonymous (cf. Faith). Gayunpaman, sa isang diksyunaryo ng dalas, ang orihinal na anyo ng salita, o lemma, ay dapat na malinaw na nakatalaga sa anumang anyo ng salita. Sa mga diksyunaryo ng nakaraang henerasyon (Zasorina 1977, Lenngren 1993), ang homonymy ay nalutas nang manu-mano, dahil ang dami ng naprosesong corpus ay hindi gaanong mahalaga. Malinaw na ang gayong solusyon ay hindi angkop para sa ika-100 milyong corpus. Kapag kino-compile ang diksyunaryo na ito, ang karanasan ng mga kasamahan sa Czech ay isinasaalang-alang, na kailangang pinuhin ang morphological analyzer, lagyang muli ang diksyunaryo at magsagawa ng manu-manong pag-edit. Sa una, ang NCRS corpus ay minarkahan ng morphological analyzer na Mystem (Segalovich, Maslov 1998). Ang kalabuan sa lexico-grammatical markup ay nalutas gamit ang programa ng A.V. Sokirko, na gumagamit ng trigram model at isang training subcorpus na may hand-remony homonymy (Sokirko, Toldova 2005). Ang mga salitang hindi diksyunaryo ay nagpapakita rin ng isang makabuluhang problema para sa lemmatization (Lyashevskaya et al. 2007). Kung ang salita ay wala sa gramatikal na diksyunaryo ng morphological parser, kung gayon ang isa o higit pang mga hypotheses tungkol sa orihinal na anyo ng salita at ang mga katangian ng gramatika nito ay itinalaga dito. Bilang resulta, ang 3 Mga Prinsipyo ng lemmatization at ang komposisyon ng mga bahagi ng pananalita ay tinutukoy ng morphological standard ng corpus (NKRYA 2005), na karaniwang tumutugma sa mga prinsipyo ng Russian Grammar Dictionary (Zaliznyak 1977). Ang ilang mga tampok ng lemmatization ay nauugnay sa katotohanan na ang pagkolekta ng data ay nangyayari pangunahin sa awtomatikong mode. Tandaan na ang pagmamarka ng salita-sa-salita lamang ang isinasaalang-alang: ang mga nakapirming parirala, tambalang pang-ukol at iba pang di-iisang salita na leksikal na mga yunit (cf. Bagong Taon, sa panahon, gayunpaman, bawat isa) ay hindi kasama sa diksyunaryo. 349 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 350 Lyashevskaya O.N., Sharov S.A. Kasama sa diksyunaryo ang mga "lemmas" bilang pasasalamat (cf. ang anyo ng salita ng pasasalamat), Jansny (cf. Jansen), Barclay (cf. Barclay). Samantala, ang bahagi ng mga di-diksyonaryong anyo ng salita sa NCSL ay 3% ng lahat ng paggamit ng salita at 45% ng listahan ng mga corpus word form. Para sa madalas na mga anyo ng salita na hindi diksyunaryo, gumamit kami ng mga post-processing program para sa morphological markup ng NKRY, na pinagsama-sama ng B.P. Kobritsov at G.K. Bronnikov, pati na rin ang mga resulta ng pagpapatunay ng gawain ng mga programang ito na nakuha ng O.N. Lyashevskaya at D.K. Bronnikova (Lyashevskaya 2007, Bronnikova 2007). Dalawang diskarte sa lemmatization ng mga di-diksyonaryong salita ang naging pinaka-epektibo: clustering ng mga hypotheses tungkol sa lemma at ang uri ng paradigm (ang pinaka-malamang para sa isang anyo ng salita ay ang pagsusuri na nagaganap sa iba pang mga non-dictionary na anyo ng salita, kaya , mga anyo ng salita na "hanapin" ang kanilang mga kapitbahay ayon sa inflectional na paradigm ) at itinatampok ang mga pinakaproduktibong prefix. Dahil ang awtomatikong paglutas ng homonymy at ang interpretasyon ng mga non-dictionary form ay nagbibigay-daan sa isang tiyak, kahit na hindi gaanong mahalaga, error, ang mga homonym na kasama sa unang 20 libong frequency na salita ay sumailalim sa karagdagang manu-manong pag-verify. *** Ang mga may-akda ay nagpapasalamat sa V.A. Plungyan, A.Ya. Shaikevich, pati na rin E.A. Grishina, B.P. Kobritsov, E.V. Rakhilina, D.V. Sichinava at iba pang kalahok ng seminar ng NCRL, na nakibahagi sa talakayan ng mga prinsipyo ng paglikha ng diksyunaryo. Nagpapasalamat kami kay O. Uryupina, D. at G. Bronnikovs, B. Kobritsov, mga empleyado ng Yandex LLC A. Abroskin, N. Grigoriev, A. Sokirko para sa kanilang tulong sa pagkolekta at pagproseso ng materyal. Mga Sanggunian 1. Bronnikova D.K. Paghahambing ng mga algorithm ng lemmatization batay sa materyal ng Russian National Corpus. Graduate work . M.: RGGU, 2007. 2. Belyakova I.Yu., Olovyannikova I.P., Revzina O.G. (comp.). Diksyunaryo ng patula na wika ng Marina Tsvetaeva. Sa 4 na volume. M: House Museum of Marina Tsvetaeva, 1996. 3. Vinogradov V.V. (responsableng ed.). Diksyunaryo ng wika ng Pushkin. T. I - IV. M., 1956-1961. 4. Zaliznyak A.A. Grammar Dictionary of the Russian Language: Inflection. M., 1977; Ika-4 na ed.: M.: Mga diksyunaryong Ruso, 2003. 5. Zasorina L.N. (ed.). Diksyunaryo ng dalas ng wikang Ruso. Moscow: wikang Ruso, 1977. 6. Löngren L. (ed.). Diksyunaryo ng Dalas ng Modernong Wikang Ruso. Uppsala, 1993. 7. Lyashevskaya O.N. Sa problema ng lemmatization ng mga di-diksyonaryo na salita // Computer Linguistics and Intelligent Technologies: Proceedings of the International Conference "Dialogue 2007". M, 2007. 8. Lyashevskaya O.N., Kobritsov B.P., Sichinava D.V. Pag-automate ng pagbuo ng isang diksyunaryo sa batayan ng isang hanay ng mga di-diksyonaryo na anyo ng salita // Internet Mathematics 2007. Ekaterinburg, 2007. 9. NCRL: National Corpus of the Russian Language 2003-2005: Resulta at Prospect. M.: Indrik, 2005. 10. Piotrovsky R.G., Bektaev K.B., Piotrovskaya A.A. Mathematical linguistics. M.: Vysshaya Shkola, 1972. 11. Polyakov A.E. Electronic Dictionary of the Writer's Language (sa halimbawa ng wika ng A.S. Griboedov) // Proceedings of the International Seminar Dialog-99 on Computational Linguistics and its Applications. Tarusa, 1999. M., 1999. T. 2. S. 230-236. 12. Segalovich I., Maslov M.. Russian morphological analysis at synthesis sa pagbuo ng mga modelo ng inflection para sa mga salitang hindi inilarawan sa diksyunaryo // Mga pamamaraan ng internasyonal na seminar Dialog'98 sa computer linguistics at mga aplikasyon nito. Kazan, 1998. V.2. pp. 547–552. 13. Sokirko A.V., Toldova S.Yu. Paghahambing ng pagiging epektibo ng dalawang pamamaraan para sa pag-alis ng lexical at morphological ambiguity para sa wikang Ruso // International Conference "Corpus Linguistics 2004". S.- Pb., 2004. 14. Stepanova E.M. Diksyunaryo ng dalas ng pangkalahatang pang-agham na bokabularyo. Moscow, 1976. 15. Shaikevich A.Ya., Andryushchenko V.M., Rebetskaya N.A. Diksyonaryo ng istatistika ng wika ng Dostoevsky. M.: Mga Wika ng Kultura ng Slavic, 2003. 16. Steinfeld E.A. Diksyunaryo ng Dalas ng Modernong Wikang Pampanitikan ng Ruso. Tallinn, 1963. 17. Čermák F., Křen M. (eds.). Frekvenční slovník češtiny (Dalas na diksyunaryo ng Czech). Praha: NLN, 2004. 18. Čermák F., Křen M. New generation corpus-based frequency dictionaries: The case of Czech // International Journal of Corpus Linguistics, 10, 2005. P. 453-467. 19. Simbahan K.W. Mga empirikal na pagtatantya ng adaptasyon: ang pagkakataon ng dalawang Noriegas ay mas malapit sa p/2 kaysa sa p2 // Proceedings of the 18th Сonference on Computational Linguistics (COLING). Saarbrücken, Germany, 2000. Vol. 1. P. 180-186. 20. Cieri Ch., Liberman M. Paglikha at pamamahagi ng mga mapagkukunan ng wika sa Linguistic Data Consortium // Proceedings of LREC 02. Las Palmas, Spain, 2002. C. 1327-1333. 21. Davies M. A Frequency Dictionary of Spanish: Core Vocabulary for Learners. London-N.Y.: Routledge, 2005. 22. Josselson H.H. Ang Bilang ng Salita ng Ruso at Pagsusuri ng Dalas ng Mga Kategorya ng Gramatiko ng Standard Literary Russian. Detroit: Wayne University Press, 1953. 23. Juilland A., Brodin D., Davidovitch C. Frequency Dictionary of French Words. The Hague-Paris: Mouton, 1970. 24. Kilgarriff A. Paglalagay ng mga frequency sa diksyunaryo // International Journal of Lexicography, 10 (2), 1997. P. 135-155. 25. Leech G., Rayson P., Wilson A. Mga Dalas ng Salita sa Written and Spoken English: batay sa British National Corpus. London: Longman, 2001. 26. Rayson P., Garside R. Comparing corpora using frequency profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000. Hong Kong, 2000. P. 1-6. 27. Sharoff S. Paglikha ng general-purpose corpora gamit ang automated search engine query // Baroni M., Bernardini S. (eds.), WaCky! Mga gumaganang papel sa Web bilang Corpus. Bologna: Gedit, 2006. http://wackybook.sslmit.unibo.it. 351