Dicionário de Frequências do Corpus Nacional da Língua Russa: Conceito e Tecnologia de Criação.

DICIONÁRIO DE FREQUÊNCIA

tipo de dicionário (ver dicionário) (geralmente monolíngue), em que as unidades lexicais são caracterizadas em termos do grau de seu uso na totalidade dos textos que são representativos para a língua como um todo, ou para um estilo funcional separado (ver Estilo), ou para um autor . Dependendo do tipo, as unidades lexicais diferem no Ch. formas de palavras, palavras (lexemas), bases de palavras (usadas em ciência da computação), palavras em determinados significados (ch. semântico com.), frases. Existem características absolutas e relativas do uso de uma unidade lexical ( x). A característica absoluta é a frequência ( f) da unidade lexical fornecida ( X), igual ao número de usos X no conjunto de textos pesquisados f(x). Polegada. qualquer f(x), ou a frequência normalizada

Onde N- o número de palavras estudadas do texto. A característica relativa do uso de uma unidade lexical é sua classificação (o número de unidades lexicais que em um dado Ch. com. têm uma característica absoluta de uso que é maior ou igual à característica absoluta de uma dada unidade lexical), ou algum sinal pelo qual a classificação pode ser calculada com mais ou menos precisão. Na maioria Ch. características absolutas e relativas são dadas. Ch. s. são usados ​​para criar métodos eficazes de ensino de idiomas, para destacar palavras-chave(na ciência da computação), para criar códigos racionais (na teoria da comunicação).

Aceso.: Ermolenko G.V., Estatística linguística. Breve ensaio e índice bibliográfico, Alma-Ata, 1970; Steinfeldt E. A., Dicionário de Frequências da Língua Literária Russa Moderna, M., 1973; Dicionário de Frequências da Língua Russa, ed. Editado por L. N. Zasorina. Moscou, 1977. Kučera H., Francis W., Análise computacional do inglês americano atual, Providence, 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier H., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des frequences vocabulaire littéraire des XIX et XX siecles, v. 1-4, P.-Nancy, 1971 (Centre de recherche pour un trésor de la langue française); Bailey R., Doležel L., Uma bibliografia comentada de estilística estatística, Ann Arbor, 1968.

Da Wikipédia, a enciclopédia livre

Dicionário de frequência(ou lista de frequência) - um conjunto de palavras de um determinado idioma (ou sublinguagem) juntamente com informações sobre sua frequência de ocorrência. O dicionário pode ser ordenado por frequência, alfabeticamente (depois, para cada palavra será indicada a sua frequência), por grupos de palavras (por exemplo, as primeiras mil palavras mais frequentes, seguidas das segundas, etc.), por tipicidade (palavras que são frequentes para a maioria dos textos), etc. As listas de frequência são usadas para ensino de línguas, criação de novos vocabulários, aplicações de linguística computacional, pesquisa de tipologia linguística, etc.

Criando listas de frequência

Normalmente, os dicionários de frequência são construídos com base em corpora de texto: toma-se um conjunto de textos representativos da língua como um todo, para alguma área de assunto ou um determinado autor (ver Dicionário de Frequências de Griboedov) e formas de palavras, lemas e partes de dele são extraídas as falas (as últimas são extraídas se o corpus tiver marcações morfológicas).

Os problemas na criação de listas de frequência são:

  • reprodutibilidade (se os resultados serão idênticos em outro caso semelhante),
  • rajadas na frequência de palavras individuais (a frequência de uma palavra em um texto pode afetar sua posição na lista de frequência),
  • dificuldades em determinar a posição de palavras menos frequentes, o que impossibilita classificá-las racionalmente; por exemplo, a palavra bobagem está incluída nas 20.000 palavras mais frequentes, enquanto a palavra grunhido está fora da lista dos primeiros 40 mil.

Todos esses problemas estão relacionados ao fato de que, do ponto de vista estatístico, uma língua é um grande número de eventos raros(Lei de Zipf), como resultado do qual um pequeno número de palavras ocorre com muita frequência e a grande maioria das palavras tem uma frequência muito baixa. frequência de palavras e(a palavra mais frequente no idioma russo) é cerca de 10 vezes maior que a frequência da palavra cerca de, que por sua vez ocorre 100 vezes mais frequentemente do que palavras comuns como viagem, velhice ou moda.

Uma metáfora hobbit pode ser usada para descrever explosões de frequência (Adam Kilgarriff originalmente usou a palavra inglesa relativamente rara búzio, um tipo de molusco do mar, eng. búzio ): se houver vários textos no corpus sobre hobbits, essa palavra será usada em quase todas as frases. Como resultado, sua frequência nesses textos será comparável à frequência de palavras funcionais, mas na lista de frequência de um grande corpus, que inclui esses textos, essa palavra terá uma classificação incrivelmente alta. Essas rajadas de frequência podem ser estimadas usando o coeficiente de variação: a razão entre o desvio padrão e a frequência média.

Comparação de casos

Os dicionários de frequência permitem comparar dois corpora para determinar as palavras mais características de cada um. Devido ao fato de que os tamanhos dos corpora podem ser diferentes, uma estimativa mais confiável da frequência de palavras é baseada em reduzi-los a CMS (frequência por milhão de formas de palavras, eng. ipm, instâncias por milhão de palavras ). Palavra e tem uma frequência de cerca de 30.000 hms, a palavra velhice- cerca de 30.

Para determinar o conjunto de palavras-chave que distinguem um corpus de outro, você pode usar diferentes medidas estatísticas: qui-quadrado, razão de verossimilhança (eng. Teste de razão de verossimilhança ) etc

Veja também

Escreva uma resenha sobre o artigo "Dicionário de Frequências"

Literatura

  • Adam Kilgarriff// Revista Internacional de Lexicografia. - 1997. - Nº 10(2). - P. 135-155.
  • Lyashevskaya O.N., Sharov S.A.. - M.: Azbukovnik, 2009. - 1087 p. - ISBN 978-5-91172-024-7.
  • Dicionário de Frequências // Grande Enciclopédia Soviética: [em 30 volumes] / cap. ed. A. M. Prokhorov. - 3ª edição. - M : Enciclopédia Soviética, 1969-1978.
  • Dicionário de Frequências da Língua Russa / Ed. L. N. Zasorina. - M.: língua russa, 1977.
  • // Enciclopédia Lermontov / Academia de Ciências da URSS. In-t rus. aceso. (Pushkin. Casa); Scientific-ed. conselho da editora “Corujas. Enciclopédia.". - M.: Sov. Encycl., 1981. - S. 717-774.
  • Sharov S.A. .
  • Steinfeldt E. A. Dicionário de Frequências da Língua Literária Russa Moderna. - M., 1973.

Links

Um trecho caracterizando o Dicionário de Frequências

Os soldados de infantaria parados, amontoados na lama pisoteada pela ponte, olhavam para os hussardos limpos e elegantes, passando harmoniosamente por eles, com aquele sentimento especial e hostil de alienação e zombaria com que vários ramos do exército costumam se encontrar.
- Caras legais! Se apenas para Podnovinskoye!
- Que bom eles são! Apenas para mostrar e dirigir! outro disse.
– Infantaria, não poeira! - brincou o hussardo, sob o qual o cavalo, brincando, jogou lama no soldado de infantaria.
“Eu teria levado você com uma mochila para duas transições, os cadarços estariam gastos”, disse o soldado de infantaria, limpando a sujeira do rosto com a manga; - caso contrário, não é uma pessoa, mas um pássaro está sentado!
“Seria melhor colocá-lo em um cavalo, Zikin, se você fosse hábil”, brincou o cabo para o soldado magro, torcido pelo peso da mochila.
“Pegue um bastão entre as pernas, aqui está um cavalo para você”, respondeu o hussardo.

O resto da infantaria atravessou a ponte às pressas, formando um vórtice na entrada. Finalmente, todas as carroças passaram, a aglomeração diminuiu e o último batalhão entrou na ponte. Alguns hussardos do esquadrão de Denisov permaneceram do outro lado da ponte contra o inimigo. O inimigo, visível à distância da montanha oposta, de baixo, da ponte, ainda não era visível, pois da depressão por onde corria o rio, o horizonte terminava com a elevação oposta não mais que meia versta. À frente havia um deserto, ao longo do qual em alguns lugares se moviam grupos de nossos cossacos viajantes. De repente, na elevação oposta da estrada, apareceram tropas de capuzes azuis e artilharia. Esses eram os franceses. A tropa dos cossacos desceu a trote. Todos os oficiais e pessoas do esquadrão de Denisov, embora tentassem falar de estranhos e olhar ao redor, não paravam de pensar apenas no que havia lá, na montanha, e perscrutavam incessantemente os pontos que apareciam no horizonte, que reconheciam como tropas inimigas. O tempo melhorou novamente à tarde, o sol se pôs brilhante sobre o Danúbio e as montanhas escuras que o cercavam. Estava quieto, e daquela montanha ocasionalmente vinham os sons de buzinas e gritos do inimigo. Não havia ninguém entre o esquadrão e o inimigo, exceto por pequenos desvios. Espaço vazio, trezentas braças, os separava dele. O inimigo parou de atirar, e essa característica rígida, formidável, inexpugnável e indescritível que separa as duas tropas inimigas foi sentida com mais clareza.
“Um passo além desta linha, uma reminiscência da linha que separa os vivos dos mortos e - o desconhecido do sofrimento e da morte. E o que há? Quem está aí? lá, atrás deste campo, e uma árvore, e um telhado iluminado pelo sol? Ninguém sabe, e se quer saber; e é assustador cruzar essa linha, e eu quero cruzá-la; e você sabe que mais cedo ou mais tarde terá que atravessá-la e descobrir o que está lá, do outro lado da linha, assim como é inevitável descobrir o que está lá, do outro lado da morte. E ele mesmo é forte, saudável, alegre e irritável, e cercado por pessoas tão saudáveis ​​e irritadamente animadas. Portanto, se ele não pensa, toda pessoa que está à vista do inimigo sente, e esse sentimento dá um brilho especial e uma nitidez alegre de impressões a tudo o que acontece nesses momentos.
A fumaça de um tiro apareceu em uma colina perto do inimigo, e a bola, assobiando, voou sobre as cabeças do esquadrão de hussardos. Os oficiais que estavam juntos se dispersaram para seus lugares. Os hussardos diligentemente começaram a endireitar os cavalos. Tudo no esquadrão ficou em silêncio. Todos olhavam para o inimigo e para o comandante do esquadrão, esperando o comando. Outro, terceiro núcleo voou. É óbvio que atiraram nos hussardos; mas a bala de canhão, assobiando uniformemente rápido, voou sobre as cabeças dos hussardos e atingiu algum lugar atrás. Os hussardos não olharam para trás, mas a cada som de uma bala de canhão voando, como se estivesse sob comando, todo o esquadrão com seus rostos monotonamente diversos, prendendo a respiração enquanto a bala de canhão voava, subia nos estribos e descia novamente. Os soldados, sem virar a cabeça, se entreolharam, curiosamente procurando a impressão de um camarada. Em todos os rostos, de Denisov ao corneteiro, perto dos lábios e do queixo, apareceu uma característica comum de luta, irritação e excitação. O sargento-mor franziu a testa, olhando para os soldados, como se estivesse ameaçando punição. Junker Mironov se abaixava a cada passagem do núcleo. Rostov, de pé no flanco esquerdo em seu Grachik tocado, mas visível, tinha o olhar feliz de um aluno chamado diante de uma grande platéia para um exame, no qual tinha certeza de que se destacaria. Ele olhou ao redor de forma clara e brilhante para todos, como se estivesse pedindo que prestassem atenção em como ele fica calmo sob as balas de canhão. Mas também em seu rosto, a mesma característica de algo novo e rigoroso, contra sua vontade, foi mostrada perto da boca.
- Quem se curva lá? Yunkeg "Mig" ons! Hexog "oh, olhe para mim" ite! - gritou Denisov, que não conseguia ficar parado e que estava girando em um cavalo na frente do esquadrão.
O rosto de nariz arrebitado e cabelos pretos de Vaska Denisov e toda a sua pequena figura caída com sua mão musculosa (com dedos curtos cobertos de cabelo), na qual ele segurava o cabo de um sabre desembainhado, era exatamente o mesmo que sempre, especialmente à noite, depois de beber duas garrafas. Ele estava apenas mais vermelho do que de costume e, jogando a cabeça desgrenhada para cima como pássaros quando bebem, apertando impiedosamente as esporas nas laterais do bom beduíno com seus pezinhos, ele, como se estivesse caindo para trás, galopou para o outro flanco do esquadrão e com voz rouca gritou para inspecionar as pistolas. Ele dirigiu até Kirsten. O capitão do estado-maior, em uma égua larga e tranquila, cavalgou em direção a Denisov a passos largos. A equipe do capitão, com seus longos bigodes, estava séria como sempre, apenas seus olhos brilhavam mais do que de costume.

Os dicionários de frequência são dicionários que contêm características numéricas do uso de palavras; as palavras neles são organizadas dependendo da frequência de uso de palavras em textos de um determinado comprimento. Este tipo relativamente novo de publicações lexicográficas vem se desenvolvendo especialmente ativamente nos últimos anos devido à introdução de novas tecnologias na lexicografia.

Os dicionários de frequência fornecem um ótimo material para resolver uma série de problemas gerais teóricos e linguísticos aplicados, são necessários para a compilação de dicionários educacionais, desenvolvimento de livros didáticos e adaptação linguo-metodológica de textos.

O primeiro dicionário de frequências em linguística russa foi o “Dicionário de Frequências da Língua Literária Russa Moderna” de E.A. Steinfeldt, compilado com base em materiais da literatura moderna, imprensa, transmissões de rádio (50-60 do século XX) e dirigido principalmente a professores de russo como língua não nativa. Apresenta dados sobre a frequência de palavras obtidas com base no processamento de textos de 400.000 palavras. O dicionário contém palavras que cobrem até 80% de vários textos. Além das indicações usuais do número de usos, é fornecido o número de textos em que a palavra dada é anotada. São dadas características estatísticas de algumas categorias morfológicas. Dicionário de E. A. Steinfeldt serviu de base para a compilação de muitos dicionários explicativos educacionais e dicionários mínimos.

"Dicionário de Frequências da Língua Russa" editado por L.N. Zasorina é uma coleção de dados estatísticos sobre a composição lexical da língua russa moderna. O dicionário foi compilado com base no processamento computacional de 1 milhão de usos de palavras; abrange mais do que apenas a linguagem ficção, mas também jornalística e discurso de negócios, que existia no campo comunicação em massa. Quadro cronológico o dicionário, como observam os compiladores, “abrange a época das obras de Lenin e Gorky até os anos 60”, de modo que os pesquisadores recebem material valioso para estudar o vocabulário era soviética. O dicionário de frequência alfabética inclui todos os lexemas encontrados nos textos, cada unidade lexical é dotada de características quantitativas. O dicionário de frequência contém palavras com frequência igual ou superior a 10, totalizando 9.044 unidades, dispostas em ordem decrescente de frequência. Várias características estatísticas das unidades do dicionário formam a base para estudar a estrutura estatística do vocabulário da língua russa, para determinar os limites do vocabulário principal. O apêndice contém uma grande valor prático lista de homógrafos e homônimos gramaticais.

Os bancos de dados modernos deram um poderoso impulso ao desenvolvimento de dicionários de frequência. "Dicionário de Frequências da Língua Russa Moderna" de O. N. Lyashevskaya e S. A. Sharov é baseado na coleção de textos do Corpus Nacional da Língua Russa, representando a língua russa moderna do período 1950-2007. O tamanho da amostra, na qual a maioria das seções do dicionário é construída, é de 92 milhões de usos de palavras. O dicionário contém uma variedade de informações estatísticas sobre 50.000 nomes comuns e 3.000 nomes próprios e abreviaturas. São fornecidas listas de frequência de vocabulário típico do jornalismo, discurso oral e outros estilos funcionais, bem como listas dos substantivos, adjetivos, verbos e palavras mais comuns de outras partes do discurso. A versão eletrônica do dicionário é publicada no site do Instituto da Língua Russa. V. V. Vinogradova Academia Russa Ciências (http://dict.ruslang.ru).

O projeto “Dicionário de Frequências de Formas de Palavras da Língua Russa” de A. V. Ventsov e E. V. Grudeva é a primeira tentativa na história de compilar dicionários de frequência da língua russa para organizar não lexemas, mas formas de palavras acentuadas de acordo com a frequência de ocorrência. O dicionário é compilado com base no milionésimo Corpus da Língua Literária Russa (www.narusco.ru). O projeto apresenta uma descrição completa do dicionário e suas principais seções na forma de seleções limitadas.

No "Dicionário temático de frequências" Urban transporte público 44 » G.A. Martinovich apresenta os resultados de uma análise estatística distributiva de uma área conceitual - 74.521.000 usos de palavras extraídos do corpus Jornais russos Departamento do fundo de máquina da língua russa do Instituto da língua russa. V. V. Vinogradov e 29.500 exemplos de textos de 9 jornais russos em 1997.

Muitos dicionários de frequência são de natureza aplicada e são direcionados principalmente a compiladores de programas, dicionários mínimos, livros didáticos no idioma russo. Alguns deles fixam o vocabulário comum, outros estão associados a um gênero especial ou a uma parte estilisticamente fixa do vocabulário.

"Dicionário de Frequências da Língua Russa Moderna" P.I. Charakose consiste em duas partes, que são dois dicionários de frequências diferentes, feitos em diferentes material de fala: um sobre os textos dos livros didáticos escola primaria, o outro - no material do berçário discurso coloquial. A primeira parte contém 5.025 palavras, que representam 91,6% de todos os usos de palavras em 15 livros didáticos. As palavras são apresentadas em listas de frequência e alfabética. A segunda parte apresenta 2.830 palavras da fala coloquial de crianças do cotidiano, organizadas por frequência e por ordem alfabética.

O dicionário "2830 palavras mais comumente usadas no discurso coloquial russo" reflete o núcleo das palavras mais comuns no discurso coloquial moderno; foi compilado com base em uma análise da fala coloquial ao vivo gravada em fita magnética (em 1964-1966). O volume total de material coletado é de 400.000 usos de palavras. A lista é apresentada em duas versões - alfabeticamente e por prevalência.

"Lista das palavras mais comuns do idioma russo" editado por Z.P. Daunene inclui as palavras dos primeiros mil dicionários de 13 frequências e listas do idioma russo, compiladas com base em vários materiais. A lista contém 3917 palavras, inclui palavras significativas e auxiliares. Ao lado de cada palavra são indicadas as fontes em que está registrada e o número dessas fontes, o que permite destacar o vocabulário mais utilizado.

Em "Dicionário de Frequências da Linguagem do Jornal" G.P. Polyakova e G.Ya. Solganika incluiu 1997 palavras com uma frequência de pelo menos 12 em tópicos de jornais com um comprimento de 200.000 usos de palavras. O dicionário contém uma lista geral de palavras em frequência decrescente, cobrindo uma média de 80-83% do texto do jornal.

"Dicionário de frequência complexo do vocabulário científico e técnico russo" P.N. Denisova et al. contém listas de 3047 palavras mais comuns na literatura científica e técnica russa (frequência, alfabética, inversão, agrupadas por partes do discurso), bem como tabelas que permitem julgar a prevalência de certos fenômenos gramaticais na língua de literatura científica e técnica.

"Dicionário de Frequências do Vocabulário Científico Geral" inclui 2.074 palavras. O dicionário é baseado em um texto de 400.000 palavras (formas de palavras). As fontes foram livros didáticos para universidades em seis ramos do conhecimento: matemática, física, química, biologia, medicina, geologia e geografia. Uma passagem de 2.000 formas de palavras foi retirada de cada fonte. 200 dessas amostras foram examinadas. As palavras são apresentadas em listas de frequência e alfabética.

A publicação de um tipo consolidado e generalizante é o livro "Mínimos Léxicos da Língua Russa", criado sob a direção de V. V. Morkovkin. O dicionário abre com a lista "Unidades lexicais estruturais básicas do idioma russo", que combina palavras e frases ambíguas que garantem o funcionamento de palavras de valor total e formam a estrutura modal do texto (por exemplo, ser, na forma de, em vista de, apenas, assim que, além disso, de fato, dessa maneira, embora, todo etc.). A seguir estão listas de palavras de volume crescente, cobrindo o núcleo lexical da língua russa moderna: 1) 500 palavras russas mais comuns, 2) 1.000 palavras russas mais comuns, 3) 1.500 palavras, 4) 2.000 palavras, 5) 2.500 palavras , 6) 3.000 palavras, 7) 3.500 palavras. A terceira parte do livro é um dicionário mínimo temático da língua russa moderna, cujo objetivo é organizar e apresentar conjuntos das palavras russas mais importantes necessárias para garantir tipos produtivos de atividade de fala - fala e escrita. Uma parte importante do livro é uma seção que apresenta o valor comparativo e generalizado das palavras mais comuns da língua russa de acordo com 8 dicionários de frequência. Assim, o dicionário é uma ferramenta valiosa para metodologistas e professores de língua russa envolvidos na compilação de materiais didáticos, livros para leitura, preparação de materiais práticos para trabalhos educacionais.

Um lugar especial entre os dicionários de frequência é ocupado por dicionários que podem ser usados ​​em sistemas automáticos de recuperação de informações. Assim, o "Dicionário de Indexação de Frequências" (editado por L. V. Sakharny) foi compilado para resolver problemas de recuperação de informação. O material para o dicionário foi de 1660 resumos sobre instrumentos elétricos de medição (cerca de 105 mil palavras no total). Os princípios da compilação de um dicionário são aplicáveis ​​a qualquer ramo do conhecimento. O dicionário é baseado em uma nova unidade para lexicografia - um hiperlexema (um certo conjunto de lexemas de raiz única de uma ou diferentes partes do discurso, interligados por relações de transformação, derivação: inércia, inércia, inércia ; dente, dente, dente, dente). No dicionário, os hiperlexemas são organizados de acordo com o grau de frequência.

"Dicionário de Frequências de Multiplicadores Semânticos da Língua Russa" Yu.N. Karaulov é compilado com base nas definições dos dicionários explicativos da moderna língua literária russa. As unidades de conta nele são multiplicadores semânticos, que atuam como segmentos de palavras de valor completo, que são componentes de definições. Refletindo a estrutura estatística e semântica da parte direita dos dicionários explicativos, o dicionário de frequência pode ser utilizado para pesquisas no campo da semântica lexical, bem como na prática de lexicografia e recuperação de informação. O artigo introdutório mostra as possibilidades de usar o dicionário para encontrar a conexão semântica das palavras na construção automática do tesauro russo.

"Dicionário de Frequências da Linguagem de Comunicação de Massa" de B.V. Krivenko é a primeira experiência de um dicionário de frequências construído sobre o material não apenas de textos escritos (jornal " TVNZ”, jornais regionais), mas também discurso sonoro (rádio, televisão, cinejornal). O dicionário dá um recorte síncrono do nível lexical da linguagem do jornal, transmissões de informação de rádio e televisão para 1965-1985. O comprimento total da amostra de texto é de 71.164 usos de palavras. O dicionário contém listas de palavras em ordem decrescente de frequência, listas de palavras em ordem alfabética. Os primeiros lugares na lista das palavras mais frequentes (com exceção das palavras funcionais e pronomes) são ocupados pelas palavras ano, trabalhos, país, dia, Fazenda coletiva, o negócio, Tempo, festa, Novo, conselho, trabalhador, soviético, pessoas, distrito, hoje, cidade, organização, pessoa, presidente, secretário, ampla, região, nome, mundo, república , plano. Frequência das palavras na linguagem dos meios mídia de massa reflete perfeitamente as características do discurso político soviético, um conjunto de ideologemas da era soviética. "Dicionário estatístico do jornal russo" A.Ya. Shaikevich e outros dão uma ideia da frequência do vocabulário nos jornais dos anos 90. século 20 Os mesmos objetivos são perseguidos pelo dicionário de O. V. Golovan.

O estudo da frequência das unidades lexicais permite tirar conclusões importantes sobre as características da linguagem e do estilo do escritor. Não é por acaso que, nos últimos anos, um grande número de dicionários de frequência da linguagem das obras de arte de escritores e poetas russos foi publicado (consulte a seção "Dicionários do autor").

Ventsov L.V., Grudeva E.V. Dicionário de frequência de formas de palavras da língua russa: projeto. Cherepovets: Cherepovets, estado. un-t, 2008. 204 p.

Golovan O.V. dicionário de frequência linguagem moderna mídia: um guia de estudos. Barnaul: Alt. Estado tecnologia. un-ta im. I.I. Polzunova, 2006. 622 p.

Graudina L.K., Itskovich V.A., Katlinskaya L.P. Variantes gramaticais: experiência do dicionário de frequências / Ros. acad. Ciências, Instituto de Linguística, Pesquisa. M.: Nauka, 1971. 102 p.

Denisov P.N., Morkovkin V.V., Safyan Yu.A. Dicionário de frequências complexo do vocabulário científico e técnico russo. M.: língua russa, 1978. 406 p.

Karaulov Yu.N. Dicionário de frequência de multiplicadores semânticos da língua russa / otv. ed. S.G. Barkhudarov. M.: Nauka, 1980. 207 p.

Complexo dicionário educacional. A base lexical da língua russa: / V.V. Morkovkin, N.O. Boehme, I. A. Dorogonova, T. F. Ivanova, I. D. Uspenskaya; ed. V.V. Morkovkin. M. : ACT, 2004. 880 p. .

Krivenko B.V. Dicionário de Frequências da Linguagem de Comunicação de Massa. Voronezh: Editora Voronezh, un-ta, 1992. 218 p.

Kudasheva M.A., Levina R.I. Dicionário de frequência dos particípios mais comuns em geologia, mineralogia, cristalografia, geodésia: livro didático. L.: Leningrado. montanha em-t im. G.V. Plekhanova, 1974. 29 p.

Mínimos lexicais da língua russa moderna / VV Morkovkin, Yu.A. Safyan, E. M. Stepanova, I. V. Dorofeeva; ed. V.V. Morkovkina; In-t rus. lang. eles. COMO. Pushkin. M. : Língua russa, 1985. 608 p.

Mínimo lexical para russo como língua estrangeira: um nível básico de: propriedade comum / comp. NP Andryushina, T.V. Kozlov.

4ª edição, rev. e adicional São Petersburgo: Zlatoust, 2004. 111 p. (Teste em russo como língua estrangeira). [O mesmo em 2001].

Mínimo lexical em russo como língua estrangeira: o segundo nível de certificação: conhecimento geral / comp. NP Andryushin (ed. responsável) [e outros]. 3ª edição. SPb. : Crisóstomo, 2011. 162 p. (Sistema estatal russo de testar cidadãos países estrangeiros Em russo). [O mesmo em 2009].

Mínimo lexical em russo como língua estrangeira: o primeiro nível de certificação: conhecimento geral / comp. NP Andryushin (ed. responsável) [e outros]. 5ª edição, rev. e adicional São Petersburgo: Zlatoust,

2011. 195 p. (Sistema Estatal Russo para Testar Cidadãos de Países Estrangeiros na Língua Russa). [O mesmo em 2002, 2005].

Mínimo lexical em russo como língua estrangeira: nível elementar: conhecimento geral / comp. NP Andryushina, T.V. Kozlov. 4ª edição, rev. SPb. : Crisóstomo, 2012. 79 p. (Teste em russo como língua estrangeira). [O mesmo em 2000, 2004].

Lyashevskaya O.N., Sharov S.A. Dicionário de Frequências da Língua Russa Moderna (baseado nos materiais do Corpus Nacional da Língua Russa) [informações estatísticas sobre 50.000 substantivos comuns e 3.000 nomes próprios e abreviaturas] / Ros. acad. Ciências, Instituto de Rus. lang. eles. V. V. Vinogradova. M.: Azbukovnik, 2009. 1087 p.

Martinovich G.A. Dicionário temático de frequência "Transporte público urbano". SPb. : Filol. falso. São Petersburgo. Estado universidade,

Polyakova G.P., Solganik G.Ya. Dicionário de Frequências da Língua do Jornal. M.: Editora Moek. Estado un-ta, 1971. 281 p.

Safyan Yu.A. Dicionário de frequência do vocabulário técnico russo. Yerevan: Bartsraguin Dproc, 1971. 128 p.

O sistema de mínimos lexicais da língua russa moderna: 10 listas lexicais: de 500 a 5000 palavras russas mais importantes / Estado. in-t rus. lang. eles. COMO. Pushkin; comp. T.F. Bogacheva, N. M. Lutskaya, V.V. Morkovkin, Z.P. Popova; ed. V.V. Morkovkina. M.: Astrel: ACT, 2003. 768 p.

Lista das palavras mais comuns do idioma russo / comp. L.G. Vishnyakova, Z.P. Daunene, T. P. Ishanova, R. M. Nefedov; abaixo do total ed. Z.P. Downene. M.: Acad. ped. Ciências da URSS, Instituto de Pesquisa Científica do professor. russo lang. no nacional escola, 1974. 160 p.

Ter-Misakyants 3. T. Dicionário de frequência de vocabulário matemático / ed. V.M. Grigoryan, R. S. Manucharyan. Yerevan: Yerevan, estado. un-t, 1973. 67 p.

Kharakoz P.I. Dicionário de Frequências da Língua Russa Moderna. Frunze: Mektep, 1971. 180 p.

Dicionário de frequência de vocabulário geológico: livro / comp. DENTRO E. Rubkaleva, M. A. Kudasheva, E. M. Val [e outros]; científico ed. DENTRO E. Rubkalev. L.: Leningrado. montanha em-t im. G.V. Plekhanova, 1973. 64 p.

Indexação do Dicionário de Frequências / ed. ed. L. V. Sakharny.

Perm: Editora Perm. un-ta, 1974. 828 p.

Dicionário de frequência de vocabulário científico geral / comp. MI. Zykina, V. I. Krupchanova, M. M. Nakhabina [id.]; ed. COMER. Stepanova. M.: Editora Moek. Estado un-ta, 1970. 87 p. Dicionário de frequência da língua russa [cerca de 40.000 palavras] / ed. L.N. Zasorina; comp. V.A. Agraev, V. V. Borodin, L. N. Zasorina, V. M. Muratova, E. V. Tisenko; especialista. científico ed. MI. Privalov. M.: língua russa, 1977. 934 p.

Shaikevich L.Ya., Andryushchenko V.I., Rebetskaya N.A. Dicionário estatístico do jornal russo: (1990) / Ros. acad. Ciências, Instituto de Rus. lang. eles. V.V. Vinogradov. M.: Línguas da cultura eslava: editora A. Koshelev, 2008. T. 1. 578 p. (Studia philologica).

Shilova G.E., Sternin I.A. Dicionário de frequência de palavras estrangeiras: (baseado em jornalismo) / Voronezh, estado. un-t, Mezhregion, centro de comunicações. pesquisar Voronezh: Origins, 2005. 126 p. Steinfeldt E.A. Dicionário de frequência da língua literária russa moderna: um livro de referência para professores de língua russa / ed. V.A. Itskovich. M.: Progresso, 1973. 228 p. .

Shurpaeva M.I. Dicionário-mínimo diferenciado da língua russa por tipos de atividade de fala para séries elementares do Daguestão escola nacional. Makhachkala: Daguchpedgiz, 1982. 153 p.

DICIONÁRIO DE FREQUÊNCIA
DA CORPORAÇÃO NACIONAL DA LÍNGUA RUSSA: CONCEITO E TECNOLOGIA DE CRIAÇÃO

DICIONÁRIO DE FREQUÊNCIAS DO CORPUS NACIONAL RUSSO: PRINCÍPIOS E TECNOLOGIA

Lyashevskaya O.N. ([e-mail protegido] ) , Instituto da Língua Russa. V.V. Vinogradova, Moscou
Sharov S.A.
([e-mail protegido] ), Universidade de Leeds, Reino Unido

O dicionário contém um dicionário básico representativo da língua russa moderna (2ª metade XX - início de XXI séculos), fornecido com informações sobre a frequência de uso, distribuição estatística por textos e gêneros, e pelo tempo de criação dos textos. O dicionário é baseado nos textos do Corpus Nacional da Língua Russa com um volume de 100 milhões de palavras.

1. Introdução

Vários dicionários de frequência foram desenvolvidos para o idioma russo. O pioneiro foi o dicionário de G.Yosselson, publicado em 1953 em Detroit sobre o material da linguagem por excelência Rússia pré-revolucionária. Dicionários E.A. Steinfeld (1963), L.N. Zasorina (1977), L. Lenngren (1993) e outros foram criados com base em coleções de textos relativamente pequenas (400 mil - 1 milhão de palavras) e refletem em grande parte as especificidades da língua russa do período soviético: palavra frequências camarada e consignacao neles são comparáveis ​​com palavras de serviço, e a palavra pentear ausência de. Existem também dicionários especializados, em particular, o dicionário de E.M. Stepanova (1976), dedicado ao vocabulário científico geral. Um ramo separado dos dicionários estatísticos são os dicionários de linguagem de Pushkin, Dostoiévski, Griboyedov, Tsvetaeva (Vinogradov 1956-1961, Shaikevich et al. 2003, Polyakov 1999, Belyakov et al. 1996), que descrevem completamente a linguagem de um determinado escritor.

O novo dicionário de frequência é universal. Apesar de seu último antecessor direto ter sido lançado há 15 anos (Lenngren 1993), é óbvio que muito mudou durante esse período - tanto a linguagem em si quanto a tecnologia para preparar dicionários de frequência. Nosso dicionário visa fornecer um quadro estatístico do uso moderno de palavras (1950-2005), preenchendo, em particular, a lacuna das últimas duas décadas, bem como mostrar as mudanças ocorridas na língua desde 1950.

O dicionário é baseado em um corpus de 100 milhões, enquanto os dicionários anteriores contavam com material de usos de 400 mil a 1 milhão de palavras. O corpus nacional (www.ruscorpora.ru, NKRYA 2005) é mais representativo em termos de abrangência do material, pois contém uma coleção equilibrada de textos de vários tipos, gêneros e estilos, incluindo textos da diáspora russa. Distribuição de textos no subcorpus da língua russa moderna (desde 1950) por estilos funcionais mostrados na Tabela 1. Os textos de não ficção pertencem a mais de 50 áreas temáticas (economia e finanças, direito, viagens, etc.), e sua tipologia varia de leis e artigos científicos a entrevistas, instruções e anúncios (mais de 100 tipos no total). Textos artísticos incluem romances, contos, ensaios, peças de teatro, contos de fadas, ensaios, cartas literárias, etc.

Ficção

Publicidade

Outros não-ficção

literatura oral

Aba. 1. Estilos funcionais do subcorpus da língua russa moderna

Tamanho grande e o equilíbrio estilístico do corpus são um pré-requisito para que ele forneça resultados estatísticos confiáveis ​​para as palavras mais frequentes: por exemplo, a composição dos primeiros 20.000 elementos não mudará significativamente se, mantendo a proporção, esses textos forem substituídos por outros ou várias subamostras do corpus são comparadas. Isso é demonstrado pela experiência de compilar dicionários de frequências de outros 100 milhões de corpora nacionais, como o britânico, checo ( Leech et ai. 2001, Čermak & Křen 2004), bem como cascos Espanhol ( Davis 2005) . É natural que o dicionário de frequências do NKRYA em muitos aspectos, tanto em questões tecnológicas quanto em conteúdo, seja guiado por essas amostras.

2. Tamanho do caso e confiabilidade da amostragem

Os dicionários de frequência existentes para o idioma russo foram construídos em corpora relativamente pequenos: computadores de primeira geração não podiam trabalhar com corpora tamanho maior. Curiosamente, as recomendações teóricas desenvolvidas na década de 1970 (Piotrovsky et al. 1972) também provaram que para uma descrição confiável das 1600-1700 palavras mais frequentes, é suficiente usar um corpus de 400.000 palavras. Esse argumento foi baseado no conceito de intervalo de confiança, que é amplamente utilizado em estatística e sociologia: se conhecemos o tamanho da amostra e a probabilidade experimental de um evento nesta amostra (ou seja, a frequência de uma palavra em nosso corpus), então podemos calcular o intervalo de confiança para a probabilidade desse evento em toda a população (ou seja, a frequência de uso da mesma palavra em todo o espaço da língua).

A Tabela 2 dá exemplos da frequência de palavras individuais nos dicionários de Lenngren, Zasorina e Steinfeld em comparação com as frequências do NKRS e os 150 milhões de corpus da língua russa coletados da Internet (para este último, ver Sharoff 2006). Mesmo que as palavras pensar, tarefa, amor certamente pertencem ao núcleo da linguagem (eles estão entre os 200-500 lemas mais frequentes), em pequenos corpora até sua frequência difere bastante. A frequência de palavras comparativamente menos frequentes ( poluição, estudo, fofo) varia ainda mais. Embora a composição do Internet Corpus seja bastante diferente do NCRL (com grande número de textos técnicos e fóruns e menor quantidade de ficção), as diferenças na frequência dessas unidades entre eles não são tão grandes.

Lema

Lenngren

bloqueio

Steinf.

NRC

Internet

potência

acho

1094

1058

poluição

uma tarefa

o estudo

estar apaixonado

bonitinho

Aba. 2: Comparação da frequência de palavras individuais (média por milhão de palavras).

Como você pode ver, as recomendações teóricas sobre um tamanho de caso suficiente nesse caso acabam não sendo muito confiáveis. A razão para isso está nas suposições iniciais sobre a distribuição gaussiana normal da frequência das palavras, segundo a qual cada palavra ocorre com a mesma frequência em todos os textos. Se a palavra ocorrer no texto uma vez, então distribuição normal isso não afeta a probabilidade de ser usado lá uma segunda vez. Mas na realidade este não é o caso. Cada texto tem seu próprio tópico, cujas palavras neste texto serão usadas com muito mais frequência do que a média. No texto sobre os hobbits, a palavra hobbit serão usadas tantas palavras de função, o que aumentará significativamente sua frequência no corpus, que incluirá pelo menos um desses textos. Como resultado, a lista de frequência construída com base no corpus reflete as especificidades daqueles textos que caiu nele ao redigir.

A Tabela 2 mostra a imperfeição dos dicionários de frequência construídos em corpora relativamente pequenos, mas o simples aumento do tamanho dos corpora também não garante a estabilidade dos resultados. Ao interpretar listas de dicionários de frequência, deve-se lembrar que qualquer corpus, não importa o tamanho, é um subconjunto finito de um conjunto potencialmente infinito de textos em um determinado idioma. Qualquer outra amostra deste subconjunto produzirá uma lista ligeiramente diferente que diferirá em seus elementos menos frequentes. Um gabinete maior que reflete mais temas e estilos funcionais (gabinete BNC ou NKR) oferece boa confiabilidade para os elementos mais frequentes. No entanto, um maior aumento do volume de textos em detrimento de sua diversidade (ver, por exemplo, projetos para a criação de giga-corpuses de inglês e chinês contendo mais de um bilhão de usos de palavras de textos de notícias, Cieri & Liberman 2002) pode levar a uma lista de frequência menos confiável nesses corpora, mudando seu vocabulário para vocabulário de notícias.

Como a tarefa do dicionário de frequência não é apenas classificar palavras por sua frequência em um corpus separado, mas também determinar o núcleo lexical da língua, é necessário separar palavras que ocorrem com frequência em muitos textos daquelas cujo comportamento lexical é semelhante a palavras Noriega ou hobbit, e que acidentalmente acabou em uma ou outra posição da lista de frequências. Assim, o Corpus Nacional Checo usa o conceito de Frequência Média Reduzida (ARF, Average Reduced Frequency), em que a frequência de uma palavra é ponderada pela distância entre os usos individuais das palavras (Čermak & Křen 2005). Muitos dicionários de frequência (Lenngren, British National Corpus, Dictionary of French Business Vocabulary) usam o fator D introduzido por A. Juilland (Juilland et al. 1970), que leva em conta tanto o número de documentos em que uma palavra ocorre quanto sua relação frequência nestes documentos:


onde μ é a frequência média da palavra em todo o corpus, σ é o desvio padrão dessa frequência em documentos individuais,né o número de documentos em que esta palavra ocorre.

O valor D para palavras que ocorrem na maioria dos documentos é próximo de 100, e para palavras que ocorrem com frequência em apenas um pequeno número de documentos, é próximo de 0. A lista de frequência do dicionário de Lenngren é classificada até pelo valor do produto deste coeficiente pela frequência média da palavra. Devido ao fato de o status teórico deste trabalho não ser claro, não consideramos apropriado classificar nosso dicionário por ele. No entanto, a sua indicação para cada palavra permite avaliar a sua especificidade para áreas temáticas individuais. Por exemplo, as palavras assustador, específico e bruto têm aproximadamente a mesma frequência (21 ocorrências por milhão de palavras), mas específico tem um coeficiente D de 66, bruto tem 18 e assustador tem 78, o que significa que a última palavra significativo para maisáreas temáticas e (ceteris paribus) tem uma grande chance de um lugar em um dicionário não especializado.

3. Estrutura do dicionário

O conceito do dicionário envolve a publicação de uma versão "papel" com uma versão eletrônica que o acompanha, que representa o dicionário de frequências em um volume mais completo. A parte de vocabulário contém as seguintes seções:

I. Vocabulário geral

lista alfabética de lemas

lista de frequência de lemas

distribuição de lemas por estilos funcionais:

Ø dicionário de frequência de ficção,

vocabulário de ficção significativa vocabulário

Ø dicionário de frequência do jornalismo,

dicionário de vocabulário significativo de jornais e notícias

Ø dicionário de frequência de outros não-ficção,

vocabulário significativo

Ø dicionário de frequência de fala ao vivo,

dicionário de vocabulário significativo da língua falada viva

lista alfabética de formas de palavras

II. Partes do discurso

lista de frequência de substantivos

lista de frequência de verbos

lista de frequência de adjetivos

lista de frequência de advérbios e predicados

lista de frequência de pronomes (pronomes-substantivos, adjetivos, advérbios, predicativos)

lista de frequência de lemas de partes do discurso de serviço

III. Tabelas auxiliares

dados sobre a frequência de aulas parciais e outras informações estatísticas

4 . Nomes próprios e abreviaturas

lista alfabética de lemas

A lista alfabética de lemas contém o nome do lema, a parte do discurso, a frequência geral do lema, o número de documentos em que ocorre e o coeficiente de variação D. A frequência total caracteriza o número de ocorrências por milhão palavras do corpus, ou ipm (instâncias por milhão de palavras). Isso é feito para facilitar a comparação da frequência de uma palavra em diferentes corpora, que podem variar bastante em tamanho. Por exemplo, se a palavra power ocorre 55 vezes em um corpus de 400.000 palavras, 364 vezes em um corpus de um milhão de palavras e 40.598 vezes em um corpus de 100.000.000 palavras em russo moderno e 55.673 vezes em um corpus grande de 135.000.000 n de NCRL, então sua frequência em ipm será 137,5, 364,0, 372,06 e 412,39, respectivamente. A lista alfabética da edição eletrônica inclui 60.000 dos lemas mais frequentes.

A lista de lemas, ordenada por frequência, inclui o nome do lema, parte do discurso, frequência geral do lema, número de documentos, fator D e distribuição de frequência por década. A lista de frequência inclui 20.000 dos lemas mais frequentes.

Dicionários de frequência de estilos funcionais são compilados com base em subcorpus de ficção, jornalismo, outros não-ficção e discurso oral. A lista inclui os 5.000 lemas mais frequentes desses subcorpus. A lista dos lemas mais típicos para cada tipo de texto foi selecionada com base na comparação da frequência de lemas nesses textos e no restante do corpus. Como métrica de comparação, foi utilizado o critério de log-verossimilhança, calculado com base na seguinte matriz:

Subcorpus

Outros textos

Todo o corpo

Frequência

a + b

O tamanho


Com base nesta matriz, a razão de verossimilhança G2 pode ser calculada usando a seguinte fórmula (Rayson & Garside 2000):

Dicionários de vocabulário significativo para diferentes estilos funcionais incluem 500 lemas cada.

A lista alfabética de formas de palavras inclui todas as formas de palavras do corpus com frequência superior a 0,1 ipm (cerca de 15 mil no total); a frequência geral da forma da palavra é dada. As formas de palavras homônimas são marcadas com *.

Na seção "Partes da Fala", a lista de frequência dos lemas é dividida em seis sublistas: substantivos, verbos, adjetivos, advérbios e predicados, pronomes e partes auxiliares da fala. Para cada lema, sua frequência geral e classificação (número de série) são indicadas em lista geral. Cada lista contém 1 mil dos lemas mais frequentes.

Tabelas auxiliares incluem dados sobre a frequência das aulas de parte do discurso, outras categorias gramaticais, bem como informações sobre a cobertura do texto com lexemas, o comprimento médio de uma palavra, formas de palavras e frases.

O dicionário termina com uma lista alfabética de nomes próprios e abreviaturas. Os nomes próprios são separados da parte principal do vocabulário, pois formam um grupo muito menos estável estatisticamente, e sua frequência depende muito da escolha dos textos do corpus e de seu cronotopo. Em Lengren 1993, expressa-se a opinião de que a inclusão de nomes próprios em um dicionário de frequência em uma base geral inevitavelmente leva à sua obsolescência prematura.

Para obter uma lista de nomes próprios e abreviaturas a partir da concordância do corpus, foram selecionados substantivos e abreviaturas, cuja grafia em textos com letra maiúscula ultrapassou o limite de 95%, cf. Rússia, Smirnov, Usina Elétrica do Distrito Estadual, Ministério das Relações Exteriores, Código do Trabalho. O dicionário inclui a parte nuclear desta lista, numerando 3.000 das unidades mais frequentes.

De acordo com a tradição que se desenvolveu para publicações desse tipo, as páginas do dicionário contêm o título “ Fatos interessantes»: listas das palavras mais populares de vários grupos lexicais (dias da semana, condições do tempo, cores, verbos de movimento, etc.), bem como as formas de palavras mais longas e a lista de frequência de sinais de pontuação.

6429

traje

2288

capa

4890

bota

2179

saia

3696

casaco

1904

sobretudo

3696

camisa

1894

equipamento*

3410

jaqueta

1822

sapato

3396

chapéu

1668

camisa

3126

sapato

1633

jeans

3041

lenço

1585

luva

2962

Blazer

1522

casaco de pele

2955

calça

1356

uniforme

2840

calça

1251

boné

2686

chapéu

1235

estacionar

2617

boina

1134

chuteiras

Aba. 3: Lista de frequência das designações de vestuário e calçado.

Como exemplo, na Tabela 3 damos as frequências dos substantivos que denotam roupas e sapatos. Como seria de esperar, a lista reflete, por um lado, a “tipicidade” dos itens de guarda-roupa ( botas de feltro ocupam apenas o 26º lugar na lista) e, por outro lado, sua “significação” ao descrever a aparência de uma pessoa em textos ( traje- uma coisa mais perceptivelmente distinta do que chuteiras).

4. Preparação de material de vocabulário

As listas básicas do dicionário de frequência foram obtidas automaticamente, utilizando-se a marcação metatextual e léxico-gramatical do corpus. Com base em informações metatextuais, listas de frequência foram construídas e comparadas entre si em amostras separadas do corpus (por estilos funcionais, no momento da criação do texto). Outro tipo de marcação, léxico-gramatical, permite estabelecer a forma original da palavra (lema), sua classe gramatical e características gramaticais como caso, número, hora, etc. não apenas formas de palavras individuais, mas também lexemas, bem como o uso de certas categorias gramaticais. Na criação deste dicionário foi utilizada uma variante da anotação léxico-gramatical do corpus com resolução automática de homonímia morfológica.

A língua russa, como língua de rica inflexão, cria dificuldades adicionais para os compiladores de um dicionário de frequências, uma vez que muitas formas de palavras em textos são homônimas (cf. forma de palavras vir a ser como forma verbal vir a ser e substantivo aço, forma de palavra jarra representando os lemas banco e jarra, Palavras como Vera e ). No entanto, em um dicionário de frequência, a forma de palavra original, ou lema, deve ser atribuída de forma inequívoca a qualquer forma de palavra.

Nos dicionários da geração anterior (Zasorina 1977, Lenngren 1993), a homonímia era resolvida manualmente, pois o volume do corpus processado era insignificante. É óbvio que tal solução não é adequada para um corpus 100 milhões. Ao compilar este dicionário, foi tida em conta a experiência dos colegas checos, que tiveram de refinar o analisador morfológico, reabastecer o dicionário e proceder à edição manual. Inicialmente, o corpus do NCRS foi marcado pelo analisador morfológico Mystem (Segalovich, Maslov 1998). A ambiguidade na marcação léxico-gramatical foi resolvida usando o programa de A.V. Sokirko, que usa o modelo trigrama e um subcorpus de treinamento com homonímia removida manualmente (Sokirko, Toldova 2005).

Palavras não-dicionários também apresentam um problema significativo para a lematização (Lyashevskaya et al. 2007). Se a palavra não estiver no dicionário gramatical do analisador morfológico, uma ou mais hipóteses sobre a forma original da palavra e suas características gramaticais são atribuídas a ela. Como resultado, tais “lemas” como gratidão(cf. forma da palavra gratidão), Jansny(cf. Jansen), Barclay(cf. Barclay). Enquanto isso, a parcela de formas de palavras não-dicionários no NCSL é de 3% de todos os usos de palavras e 45% da lista de formas de palavras do corpus. Para formas frequentes de palavras não-dicionários, usamos programas de pós-processamento para a marcação morfológica de NKRY, compilados por B.P. Kobritsov e G. K. Bronnikov, bem como os resultados da validação do trabalho desses programas obtidos por O.N. Lyashevskaya e D.K. Bronnikova (Lyashevskaya 2007, Bronnikova 2007). Duas abordagens para a lematização de palavras não-dicionários se mostraram as mais eficazes: agrupar hipóteses sobre o lema e o tipo de paradigma (o mais provável para uma forma de palavra é a análise que ocorre em outras formas de palavras não-dicionário, portanto , as formas de palavras “procuram” seus vizinhos no paradigma flexional) e a seleção dos gadgets mais produtivos.

Uma vez que a resolução automática de homonímia e a interpretação de formas não-dicionárias permitem um certo erro, ainda que insignificante, os homônimos incluídos nas primeiras 20 mil palavras de frequência foram submetidos a verificação manual adicional.

***

Os autores agradecem a V. A. Plungyan, A.Ya. Shaikevich, assim como E.A. Grishina, B. P. Kobritsov, E. V. Rakhilina, D. V. Sichinava e outros participantes do seminário do NCRL, que participaram da discussão dos princípios da criação de um dicionário. Agradecemos a O. Uryupina, D. e G. Bronnikovs, B. Kobritsov, funcionários da Yandex LLC A. Abroskin, N. Grigoriev, A. Sokirko por sua ajuda na coleta e processamento do material.

O.G. (comp.). Dicionário linguagem poética Marina Tsvetaeva. Em 4 volumes. M: Casa Museu de Marina Tsvetaeva, 1996.

Vinogradov V.V. (responsável ed.). Dicionário da língua de Pushkin. T. I-IV. M., 1956-1961.

Zaliznyak A.A. Dicionário de gramática da língua russa: flexão. M., 197 7 ; 4ª ed.: M.: dicionários russos, 2003.

bloqueio L.N. (ed.). Dicionário de frequência da língua russa. Moscou: língua russa, 1977 .

Lönngren Conduziu.). Dicionário de Frequências da Língua Russa Moderna [ Lönngren, Lennart. O Dicionário de Frequências do Russo Moderno. Acta Univ. Ups., Studia Slavica Upsaliensia Uppsala 32]. uppsala, 1993.

Lyashevskaya O.N. Sobre o problema da lematização de palavras não-dicionários // Linguística computacional e tecnologias inteligentes: Anais da conferência internacional "Diálogo 2007". M, 2007.

Lyashevskaya O.N., Kobritsov B.P., Sichinava D.V. Automatizando a construção de um dicionário no material de uma matriz de formas de palavras não-dicionário // Internet Mathematics 2007. Ekaterinburg, 2007.

NCRL: Corpus Nacional da Língua Russa 2003-2005: Resultados e Perspectivas. M.: Indrik, 2005.

Piotrovsky R.G., Bektaev K.B., PiotrovskayaA.A. Lingüística matemática. M.: pós-graduação, 1972.

Polyakov A.E. Electronic Dictionary of the Writer's Language (no exemplo da linguagem de A.S. Griboyedov) // Proceedings of the International Seminar Dialog-99 on Computer Linguistics and its Applications. Tarusa, 1999. M., 1999 . T. 2. S. 230-236.

Segalovich I., Maslov M.. Análise morfológica russa e síntese com a geração de modelos de flexão para palavras não descritas no dicionário // Anais do seminário internacional Diálogo "98 sobre linguística computacional e suas aplicações. Kazan, 1998. V.2. P. 547– 552.

Sokirko A.V., Toldova S.Yu. Comparação da eficácia de dois métodos para remoção de ambiguidade lexical e morfológica para a língua russa // Conferência Internacional "Corpus Linguistics 2004". S.-Pb. , 2004.

Stepanova COMER. Dicionário de frequência do vocabulário científico geral. M., 1976 .

Shaikevich A.Ya., Andryushchenko V.M., Rebetskaya NO. Dicionário estatístico da língua de Dostoiévski. M.: Línguas da cultura eslava, 2003.

Steinfeld E.A. Dicionário de Frequências da Língua Literária Russa Moderna. Tallinn, 1963 .

Čermák F. , Křen M. (ed.). Frekvenční slovník češtiny (dicionário de frequência do tcheco). Praga: NLN, 2004 .

Čermák F., Křen M. Dicionários de frequência baseados em corpus de nova geração: O caso da Checa // International Journal of Corpus Linguistics, 10, 2005. P. 453-467.

Igreja K. W. Estimativas empíricas de adaptação: a chance de duas Noriegas está mais próxima de p/2 do que de p 2 // Anais do 18º A PARTIR DE Conferência de Linguística Computacional (COLING). Saarbrücken, Alemanha, 2000. Vol. 1. P. 180-186.

Cieri Ch., Liberman M. Criação e distribuição de recursos linguísticos no Consórcio de Dados Linguísticos // Anais do LREC 02. Las Palmas, Espanha, 2002. C. 1327-1333.

Davis M. Um Dicionário de Frequências de Espanhol: Vocabulário Básico para Aprendizes. Londres–N.Y.: Routledge, 2005.

Josselson H. H. A contagem de palavras russa e análise de frequência de categorias gramaticais do russo literário padrão. Detroit: Wayne University Press, 1953.

Juilland A., Brodin D., Davidovitch C. Dicionário de Frequência de Palavras Francesas. Haia- Paris: Mouton, 1970.

Kilgarriff A. Colocando frequências no dicionário // International Journal of Lexicography, 10 (2), 1997. P. 135-155.

Sanguessuga G., Rayson P., Wilson A. Frequências de palavras escritas e Inglês falado: baseado no Corpus Nacional Britânico. Londres: Longman, 2001.

Rayson P., Garside R. Comparando corpora usando perfil de frequência // Anais do Workshop Comparando Corpora no ACL 2000. Hong Kong, 2000. P. 1-6.

Sharoff S. Criação de corpora de uso geral usando buscas automatizadas // Baroni M., Bernardini S. (eds.), WaCky! Documentos de trabalho na Web como Corpus. Bolonha: Gedit, 2006.

053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 345 Anais da conferência internacional "Diálogo 2008" DICIONÁRIO DE FREQUÊNCIAS DO CORPO NACIONAL RUSSO. ( [e-mail protegido]), Instituto da Língua Russa. V.V. Vinogradov RAS Sharov S.A. ( [e-mail protegido]), Universidade de Leeds, Reino Unido O dicionário contém um dicionário básico representativo da língua russa moderna (2ª metade de XX - início do XXI séculos), providos de informações sobre a frequência de uso, distribuição estatística por textos e gêneros, e pela época de criação dos textos. O dicionário é baseado nos textos do Corpus Nacional da Língua Russa com um volume de 100 milhões de palavras. 1. Introdução Vários dicionários de frequência foram desenvolvidos para o idioma russo. O pioneiro foi o dicionário de G. Yosselson, publicado em 1953 em Detroit sobre o material da língua principalmente da Rússia pré-revolucionária. Dicionários E.A. Steinfeld (1963), L.N. Zasorina (1977), L. Lenngren (1993) e outros foram criados com base em coleções de textos relativamente pequenas (400 mil - 1 milhão de palavras) e refletem em grande parte as especificidades da língua russa do período soviético: o as frequências das palavras camarada e partido nelas são comparáveis ​​às palavras oficiais, e a palavra pente está faltando. Existem também dicionários especializados, em particular, o dicionário de E.M. Stepanova (1976), dedicado ao vocabulário científico geral. Um ramo separado dos dicionários estatísticos são os dicionários de linguagem de Pushkin, Dostoiévski, Griboyedov, Tsvetaeva (Vinogradov 1956-1961, Shaikevich et al. 2003, Polyakov 1999, Belyakov et al. 1996), que descrevem completamente a linguagem de um determinado escritor. O novo dicionário de frequência é universal. Apesar de seu último antecessor direto ter sido lançado há 15 anos (Lenngren 1993), é óbvio que muito mudou durante esse período - tanto a linguagem em si quanto a tecnologia para preparar dicionários de frequência. Nosso dicionário visa apresentar um quadro estatístico do uso da palavra moderna (1950-2005), preenchendo, em particular, a lacuna das últimas duas décadas, bem como mostrar as mudanças ocorridas na língua desde 1950. O dicionário é baseado em um corpus de 100 milhões, enquanto os dicionários anteriores contavam com material de usos de 400 mil a 1 milhão de palavras. O corpus nacional (www.ruscorpora.ru, NKRYA 2005) é mais representativo em termos de abrangência do material, pois contém uma coleção equilibrada de textos de diferentes tipos, gêneros e estilos, incluindo textos da diáspora russa. A distribuição de textos no subcorpus da língua russa moderna (desde 1950) por estilos funcionais é mostrada na Tabela 1. Os textos de não ficção pertencem a mais de 50 áreas temáticas (economia e finanças, direito, viagens, etc.), e sua tipologia varia de leis e artigos científicos a entrevistas, instruções e anúncios (mais de 100 tipos no total). Os textos de ficção incluem romances, contos, ensaios, peças de teatro, contos de fadas, ensaios, cartas literárias, etc. Ficção 36% Jornalismo 42% Outros não-ficção 17% Literatura oral 5% os primeiros 20.000 elementos não mudarão significativamente se, mantendo a proporção, substituirmos esses textos por outros ou compararmos várias subamostras do corpus. Isso é demonstrado pela experiência de compilar dicionários de frequência de outras 100 milhões de palavras. corpora nacionais como britânicos, tchecos (Leech et al. 2001, Čermák & Křen 2004) e corpora espanhóis (Davies 2005). É natural que o dicionário de frequências do NKRYA em muitos aspectos, tanto em questões tecnológicas quanto em conteúdo, seja guiado por essas amostras. 2. Tamanho do corpus e confiabilidade da amostra Os dicionários de frequência existentes para o idioma russo foram construídos em corpora relativamente pequenos: computadores de primeira geração não podiam trabalhar com corpora maiores. Curiosamente, as recomendações teóricas desenvolvidas na década de 1970 (Piotrovsky et al. 1972) também provaram que para uma descrição confiável das 1600-1700 palavras mais frequentes, é suficiente usar um corpus de 400.000 palavras. Esse argumento foi baseado no conceito de intervalo de confiança, que é amplamente utilizado em estatística e sociologia: se conhecemos o tamanho da amostra e a probabilidade experimental de um evento nesta amostra (ou seja, a frequência de uma palavra em nosso corpus), então podemos calcular o intervalo de confiança da probabilidade desse evento em toda a população (ou seja, a frequência da mesma palavra em todo o espaço linguístico). A Tabela 2 dá exemplos da frequência de palavras individuais nos dicionários de Lenngren, Zasorina e Steinfeld em comparação com as frequências do NKRS e os 150 milhões de corpus da língua russa coletados da Internet (para este último, ver Sharoff 2006). Apesar de as palavras pensar, tarefa, amor certamente pertencerem ao cerne da linguagem (elas estão entre os 200-500 lemas mais frequentes), em pequenos corpora até mesmo sua frequência difere bastante. A frequência de palavras comparativamente menos frequentes (poluição, estudo, fofo) varia ainda mais. Embora a composição do Internet Corpus seja bastante diferente do NCRL (com grande número de textos técnicos e fóruns e menor quantidade de ficção), as diferenças na frequência dessas unidades entre eles não são tão grandes. Lemma Lenngren Zasorina Steinf. Poder da Internet 202 364 138 422 428 pensar 609 1094 1058 865 818 poluição 69 1 0 9 11 tarefa 499 421 250 228 292 estudar 193 110 0 63 78 amar 415 632 995 549 610 palavras fofinhas (idade média por milhão de palavras) . Como você pode ver, as recomendações teóricas sobre um tamanho de caso suficiente nesse caso acabam não sendo muito confiáveis. A razão para isso está nas suposições iniciais sobre a distribuição normal de frequência de palavras gaussianas, segundo a qual cada palavra ocorre com a mesma frequência em todos os textos. Se a palavra ocorrer no texto uma vez, então, com uma distribuição normal, isso não afeta a probabilidade de seu uso lá uma segunda vez. Mas na realidade este não é o caso. Cada texto tem seu próprio tópico, cujas palavras neste texto serão usadas com muito mais frequência do que a média. Em um texto sobre hobbits, a palavra hobbit será usada com a mesma frequência de palavras auxiliares, o que aumentará significativamente sua frequência em um corpus que incluirá pelo menos um desses textos1. Como resultado, a lista de frequências construída com base no corpus reflete as especificidades dos textos que nela foram incluídos durante sua compilação. A Tabela 2 mostra a imperfeição dos dicionários de frequência construídos em corpora relativamente pequenos, mas o simples aumento do tamanho dos corpora também não garante a estabilidade dos resultados. Ao interpretar as listas de um dicionário de frequência, deve-se lembrar que qualquer corpus, por maior que seja, é um subconjunto finito de um conjunto potencialmente infinito de textos em um determinado idioma. Qualquer outra amostra deste subconjunto gerará uma lista ligeiramente diferente, que diferirá em seus elementos menos frequentes. Um corpus maior refletindo mais temas e estilos funcionais (Kenneth Church chamou essa situação de problema de Noriega (Church 2000), Adam Kilgarriff chamou de problema do búzio, de uma palavra inglesa relativamente rara para um tipo de molusco (Kilgarriff 1997). 346 053- Ljashevskaja -SharovSA:_Layout 1 13.05.2008 22:07 Page 347 Dicionário de Frequências do Corpus Nacional da Língua Russa pus tipo BNC ou NKRYA) oferece boa confiabilidade para os elementos mais frequentes. No entanto, um maior aumento no volume de textos em detrimento de sua diversidade (ver, por exemplo, projetos para criar Giga corpora de idiomas inglês e chinês contendo mais de um bilhão de palavras de usos de textos de notícias, Cieri & Liberman 2002) pode levar a uma menor confiabilidade da lista de frequência nesses corpora, mudando seu vocabulário para o vocabulário de notícias. Como a tarefa do dicionário de frequência não é apenas classificar palavras por sua frequência em um corpus separado, mas também determinar o núcleo lexical da língua, é necessário separar palavras que ocorrem com frequência em muitos textos daquelas cujo comportamento lexical é semelhantes às palavras de Noriega ou do hobbit, e que acidentalmente acabaram nesta ou naquela posição da lista de frequências. Assim, o Corpus Nacional Checo usa o conceito de Frequência Média Reduzida (ARF, Average Reduced Frequency), em que a frequência de uma palavra é ponderada pela distância entre os usos individuais das palavras (Čermak & Křen 2005). Muitos dicionários de frequência (Lönngren, British National Corpus, Dictionary of French Business Vocabulary) usam o coeficiente D introduzido por A. Juilland (Juilland et al. 1970), que leva em conta tanto o número de documentos em que uma palavra ocorre frequência relativa nesses documentos: onde µ é a frequência média da palavra em todo o corpus, σ é o desvio padrão dessa frequência em documentos individuais, n é o número de documentos em que essa palavra ocorre. O valor D para palavras que ocorrem na maioria dos documentos é próximo de 100, e para palavras que ocorrem com frequência em apenas um pequeno número de documentos, é próximo de 0. A lista de frequência do dicionário de Lenngren é classificada até pelo valor do produto deste coeficiente pela frequência média da palavra. Devido ao fato de o status teórico deste trabalho não ser claro, não consideramos apropriado classificar nosso dicionário por ele. No entanto, a sua indicação para cada palavra permite avaliar a sua especificidade para áreas temáticas individuais. Por exemplo, as palavras spooky, specific e raw têm aproximadamente a mesma frequência (21 ocorrências por milhão de palavras), mas o coeficiente D para specific é 66, raw é 18 e spooky é 78, o que significa que a última palavra é significativa para mais áreas temáticas e (ceteris paribus) tem uma grande chance de um lugar em um dicionário não especializado. 3. A estrutura do dicionário O conceito de dicionário envolve a publicação de uma versão "em papel" com uma versão eletrônica que o acompanha, que representa o dicionário de frequências em um volume mais completo. A parte do vocabulário contém as seguintes seções: I. Vocabulário geral ● lista alfabética de lemas ● lista de frequência de lemas ● distribuição de lemas por estilos funcionais: dicionário de frequência de ficção, dicionário de vocabulário significativo de ficção dicionário de frequência de jornalismo, dicionário de jornal significativo e vocabulário de notícias dicionário de frequência de outros não-ficção, dicionário de frequência de vocabulário significativo dicionário de fala oral ao vivo, dicionário de vocabulário significativo de fala oral viva ● lista alfabética de formas de palavras II. Partes do discurso ● lista de freqüência de substantivos ● lista de freqüência de verbos ● lista de freqüência de adjetivos ● lista de freqüência de advérbios e predicativos ● lista de freqüência de pronomes (substantivos, adjetivos, advérbios, predicados) ● lista de freqüência de lemas de partes auxiliares do discurso III . Tabelas auxiliares 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 ● dados sobre a frequência das aulas parciais e outras informações estatísticas IV. Nomes próprios e abreviaturas ● lista alfabética de lemas A lista alfabética de lemas contém o nome do lema, a classe gramatical, a frequência geral do lema, o número de documentos em que ocorre e o coeficiente de variação D. a frequência total caracteriza o número de ocorrências por milhão de palavras do corpus, ou ipm (instâncias por milhão de palavras). Isso é feito para facilitar a comparação da frequência de uma palavra em diferentes corpora, que podem variar bastante em tamanho. Por exemplo, se a palavra power ocorre 55 vezes em um corpus de 400.000 palavras, 364 vezes em um corpus de um milhão de palavras e 40.598 vezes em um corpus de 100.000.000 palavras no idioma russo moderno e 55.673 vezes em um grande corpus de 135.000.000 palavras, então sua frequência em ipm será 137,5 , 364,0, 372,06 e 412,39, respectivamente. A lista alfabética da edição eletrônica inclui 60.000 lemas mais frequentes. A lista de lemas, ordenada por frequência, inclui o nome do lema, parte do discurso, frequência geral do lema, número de documentos, fator D e distribuição de frequência por década. A lista de frequência inclui 20.000 dos lemas mais frequentes. Dicionários de frequência de estilos funcionais são compilados com base em subcorpus de ficção, jornalismo, outros não-ficção e discurso oral. A lista inclui os 5.000 lemas mais frequentes desses subcorpus. A lista dos lemas mais típicos para cada tipo de texto foi selecionada com base na comparação da frequência de lemas nesses textos e no restante do corpus. O critério log-likelihood foi utilizado como métrica de comparação, calculada com base na seguinte matriz: fórmula (Rayson & Garside 2000): Dicionários de vocabulário significativo para diferentes estilos funcionais incluem 500 lemas cada. A lista alfabética de formas de palavras inclui todas as formas de palavras do corpus com frequência superior a 0,1 ipm (cerca de 15 mil no total); a frequência geral da forma da palavra é dada. As formas de palavras homônimas são marcadas com *. Na seção Partes da Fala, a lista de frequência dos lemas é dividida em seis sublistas: substantivos, verbos, adjetivos, advérbios e predicados, pronomes e partes funcionais da fala. Para cada lema, sua frequência geral e classificação (número de série) na lista geral são indicadas. Cada lista contém 1 mil dos lemas mais frequentes. As tabelas auxiliares incluem dados sobre a frequência das aulas de parte do discurso, outras categorias gramaticais, além de informações sobre a cobertura do texto com lexemas, comprimento médio das palavras, formas das palavras e frases. O dicionário termina com uma lista alfabética de nomes próprios e abreviaturas. Os nomes próprios são separados da parte principal do vocabulário, pois formam um grupo muito menos estável estatisticamente, e sua frequência depende muito da escolha dos textos do corpus e de seu cronotopo. Em Lengren 1993, expressa-se a opinião de que a inclusão de nomes próprios em um dicionário de frequência em uma base geral inevitavelmente leva à sua obsolescência prematura. Para obter uma lista de nomes próprios e abreviaturas a partir da concordância do corpus, foram selecionados nomes e abreviaturas, cuja grafia nos textos com letra maiúscula ultrapassou o limite de 95%, cf. Rússia, Smirnov, Usina Elétrica do Distrito Estadual, Ministério das Relações Exteriores, Código do Trabalho.2 O dicionário inclui a parte nuclear desta lista, totalizando 3.000 das unidades mais frequentes. De acordo com a tradição que se desenvolveu para publicações desse tipo, as páginas do dicionário contêm o título "Fatos interessantes": listas das palavras mais populares de vários grupos lexicais (dias da semana, fenômenos climáticos, cores, verbos de movimento , etc.) são publicados, bem como as formas de palavras mais longas e uma lista de frequência de sinais de pontuação. 2 Observamos em particular que adjetivos como Hristov, Petin, Kostroma/Kostroma pertencem ao vocabulário geral. 348 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 349 Dicionário de Frequências do Corpus Nacional da Língua Russa 6429 traje 2288 capa de chuva 4890 botas 2179 saia 3696 casaco 1904 sobretudo 3696 camisa 1894 roupa* 3410 jaqueta 1826 sapatos chapéu 2196 roupa* 3410 jaqueta 1826 sapatos 333 1633 jeans 3041 cachecol 1585 luva 2962 casaco 1522 casaco de pele 2955 calças 1356 uniforme 2840 calças 1251 boné 2686 chapéu 1235 suéter 2617 boina 1134 botas de feltro Como exemplo, na Tabela 3 damos as frequências dos substantivos que denotam roupas e sapatos. Como é de se esperar, a lista reflete, por um lado, a “tipicidade” dos elementos do guarda-roupa (botas de feltro ocupam apenas o 26º lugar na lista), e, por outro, seu “significado” na descrição da aparência de uma pessoa em textos (um terno é mais perceptivelmente um item dedicado do que botas). 4. Preparação do material vocabular As listas básicas do dicionário de frequência foram obtidas automaticamente, utilizando-se a marcação metatextual e léxico-gramatical do corpus. Com base em informações metatextuais, listas de frequência foram construídas e comparadas entre si em amostras separadas do corpus (por estilos funcionais, no momento da criação do texto). Outro tipo de marcação, o léxico-gramatical, permite estabelecer a forma original de uma palavra (lema), sua classe gramatical e características gramaticais como caso, número, tempo verbal etc.3 Isso possibilitou a coleta de dados sobre a frequência não apenas de formas de palavras individuais, mas e lexemas, bem como o uso de certas categorias gramaticais. Na criação deste dicionário foi utilizada uma variante da anotação léxico-gramatical do corpus com resolução automática de homonímia morfológica. A língua russa, como língua de rica inflexão, cria dificuldades adicionais para os compiladores do dicionário de frequências, pois muitas formas de palavras nos textos são homônimas (cf. Fé). No entanto, em um dicionário de frequência, a forma de palavra original, ou lema, deve ser atribuída de forma inequívoca a qualquer forma de palavra. Nos dicionários da geração anterior (Zasorina 1977, Lenngren 1993), a homonímia era resolvida manualmente, pois o volume do corpus processado era insignificante. É óbvio que tal solução não é adequada para um corpus 100 milhões. Ao compilar este dicionário, foi tida em conta a experiência dos colegas checos, que tiveram de refinar o analisador morfológico, reabastecer o dicionário e proceder à edição manual. Inicialmente, o corpus do NCRS foi marcado pelo analisador morfológico Mystem (Segalovich, Maslov 1998). A ambiguidade na marcação léxico-gramatical foi resolvida usando o programa de A.V. Sokirko, que usa o modelo trigrama e um subcorpus de treinamento com homonímia removida manualmente (Sokirko, Toldova 2005). Palavras não-dicionários também apresentam um problema significativo para a lematização (Lyashevskaya et al. 2007). Se a palavra não estiver no dicionário gramatical do analisador morfológico, uma ou mais hipóteses sobre a forma original da palavra e suas características gramaticais são atribuídas a ela. Como resultado, 3 Princípios de lematização e composição de partes do discurso são determinados pelo padrão morfológico do corpus (NKRYA 2005), que geralmente corresponde aos princípios do Dicionário Gramático Russo (Zaliznyak 1977). Algumas características da lematização estão relacionadas ao fato de a coleta de dados ocorrer principalmente no modo automático. Observe que apenas a marcação palavra por palavra é levada em consideração: frases fixas, preposições compostas e outras unidades lexicais não-singulares (cf. Ano Novo, durante, no entanto, entre si) não são incluídas no dicionário. 349 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 350 Lyashevskaya O.N., Sharov S.A. O dicionário inclui tais “lemas” como gratidão (cf. a forma da palavra gratidão), Jansny (cf. Jansen), Barclay (cf. Barclay). Enquanto isso, a parcela de formas de palavras não-dicionários no NCSL é de 3% de todos os usos de palavras e 45% da lista de formas de palavras do corpus. Para formas frequentes de palavras não-dicionários, programas de pós-processamento para a marcação morfológica do NKRYA, compilados por B.P. Kobritsov e G. K. Bronnikov, bem como os resultados da validação do trabalho desses programas obtidos por O.N. Lyashevskaya e D.K. Bronnikova (Lyashevskaya 2007, Bronnikova 2007). Duas abordagens para a lematização de palavras não-dicionários se mostraram as mais eficazes: agrupamento de hipóteses sobre o lema e o tipo de paradigma (o mais provável para uma forma de palavra é a análise que ocorre em outras formas de palavras não-dicionário, portanto, , as formas de palavras “procuram” seus vizinhos segundo o paradigma flexional ) e destacando os prefixos mais produtivos. Uma vez que a resolução automática de homonímia e a interpretação de formas não-dicionárias permitem um certo erro, ainda que insignificante, os homônimos incluídos nas primeiras 20 mil palavras de frequência foram submetidos a verificação manual adicional. *** Os autores agradecem a V.A. Plungyan, A.Ya. Shaikevich, assim como E.A. Grishina, B. P. Kobritsov, E. V. Rakhilina, D. V. Sichinava e outros participantes do seminário do NCRL, que participaram da discussão dos princípios da criação de um dicionário. Agradecemos a O. Uryupina, D. e G. Bronnikovs, B. Kobritsov, funcionários da Yandex LLC A. Abroskin, N. Grigoriev, A. Sokirko por sua ajuda na coleta e processamento do material. Referências 1. Bronnikova D.K. Comparação de algoritmos de lematização baseados no material do Russian National Corpus. Trabalho de graduação . M.: RGGU, 2007. 2. Belyakova I.Yu., Olovyannikova I.P., Revzina O.G. (comp.). Dicionário da linguagem poética de Marina Tsvetaeva. Em 4 volumes. M: Casa Museu de Marina Tsvetaeva, 1996. 3. Vinogradov V.V. (responsável ed.). Dicionário da língua de Pushkin. T.I - IV. M., 1956-1961. 4. Zaliznyak A.A. Dicionário de gramática da língua russa: flexão. M., 1977; 4ª ed.: M.: dicionários russos, 2003. 5. Zasorina L.N. (ed.). Dicionário de frequência da língua russa. Moscou: língua russa, 1977. 6. Löngren L. (ed.). Dicionário de Frequências da Língua Russa Moderna. Uppsala, 1993. 7. Lyashevskaya O.N. Sobre o problema da lematização de palavras não-dicionários // Linguística Computacional e Tecnologias Inteligentes: Anais da Conferência Internacional "Diálogo 2007". M, 2007. 8. Lyashevskaya O.N., Kobritsov B.P., Sichinava D.V. Automação da construção de um dicionário com base em um conjunto de formas de palavras não-dicionário // Internet Mathematics 2007. Yekaterinburg, 2007. 9. NCRL: Corpus Nacional da Língua Russa 2003-2005: Resultados e Perspectivas. M.: Indrik, 2005. 10. Piotrovsky R.G., Bektaev K.B., Piotrovskaya A.A. Linguística matemática. M.: Vysshaya Shkola, 1972. 11. Polyakov A.E. Electronic Dictionary of the Writer's Language (no exemplo da linguagem de A.S. Griboedov) // Proceedings of the International Seminar Dialog-99 on Computational Linguistics and its Applications. Tarusa, 1999. M., 1999. T. 2. S. 230-236. 12. Segalovich I., Maslov M.. Análise e síntese morfológica russa com a geração de modelos de flexão para palavras não descritas no dicionário // Anais do seminário internacional Dialog'98 sobre linguística computacional e suas aplicações. Kazan, 1998. V.2. págs. 547-552. 13. Sokirko A.V., Toldova S.Yu. Comparação da eficácia de dois métodos para remoção de ambiguidade lexical e morfológica para a língua russa // Conferência Internacional "Corpus Linguistics 2004". S.- Pb., 2004. 14. Stepanova E.M. Dicionário de frequência do vocabulário científico geral. Moscou, 1976. 15. Shaikevich A.Ya., Andryushchenko V.M., Rebetskaya N.A. Dicionário estatístico da língua de Dostoiévski. M.: Línguas da Cultura Eslava, 2003. 16. Steinfeld E.A. Dicionário de Frequências da Língua Literária Russa Moderna. Tallinn, 1963. 17. Čermák F., Křen M. (eds.). Frekvenční slovník češtiny (dicionário de frequência do tcheco). Praha: NLN, 2004. 18. Čermák F., Křen M. Nova geração de dicionários de frequência baseados em corpus: The case of Czech // International Journal of Corpus Linguistics, 10, 2005. P. 453-467. 19. Igreja K.W. Estimativas empíricas de adaptação: a chance de dois Noriegas é mais próxima de p/2 do que de p2 // Anais da 18ª Conferência de Linguística Computacional (COLING). Saarbrücken, Alemanha, 2000. Vol. 1. P. 180-186. 20. Cieri Ch., Liberman M. Criação e distribuição de recursos linguísticos no Consórcio de Dados Linguísticos // Anais do LREC 02. Las Palmas, Espanha, 2002. C. 1327-1333. 21. Davies M. A Frequency Dictionary of Spanish: Core Vocabulary for Learners. Londres-N.Y.: Routledge, 2005. 22. Josselson H.H. A contagem de palavras russa e análise de frequência de categorias gramaticais do russo literário padrão. Detroit: Wayne University Press, 1953. 23. Juilland A., Brodin D., Davidovitch C. Dicionário de Frequência de Palavras em Francês. The Hague-Paris: Mouton, 1970. 24. Kilgarriff A. Colocando frequências no dicionário // International Journal of Lexicography, 10 (2), 1997. P. 135-155. 25. Leech G., Rayson P., Wilson A. Frequências de palavras em inglês escrito e falado: baseado no British National Corpus. London: Longman, 2001. 26. Rayson P., Garside R. Comparando corpora usando perfil de frequência // Anais do Workshop Comparando Corpora no ACL 2000. Hong Kong, 2000. P. 1-6. 27. Sharoff S. Criando corpora de uso geral usando consultas automatizadas em mecanismos de busca // Baroni M., Bernardini S. (eds.), WaCky! Documentos de trabalho na Web como Corpus. Bolonha: Gedit, 2006. http://wackybook.sslmit.unibo.it. 351