Dicionário de Frequências do Corpus Nacional da Língua Russa: conceito e tecnologia de criação.

DICIONÁRIO DE FREQUÊNCIA

tipo de dicionário (ver dicionário) (geralmente monolíngue), em que os itens lexicais são caracterizados em termos do grau em que são usados ​​​​em um corpo de textos representativo da língua como um todo, ou de um estilo funcional particular (Ver Estilo), ou de um único autor. Dependendo do tipo, as unidades lexicais diferem. formas de palavras, palavras (lexemas), radicais de palavras (usadas em ciência da computação), palavras com determinados significados (frases semânticas), frases. Existem diferenças entre as características absolutas e relativas do uso de uma unidade lexical ( x).A característica absoluta é a frequência ( f) de uma determinada unidade lexical ( X), igual ao número de utilizações X no conjunto de textos pesquisados f(x). No cap. é dado também f(x) ou frequência normalizada

Onde N- número de palavras estudadas do texto. Uma característica relativa do uso de uma unidade lexical é sua classificação (o número de unidades lexicais que em uma determinada unidade lexical têm uma característica absoluta de uso que é maior ou igual à característica absoluta de uma determinada unidade lexical), ou alguma característica pela qual a classificação pode ser calculada com maior ou menor precisão. Na maioria dos Ch.s. São fornecidas características absolutas e relativas. Ch.s. são usados ​​para criar métodos eficazes de ensino de línguas, para destacar palavras-chave(na ciência da computação), para criar códigos racionais (na teoria da comunicação).

Aceso.: Ermolenko G.V., Estatística linguística. Breve ensaio e índice bibliográfico, Alma-Ata, 1970; Steinfeldt E. A., Dicionário de Frequência da Língua Literária Russa Moderna, M., 1973; Dicionário de Frequência da Língua Russa, ed. LN Zasorina, M., 1977; Kučera N., Francis W., Análise computacional do inglês americano atual, Providence, 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier N., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des frequences vocabulaire littéraire des XIX e XX siecles, v. 1-4, P.-Nancy, 1971 (Centre de recherche pour un trésor de la langue française); Bailey R., Doležel L., Uma bibliografia comentada de estilística estatística, Ann Arbor, 1968.

Material da Wikipedia – a enciclopédia gratuita

Dicionário de frequência(ou lista de frequências) - um conjunto de palavras de um determinado idioma (ou sublinguagem) juntamente com informações sobre a frequência de sua ocorrência. O dicionário pode ser ordenado por frequência, em ordem alfabética (depois será indicada sua frequência para cada palavra), por grupos de palavras (por exemplo, as primeiras mil palavras mais frequentes, seguidas da segunda, etc.), por tipicidade (palavras com os textos mais frequentes), etc. As listas de frequências são utilizadas para o ensino de línguas, criação de novos dicionários, aplicações de linguística computacional, investigação no domínio da tipologia linguística, etc.

Construção de listas de frequências

Normalmente, os dicionários de frequência são construídos com base em corpora de texto: é tomado um conjunto de textos que é representativo da língua como um todo, para uma determinada área temática ou um determinado autor (ver Dicionário de Frequência de Griboyedov) e formas de palavras, lemas e dele são extraídas partes do discurso (estas últimas são extraídas se o corpo tiver marcas morfológicas).

Os desafios na criação de listas de frequências são:

  • reprodutibilidade (os resultados serão idênticos em outro corpo semelhante),
  • picos na frequência de palavras individuais (a frequência de uma palavra em um texto pode afetar sua posição na lista de frequências),
  • a dificuldade de determinar a posição das palavras menos frequentes, o que não permite classificá-las racionalmente; por exemplo, a palavra bobagem está incluída entre as 20.000 palavras mais frequentes, enquanto a palavra grunhido está fora da lista dos primeiros 40 mil.

Todos estes problemas estão relacionados com o facto de, do ponto de vista estatístico, a língua representar um grande número de eventos raros(Lei de Zipf), fazendo com que um pequeno número de palavras ocorra com muita frequência e a grande maioria das palavras tenha uma frequência muito baixa. Frequência de palavras E(a palavra mais frequente na língua russa) é aproximadamente 10 vezes maior que a frequência da palavra Ó, que por sua vez ocorre 100 vezes mais frequentemente do que palavras comuns como viagens, velhice ou moda.

Uma metáfora hobbit pode ser usada para descrever picos de frequência (Adam Kilgarriff originalmente usou a palavra inglesa relativamente rara búzio, um tipo de molusco marinho, em inglês. búzio ): se vários textos do corpus forem sobre hobbits, então esta palavra será usada em quase todas as frases. Como resultado, a sua frequência nestes textos será comparável à frequência das palavras funcionais, mas na lista de frequência de um grande corpus que inclui tais textos, esta palavra terá uma classificação implausivelmente elevada. Essas rajadas de frequência podem ser avaliadas usando o coeficiente de variação: a razão entre o desvio padrão e a frequência média.

Comparação de casos

Os dicionários de frequência oferecem a capacidade de comparar dois corpora para determinar as palavras mais características de cada um. Devido ao fato de que os tamanhos dos corpora podem ser diferentes, uma estimativa mais confiável da frequência das palavras baseia-se na redução deles para fmc (frequência por milhão de formas de palavras, inglês. ipm, instâncias por milhão de palavras ). Palavra E tem uma frequência de cerca de 30.000 hms, palavra velhice- Cerca de 30.

Para determinar um conjunto de palavras-chave que distinguem um corpus de outro, você pode usar diferentes medidas estatísticas: qui-quadrado, razão de verossimilhança (eng. Teste de razão de verossimilhança ) e assim por diante.

Veja também

Escreva uma resenha sobre o artigo "Dicionário de Frequências"

Literatura

  • Adam Kilgarriff// Revista Internacional de Lexicografia. - 1997. - Nº 10(2). - S. 135-155.
  • Lyashevskaya O. N., Sharov S. A.. - M.: Azbukovnik, 2009. - 1087 p. - ISBN 978-5-91172-024-7.
  • Dicionário de frequência // Grande Enciclopédia Soviética: [em 30 volumes] / cap. Ed. A. M. Prokhorov. - 3ª edição. -M. : Enciclopédia Soviética, 1969-1978.
  • Dicionário de Frequência da Língua Russa / Ed. LN Zasorina. - M.: Língua russa, 1977.
  • // Enciclopédia Lermontov / Academia de Ciências da URSS. Instituto russo. aceso. (Pushkin. Casa); Edição científica. Conselho da editora "Sov. Encic." - M.: Sov. Encic., 1981. - pp.
  • Sharov S. A. .
  • Steinfeldt E.A. Dicionário de frequência da língua literária russa moderna. - M., 1973.

Ligações

Um trecho caracterizando o Dicionário de Frequências

Os soldados de infantaria parados, aglomerados na lama pisoteada perto da ponte, olharam para os hussardos limpos e elegantes que marchavam ordeiramente por eles com aquele sentimento especial e hostil de alienação e ridículo que geralmente são encontrados em vários ramos do exército.
- Caras espertos! Se fosse em Podnovinskoye!
- Para que servem? Eles só dirigem para se exibir! - disse outro.
- Infantaria, não espane! - brincou o hussardo, sob o qual o cavalo, brincando, jogou lama no soldado de infantaria.
“Se eu tivesse conduzido você em duas marchas com sua mochila, os cadarços estariam gastos”, disse o soldado de infantaria, limpando a sujeira do rosto com a manga; - caso contrário, não é uma pessoa, mas um pássaro pousado!
“Se ao menos eu pudesse colocá-lo em um cavalo, Zikin, se você fosse ágil”, brincou o cabo sobre o soldado magro, curvado com o peso da mochila.
“Pegue a clava entre as pernas e você terá um cavalo”, respondeu o hussardo.

O resto da infantaria atravessou apressadamente a ponte, formando um funil na entrada. Finalmente, todas as carroças passaram, o esmagamento diminuiu e o último batalhão entrou na ponte. Apenas os hussardos da esquadra de Denisov permaneceram do outro lado da ponte contra o inimigo. O inimigo, visível ao longe da montanha oposta, de baixo, da ponte, ainda não era visível, pois da depressão por onde corria o rio, o horizonte terminava na elevação oposta a não mais de meia milha de distância. À frente havia um deserto, ao longo do qual se moviam aqui e ali grupos de nossos cossacos viajantes. De repente, na colina oposta da estrada, apareceram tropas com capuzes azuis e artilharia. Estes eram os franceses. A patrulha cossaca trotou colina abaixo. Todos os oficiais e homens da esquadra de Denisov, embora tentassem falar sobre os forasteiros e olhar em volta, não paravam de pensar apenas no que havia na montanha, e olhavam constantemente para os pontos no horizonte, que reconheciam como tropas inimigas. O tempo melhorou novamente à tarde, o sol se pôs brilhantemente sobre o Danúbio e as montanhas escuras que o rodeavam. Estava quieto e daquela montanha os sons de buzinas e gritos do inimigo podiam ser ouvidos ocasionalmente. Não havia ninguém entre o esquadrão e os inimigos, exceto pequenas patrulhas. Espaço vazio, trezentas braças, os separavam dele. O inimigo parou de atirar e mais claramente se sentiu aquela linha estrita, ameaçadora, inexpugnável e elusiva que separa as duas tropas inimigas.
“Um passo além desta linha, uma reminiscência da linha que separa os vivos dos mortos, e - o desconhecido do sofrimento e da morte. E o que há? Quem está aí? lá, além deste campo, e da árvore, e do telhado iluminado pelo sol? Ninguém sabe e eu quero saber; e é assustador cruzar essa linha, e você quer cruzá-la; e você sabe que mais cedo ou mais tarde terá que atravessá-la e descobrir o que há do outro lado da linha, assim como é inevitável descobrir o que há do outro lado da morte. E ele próprio é forte, saudável, alegre e irritado, e está rodeado de pessoas tão saudáveis ​​e irritadamente animadas.” Assim, mesmo que não pense, toda pessoa que está à vista do inimigo sente isso, e esse sentimento dá um brilho especial e uma nitidez alegre de impressões a tudo o que acontece nestes minutos.
A fumaça de um tiro apareceu na colina inimiga, e a bala de canhão, assobiando, voou sobre as cabeças do esquadrão de hussardos. Os oficiais reunidos foram para seus lugares. Os hussardos começaram a endireitar cuidadosamente os cavalos. Tudo no esquadrão ficou em silêncio. Todos olhavam para o inimigo e para o comandante do esquadrão, esperando por um comando. Outra terceira bala de canhão passou voando. É óbvio que atiraram nos hussardos; mas a bala de canhão, assobiando rapidamente e uniformemente, voou sobre as cabeças dos hussardos e atingiu algum lugar atrás. Os hussardos não olharam para trás, mas a cada som de uma bala de canhão voando, como se estivesse sob comando, todo o esquadrão com seus rostos monotonamente variados, prendendo a respiração enquanto a bala de canhão voava, subia nos estribos e caía novamente. Os soldados, sem virar a cabeça, entreolharam-se, curiosamente procurando a impressão do companheiro. Em todos os rostos, de Denisov ao corneteiro, uma característica comum de luta, irritação e excitação aparecia perto dos lábios e do queixo. O sargento franziu a testa, olhando para os soldados, como se estivesse ameaçando punição. Junker Mironov se curvava a cada passe da bala de canhão. Rostov, de pé no flanco esquerdo sobre seu Grachik tocado na perna, mas visível, tinha o olhar feliz de um estudante convocado diante de um grande público para um exame no qual estava confiante de que se destacaria. Ele olhou para todos com clareza e brilho, como se pedisse que prestassem atenção na calma com que ele permanecia sob as balas de canhão. Mas também em seu rosto o mesmo traço de algo novo e severo, contra sua vontade, apareceu perto de sua boca.
-Quem está se curvando aí? Yunkeg "Mig"on! Hexogue, olhe para mim! - gritou Denisov, incapaz de ficar parado e girando em seu cavalo na frente do esquadrão.
O rosto de nariz arrebitado e cabelos pretos de Vaska Denisov e toda a sua figura pequena e espancada com sua mão musculosa (com dedos curtos cobertos de cabelo), na qual segurava o cabo de um sabre desembainhado, eram exatamente os mesmos de sempre, principalmente à noite, depois de beber duas garrafas. Ele estava apenas mais vermelho do que de costume e, erguendo a cabeça peluda, como os pássaros quando bebem, pressionando impiedosamente as esporas nas laterais do bom beduíno com seus pés pequenos, ele, como se estivesse caindo para trás, galopou para o outro flanco do o esquadrão e gritou com voz rouca para examinar as pistolas. Ele dirigiu até Kirsten. O capitão do quartel-general, montado em uma égua larga e tranquila, cavalgou a passos largos em direção a Denisov. O capitão do estado-maior, com seu bigode comprido, estava sério, como sempre, só que seus olhos brilhavam mais que de costume.

Os dicionários de frequência são dicionários que contêm características numéricas da frequência das palavras; as palavras neles são organizadas de acordo com a frequência de uso das palavras em textos de determinado comprimento. Este tipo relativamente novo de publicações lexicográficas começou a desenvolver-se de forma especialmente ativa nos últimos anos devido à introdução de novas tecnologias na lexicografia.

Os dicionários de frequência fornecem um rico material para a resolução de uma série de problemas linguísticos teóricos e aplicados gerais; são necessários na compilação de dicionários educacionais, no desenvolvimento de livros didáticos e na adaptação linguística e metodológica de textos.

O primeiro dicionário de frequências em linguística russa foi “Dicionário de frequências da língua literária russa moderna”, de E.A. Steinfeldt, compilado com base em materiais da literatura moderna, da imprensa e de programas de rádio (anos 50-60 do século 20) e dirigido principalmente a professores de russo como língua não nativa. Apresenta dados de frequência de palavras obtidos no processamento de 400.000 palavras de texto. O dicionário contém palavras que cobrem até 80% de textos diferentes. Além das indicações usuais do número de usos, é fornecido o número de textos em que uma determinada palavra é anotada. São fornecidas características estatísticas de algumas categorias morfológicas. Dicionário de E.A. Steinfeldt serviu de base para a compilação de muitos dicionários explicativos educacionais e dicionários mínimos.

“Dicionário de Frequência da Língua Russa” editado por L.N. Zasorina é uma coleção de dados estatísticos sobre a composição lexical da língua russa moderna. O dicionário foi compilado com base no processamento computacional de 1 milhão de usos de palavras; abrange mais do que apenas linguagem ficção, mas também jornalístico e discurso de negócios, existente na esfera comunicação em massa. Quadro cronológico O dicionário, como observam os compiladores, “abrange a era das obras de Lenin e Gorky até os anos 60”, de modo que os pesquisadores recebem material valioso para estudar o vocabulário Era soviética. O dicionário de frequência alfabética inclui todos os lexemas encontrados nos textos, cada unidade lexical é dotada de características quantitativas. O dicionário de frequência contém palavras com frequência igual ou superior a 10, num total de 9.044 unidades, organizadas em ordem decrescente de frequência. Várias características estatísticas das unidades de vocabulário criam a base para o estudo da estrutura estatística do vocabulário da língua russa e para a determinação dos limites do vocabulário principal. O apêndice contém um grande significado prático lista de homógrafos e homônimos gramaticais.

Os bancos de dados modernos deram um impulso poderoso ao desenvolvimento de dicionários de frequência. “Dicionário de Frequência da Língua Russa Moderna”, de O. N. Lyashevskaya e S. A. Sharov é baseado em uma coleção de textos do Corpus Nacional da Língua Russa, representando a língua russa moderna do período 1950-2007. O tamanho da amostra em que se baseia a maioria das seções do dicionário é de 92 milhões de usos de palavras. O dicionário contém uma variedade de informações estatísticas sobre 50.000 substantivos comuns e 3.000 nomes próprios e abreviações. São fornecidas listas de frequência de vocabulário característico do jornalismo, discurso oral e outros estilos funcionais, bem como listas dos substantivos, adjetivos, verbos e palavras mais comuns de outras classes gramaticais. A versão eletrônica do dicionário está publicada no site do Instituto de Língua Russa. VV Vinogradova Academia Russa Ciências (http://dict.ruslang.ru).

O projeto “Dicionário de frequência de formas de palavras da língua russa”, de A. V. Ventsov e E. V. Grudeva, representa a primeira tentativa na história de compilar dicionários de frequência da língua russa para organizar não lexemas, mas formas de palavras acentuadamente marcadas por frequência de ocorrência. O dicionário foi compilado com base no Corpus da Língua Literária Russa de um milhão de unidades (www.narusco.ru). O projeto apresenta uma descrição completa do dicionário e suas principais seções na forma de amostras limitadas.

No "Dicionário Temático de Frequência" Urbano transporte público 44 » G.A. Martinovich apresenta os resultados de uma análise estatística-distributiva de uma área conceitual - 74.521.000 usos de palavras extraídas do corpus Jornais russos Departamento do Fundo de Máquinas da Língua Russa, Instituto da Língua Russa. VV Vinogradov e 29.500 exemplos de textos de 9 jornais russos de 1997.

Muitos dicionários de frequência são de natureza aplicada e destinam-se principalmente a compiladores de programas, dicionários mínimos e livros didáticos na língua russa. Alguns deles registram vocabulário comumente usado, outros estão associados a uma parte especial ou de gênero e estilisticamente fixada do vocabulário.

“Dicionário de Frequência da Língua Russa Moderna” P.I. Charakose consiste em duas partes, que são dois dicionários de frequência diferentes, feitos em diferentes material de fala: um em textos de livros didáticos classes primárias, o outro é baseado em material infantil discurso coloquial. A primeira parte apresenta 5.025 palavras, constituindo 91,6% de todos os usos de palavras em 15 livros didáticos. As palavras são apresentadas em listas de frequência e em ordem alfabética. A segunda parte apresenta 2.830 palavras da fala coloquial infantil cotidiana, organizadas por frequência e em ordem alfabética.

O dicionário “2.830 palavras mais comuns na fala coloquial russa” reflete o núcleo das palavras mais comuns na fala coloquial moderna; foi compilado com base na análise de fala falada ao vivo gravada em fita magnética (em 1964-1966). O volume total de material coletado é de 400.000 palavras usadas. A lista é apresentada em duas versões - em ordem alfabética e por popularidade.

“Lista das palavras mais comuns na língua russa” editada por Z.P. Daunene inclui palavras dos primeiros mil dicionários de 13 frequências e listas da língua russa, compiladas com base em uma variedade de materiais. A lista contém 3.917 palavras, incluindo palavras significativas e funcionais. Ao lado de cada palavra estão indicadas as fontes em que está registrada e a quantidade dessas fontes, o que permite destacar o vocabulário mais comum.

No “Dicionário de Frequência da Linguagem do Jornal” G.P. Polyakova e G.Ya. Solganik acabou incluindo palavras de 1997 com uma frequência de pelo menos 12 em tópicos de jornais com um comprimento de 200.000 palavras usadas. O dicionário apresenta uma lista geral de palavras em frequência decrescente, cobrindo em média 80-83% do texto do jornal.

“Dicionário abrangente de frequências do vocabulário científico e técnico russo” P.N. Denisova et al. contém listas de 3.047 das palavras mais comuns na literatura científica e técnica russa (frequência, alfabética, inversão, agrupadas por classes gramaticais), bem como tabelas que permitem julgar a prevalência de certos fenômenos gramaticais no linguagem da literatura científica e técnica.

“Dicionário de Frequência do Vocabulário Científico Geral” inclui 2.074 palavras. O dicionário é baseado em um texto de 400.000 palavras (formas de palavras). As fontes foram livros didáticos para universidades em seis ramos do conhecimento: matemática, física, química, biologia, medicina, geologia e geografia. Uma passagem contendo 2.000 formas de palavras foi retirada de cada fonte. 200 dessas amostras foram examinadas. As palavras são apresentadas em listas de frequência e em ordem alfabética.

Uma publicação de tipo consolidado e generalizante é o livro “Mínimos Lexicais da Língua Russa”, criado sob a direção de V. V. Morkovkin. O dicionário abre com a lista “Unidades lexicais estruturais básicas da língua russa”, que combina palavras e frases incompletas que garantem o funcionamento de palavras com significado completo e formam a estrutura modal do texto (por exemplo, ser, na forma de, em vista de, apenas, assim que, além disso, na verdade, desta forma, embora, inteiro e assim por diante.). A seguir estão listas de palavras de volume crescente, cobrindo o núcleo lexical da língua russa moderna: 1) 500 palavras russas mais comuns, 2) 1.000 palavras russas mais comuns, 3) 1.500 palavras, 4) 2.000 palavras, 5) 2.500 palavras , 6) 3.000 palavras, 7) 3.500 palavras. A terceira parte do livro é um dicionário mínimo temático da língua russa moderna, cujo objetivo é organizar e apresentar de forma conveniente um conjunto das palavras russas mais importantes, necessárias para garantir tipos produtivos de atividade de fala - fala e escrita. Uma parte importante do livro é uma seção que apresenta o significado comparativo e generalizado das palavras mais comuns da língua russa de acordo com 8 dicionários de frequência. Assim, o dicionário é uma ferramenta valiosa para metodologistas e professores de língua russa que estão envolvidos na compilação de livros didáticos, na leitura de livros e na preparação de materiais práticos para trabalhos educacionais.

Um lugar especial entre os dicionários de frequência é ocupado por dicionários que podem ser utilizados em sistemas automáticos de recuperação de informação. Assim, o “Dicionário de Indexação de Frequência” (editado por L.V. Sakharny) foi compilado para resolver problemas de recuperação de informação. O material do dicionário foi de 1.660 resumos sobre instrumentos de medição elétrica (cerca de 105 mil usos de palavras no total). Os princípios de compilação de um dicionário são aplicáveis ​​a qualquer ramo do conhecimento. O dicionário é baseado em uma nova unidade de lexicografia - um hiperlexema (um determinado conjunto de lexemas com a mesma raiz de uma ou diferentes classes gramaticais, interligados por relações de transformação e derivação: inércia, inercial, inércia ; dente, dente, irregular, dentado). No dicionário, os hiperlexemas são organizados de acordo com a frequência.

“Dicionário de frequência de fatores semânticos da língua russa” Yu.N. Karaulova foi compilado com base em definições de dicionários explicativos da moderna língua literária russa. As unidades de contagem nele são fatores semânticos, aparecendo na forma de segmentos de palavras com valor completo que são componentes de definições. Refletindo a estrutura estatística e semântica do lado direito dos dicionários explicativos, o dicionário de frequências pode ser utilizado para pesquisas na área de semântica lexical, bem como na prática de lexicografia e recuperação de informação. O artigo introdutório mostra as possibilidades de usar um dicionário para encontrar a conexão semântica de palavras na construção automática de um tesauro russo.

“Dicionário de Frequência da Linguagem de Comunicação de Massa” de B.V. Krivenko é a primeira tentativa de um dicionário de frequência baseado em material não apenas de textos escritos (jornal “ TVNZ”, jornais regionais), mas também discurso falado (rádio, televisão, cinejornais). O dicionário fornece um instantâneo síncrono do nível lexical da linguagem dos noticiários de jornais, rádio e televisão de 1965-1985. O comprimento total da amostra de texto é de 71.164 ocorrências de palavras. O dicionário contém listas de palavras em ordem decrescente de frequência, listas de palavras em ordem alfabética. Os primeiros lugares na lista das palavras mais frequentes (com exceção de palavras funcionais e pronomes) são ocupados pelas palavras ano, trabalhos, país, dia, fazenda coletiva, o negócio, Tempo, festa, Novo, conselho, trabalhador, Soviético, pessoas, distrito, hoje, cidade, organização, pessoa, presidente, secretário, grande, região, nome, mundo, república , plano. Frequência de palavras na linguagem dos meios mídia de massa reflete perfeitamente as características do discurso político soviético, o conjunto de ideologias da era soviética. “Dicionário Estatístico do Jornal Russo” A.Ya. Shaikevich et al., dão uma ideia da frequência do vocabulário nos jornais da década de 90. Século XX O dicionário de O. V. Golovan persegue os mesmos objetivos.

O estudo da frequência das unidades lexicais permite tirar conclusões importantes sobre as características da linguagem e do estilo do escritor. Não é por acaso que nos últimos anos foi publicado um grande número de dicionários de frequência da linguagem das obras artísticas de escritores e poetas russos (ver a seção “Dicionários do autor”).

Ventsov L.V., Grudeva E.V. Dicionário de frequência de formas de palavras da língua russa: projeto. Cherepovets: Cherepovets, estado. univ., 2008. 204 p.

Golovan O.V. Dicionário de frequência linguagem moderna mídia: manual de treinamento. Barnaul: Editora Alt. estado tecnologia. Universidade com o nome Eu. eu. Polzunova, 2006. 622 p.

Graudina L.K., Itskovich V.A., Katlinskaya L.P. Variantes gramaticais: experiência de um dicionário de frequências / Ros. acadêmico. Ciências, Instituto de Lingüística, Pesquisa. M.: Nauka, 1971. 102 p.

Denisov P.N., Morkovkin V.V., Safyan Yu.A. Dicionário de frequência abrangente do vocabulário científico e técnico russo. M.: Língua russa, 1978. 406 p.

Karaulov Yu.N. Dicionário de frequência de fatores semânticos da língua russa / resp. Ed. S.G. Barkhudarov. M.: Nauka, 1980. 207 p.

Complexo dicionário educacional. Base lexical da língua russa: / V.V. Morkovkin, N.O. Boehme, I. A. Dorogonova, T.F. Ivanova, I. D. Assunção; editado por V.V. Morkovkina. M.: ATO, 2004. 880 p. .

Krivenko B. V. Dicionário de frequência da linguagem da comunicação de massa. Voronezh: Editora Voronezh, Universidade, 1992. 218 p.

Kudasheva MA, Levina R.I. Dicionário de frequência dos particípios mais comuns em geologia, mineralogia, cristalografia, geodésia: livro didático. L.: Leningr. Instituto de Mineração em homenagem GV Plekhanova, 1974. 29 p.

Mínimos lexicais da língua russa moderna / V. V. Morkovkin, Yu.A. Safyan, E.M. Stepanova, I.V. Dorofeeva; editado por V. V. Morkovkina; Instituto russo. linguagem eles. COMO. Pushkin. M.: Língua russa, 1985. 608 p.

Mínimo lexical para russo como língua estrangeira: um nível básico de: propriedade comum / comp. N.P. Andryushina, T.V. Kozlova.

4ª ed., Rev. e adicional São Petersburgo: Zlatoust, 2004. 111 p. (Teste de russo como língua estrangeira). [O mesmo em 2001].

Mínimo lexical em russo como língua estrangeira: segundo nível de certificação: proficiência geral/comp. N.P. Andryushina (editor responsável) [e outros]. 3ª edição. São Petersburgo : Zlatoust, 2011. 162 p. (Sistema de testes do estado russo para cidadãos países estrangeiros Em russo). [O mesmo em 2009].

Mínimo lexical em russo como língua estrangeira: primeiro nível de certificação: proficiência geral/comp. N.P. Andryushina (editor responsável) [e outros]. 5ª ed., Rev. e adicional São Petersburgo: Zlatoust,

2011. 195 pág. (Sistema estatal russo para testar cidadãos de países estrangeiros na língua russa). [O mesmo em 2002, 2005].

Mínimo lexical para russo como língua estrangeira: nível elementar: proficiência geral/comp. N.P. Andryushina, T.V. Kozlova. 4ª ed., Rev. São Petersburgo : Zlatoust, 2012. 79 p. (Teste de russo como língua estrangeira). [O mesmo em 2000, 2004].

Lyashevskaya O.N., Sharov S.A. Dicionário de Frequência da Língua Russa Moderna (baseado em materiais do Corpus Nacional da Língua Russa) [informações estatísticas sobre 50.000 substantivos comuns e 3.000 nomes próprios e abreviações] / Ros. acadêmico. Ciências, Instituto da Rússia. linguagem eles. VV Vinogradova. M.: Azbukovnik, 2009. 1087 p.

Martinovich G.A. Dicionário temático de frequência “Transporte público urbano”. São Petersburgo : Filol. falso. São Petersburgo estado universidade

Polyakova G.P., Solganik G.Ya. Dicionário de frequência da linguagem jornalística. M.: Editora Moek. estado Univ., 1971. 281 p.

Safyan Yu.A. Dicionário de frequência do vocabulário técnico russo. Yerevan: Bartsraguyn dprots, 1971. 128 p.

Sistema de mínimos lexicais da língua russa moderna: 10 listas lexicais: de 500 a 5.000 das palavras/estados russos mais importantes. em russo. linguagem eles. COMO. Pushkin; comp. TF. Bogacheva, N.M. Lutskaya, V. V. Morkovkin, Z.P. Popova; editado por V. V. Morkovkina. M.: Astrel: ACT, 2003. 768 p.

Lista das palavras mais comuns no idioma russo / comp. LG. Vishnyakova, Z.P. Daunene, T.P. Ishanova, R.M. Nefedova; em geral Ed. Z.P. Daunene. M.: Acadêmico. ped. Ciências da URSS, Instituto de Pesquisa, professor. russo. linguagem em nacional escola, 1974. 160 p.

Ter-Misakyants 3. T. Dicionário de frequência de vocabulário matemático/ed. V. M. Grigoryan, R.S. Manucharyan. Yerevan: Yerevan, estado. Univ., 1973. 67 p.

Kharacoz P.I. Dicionário de frequência da língua russa moderna. Frunze: Mektep, 1971. 180 p.

Dicionário de frequência de vocabulário geológico: livro didático/comp. DENTRO E. Rubkaleva, M.A. Kudasheva, E.M. Val [etc.]; científico Ed. DENTRO E. Rubkaleva. L.: Leningr. Instituto de Mineração em homenagem GV Plekhanova, 1973. 64 p.

Dicionário de indexação de frequência / em geral. Ed. L. V. Sakharny.

Perm: Editora Perm. Univ., 1974. 828 p.

Dicionário de frequência de vocabulário científico geral/comp. MI. Zykina, V.I. Krupchanova, M.M. Nakhabina [id.]; editado por COMER. Stepanova. M.: Editora Moek. estado Univ., 1970. 87 p. Dicionário de frequência da língua russa [cerca de 40.000 palavras] / ed. L. N. Zasorina; comp. V.A. Agraev, V.V. Borodin, L.N. Zasorina, V.M. Muratova, E.V. Tisenko; especialista. científico Ed. MI. Privalova. M.: Língua russa, 1977. 934 p.

Shaikevich L.Ya., Andryushchenko V.I., Rebetskaya N.A. Dicionário estatístico do jornal russo: (década de 1990) / Ros. acadêmico. Ciências, Instituto da Rússia. linguagem eles. V.V. Vinogradova. M.: Línguas da cultura eslava: editora A. Koshelev, 2008. T. 1. 578 p. (Estudo Filológico).

Shilova G.E., Sternin I.A. Dicionário de frequência de palavras estrangeiras: (com base em materiais jornalísticos) / Voronezh, estado. Universidade, Inter-região, Centro de Comunicação. pesquisar Voronezh: Istoki, 2005. 126 p. Steinfeldt E. A. Dicionário de frequência da língua literária russa moderna: um livro de referência para professores de língua russa / ed. V.A. Itskovich. M.: Progresso, 1973. 228 p. .

Shurpaeva M.I. Dicionário mínimo diferenciado da língua russa por tipos de atividade de fala para classes primárias do Daguestão escola nacional. Makhachkala: Daguchpedgiz, 1982. 153 p.

DICIONÁRIO DE FREQUÊNCIA
DO CORPO NACIONAL DA LÍNGUA RUSSA: CONCEITO E TECNOLOGIA DE CRIAÇÃO

DICIONÁRIO DE FREQUÊNCIA DO CORPUS NACIONAL DA RÚSSIA: PRINCÍPIOS E TECNOLOGIA

Lyashevskaya O.N. ([e-mail protegido] ) , Instituto de Língua Russa em homenagem. VV Vinogradova, Moscou
Sharov S.A.
([e-mail protegido] ), Universidade de Leeds, Reino Unido

O dicionário contém um vocabulário básico representativo da língua russa moderna (2ª metade XX – início do XXI séculos), munidos de informações sobre frequência de uso, distribuição estatística por texto e gênero e por época de criação dos textos. O dicionário é baseado nos textos do Corpus Nacional da Língua Russa com volume de 100 milhões de palavras.

1. Introdução

Vários dicionários de frequência foram desenvolvidos para o idioma russo. O pioneiro foi o dicionário de G..Yosselson, publicado em 1953 em Detroit sobre material linguístico por excelência Rússia pré-revolucionária. Dicionários de E.A. Steinfeld (1963), L.N. Zasorina (1977), L. Lenngren (1993) e outros foram criados com base em coleções relativamente pequenas de textos (400 mil - 1 milhão de palavras) e refletem amplamente as especificidades da língua russa do período soviético: frequências de palavras camarada E consignacao neles são comparáveis ​​​​a palavras funcionais, e a palavra pentear ausente. Existem também dicionários especializados, nomeadamente o dicionário de E.M. Stepanova (1976), dedicado ao vocabulário científico geral. Um ramo separado dos dicionários estatísticos consiste nos dicionários da língua de Pushkin, Dostoiévski, Griboedov, Tsvetaeva (Vinogradov 1956-1961, Shaikevich et al. 2003, Polyakov 1999, Belyakova et al. 1996), que descrevem completamente a língua de um dado escritor.

O novo dicionário de frequência é universal. Apesar de seu último antecessor direto ter sido lançado há 15 anos (Lenngren 1993), é óbvio que muita coisa mudou durante esse período - tanto a linguagem em si quanto a tecnologia para preparar dicionários de frequência. Nosso dicionário pretende apresentar um quadro estatístico do uso moderno das palavras (1950-2005), preenchendo, em particular, a lacuna das últimas duas décadas, e também mostrar as mudanças ocorridas na língua desde 1950.

O dicionário é baseado em um corpus de 100 milhões de palavras, enquanto os dicionários anteriores contavam com material que variava de 400 mil a 1 milhão de usos de palavras. O Corpus Nacional (www.ruscorpora.ru, NKRY 2005) é mais representativo em termos de cobertura material, pois contém uma coleção equilibrada de textos de diferentes tipos, gêneros e estilos, incluindo textos de países russos no exterior. Distribuição de textos no subcorpus da língua russa moderna (desde 1950) por estilos funcionaisé mostrado na Tabela 1. Os textos de não ficção referem-se a mais de 50 áreas temáticas (economia e finanças, direito, viagens, etc.), e sua tipologia varia de leis e artigos científicos a entrevistas, instruções e anúncios (mais de 100 tipos no total). Textos literários incluem romances, novelas, contos, ensaios, peças de teatro, contos de fadas, ensaios, cartas literárias, etc.

Ficção

Jornalismo

Outra não-ficção

Literatura oral

Mesa 1. Estilos funcionais do subcorpus da língua russa moderna

Tamanho grande e o equilíbrio estilístico do corpus são um pré-requisito para que ele forneça resultados estatísticos confiáveis ​​para as palavras mais frequentes: por exemplo, a composição dos primeiros 20.000 elementos não mudará significativamente se, mantendo a proporção, esses textos forem substituídos por outros ou várias subamostras do corpus são comparadas. Isto mostra a experiência de compilação de dicionários de frequências de outros 100 milhões de corpora nacionais, como o britânico, tcheco ( Sanguessuga et al. 2001, Čermák e Křen 2004), bem como habitações Espanhol ( Davies 2005) . Naturalmente, o dicionário de frequências do NKR em muitos aspectos, tanto em questões tecnológicas quanto em conteúdo, é guiado por essas amostras.

2. Tamanho do corpus e confiabilidade da amostragem

Os dicionários de frequência existentes para o idioma russo foram construídos em corpora relativamente pequenos: os computadores das primeiras gerações não funcionavam com corpora tamanho maior. Curiosamente, as recomendações teóricas desenvolvidas na década de 1970 (Piotrovsky et al. 1972) também provaram que para descrever de forma fiável as 1600-1700 palavras mais frequentes, é suficiente utilizar um corpus de 400 mil usos de palavras. Este argumento baseou-se no conceito de intervalo de confiança, amplamente utilizado em estatística e sociologia: se conhecermos o tamanho da amostra e a probabilidade experimental de um evento nesta amostra (ou seja, a frequência de uma palavra em nosso corpus), então podemos calcular o intervalo de confiança da probabilidade deste evento em toda a população (ou seja, a frequência de uso da mesma palavra em todo o espaço linguístico).

A Tabela 2 fornece exemplos da frequência de palavras individuais nos dicionários Lenngren, Zasorina e Steinfeld em comparação com as frequências do NKRY e do corpus de 150 milhões da língua russa coletado da Internet (para este último, consulte Sharoff 2006 ). Mesmo que as palavras pense, tarefa, amor certamente pertencem ao núcleo da linguagem (estão entre os 200-500 lemas mais frequentes); em pequenos corpora, até mesmo a sua frequência difere significativamente. Frequência de palavras relativamente menos frequentes ( poluição, estudo, fofo) varia dentro de limites ainda maiores. Embora a composição do corpus da Internet seja bastante diferente do NCR (com maior número de textos e fóruns técnicos e menos ficção), as diferenças na frequência dessas unidades entre eles não são tão grandes.

Lema

Lenngren

Zorina

Steinf.

NKRYA

Internet

poder

pensar

1094

1058

poluição

tarefa

estudo

estar apaixonado

Bonitinho

Mesa 2: Comparação da frequência de palavras individuais (média por milhão de ocorrências).

Como podemos ver, as recomendações teóricas relativas a um tamanho de caso suficiente neste caso não são muito confiáveis. A razão para isso reside nas suposições iniciais de uma distribuição gaussiana normal de frequência de palavras, segundo a qual cada palavra ocorre com a mesma frequência em todos os textos. Se uma palavra aparecer no texto uma vez, então distribuição normal isso não afeta a probabilidade de usá-lo uma segunda vez. Mas na realidade este não é o caso. Cada texto tem seu próprio tema, cujas palavras neste texto serão usadas com muito mais frequência do que a média. No texto sobre hobbits a palavra hobbit será usado tantas vezes quantas palavras funcionais, o que aumentará significativamente sua frequência no corpus, que incluirá pelo menos um desses textos. Como resultado, a lista de frequências construída com base no corpus reflete as especificidades dos textos que foram incluídos nele durante sua compilação.

A Tabela 2 mostra a imperfeição dos dicionários de frequência construídos em corpora relativamente pequenos, mas o simples aumento do tamanho do corpus também não garante a estabilidade dos resultados. Ao interpretar listas de dicionários de frequências, deve-se lembrar que qualquer corpus, não importa quão grande seja, é um subconjunto finito de um conjunto potencialmente infinito de textos em um determinado idioma. Qualquer outra amostra deste subconjunto produzirá uma lista ligeiramente diferente, que diferirá nos seus elementos de frequência mais baixa. Invólucros maiores que refletem mais temas e estilos funcionais (tipo de gabinete BNC ou NKRYA) proporcionam boa confiabilidade para os elementos mais frequentes. No entanto, um novo aumento no volume de textos ocorre em detrimento da sua diversidade (ver, por exemplo, os projetos de criação de Giga-corpora de inglês e Línguas chinesas, contendo mais de um bilhão de usos de palavras em textos noticiosos, Cieri & Liberman 2002), pode levar a uma menor confiabilidade da lista de frequências em tais corpora devido a uma mudança em seu vocabulário em direção ao vocabulário noticioso.

Dado que a tarefa de um dicionário de frequência não é simplesmente classificar palavras pela sua frequência num corpus separado, mas também determinar o núcleo lexical de uma língua, é necessário separar palavras que ocorrem frequentemente em muitos textos daquelas cujo comportamento lexical é semelhante a palavras Noriega ou hobbit, e que acidentalmente acabou em uma posição ou outra na lista de frequências. Assim, o Corpus Nacional Checo utiliza o conceito de Frequência Média Reduzida (ARF), em que a frequência de uma palavra é ponderada pela distância entre ocorrências de palavras individuais (Čermak & Křen 2005). Muitos dicionários de frequência (Lenngren, British National Corpus, French Business Dictionary) usam o coeficiente D introduzido por A. Juilland (Juilland et al. 1970), que leva em consideração tanto o número de documentos em que uma palavra ocorre quanto sua frequência relativa em estes documentos:


onde μ é a frequência média das palavras em todo o corpus, σ é o desvio padrão desta frequência em documentos individuais,n– o número de documentos em que esta palavra aparece.

O valor D das palavras que aparecem na maioria dos documentos é próximo de 100, e para palavras que aparecem com frequência em apenas um pequeno número de documentos, é próximo de 0. A lista de frequência do dicionário de Lenngren é até ordenada pelo valor de o produto deste coeficiente e a frequência média da palavra. Devido ao fato de o estatuto teórico deste trabalho não ser claro, não consideramos apropriado classificar nosso dicionário por ele. No entanto, a sua indicação para cada palavra permite avaliar a sua especificidade para cada área temática. Por exemplo, as palavras assustador, peculiar e cru têm frequência aproximadamente igual (21 ocorrências por milhão de palavras), mas o coeficiente D para específico é 66, cru é 18 e assustador é 78, o que significa que a última palavra significativo para maisáreas temáticas e (em igualdade de condições) tem grandes chances de encontrar um lugar em um dicionário não especializado.

3. Estrutura do dicionário

O conceito de dicionário envolve a publicação de uma versão “em papel” acompanhada de uma versão eletrônica, representando o dicionário de frequências em um volume mais completo. A parte do vocabulário contém as seguintes seções:

I. Vocabulário geral

lista alfabética de lemas

lista de frequência de lemas

distribuição de lemas por estilos funcionais:

Ø dicionário de frequência de ficção,

Dicionário de vocabulário significativo de ficção

Ø dicionário de frequência do jornalismo,

dicionário de vocabulário significativo de jornais e notícias

Ø dicionário de frequência de outra literatura de não-ficção,

dicionário de vocabulário significativo

Ø dicionário de frequência de fala oral ao vivo,

dicionário de vocabulário significativo da fala oral ao vivo

lista alfabética de formas de palavras

II. Partes do discurso

lista de frequência de substantivos

lista de verbos de frequência

lista de frequência de adjetivos

lista de frequência de advérbios e predicados

lista de frequência de pronomes (pronomes nominais, adjetivos, advérbios, predicados)

lista de frequência de lemas de classes gramaticais funcionais

III. Mesas auxiliares

dados sobre a frequência das classes de subfala e outras informações estatísticas

4 . Nomes próprios e abreviações

lista alfabética de lemas

A lista alfabética de lemas contém o nome do lema, a classe gramatical, a frequência geral do lema, o número de documentos em que ocorreu e o coeficiente de variação D. A frequência geral caracteriza o número de ocorrências por milhão palavras do corpus, ou ipm (instâncias por milhão de palavras). Isso é feito para facilitar a comparação de frequências de palavras em diferentes corpora, que podem variar bastante em tamanho. Por exemplo, se a palavra poder ocorre 55 vezes em um corpus de 400 mil palavras, 364 vezes em um corpus de um milhão de palavras e 40.598 vezes em um corpus de 100 milhões de palavras da língua russa moderna e 55.673 vezes em um corpus grande de 135 milhões de palavras do NKR, então sua frequência em ipm será 137,5, 364,0, 372,06 e 412,39, respectivamente. A lista alfabética da publicação eletrônica inclui 60.000 dos lemas mais frequentes.

A lista de lemas, ordenada por frequência, mostra o nome do lema, classe gramatical, frequência geral do lema, número de documentos, fator D e distribuição de frequência por década. A lista de frequências inclui os 20.000 lemas mais frequentes.

Dicionários de frequência de estilos funcionais são compilados com base em subcorpora de ficção, jornalismo, outras literaturas de não-ficção e discurso oral. A lista inclui os 5.000 lemas mais frequentes desses subcorpora. Uma lista dos lemas mais típicos para cada tipo de texto foi identificada a partir da comparação da frequência dos lemas nesses textos e no restante do corpus. Como métrica de comparação foi utilizado o critério da razão de verossimilhança (log-likelihood), calculado com base na seguinte matriz:

Subcorporações

Outros textos

Todo o corpo

Frequência

uma + b

Tamanho


A partir desta matriz, o valor da razão de verossimilhança G2 pode ser calculado usando a seguinte fórmula (Rayson & Garside 2000):

Dicionários de vocabulário significativo para diferentes estilos funcionais incluem 500 lemas.

A lista alfabética de formas de palavras inclui todas as formas de palavras do corpus com frequência superior a 0,1 ipm (cerca de 15 mil no total); A frequência geral da forma da palavra é fornecida. As formas de palavras homônimas são marcadas com *.

Na seção “Partes do discurso”, a lista de frequência dos lemas é dividida em seis sublistas: substantivos, verbos, adjetivos, advérbios e predicados, pronomes e classes gramaticais funcionais. Para cada lema, sua frequência geral e classificação (número ordinal) em lista geral. Cada lista contém 1 mil dos lemas mais frequentes.

Mesas auxiliares incluem dados sobre a frequência das classes de fala parcial e outras categorias gramaticais, bem como informações sobre a cobertura do texto por lexemas, o comprimento médio de uma palavra, a forma da palavra e a frase.

O dicionário termina com uma lista alfabética de nomes próprios e abreviações. Os nomes próprios são separados da parte principal do dicionário, pois formam um grupo muito menos estável estatisticamente, e sua frequência depende em grande parte da escolha dos textos do corpus e de seu cronotopo. Lenngren 1993 expressou a opinião de que a inclusão de nomes próprios no dicionário de frequências de forma geral leva inevitavelmente à sua obsolescência prematura.

Para obter uma lista de nomes próprios e abreviaturas da concordância do corpus, foram identificados substantivos e abreviaturas cuja grafia em textos com letras maiúsculas excedeu o limite de 95 por cento, cf. Rússia, Smirnov, Usina Distrital Estadual, Ministério das Relações Exteriores, Código do Trabalho. O dicionário inclui a parte nuclear desta lista, numerando as 3.000 unidades mais frequentes.

Seguindo a tradição que se desenvolveu para publicações deste tipo, as páginas do dicionário apresentam o título “ Fatos interessantes": são publicadas listas das palavras mais populares de vários grupos lexicais (dias da semana, condições do tempo, cores, verbos de movimento, etc.), bem como as formas de palavras mais longas e uma lista de frequência de sinais de pontuação.

6429

fantasia

2288

capa

4890

bota

2179

saia

3696

casaco

1904

sobretudo

3696

camisa

1894

roupa*

3410

jaqueta

1822

sapato

3396

um boné

1668

camisa

3126

bota

1633

jeans

3041

lenço

1585

luva

2962

blazer

1522

casaco de pele

2955

calça

1356

uniforme

2840

calça

1251

boné

2686

chapéu

1235

suéter

2617

boina

1134

botas de feltro

Mesa 3: Lista de frequência das designações de vestuário e calçado.

A título de exemplo, na Tabela 3 apresentamos as frequências dos substantivos que denotam roupas e sapatos. Como seria de esperar, a lista reflete, por um lado, os elementos “típicos” do guarda-roupa ( botas de feltro ocupam apenas o 26º lugar na lista) e, por outro lado, a sua “significância” na descrição da aparência de uma pessoa nos textos ( fantasia- uma coisa mais distinta perceptivamente do que botas).

4. Preparação de material de vocabulário

As listas do dicionário de frequências básicas foram obtidas automaticamente, utilizando marcação metatextual e léxico-gramatical do corpus. Com base nas informações do metatexto, listas de frequências foram construídas e comparadas entre si em amostras separadas do corpus (por estilos funcionais, por momento de criação do texto). Outro tipo de marcação, léxico-gramatical, permite estabelecer a forma original de uma palavra (lema), sua classe gramatical e características gramaticais como caso, número, tempo verbal, etc. frequência não apenas de formas de palavras individuais, mas também de lexemas, bem como o uso de certas categorias gramaticais. Na criação deste dicionário, utilizamos uma variante da marcação léxico-gramatical do corpus com resolução automática de homonímia morfológica.

O russo, como uma língua com inflexão rica, cria dificuldades adicionais para compiladores de dicionários de frequência, uma vez que muitas formas de palavras em textos são homônimas (cf. forma de palavras tornar-se como forma verbal tornar-se e substantivo aço, forma de palavra jarra, representando os lemas banco E jarra, Palavras como E ). No entanto, em um dicionário de frequência, a forma original de uma palavra, ou lema, deve ser atribuída a qualquer forma de palavra de forma inequívoca.

Nos dicionários da geração anterior (Zasorina 1977, Lenngren 1993), a homonímia era resolvida manualmente, pois o volume do corpus processado era insignificante. Obviamente, esta solução não é adequada para um gabinete de 100 milhões de unidades. Na elaboração deste dicionário foi levada em consideração a experiência dos colegas tchecos, que tiveram que modificar o analisador morfológico, ampliar o dicionário e realizar a edição manual. Inicialmente, o corpus NCRY foi marcado com o analisador morfológico Mystem (Segalovich, Maslov 1998). A ambigüidade nas marcações lexicais e gramaticais foi resolvida usando o programa AV. Sokirko, usando o modelo trigrama e um subcorpus de treinamento com homonímia removida manualmente (Sokirko, Toldova 2005).

Palavras não pertencentes ao dicionário também representam um problema significativo para a lematização (Lyashevskaya et al. 2007). Se uma palavra não estiver no dicionário gramatical do analisador morfológico, então uma ou mais hipóteses sobre a forma original da palavra e suas características gramaticais são atribuídas a ela. Como resultado, o dicionário de frequência inclui “lemas” como grato(cf. forma de palavra gratidão), Jansny(cf. Jansen), Barclay(cf. Barclay). Enquanto isso, a participação de formas de palavras não pertencentes ao dicionário no NCRL é de 3% de todos os usos de palavras e 45% da lista de formas de palavras do corpus. Para formas de palavras não pertencentes ao dicionário de frequência, foram utilizados programas de pós-processamento para marcação morfológica do NKRJ, compilados por B.P. Kobritsov e G.K. Bronnikov, bem como os resultados da validação do trabalho destes programas obtidos por O.N. Lyashevskaya e D.K. Bronnikova (Lyashevskaya 2007, Bronnikova 2007). Duas abordagens para lematização de palavras não-dicionárias revelaram-se as mais eficazes: agrupamento de hipóteses sobre o lema e o tipo de paradigma (a análise mais provável para uma forma de palavra é considerada aquela que também é encontrada em outras palavras não-dicionárias). formas de palavras do dicionário, portanto, as formas das palavras “procuram” por vizinhos no paradigma flexional) e identificando os consoles mais produtivos.

Como a resolução automática de homonímia e a interpretação de formas não-dicionário permitem um certo erro, embora menor, os homônimos incluídos nas primeiras 20 mil palavras de frequência foram submetidos a verificação manual adicional.

***

Os autores expressam sua gratidão a V.A. Plungeanu, A.Ya. Shaikevich, bem como E.A. Grishina, B.P. Kobritsova, E.V. Rakhilina, D.V. Sichinava e outros participantes do seminário NCRY que participaram da discussão dos princípios de criação do dicionário. Agradecemos a O. Uryupina, D. e G. Bronnikovs, B. Kobritsov, funcionários da Yandex LLC A. Abroskin, N. Grigoriev, A. Sokirko por sua assistência na coleta e processamento do material.

O.G. (comp.). Dicionário linguagem poética Marina Tsvetáeva. Em 4 volumes. M: Casa-Museu de Marina Tsvetaeva, 1996.

Vinogradov V.V. (editor responsável). Dicionário da língua de Pushkin. T. I-IV. M., 1956-1961.

Zaliznyak A.A. Dicionário gramatical da língua russa: Inflexão. M., 197 7 ; 4ª ed.: M.: Dicionários Russos, 2003.

Zorina L. N. (ed.). Dicionário de frequência da língua russa. Moscou: idioma russo, 1977 .

Lönngren Liderado.). Dicionário de frequência da língua russa moderna [ Lönngren, Lennart. O Dicionário de Frequência do Russo Moderno. Acta Univ. Ups., Studia Slavica Upsaliensia Uppsala 32]. Uppsala, 1993.

Liashevskaia SOBRE.. Sobre o problema da lematização de palavras não pertencentes ao dicionário // Lingüística computacional e tecnologias inteligentes: Anais da conferência internacional “Diálogo 2007”. M, 2007.

Lyashevskaya O.N., Kobritsov B.P., Sichinava D. V. Automação da construção de dicionário com base em uma variedade de formas de palavras não pertencentes ao dicionário // Internet Mathematics 2007. Ekaterinburg, 2007.

NKRY: Corpus Nacional da Língua Russa 2003-2005: Resultados e Perspectivas. M.: Indrik, 2005.

Piotrovsky R.G., Bektaev KB, PiotrovskayaA.A.. Lingüística matemática. M.: pós-graduação, 1972.

Poliakov A.E. Dicionário eletrônico da linguagem do escritor (usando o exemplo da linguagem de A.S. Griboedov) // Anais do Seminário Internacional Diálogo-99 sobre linguística computacional e suas aplicações. Tarusa, 1999. M., 1999. T. 2. S. 230-236.

Segalovich I., Maslov M.. Análise e síntese morfológica russa com a geração de modelos de flexão para palavras não descritas no dicionário // Anais do seminário internacional Diálogo "98 sobre linguística computacional e suas aplicações. Kazan, 1998. T.2. pp. 547– 552.

Sokirko A.V., Toldova S.Yu. Comparação da eficácia de dois métodos para remover ambiguidades lexicais e morfológicas da língua russa // Conferência Internacional “Corpus Linguistics 2004”. S.-Pb. , 2004.

Stepanova COMER. Dicionário de frequência do vocabulário científico geral. M., 1976 .

Shaikevich A.Ya., Andryushchenko V.M., Rebetskaya NO. Dicionário estatístico da linguagem de Dostoiévski. M.: Línguas da cultura eslava, 2003.

Steinfeld E.A. Dicionário de frequência da língua literária russa moderna. Tallin, 1963 .

Čermák F., Křen M. (eds.). Frekvenční slovník češtiny (dicionário de frequência de tcheco). Praga: NLN, 2004 .

Čermák F., Křen M. Dicionários de frequência baseados em corpus de nova geração: O caso da Checa // Revista Internacional de Linguística de Corpus, 10, 2005, pp.

Igreja K.W. Estimativas empíricas de adaptação: a chance de dois Noriegas está mais próxima de p/2 do que de p 2 // Anais do dia 18 COM conferência sobre Lingüística Computacional (COLING). Saarbrücken, Alemanha, 2000. Vol. 1. S. 180-186.

Cieri Ch., Liberman M. Criação e distribuição de recursos linguísticos no Linguistic Data Consortium // Proceedings of LREC 02. Las Palmas, Espanha, 2002. pp.

Davies M. Um Dicionário de Frequência de Espanhol: Vocabulário Básico para Alunos. Londres – NY: Routledge, 2005.

Josselson H.H. A contagem de palavras em russo e a análise de frequência das categorias gramaticais do russo literário padrão. Detroit: Wayne University Press, 1953.

Juilland A., Brodin D., Davidovitch C. Dicionário de frequência de palavras francesas. Haia- Paris: Mouton, 1970.

Kilgarriff A. Colocando frequências no dicionário // International Journal of Lexicography, 10 (2), 1997. P. 135-155.

Sanguessuga G., Rayson P., Wilson A. Frequências de palavras escritas e Inglês falado: baseado no British National Corpus. Londres: Longman, 2001.

Rayson P., Garside R. Comparando corpora usando perfil de frequência // Proceedings of the Comparing Corpora Workshop at ACL 2000. Hong Kong, 2000. P. 1-6.

Sharoff S. Criação de corpora de uso geral usando consultas automatizadas em mecanismos de pesquisa // Baroni M., Bernardini S. (eds.), WaCky! Documentos de trabalho na Web como Corpus. Bolonha: Gedit, 2006.

053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Página 345 Anais da conferência internacional “Diálogo 2008” DICIONÁRIO DE FREQUÊNCIA DO CORPO NACIONAL DA LÍNGUA RUSSA: CONCEITO E TECNOLOGIA DE CRIAÇÃO DICIONÁRIO DE FREQUÊNCIA DA N AÇÃO RUSSA NO CORPUS: PRINCÍPIOS E TECNOLOGIA Lyashevskaya O.N. ( [e-mail protegido]), Instituto de Língua Russa em homenagem. V.V. Vinogradov RAS Sharov S.A. ( [e-mail protegido]), Universidade de Leeds, Reino Unido O dicionário contém um dicionário básico representativo da língua russa moderna (2ª metade de XX – início do XXI séculos), munidos de informações sobre frequência de uso, distribuição estatística por texto e gênero e por época de criação dos textos. O dicionário é baseado em textos do Corpus Nacional da Língua Russa com volume de 100 milhões de palavras. 1. Introdução Vários dicionários de frequência foram desenvolvidos para a língua russa. O pioneiro foi o dicionário de G. Yosselson, publicado em 1953 em Detroit, baseado no material da língua principalmente da Rússia pré-revolucionária. Dicionários de E.A. Steinfeld (1963), L.N. Zasorina (1977), L. Lenngren (1993) e outros foram criados com base em coleções relativamente pequenas de textos (400 mil - 1 milhão de palavras) e refletem amplamente as especificidades da língua russa do período soviético: as frequências do as palavras camarada e partido nelas são comparáveis ​​a palavras funcionais, mas falta a palavra pente. Existem também dicionários especializados, nomeadamente o dicionário de E.M. Stepanova (1976), dedicado ao vocabulário científico geral. Um ramo separado dos dicionários estatísticos consiste nos dicionários da língua de Pushkin, Dostoiévski, Griboedov, Tsvetaeva (Vinogradov 1956-1961, Shaikevich et al. 2003, Polyakov 1999, Belyakova et al. 1996), que descrevem completamente a língua de um dado escritor. O novo dicionário de frequência é universal. Apesar de seu último antecessor direto ter sido lançado há 15 anos (Lenngren 1993), é óbvio que muita coisa mudou durante esse período - tanto a linguagem em si quanto a tecnologia para preparar dicionários de frequência. Nosso dicionário pretende apresentar um quadro estatístico do uso moderno das palavras (1950-2005), preenchendo, em particular, a lacuna das últimas duas décadas, e também mostrar as mudanças ocorridas na língua desde 1950. O dicionário é baseado em um corpus de 100 milhões de palavras, enquanto os dicionários anteriores se baseavam em materiais que variam de 400 mil a 1 milhão de usos de palavras. O Corpus Nacional (www.ruscorpora.ru, NKRY 2005) é mais representativo em termos de cobertura material, pois contém uma coleção equilibrada de textos de diferentes tipos, gêneros e estilos, incluindo textos de países russos no exterior. A distribuição dos textos no subcorpus da língua russa moderna (desde 1950) por estilos funcionais é mostrada na Tabela 1. Os textos de não ficção pertencem a mais de 50 áreas temáticas (economia e finanças, direito, viagens, etc.), e sua tipologia vai desde leis e artigos científicos até entrevistas, instruções e anúncios (mais de 100 tipos no total). Os textos literários incluem romances, novelas, contos, ensaios, peças de teatro, contos de fadas, ensaios, cartas literárias, etc. Ficção 36% Jornalismo 42% Outras não-ficções 17% Literatura oral 5% Tabela 1. Estilos funcionais do subcorpus da língua russa moderna O grande tamanho e o equilíbrio estilístico do corpus são um pré-requisito para o fato de que fornecerá estatísticas confiáveis resultados para as palavras mais frequentes: assim, a composição dos primeiros 20.000 elementos não mudará significativamente se, mantendo a proporção, substituirmos esses textos por outros ou compararmos diversas subamostras do corpus. Isso é demonstrado pela experiência de compilação de dicionários de frequência de outros 100 milhões 345 053-Ljashevskaja-SharovSA:_Layout 1 13/05/2008 22:07 Page 346 Lyashevskaya O.N., Sharov S.A. corpora nacionais como britânico, checo (Leech et al. 2001, Čermák & Křen 2004) e espanhol (Davies 2005). Naturalmente, o dicionário de frequências do NKR em muitos aspectos, tanto em questões tecnológicas quanto em conteúdo, é guiado por essas amostras. 2. Tamanho do corpus e confiabilidade da amostragem Os dicionários de frequência existentes para a língua russa foram construídos em corpora relativamente pequenos: os computadores da primeira geração não podiam funcionar com corpora maiores. Curiosamente, as recomendações teóricas desenvolvidas na década de 1970 (Piotrovsky et al. 1972) também provaram que para uma descrição fiável das 1600-1700 palavras mais frequentes, é suficiente utilizar um corpus de 400 mil usos de palavras. Este argumento baseou-se no conceito de intervalo de confiança, amplamente utilizado em estatística e sociologia: se conhecermos o tamanho da amostra e a probabilidade experimental de um evento nesta amostra (ou seja, a frequência de uma palavra em nosso corpus), então podemos calcular o intervalo de confiança da probabilidade deste evento em toda a população (ou seja, a frequência de uso da mesma palavra em todo o espaço linguístico). A Tabela 2 fornece exemplos de frequências de palavras individuais nos dicionários de Lenngren, Zasorina e Steinfeld em comparação com as frequências do NKRY e do corpus de 150 milhões de pessoas da língua russa coletado da Internet (para este último, consulte Sharoff 2006 ). Apesar de as palavras pensar, tarefa, amar certamente pertencerem ao núcleo da linguagem (estão entre os 200-500 lemas mais frequentes), em pequenos corpora até a sua frequência varia significativamente. A frequência de palavras relativamente menos frequentes (poluição, estudo, querido) varia ainda mais amplamente. Embora a composição do corpus da Internet seja bastante diferente do NCR (com maior número de textos e fóruns técnicos e menos ficção), as diferenças na frequência dessas unidades entre eles não são tão grandes. Lema Lenngren Zasorina Steinf. NKRY Internet power 202 364 138 422 428 pense 609 1094 1058 865 818 poluição 69 1 0 9 11 tarefa 499 421 250 228 292 estudo 193 110 0 63 78 amor 415 632 595 549 650 fofo 58 242 135 129 110 Tabela 2. Comparação de frequências de palavras individuais (média por milhão de usos de palavras). Como podemos ver, as recomendações teóricas relativas a um tamanho de caso suficiente neste caso não são muito confiáveis. A razão para isso reside nas suposições iniciais de uma distribuição gaussiana normal de frequência de palavras, segundo a qual cada palavra ocorre com a mesma frequência em todos os textos. Se uma palavra aparece uma vez no texto, então, com uma distribuição normal, isso não afeta a probabilidade de seu uso lá uma segunda vez. Mas na realidade este não é o caso. Cada texto tem seu próprio tema, cujas palavras neste texto serão usadas com muito mais frequência do que a média. Num texto sobre hobbits, a palavra hobbit será usada com a mesma frequência que muitas palavras funcionais, o que aumentará significativamente a sua frequência num corpus que incluirá pelo menos um desses textos1. Com isso, a lista de frequências construída a partir do corpus reflete as especificidades dos textos que nele foram incluídos durante sua compilação. A Tabela 2 mostra a imperfeição dos dicionários de frequência construídos em corpora relativamente pequenos, mas o simples aumento do tamanho do corpus também não garante a estabilidade dos resultados. Ao interpretar listas de dicionários de frequências, deve-se lembrar que qualquer corpus, por maior que seja, é um subconjunto finito de um conjunto potencialmente infinito de textos em um determinado idioma. Qualquer outra amostra deste subconjunto gerará uma lista ligeiramente diferente, que diferirá em seus elementos de frequência mais baixa. Um corpus maior, refletindo mais temas e estilos funcionais (cor- 1 Kenneth Church chamou essa situação de problema de Noriega (Church 2000), Adam Kilgarriff - problema do búzio, de uma palavra inglesa relativamente rara para um tipo de molusco (Kilgarriff 1997). 346.053- Ljashevskaja-SharovSA:_Layout 1 13/05/2008 22:07 Página 347 Dicionário de Frequência do Corpus Nacional da Língua Russa (pus tipo BNC ou NKRYA), oferece boa confiabilidade para a maioria dos elementos de frequência. No entanto, um novo aumento no volume de textos em detrimento da sua diversidade (ver, por exemplo, os projectos para criar Giga-corpus de inglês e chinês contendo mais de mil milhões de palavras de textos noticiosos, Cieri & Liberman 2002) poderá levam a uma menor fiabilidade da lista de frequências nesses corpora devido a uma mudança no seu vocabulário para o vocabulário noticioso. Como a tarefa de um dicionário de frequência não é simplesmente classificar as palavras pela sua frequência em um corpus específico, mas também determinar o núcleo lexical de uma língua, é necessário separar as palavras que aparecem frequentemente em muitos textos daquelas cujo comportamento lexical é semelhante a Noriega ou Hobbit, e que acidentalmente acabou em uma ou outra posição na lista de frequências. Assim, o Corpus Nacional Checo utiliza o conceito de Frequência Média Reduzida (ARF), em que a frequência de uma palavra é ponderada pela distância entre ocorrências de palavras individuais (Čermak & Křen 2005). Muitos dicionários de frequência (Lenngren, British National Corpus, French Business Dictionary) usam o coeficiente D introduzido por A. Juilland (Juilland et al. 1970), que leva em consideração tanto o número de documentos em que a palavra ocorre quanto sua frequência relativa. nestes documentos: onde µ é a frequência média de uma palavra em todo o corpus, σ é o desvio padrão desta frequência em documentos individuais, n é o número de documentos em que esta palavra ocorre. O valor D para palavras que aparecem na maioria dos documentos é próximo de 100, e para palavras que aparecem com frequência em apenas um pequeno número de documentos, é próximo de 0. A lista de frequência do dicionário de Lenngren é até ordenada pelo valor do produto deste coeficiente e a frequência média da palavra. Devido ao fato de o estatuto teórico deste trabalho não ser claro, não consideramos apropriado classificar nosso dicionário por ele. No entanto, a sua indicação para cada palavra permite avaliar a sua especificidade para cada área temática. Por exemplo, as palavras assustador, específico e cru têm frequência aproximadamente igual (21 ocorrências por milhão de palavras), mas o coeficiente D para específico é 66, cru é 18 e assustador é 78, o que significa que a última palavra é significativa para mais áreas temáticas e (em igualdade de condições) tem grandes chances de encontrar um lugar em um dicionário não especializado. 3. Estrutura do dicionário O conceito de dicionário envolve a publicação de uma versão “em papel” acompanhada de uma versão electrónica, representando o dicionário de frequências num volume mais completo. A parte do vocabulário contém as seguintes seções: I. Vocabulário geral ● lista alfabética de lemas ● lista de frequência de lemas ● distribuição de lemas por estilos funcionais: dicionário de frequência de ficção, dicionário de vocabulário significativo de ficção, dicionário de frequência de jornalismo, dicionário de vocabulário significativo de jornais e notícias, dicionário de frequência de outras não-ficções literatura, dicionário de vocabulário significativo, dicionário de frequência da fala oral ao vivo, dicionário de vocabulário significativo da fala oral ao vivo ● lista alfabética de formas de palavras II. Classes gramaticais ● lista de frequência de substantivos ● lista de frequência de verbos ● lista de frequência de adjetivos ● lista de frequência de advérbios e predicados ● lista de frequência de pronomes (pronomes nominais, adjetivos, advérbios, predicados) ● lista de frequência de lemas de classes gramaticais auxiliares III. Mesas auxiliares 347 053-Ljashevskaja-SharovSA:_Layout 1 13/05/2008 22:07 Página 348 Lyashevskaya O.N., Sharov S.A. ● dados sobre a frequência das classes de subfala e outras informações estatísticas IV. Nomes próprios e abreviaturas ● lista alfabética de lemas A lista alfabética de lemas fornece o nome do lema, parte do discurso, a frequência geral do lema, o número de documentos em que ocorreu e o coeficiente de variação D. O total frequência caracteriza o número de ocorrências por milhão de palavras do corpus, ou ipm (instâncias por milhão de palavras). Isso é feito para facilitar a comparação de frequências de palavras em diferentes corpora, que podem variar bastante em tamanho. Por exemplo, se a palavra poder ocorre 55 vezes em um corpus de 400 mil palavras, 364 vezes em um corpus de um milhão de palavras e 40.598 vezes em um corpus de 100 milhões de palavras da língua russa moderna e 55.673 vezes em um corpus grande de 135 milhões de palavras de NKRY, então sua frequência em ipm será 137,5, 364,0, 372,06 e 412,39, respectivamente. A lista alfabética da publicação eletrônica inclui 60.000 dos lemas mais frequentes. A lista de lemas, ordenada por frequência, mostra o nome do lema, classe gramatical, frequência geral do lema, número de documentos, fator D e distribuição de frequência por década. A lista de frequências inclui os 20.000 lemas mais frequentes. Dicionários de frequência de estilos funcionais são compilados com base em subcorpora de ficção, jornalismo, outras literaturas de não-ficção e discurso oral. A lista inclui os 5.000 lemas mais frequentes desses subcorpora. Uma lista dos lemas mais típicos para cada tipo de texto foi identificada a partir da comparação da frequência dos lemas nesses textos e no restante do corpus. Como métrica de comparação, foi utilizado o critério da razão de verossimilhança (log-verossimilhança), calculado com base na seguinte matriz: Subcorpus Outros textos Corpus inteiro Frequência a b a+b Tamanho c d c+d Com base nesta matriz, o valor da razão de verossimilhança G2 pode ser calculado usando a seguinte fórmula (Rayson & Garside 2000): Dicionários de vocabulário significativo para diferentes estilos funcionais incluem 500 lemas. A lista alfabética de formas de palavras inclui todas as formas de palavras do corpus com frequência superior a 0,1 ipm (cerca de 15 mil no total); A frequência geral da forma da palavra é fornecida. As formas de palavras homônimas são marcadas com *. Na seção “Partes do discurso”, a lista de frequência dos lemas é dividida em seis sublistas: substantivos, verbos, adjetivos, advérbios e predicados, pronomes e classes gramaticais auxiliares. Para cada lema, são indicadas sua frequência geral e classificação (número ordinal) na lista geral. Cada lista contém 1 mil dos lemas mais frequentes. As tabelas auxiliares incluem dados sobre a frequência das classes parcialmente verbais e outras categorias gramaticais, bem como informações sobre a cobertura do texto por lexemas, o comprimento médio de uma palavra, a forma da palavra e a frase. O dicionário termina com uma lista alfabética de nomes próprios e abreviações. Os nomes próprios são separados da parte principal do dicionário, pois formam um grupo muito menos estável estatisticamente, e sua frequência depende em grande parte da escolha dos textos do corpus e de seu cronotopo. Lenngren 1993 expressou a opinião de que a inclusão de nomes próprios no dicionário de frequências de forma geral leva inevitavelmente à sua obsolescência prematura. Para obter uma lista de nomes próprios e abreviaturas a partir da concordância do corpus, identificamos substantivos e abreviaturas cuja capitalização nos textos excedeu o limite de 95 por cento, cf. Rússia, Smirnov, Usina Distrital Estadual, Ministério das Relações Exteriores, Código do Trabalho.2 O dicionário inclui a parte nuclear desta lista, totalizando 3.000 das unidades mais frequentes. Seguindo a tradição que se desenvolveu para publicações deste tipo, nas páginas do dicionário é apresentada a seção “Fatos interessantes”: listas das palavras mais populares de vários grupos lexicais (dias da semana, fenômenos climáticos, cores, verbos de movimento, etc.), bem como as formas de palavras mais longas e uma lista de frequência de sinais de pontuação. 2 Notamos especialmente que adjetivos como Khristov, Petin, Kostromskaya/Kostromskaya pertencem ao vocabulário geral. 348 053-Ljashevskaja-SharovSA:_Layout 1 13/05/2008 22:07 Página 349 Dicionário de frequência do Corpus Nacional da Língua Russa 6429 terno 2288 capa 4890 botas 2179 saia 3696 casaco 1904 sobretudo 3696 camisa 1894 roupa * 3410 jaqueta 1 822 calçado 3396 chapéu 1668 camisa 3126 botas 1633 calças de ganga 3041 cachecol 1585 luva 2962 casaco 1522 casaco de pele 2955 calças 1356 uniforme 2840 calças 1251 boné 2686 chapéu 1235 camisola 2617 boina 1134 botas de feltro Tabela 3. Lista de frequência das designações de vestuário e calçado. A título de exemplo, na Tabela 3 apresentamos as frequências dos substantivos que denotam roupas e sapatos. Como seria de esperar, a lista reflete, por um lado, a “tipicidade” dos elementos do guarda-roupa (as botas de feltro ocupam apenas o 26º lugar na lista) e, por outro lado, o seu “significado” na descrição da aparência de uma pessoa nos textos. (um terno é um item separado mais perceptivo do que botas). 4. Preparação do material do dicionário As listas básicas do dicionário de frequências foram obtidas automaticamente, por meio de marcação metatextual e léxico-gramatical do corpus. Com base nas informações do metatexto, listas de frequências foram construídas e comparadas entre si em amostras separadas do corpus (por estilos funcionais, por momento de criação do texto). Outro tipo de marcação, léxico-gramatical, permite estabelecer a forma original de uma palavra (lema), sua classe gramatical e características gramaticais como caso, número, tempo verbal, etc.3 Isso possibilitou a coleta de dados sobre a frequência não apenas de formas de palavras individuais, mas também de lexemas, bem como o uso de certas categorias gramaticais. Na criação deste dicionário, utilizamos uma variante da marcação léxico-gramatical do corpus com resolução automática de homonímia morfológica. O russo, como uma língua com inflexão rica, cria dificuldades adicionais para compiladores de dicionários de frequência, uma vez que muitas formas de palavras em textos são homônimas (cf. a forma de palavra aço como uma forma do verbo tornar-se e o substantivo stal, a forma de palavra banco, representando os lemas banco e banco, palavras como fé e Fé). No entanto, em um dicionário de frequência, a forma original de uma palavra, ou lema, deve ser atribuída a qualquer forma de palavra de forma inequívoca. Nos dicionários da geração anterior (Zasorina 1977, Lenngren 1993), a homonímia era resolvida manualmente, pois o volume do corpus processado era insignificante. Obviamente, esta solução não é adequada para um gabinete de 100 milhões de unidades. Na elaboração deste dicionário foi levada em consideração a experiência dos colegas tchecos, que tiveram que modificar o analisador morfológico, ampliar o dicionário e realizar a edição manual. Inicialmente, o corpus NCRY foi marcado com o analisador morfológico Mystem (Segalovich, Maslov 1998). A ambigüidade nas marcações lexicais e gramaticais foi resolvida usando o programa AV. Sokirko, usando o modelo trigrama e um subcorpus de treinamento com homonímia removida manualmente (Sokirko, Toldova 2005). Palavras não pertencentes ao dicionário também representam um problema significativo para a lematização (Lyashevskaya et al. 2007). Se uma palavra não estiver no dicionário gramatical do analisador morfológico, então uma ou mais hipóteses sobre a forma original da palavra e suas características gramaticais são atribuídas a ela. Como resultado, em frequência - 3 Princípios de lematização e a composição de classes gramaticais são determinados pelo padrão morfológico do corpus (NCRY 2005), que em geral corresponde aos princípios do Dicionário Gramática da Língua Russa (Zaliznyak 1977 ). Algumas características da lematização estão relacionadas ao fato de que a coleta de dados ocorre principalmente de forma automática. Observe que apenas a marcação palavra por palavra é levada em consideração: frases fixas, preposições compostas e outras unidades lexicais não-palavras (cf. Ano Novo, durante, no entanto, umas às outras) não estão incluídas no dicionário. 349 053-Ljashevskaja-SharovSA:_Layout 1 13/05/2008 22:07 Página 350 Lyashevskaya O.N., Sharov S.A. O dicionário inclui “lemas” como grato (cf. a forma da palavra gratidão), Jansny (cf. Jansen), Barclay (cf. Barclay). Enquanto isso, a participação de formas de palavras não pertencentes ao dicionário no NCRL é de 3% de todos os usos de palavras e 45% da lista de formas de palavras do corpus. Para formas de palavras não pertencentes ao dicionário de frequência, foram utilizados programas de pós-processamento para marcação morfológica de NKRYA, compilados por B.P. Kobritsov e G.K. Bronnikov, bem como os resultados da validação do trabalho destes programas obtidos por O.N. Lyashevskaya e D.K. Bronnikova (Lyashevskaya 2007, Bronnikova 2007). Duas abordagens para lematização de palavras não-dicionárias revelaram-se as mais eficazes: agrupamento de hipóteses sobre o lema e o tipo de paradigma (a análise mais provável para uma forma de palavra é considerada aquela que também é encontrada em outras palavras não-dicionárias). formas de palavras de dicionário, portanto, as formas de palavras “procuram” vizinhos no paradigma flexional) e destacando os consoles mais produtivos. Como a resolução automática de homonímia e a interpretação de formas não-dicionário permitem um certo erro, embora insignificante, os homônimos incluídos nas primeiras 20 mil palavras de frequência foram submetidos a verificação manual adicional. *** Os autores expressam sua gratidão a V.A. Plungeanu, A.Ya. Shaikevich, bem como E.A. Grishina, B.P. Kobritsova, E.V. Rakhilina, D.V. Sichinava e outros participantes do seminário NCRY que participaram da discussão dos princípios de criação do dicionário. Agradecemos a O. Uryupina, D. e G. Bronnikovs, B. Kobritsov, funcionários da Yandex LLC A. Abroskin, N. Grigoriev, A. Sokirko por sua assistência na coleta e processamento do material. Referências 1. Bronnikova D.K. Comparação de algoritmos de lematização baseados no material do Corpus Nacional da Língua Russa. Trabalho de graduação . M.: Universidade Estatal Russa de Humanidades, 2007. 2. Belyakova I.Yu., Olovyannikova I.P., Revzina O.G. (comp.). Dicionário de linguagem poética de Marina Tsvetaeva. Em 4 volumes. M: Casa-Museu de Marina Tsvetaeva, 1996. 3. Vinogradov V.V. (editor responsável). Dicionário da língua de Pushkin. T. I – IV. M., 1956-1961. 4. Zaliznyak A.A. Dicionário gramatical da língua russa: Inflexão. Moscou, 1977; 4ª ed.: M.: Dicionários Russos, 2003. 5. Zasorina L.N. (ed.). Dicionário de frequência da língua russa. Moscou: língua russa, 1977. 6. Lönngren L. (ed.). Dicionário de frequência da língua russa moderna. Uppsala, 1993. 7. Lyashevskaya O. N. Sobre o problema da lematização de palavras não pertencentes ao dicionário // Lingüística computacional e tecnologias inteligentes: Anais da conferência internacional “Diálogo 2007”. M, 2007. 8. Lyashevskaya O.N., Kobritsov B.P., Sichinava D.V. Automação da construção de um dicionário baseado em uma série de formas de palavras não-dicionário // Internet Mathematics 2007. Ekaterinburg, 2007. 9. NKRY: Corpus Nacional da Língua Russa 2003-2005: Resultados e Perspectivas. M.: Indrik, 2005. 10. Piotrovsky R.G., Bektaev K.B., Piotrovskaya A.A.. Lingüística matemática. M.: Escola Superior, 1972. 11. Polyakov A.E. Dicionário eletrônico da linguagem do escritor (usando o exemplo da linguagem de A.S. Griboyedov) // Anais do Seminário Internacional Diálogo-99 sobre linguística computacional e suas aplicações. Tarusa, 1999. M., 1999. T. 2. S. 230-236. 12. Segalovich I., Maslov M.. Análise e síntese morfológica russa com a geração de modelos de flexão para palavras não descritas no dicionário // Anais do seminário internacional Diálogo’98 sobre linguística computacional e suas aplicações. Kazan, 1998. T.2. pp. 547–552. 13. Sokirko A.V., Toldova S.Yu. Comparação da eficácia de dois métodos para remover ambiguidades lexicais e morfológicas da língua russa // Conferência Internacional “Corpus Linguistics 2004”. S.-Pb., 2004. 14. Stepanova E.M. Dicionário de frequência do vocabulário científico geral. M., 1976. 15. Shaikevich A.Ya., Andryushchenko V.M., Rebetskaya N.A. Dicionário estatístico da linguagem de Dostoiévski. M.: Línguas da Cultura Eslava, 2003. 16. Steinfeld E.A. Dicionário de frequência da língua literária russa moderna. Tallinn, 1963. 17. Čermák F., Křen M. (eds.). Frekvenční slovník češtiny (dicionário de frequência de tcheco). Praga: NLN, 2004. 18. Čermák F., Křen M. Dicionários de frequência baseados em corpus de nova geração: O caso do tcheco // International Journal of Corpus Linguistics, 10, 2005. P. 453-467. 19. Igreja K.W. Estimativas empíricas de adaptação: a chance de dois Noriegas está mais próxima de p/2 do que p2 // Anais da 18ª Conferência de Lingüística Computacional (COLING). Saarbrücken, Alemanha, 2000. Vol. 1. S. 180-186. 20. Cieri Ch., Liberman M. Criação e distribuição de recursos linguísticos no Linguistic Data Consortium // Proceedings of LREC 02. Las Palmas, Espanha, 2002. pp. 350 053-Ljashevskaja-SharovSA:_Layout 1 13/05/2008 22:07 Página 351 Dicionário de Frequência do Corpus Nacional da Língua Russa 21. Davies M. Um Dicionário de Frequência de Espanhol: Vocabulário Básico para Alunos. Londres – NY: Routledge, 2005. 22. Josselson H.H. A contagem de palavras em russo e a análise de frequência das categorias gramaticais do russo literário padrão. Detroit: Wayne University Press, 1953. 23. Juilland A., Brodin D., Davidovitch C. Dicionário de frequência de palavras francesas. Haia-Paris: Mouton, 1970. 24. Kilgarriff A. Colocando frequências no dicionário // International Journal of Lexicography, 10 (2), 1997. P. 135-155. 25. Leech G., Rayson P., Wilson A. Frequências de palavras em inglês escrito e falado: baseado no British National Corpus. Londres: Longman, 2001. 26. Rayson P., Garside R. Comparando corpora usando perfil de frequência // Proceedings of the Comparing Corpora Workshop at ACL 2000. Hong Kong, 2000. P. 1-6. 27. Sharoff S. Criação de corpora de uso geral usando consultas automatizadas em mecanismos de pesquisa // Baroni M., Bernardini S. (eds.), WaCky! Documentos de trabalho na Web como Corpus. Bolonha: Gedit, 2006. http://wackybook.sslmit.unibo.it. 351