Частотный словарь лемм. Автор М. Хаген. Словарь содержит 31 575 лемм, создан на основе данных, загруженных с сайта Национального корпуса русского языка "http://ruscorpora.ru/corpora-freq.html" в сентябре 2009 г. Состоит из трех файлов: hagen_lemma_num.rar - исходный файл из НКРЯ; hagen_freq_desc.rar (Частотность_лемм_по_убыванию) - собственно, и есть частотность лемм в порядке её убывания; hagen_freq_alph.rar (Частотность_лемм_по_алфавиту) - соответственно леммы в алфавитном порядке. Из исходного файла выбраны только те леммы, которые есть в ранее опубликованном словаре "Полная парадигма. Морфология." "http://www.speakrus.ru/dict/hagen-morph.rar" и привязаны к нему кодом в последнем поле. Строки файлов состоят из полей, отделенных друг от друга разделителем " | ". Структура строки файла "Частотность_лемм_по_убыванию": - номер по порядку; - сколько раз встретилась лемма на 1 000 000 словоупотреблений; - процент от общего объема слов всех лемм от начала файла включая текущую (% покрытия текстов леммами); - лемма; - морфологическое описание леммы; - уникальный код леммы для привязки её к словарю "Полная парадигма. Морфология." (там есть соответствующее поле). Структура строки файла "Частотность_лемм_по_алфавиту": - номер по порядку; - лемма; - морфологическое описание леммы; - сколько раз встретилась лемма на 1 000 000 словоупотреблений; - уникальный код леммы для привязки её к словарю "Полная парадигма. Морфология." (там есть соответствующее поле). Нужно отметить, что данные приблизительны: во-первых, неизвестно, как НКРЯ определял лемму словоформы (частотность дана для всего основного корпуса, для большей части которого омонимия не снята) наверняка лемма "мороженое" (сущ) отнесена как словоформа к лемме "мороженый" (прил); во-вторых, для, например, леммы "жать", помеченной в исходном файле "verb" (глагол), есть две леммы: "давить, стискивать, сжимать" и "срезать под корень серпом или жатвенной машиной"; в таких случаях предпочтение было отдано лемме с более частым употреблением, определенным "на глазок"; в-третьих, все статистические данные по природе своей приблизительны. Автор с благодарностью примет все замечания, уточнения и дополнения: hagen_m@mail.ru