Агентство Лангуст [переход на главную]

18/02/2014 То, что вы, возможно, не знали о словарях в лекции «Словари: мифы и реальность»
Впервые опубликовано на сайте Хабр

На сайте Хабр была опубликованы материалы лекции «Словари: мифы и реальность» о лингвистических словарях купить книги и пособия для изучения иностранных языков.

Ниже материалы лекции приведены частично.

Словари - одно из самых древних и самых известных достижений мировой лингвистики.

Но насколько распространённые представления о словарях соответствуют реальности? Кто составляет словари? Как это делалось прежде и что изменилось в новую, компьютерную эпоху? Всё ли знают словари - а если нет, то кто знает лучше их? Всегда ли стоит доверять словарям, можно ли обойтись совсем без них и что ждёт словари в будущем?

Как возникли и развивались словари

первый словарь, где иероглифы были разбиты по ключам

Первые подобия словарей появились в XXV веке до н.э. у шумеров. Это были так называемые глоссы: на полях рукописей выписывались значения незнакомых слов. Ну а первый известный нам полноценный словарь, представляющий собой отдельную книгу, появился в Китае в XX веке до н.э. Называется он Erya и состоит из 2094 словарных статей. Всего в нём растолковываются 13 113 иероглифов, написанных на 19 пянях - связках из 20-30 бамбуковых планок, размером 1 см на 20-40 см. Современные наиболее полные словари китайского языка купить учебники и пособия по китайскому языку содержат толкования около 60 000 иероглифов, а образованные носители китайского языка за свою жизнь выучивают в среднем около 10 000 иероглифов. Так что, несмотря на древность, словарь Erya можно назвать достаточно полным. Так как в китайском языке нет алфавита, словарные статьи в нём упорядочены по тематике: термины родства, жилища, утварь, музыкальные инструменты, небесные тела, территории, возвышенности, горы, воды, травы, деревья, насекомые, рыбы, птицы, дикие животные, домашние животные.

Примерно в 100 году н.э. появился Shuōwén Jiězì - первый словарь, где иероглифы были разбиты по ключам: группировка производится по базовым графическим элементам иероглифов, что упрощает поиск толкований иероглифов в тех случаях, когда даже примерное значение слова неизвестно. Словарь содержит 9353 иероглифов, известен его автор: Сюй Шень.

Самый ранний из дошедших до нас рукописных славянских словарей - это так называемый азбуковник. Он был создан в 1282 в качестве приложения к Кормчей книге и содержал толкования 174 слов. Ну а самый первый печатный словарь был издан в 1596 году в качестве приложения к грамматике Лаврентия Зизания.

В нём содержится перевод 1061 слова со старославянского языка на древнерусский купить пособия по старославянским языкам.

Расцвет лексикографии

На протяжении большей части истории своего существования, словари были литературой исключительно для профессионалов, и среди простых людей не пользовались особой популярностью, да и не были особенно доступны. Тот бум словарей, который наблюдается сейчас, стал проявляться только в середине двадцатого века, когда стало понятно, что словарь не просто книга, в которой разъясняются непонятные слова, а в некотором роде проводник культуры. Один из опросов, проводившихся в 90-е годы в Великобритании, показал, что хотя бы один толковый словарь есть в 90% британских семей. Больше, чем поваренные книги (70%) купить книги по кулинарии и Библия (80%) купить христианскую литературу.

первый печатный словарь был издан в 1596 году в качестве приложения к грамматике Лаврентия Зизания

Возникли целые семейства словарей, составляемые едиными коллективами авторов по единым принципам:

Среди толковых словарей русского языка можно выделить:

Как составляются словари

Первый этап составления словаря - сбор словника, набор слов, которые будут в него входить. Далее нужно составить определения всех этих слов. Делать это, базируясь только на своих знаниях (интроспекция) - не самый эффективный способ, хотя какая-то часть работы производится и таким образом. Более полную картину можно получить путём опросов носителей языка. Также информация получается при помощи экспериментов на носителях языка. И четвёртый метод - это корпусные исследования.

До тех пор, пока компьютеры не обрели широкого применения, определения записывались на карточки, из них составлялись картотеки. Труднее всего было находить примеры применения слов в художественной литературе. Академик А. А. Зализняк купить произведения А. А. Зализняка высказывался об этом следующим образом: «Нынешним молодым людям уже трудно представить себе, что эта работа делалась вручную. „Это же немыслимый абсурд - делать такую работу без компьютера“, - доводилось мне слышать. В действительности рабочим инструментом были четыре хлебных лотка, раздобытых в соседней булочной; в каждый входило по 25 тысяч карточек из тонкой бумаги».

С распространением компьютера появилась возможность составлять корпуса языка: наборы текстов доступных для поиска и грамматической разметки. Теперь найти самые разные варианты применения того или иного слова можно буквально за пару секунд. Это произвело настоящую революцию в работе над словарями.

Корпус отличается от электронной библиотеки тем, что в нём отсутствует доступ к полным текстам, его нельзя просто читать. Но при этом там есть мощный полнофункциональный поиск, ориентированный именно на лингвистические исследования. Самый большой корпус русскоязычных текстов - это национальный корпус русского языка. Он включает в себя более 500 миллионов слов. В нём содержатся самые разные тексты, включая примеры устной речи, которые раньше были совсем уж труднодоступны.

Чего не хватает словарям

Если рассматривать словарные определения близких по смыслу слов в отрыве от них, не всегда можно точно определить, какое именно слово имеется в виду. Определения на естественном языке могут быть слишком туманными и общими. Но если описывать слова каким-нибудь формальным языком, не допускающим двусмысленности, человеку читать такие определения будет очень неудобно. Над поиском компромисса, который устранил бы эту проблему, работают многие учёные. Например, Анна Вежбицка. Она занимается созданием универсального семантического метаязыка. Анна считает, что существует небольшое ядро базовых универсальных значений - семантических примитивов. Они выражаются во всех языках и понятны каждому. И уже с их помощью можно описывать все остальные слова. Текущая версия этого языка содержит около 60 слов:

Как видно, тут есть самые распространённые местоимения, числительные, логические связки и глаголы, выражающие основные действия. Чтобы описать какое-то сложное понятие, можно прибегать к использованию логических цепочек, которые в совокупности укажут на одно конкретное слово. Рассмотрим это на примере слова excited:

  1. X felt something because X thought something

  2. sometimes a person thinks:

  3. I know now: something very good will happen

  4. I want it to happen

  5. I can't think about other things now

  6. when this person thinks this this person feels something good

  7. X felt something like this

  8. because X thought something like this

Или на примере слова ashamed:

  1. X felt something because X thought something

  2. sometimes a person thinks:

  3. people can know something bad about me

  4. I don't want people to know this

  5. if people know this they can't not think smt bad about me

  6. when I think about it, I can't not think the same

  7. when this person thinks this person feels smth bad

  8. X felt something like this

  9. because X thought something like this

Метаязык должен содержать небольшое, но достаточное число единиц. Однако толкования из одних только элементарных значений слишком трудны для понимания. Можно пойти на компромисс: включать в определения и более сложные слова, комбинированные из нескольких примитивов, при этом, не допуская синонимии и омонимии.

© Иомдин Борис Леонидович, кандидат филологических наук, старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, доцент Института лингвистики РГГУ, доцент факультета филологии Высшей школы экономики.

Впервые опубликовано на сайте Хабр

← Вернуться
хостинг для сайтов © Langust Agency 1999-2024, ссылка на сайт обязательна