Закон Зипфа: как связаны математика и быстрое изучение иностранного языка

Дата публикации
27 Мая 2020
Категория
Математика

Лингвистика — это наука, которая требует усидчивости и даже наличия математических способностей. Как связаны графики со словами, и есть ли в мире словарь, который поможет научиться читать на иностранном языке за год?

«В каждой естественной науке заключено столько истины, сколько в ней есть математики» (Иммануил Кант). Математикам свойственен некоторый снобизм. Вслед за И.Кантом они считают, что в каждом разделе знания есть лишь столько настоящей науки, сколько в нём математики. Они недалеки от истины. Математика — это концентрированная логика, а любая наука претендует на то, чтобы быть логичной, точной и однозначной в своих утверждениях. Поэтому, насколько это возможно, любая наука старается использовать математические методы. И лингвистика - не исключение.

Американский ученый и педагог Джордж Кингсли Ципф (George Kingsley Zipf; 1902–1950) первым применил в лингвистике статистические методы, то есть «обвенчал» филологию с математикой.

Джордж Кингсли Ципф (1902 - 1950)

В ходе своей преподавательской работы (Ципф был преподавателем иностранного языка) он, желая повысить эффективность обучения, задумался над совершенствованием методики преподавания. Применяя методы математической статистики к языку, он открыл закон, который впоследствии и был назван в его честь.

Длительное время языкознание считалось гуманитарной наукой. Однако сегодня оно все больше превращается из науки гуманитарной в науку точную, то есть начинает использовать количественные методы, обеспечивающие воспроизводимость результатов исследований и предсказуемость выводов. При этом язык рассматривается, как реально существующий объект, назначение которого – быть средством коммуникации (передачи информации) между людьми.

В чем же смысл закона Зипфа?

Одна из сторон процесса изучения чужого языка — расширение словарного запаса. Хочешь говорить на иностранном языке — учи слова этого языка. Конечно, учить их, читая словарь, что называется, от корки до корки и запоминая все встречающиеся в алфавитном порядке слова, — способ не самый лучший. Одни слова встречаются в языке чаще, а другие реже. Некоторые — совсем редко.

Вы знаете, что такое «тантамареска», и чем она отличается от «тинтамара»? Между тем эти слова входят в словарь русского языка. Правда, они очень редкие. Словарный запас нужно расширять по другому принципу. В первую очередь следует учить наиболее употребительные слова. Таких слов относительно немного — около 2000. Сначала следует осваивать наиболее часто употребляемые в языке слова, потом — слова, которые используются реже, и, наконец, слова, применяемые совсем редко, для украшения и индивидуализации речи.

Если уж и учить иностранные слова по словарю, то словарь этот должен быть не алфавитным, а частотным. В частотном словаре слова располагаются не по алфавиту, а по частоте встречаемости в текстах на изучаемом языке. Например, слово, которое в алфавитном словаре, состоящем из миллиона слов, встретится 100 тысяч раз, в частотном словаре будет стоять раньше слова, частота встречаемости которого 10 тысяч раз на миллион. В свою очередь, это второе слово будет находиться в частотном словаре ближе к началу, чем слово, встречающееся только тысячу раз на миллион слов.

Ципф первый предложил количественную характеристику для больших текстовых массивов: частоту встречаемости слов. Он же вывел закон частотного распределения слов в тексте, справедливый для любого естественного языка. Закон Ципфа определил частотное распределение слов, как универсальную и, вероятно, главную характеристику языка. Очень важно, что частоту распределения слов в языке можно подсчитать, а значит, более или менее однозначно интерпретировать.

Кривая, описывающая закон Зипфа, — гипербола, довольно быстро спадающая и с тянущимся затем почти горизонтальным «хвостом». В спадающей части этой кривой находятся самые употребляемые слова, а в хвосте — слова, употребляемые редко. Зато именно в этой части происходят многие чудеса, благодаря которым в языке появляются новые слова.

Однако во времена Ципфа подсчет частотного распределения слов в языке производился вручную и потому чисто технически был задачей нелегкой. В настоящее время это распределение легко рассчитать на компьютере. Таким образом, компьютер превращается в удобный инструмент, позволяющий производить эксперименты над языком. Первые частотные словари появились относительно недавно. Первый такой словарь английского языка, «The Teacher's Word Book», вышел в свет в 1921 году. Этот словарь включал 10 тысяч самых употребительных английских слов. В 1944 году он был переиздан в увеличенном объёме (30 тысяч слов). Первый частотный словарь русского языка тоже был издан в США в 1953 году. Он содержал около 5 тысяч слов. Первый частотный словарь современного русского языка появился в 1963 году в Таллине. В нём было представлено две с половиной тысячи наиболее употребительных слов. В 1977 году был издан первый частотный словарь русского языка, который создали с помощью компьютера на базе корпуса текстов в миллион слов.

Статья написана по материалам сайта: https://mel.fm/blog/mark-blau/67429-zakon-zipfa-kak-svyazany-matematika-i-bystroye-izucheniye-inostrannogo-yazyka