В 1930-е гг. лингвист и статистик из Гарварда Джордж Ципф сделал серию новаторских наблюдений за языком. Возможно, самое знаменитое из них состояло в том, что некоторые слова в языке чрезвычайно частотны и встречаются на порядок чаще большинства слов. Эта закономерность достаточно регулярна и известна как закон Ципфа. По сути, она подразумевает, что в данном языке самое частотное слово встречается вдвое чаще второго по частотности, втрое чаще третьего по частотности, вчетверо чаще четвертого по частотности и т. д. Это несколько упрощенное изложение его наблюдений, но в целом такое обобщение достаточно хорошо работает для всех изученных языков и баз данных. Помимо частотности слов, закон Ципфа описывает также распределение многих других явлений окружающего мира. Он распространяется также на отдельные звуки. В одном из моих собственных исследований я заметил, что, если взять набор частотных слов любого языка, мы заметим, что один звук языка будет встречаться значительно чаще, чем остальные, нередко вдвое чаще, чем второй по распространенности звук. Например, во многих языках звук [m] в общеупотребительных словах гораздо более распространен, чем любой другой звук. Ципф предложил и другое ключевое соображение, важное для темы нашего разговора: самыми частотными словами обычно оказываются короткие слова типа предлогов и артиклей. Говоря словами Ципфа, «величина слов в целом имеет тенденцию находиться в обратной (не обязательно пропорциональной) зависимости от их частоты встречаемости»[113]. Чем реже слово, тем больше его длина, выраженная в количестве звуков. Очень распространенные слова, как правило, и очень короткие.
В наблюдениях Ципфа впечатляет то, насколько стабильны они для различных языков и наборов данных; за те десятилетия, которые прошли с момента их публикации, они воспроизводились вновь и вновь. Продолжаются, однако, активные споры о том, почему эти наблюдения так четко подтверждаются. В отношении того, что частотные слова обычно подвергаются со временем «фонетической редукции», то есть укорачиванию, современные исследования дают убедительные доказательства: это происходит потому, что высокочастотные слова достаточно предсказуемы. В сущности, когда мы произносим очень распространенные слова, наши слушатели могут предсказать, какое слово вылетит из наших уст, в самом начале слова. Это означает, что мы склонны укорачивать слова, так как немалая доля фонетических усилий, которых они требуют, оказывается несколько излишней. В конце концов, один из ключевых факторов, формирующих слова и языки, это принцип наименьшего усилия: при прочих равных условиях мы склонны тратить как можно меньше сил на выражение своих мыслей.
Исследование Стивена Пьянтадоси, когнитивиста из Калифорнийского университета в Беркли, и его коллег подтверждает: общая предсказуемость слова лучше прогнозирует вероятность, что оно будет короче, чем его частотность сама по себе. Иными словами, предсказуемость слова не просто функция его частотности. Хотя широко распространенные слова обычно несколько предсказуемы, их предсказуемость определяется контекстом. Например, если я начинаю: «Она села на…», то вам известно, что с большой вероятностью за этим последуют определенные слова. Я могу сказать: «Она села на стул», или «поезд», или «автобус», или «пол». Но вряд ли я скажу: «Она села на дом». (Хотя ничто не мешает мне это сделать, если, например, я рассказываю сказку о великанше.) Хотя «дом» – распространенное слово, оно намного менее предсказуемо в этом контексте. В этом предложении так или иначе слово типа «автобус» дает меньше информации, чем неожиданное слово типа «дом». Когда мы слышим последовательность типа «сесть на», наш мозг уже ожидает, что дальше последует слово типа «автобус» или несколько других вариантов. Что интересно, если изучить все контексты, в которых встречается данное слово, например «автобус», и рассмотреть миллионы слов в предложениях, действительно сказанных людьми, можно увидеть, насколько это слово информативно.
Слова, которые чаще встречаются в высокопредсказуемых контекстах, в среднем менее информативны по сравнению со словами, которые в таких предсказуемых контекстах не встречаются. Слова, в среднем менее предсказуемые, обычно более информативны. Например, если слово «автобус» встречается очень часто и предсказуемо на конце лишь немногих словосочетаний (в частности, «сесть на»), оно будет менее информативно, чем слова той же общей частотности в языке. Во многих фразеологизмах последнее слово полностью предсказуемо. Если я скажу: «Ну все, это была последняя ___________», вы знаете, что следующее сказанное мною слово будет «капля». Хотя слово «капля» встречается и в других контекстах, его крайняя предсказуемость в этом фразеологизме означает, что в данном контексте это не особенно информативное слово. Оно не говорит слушателю ничего такого, что он не мог бы угадать до его произнесения[114].
В исследовании Пьянтадоси и его коллег, посвященном анализу сочетаемости слов в обширном массиве данных по десяти языкам, было замечено, что средняя информативность слова является очень четким предиктором длины этого слова. Слова, относительно предсказуемые во всех контекстах, где они встречаются, обычно бывают короче, чем менее предсказуемые и более информативные слова. Это не означает, что Ципф ошибался: ведь высокочастотные слова обычно более предсказуемы. Если у двух слов одинаковая общая частотность в данной выборке, то слово, которое чаще встречается в более предсказуемых контекстах, будет короче, поскольку оно менее информативно. Менее информативное слово короче, поскольку говорящие способны передать нужный смысл слушателям, даже если они произносят слово быстро или сокращают его. Доведем этот принцип до крайности: представьте себе, что слово «капля» встречается только в выражении «это последняя капля» и, наоборот, слова «это последняя» употребляются только перед «капля». В этом вымышленном сценарии нет смысла вообще произносить «капля»: стоит сказать «это последняя», как «капля» будет уже излишеством. Конечно, в реальной речи слова не настолько неинформативны. Однако слова варьируют по степени непредсказуемости и информативности.
Как отмечалось выше, суффиксы и приставки – это морфемы, которые когда-то были отдельными словами. Это элемент явления, которое называется «грамматикализация» и которое в последние несколько десятилетий освещают такие лингвисты, как Джоан Байби. В общих чертах: когда слова начинают использоваться в очень предсказуемых контекстах, они укорачиваются из-за своей пониженной информативности. Иногда эти укороченные слова также становятся обязательными. В этих случаях дело обстоит так, будто слова фонетически редуцируются из-за своей регулярной встречаемости и предсказуемости во многих сходных контекстах, но было бы странно, если бы говорящий их полностью опускал. Суффиксы и приставки, по сути, укороченные и обязательные формы того, что когда-то было отдельными словами, встречавшимися в очень предсказуемых местах. Хотя в большинстве случаев реальные слова, давшие начало суффиксу или приставке, утрачены, в других случаях мы видим процесс перехода слов в морфемы. Если взять один из многих примеров, по-английски часто говорят I want to ('Я хочу') или I am going to ('Я собираюсь') перед глаголом: I want to eat ('Я хочу есть'), I am going to eat ('Я собираюсь поесть') и т. п. Мы произносим это настолько часто, что слова типа going to укорачиваются из-за своей крайней предсказуемости. Если вы транскрибируете реальные разговоры на английском, то обнаружите, что люди вряд ли вообще говорят I want to или I am going to. Вместо этого вы услышите I wanna и I'mana. Более того, если бы английский был бесписьменным туземным языком, лингвист мог бы поначалу решить, что wanna и mana – приставки, присоединяющиеся к последующему глаголу. Хотя
