Главная страница ИД «Первого сентября»Главная страница газеты «Первое сентября»Содержание №33/2004

Вторая тетрадь. Школьное дело

УЧЕБНИКИ N74 
 

Леонид АШКИНАЗИ,
Мария ГАЙНЕР,
Алла КУЗНЕЦОВА

Невод, закинутый в Сеть

Тятя, тятя, наши сети претащили миртвица...
А.С.Пушкин
(в переложении неизвестного школьника).

Представьте себе, что по всему миру, по городам, селам, полям и весям расставлены маленькие ящички, в каждый вставлен бумажный рулон рублей примерно за пять, и на этой бумаге печатается все, что говорят люди вокруг. Это Интернет.

Потому что если раньше то, что писали, стараниями редакторов и корректоров приводилось в мало-мальски пристойный вид, то теперь... сами видите. Зато филологам – раздолье. Раньше устную речь изучать было трудно – надо было толкаться в очередях за пивом, судорожно запоминать замысловатые обороты и, сокрывшись в близлежащей подворотне, записывать. А теперь можно сесть к компьютеру, мышь пнуть и – вперед.

Но нам кажется, что исследователи еще не распробовали как следует этот метод изучения общества. Мы задали Сети для начала три простых вопроса. Вопрос первый: насколько неграмотны люди и как эта неграмотность изменяется? Что ответила Сеть, показано в таблице; мы для примера исследовали несколько слов. Слева – правильное написание, далее – неправильное и отношение частоты неправильного написания к правильному. Ноль означал бы, что слово всегда пишут правильно, единица – что пишут случайным образом, одинаково часто и так, и так. На получаемые с помощью искалки (мы пользовались в данном случае Yandex’ом) данные влияет то, что кириллицей пользуется не только русский язык и в других языках орфография может отличаться. “Карова” – это не всегда ошибка! Поэтому мы не включили в таблицу случаи, когда коррекция должна была бы составить больше 15% (например, слова: аберрация, адвокат, аккомодация, аккорд, аккредитив, аллергия, аннотация).

Yandex позволяет для каждого слова установить количество страниц, на которых нашлось это слово, количество сайтов, на которых находятся эти страницы, и количество запросов в течение данного месяца. Поэтому доля неправильных написаний может вычисляться по запросам, по страницам и по сайтам (левое, среднее и правое число). Расчет по запросам дает наиболее чистые данные, не искаженные влиянием редакторов. Недостаток этих данных в том, что они доступны только за месяц, а это уменьшает статистику. Доля неправильных написаний, рассчитанная по страницам, существенно меньше, поскольку она искажена редакторами. Доля неправильных написаний, рассчитанная по сайтам, также искажена редакторами, но в меньшей степени, поскольку, если на сайте встретилось одно неправильное написание, он попадает и в “правильные”, и в “неправильные”.

Данные выглядят страшненько, но пугаться не надо – они слабо меняются со временем: средние значения по первой колонке увеличиваются за полгода не более чем на 15%. Так что слухи о приближающемся конце света несколько преувеличены.

Напрашиваются следующие шаги – исследование зависимости частоты ошибок от типа ошибки и от контекста. Это может стать материалом серьезного исследования, одним из выводов которого будет: как надо учить, чтобы уменьшить частоту “абераций” памяти и “аппеляций” к тому, что “все так пишут”. Разумеется, для этого надо не законы о защите языка принимать, а лучше платить педагогам, и преподавать в школе надо не противогазы и сапоги, а русский язык. Впрочем, некоторым это последнее очевидно и без Интернета, а тем, кому не очевидно, никакой Интернет не поможет.

Классификация ошибок может быть двух типов. Во-первых, по формальной стороне: что именно происходит с буквами при ошибке. Таким образом, можно выделить четыре типа ошибок: вставка (“аппелляция”), удаление (“апеляция”), замещение (“апилляция”) и перестановка (“аппеляция”). Например, в данном частном случае ошибки замещения редки, а остальные примерно равновероятны.
Вторым же подходом к классификации может быть “сущностный”. Почему делается та или иная ошибка? Например, “карова” человек может писать потому, что плохо усвоил орфограмму о безударных гласных, а в соответствующем классе плохо учил “словарные слова”. А может, потому, что родной язык – белорусский... Такая классификация может быть более подробной, включающей в себя указания на все орфограммы русского языка. Интересно было бы сопоставить частоту ошибок в Интернете и, скажем, во вступительных сочинениях в вуз, то есть в набранных на компьютере текстах и в текстах, написанных от руки. Что же касается эпиграфа к этой статье – вторая ошибка уникально редка, а вот первая имеет частоту около 0,1.

Второе маленькое исследование, которое мы провели, это частота употребления в русскоязычном и англоязычном Интернете названий стран и народов. Эту часть мы для разнообразия сделали другой искалкой – Google’ом. Если расположить страны в порядке убывания частот упоминания в Интернете и нарисовать зависимость частоты от места в списке (ранга), получатся вот такие кривые (за 1 принята частота упоминания “России” и “русских” в русскоязычном Интернете и “США” и “американцев” – в англоязычном). Глазом, вооруженным Google’ом, видно, что американцам (которые составляют 3/4 населения англоязычного Интернета) окружающие страны существенно более интересны, нежели русскоязычным, а народы – интересны в той же мере. Так что тупо повторяемая фраза, что американцам ничто не интересно, “кроме самих себя”, – миф (это подтверждают и социологические данные, но об этом в другой раз). В русскоязычном же Интернете аномально высок интерес к США – почти как к себе.

Причем если посмотреть отношение интереса к стране и ее народу, то получится, что есть ситуации, когда страна интереснее народа, а бывает и наоборот. Например, в англоязычном Интернете в сторону страны смещен интерес к Китаю, Франции, Японии и Индии (то есть интерес носит политический характер), а в сторону народа – для Польши, России, Греции (культурный интерес). В русскоязычном Интернете “политичен” интерес к Италии, Кипру, Испании, Турции, Индии, Болгарии, а “культурен” – к Англии, Японии, Китаю, Германии.

Третий вопрос, который мы захотели задать Сети: часто ли в ней “таскают” материалы? Возможность для такого исследования, как нам казалось, создает тот же Google, поскольку он делит ссылки на “наиболее значимые” и “очень похожие на них”. Причем оказалось, что отношение общего количества ссылок (те и те вместе) к количеству оригинальных ссылок (таковыми мы считали “наиболее значимые”) изменяется по крайней мере в пределах от 1 до 230. Вот некоторые примеры, причем первое число – количество оригинальных ссылок, второе – общее количество. “Квазигруппа” – 20/40, “хиггсовский бозон” – 30/230, “асимптотическая свобода” – 50/150, “поле температур” – 100/140, “тахион” – 250/1.000, “фуллерит” – 250/800, “поле скоростей” – 300/800, “липосакция” – 500/6.000, “нуклон” – 500/3.000, “похудание” – 500/16.000, “гравитационное поле” – 600/7.000, “майкрософт” – 700/70.000, “кристаллография” – 700/5.000, “ожирение” – 700/46.000, “магнитное поле” – 750/29.000, “электрическое поле” – 800/10.000, “кристалл” – 800/190.000.

Понятно, что с увеличением общего интереса к теме должно расти и количество оригинальных ссылок, и “коэффициент размножения” – отношение общего количества ссылок к количеству оригинальных, поскольку интерес влечет как работу, так и таскание чужого. Но заметен существенный разброс коэффициента размножения при одинаковом или близком количестве оригинальных ссылок, указывающий на некую “жареность” темы, Например, сравните “квазигруппу” с коэффицентом 2 и “хиггсовский бозон” с 8, или “нуклон” с коэффициентом 6 и “похудание” с 30, или “кристаллографию” с ничтожным 8 и одно из любимых слов-заклинаний рекламщиков – “кристалл” – с “коэффициентом жарености” 230.

Правда, более подробное рассмотрение самих ссылок показало, что лишь треть из них является ссылками на тот же документ, но лежащий на другом сайте (причем в эту группу входит как законное “выкладывание” документа второй раз, например, на сайте-зеркале, так и пиратское). Причем вручную провести этот анализ можно только при относительно небольшом количестве ссылок. Для анализа ситуации при количестве ссылок более ста надо написать программу. Заметим, что вычисление количества ссылок по известному количеству оригинальных ссылок и вероятности заимствования является вполне интересной задачей.


Ваше мнение

Мы будем благодарны, если Вы найдете время высказать свое мнение о данной статье, свое впечатление от нее. Спасибо.

"Первое сентября"



Рейтинг@Mail.ru