Компания Google продолжает удивлять. Недавно состоялся запуск новой программы под названием Google Ngrams. В чем ее особенность? При чем здесь вино?
Сейчас Google Ngrams отсканировал порядка 5,2 млн книг на всех возможных языках, в том числе и на русском, начиная с 1800 года. Отныне программа хранит эту информацию в своей базе данных. Любой пользователь может задать любое слово или их группу и программа моментально построит график частоты упоминания этого слова (слов) в том объеме информации и временном периоде, который отсканировал Google.
Хочу сразу оговориться, что программа пока не идеальна и ограничена в своих возможностях. Например, она не делает различий между бестселлером и научным трудом, равно как и не понимает различий между химией или историей. В расчет берутся все книги. Попробовать может любой - программа беcплатная. Вот мы и попробовали провести собственный небольшой эксперимент.
Эксперимент №1:
Нами были обозначены три слова для поискового запроса: «вино», «пиво» и «водка», и вот как графически выглядит частота упоминания этих слов в отсканированных книгах. Но хотим предупредить тех, кто захочет «поиграться» с этой программой, что она чувствительна к тому, большая буква или маленькая.
В графике наглядно показано, что упоминание слов «пиво» и «водка» не сильно изменилось за последние двести с лишним лет. А вот «вино», имея максимальный процент упоминаний где-то в районе 1830 года, потом постоянно теряет, но, несмотря на это, его позиция по-прежнему выше, чем у двух других слов. Еще раз хотим подчеркнуть несовершенство программы. Например, к термину «вино» было отнесено и произведение Рея Бредбери «Вино из одуванчиков», которое, как известно, к вину как алкогольному напитку отношения не имеет. Кроме того, употребление всех этих слов может быть и в негативном контексте как элемент антиалкогольной пропаганды. Ну тут уж ничего не сделаешь.
Эксперимент №2
А как обстоит дело с английским языком для тех же слов: «wine», «beer» и «vodka»?
Внешне картина очень похожа, хотя уже слышны возгласы: в английском слово «vodka» употребляется довольно редко, гораздо чаще слово «liquor». Но мы уже писали о несовершенстве программы.
Что следует из этих графиков? Что о вине пишут куда больше, чем об остальных алкогольных напитках, а пьют меньше, по крайней мере русскоговорящие или англоязычные. Когда количество упоминаний в литературе слова «вино» перейдет в соответствующее количество его потребления? Вопрос литературный и риторический...
10:2703/03/2011 Компания Google продолжает удивлять. Недавно состоялся запуск новой программы под названием Google Ngrams. В чем ее особенность? При чем здесь вино? >>
Только авторизованные пользователи данного сайта могут оставлять свои комментарии.
Если Вы хотите добавить комментарий, то Вам нужно ВОЙТИ используя Ваш логин и пароль.
Если у Вас нет логина и пароля, то для их получения Вам необходимо ЗАРЕГИСТРИРОВАТЬСЯ на этом сайте.
Комментарии
Только авторизованные пользователи данного сайта могут оставлять свои комментарии.
Если Вы хотите добавить комментарий, то Вам нужно ВОЙТИ используя Ваш логин и пароль.
Если у Вас нет логина и пароля, то для их получения Вам необходимо ЗАРЕГИСТРИРОВАТЬСЯ на этом сайте.