Google поделится своим индексом
🕛 08.08.2006, 10:43
На днях стало известно о новой затее Google, которая для многих стала полной неожиданностью. Сотрудники поискового гиганта решили особым образом проанализировать информацию, содержащуюся на проиндексированных страницах. Специалисты подвергли тщательному анализу свыше триллиона (если быть точным - 1 011 582 453 213) слов, в результате чего был составлен список цепочек из пяти слов, которые встретились как минимум 40 раз. Всего таких цепочек получилось более миллиарда, а если, опять-таки, быть точным, то 1 146 580 664 штуки.
В этих «предложениях», которые таковыми можно назвать весьма условно, участвуют 13 653 070 различных слов, не считая тех, что встретились менее 200 раз. Вся эта информация поместится на 6 DVD-дисках (которые легко умещаются в карман куртки), а приобрести их можно будет в ближайшем будущем.
Полученную в ходе трудового подвига «гугловцев» информацию можно будет использовать при создании систем машинного перевода, проверки правописания и грамотности, сообщают сотрудники проекта, Алекс Франц и Торстен Брентс.