Информационные технологииStfw.Ru 🔍

Google поделится своим индексом

🕛 08.08.2006, 10:43
На днях стало известно о новой затее Google, которая для многих стала полной неожиданностью. Сотрудники поискового гиганта решили особым образом проанализировать информацию, содержащуюся на проиндексированных страницах.

Специалисты подвергли тщательному анализу свыше триллиона (если быть точным - 1 011 582 453 213) слов, в результате чего был составлен список цепочек из пяти слов, которые встретились как минимум 40 раз. Всего таких цепочек получилось более миллиарда, а если, опять-таки, быть точным, то 1 146 580 664 штуки.

В этих «предложениях», которые таковыми можно назвать весьма условно, участвуют 13 653 070 различных слов, не считая тех, что встретились менее 200 раз. Вся эта информация поместится на 6 DVD-дисках (которые легко умещаются в карман куртки), а приобрести их можно будет в ближайшем будущем.

Полученную в ходе трудового подвига «гугловцев» информацию можно будет использовать при создании систем машинного перевода, проверки правописания и грамотности, сообщают сотрудники проекта, Алекс Франц и Торстен Брентс.

Новости интернета   Теги:

Читать IT-новости в Telegram
Информационные технологии
Мы в соцсетях ✉