Компьютеры учатся профессионально понимать содержание веб-страниц
🕛 04.06.2012, 14:08
Большинство людей в современном мире имеют схожие представления о способах подачи информации. Например, даже когда перед вами веб-страница на незнакомом языке, вы можете предположить, для чего служат те или иные элементы: реклама, статьи, музыка или реклама. Для машин подобная задача оказывается очень непростой. Именно на этот случай технология Diffbot предлагает хорошо документированный и открытый программный интерфейс API для чтения веб-страниц таким же образом, как это делает человек. С помощью такого API-интерфейса, например, издатель может пересобрать элементы веб-страницы для публикации в мобильном приложении, а начинающие компании — построить инструмент для сравнения цен на похожие товары. Интересно, что компания Diffbot вышла из тени как раз тогда, когда целый ряд крупных компаний задумались об аналогичных технологиях. Например, компания Google недавно представила технологию Knowledge Graph, которая определяет смысл поисковых запросов и соответственно корректирует выдачу результатов вместо прямого подбора веб-страниц с совпадающими словами. Тем не менее, подобные проекты чаще всего требуют, чтобы люди сами помечали контент для облегченного поиска.
Идея технологии Diffbot родилась у основателя компании Майка Туна (Mike Tung) несколько лет назад, когда он учился в Стэнфордском университете. В прошлом году она оформилась в работоспособный API для разбора двух типов веб-страниц. Заказчик отправляет сервису Diffbot адрес нужной веб-страницы и задание по ее анализу. На страницах со статьями Diffbot может выделять заголовки, основной текст статьи, картинки и теги. На главных страницах веб-сайтов поддерживается выделение главных сообщений и иллюстраций, ссылок на статьи и рекламы. На данный момент услугами сервиса Diffbot пользуются несколько тысяч программистов, отправляя на обработку более 100 млн. ссылок в месяц.
Конечно, веб-страницы гораздо разнообразнее, уже сейчас разработчики Diffbot готовятся представить обработку до 18 основных типов: от страниц продукта и вакансий до фотогалерей. Добавление еще 16 типов будет финансироваться из венчурных инвестиций – после начального капитала компания Diffbot получила первую серию вложений в размере 2 млн. долл. На эти деньги разработчики будут собирать отличительные признаки страниц каждого типа и создавать алгоритмы для разбора страниц на отдельные элементы.
Хотя сейчас Diffbot предлагает доступ к своему интерфейсу API бесплатно, дополнительные услуги представляются за отдельную плату. Например, компания AOL уже использует сервис Diffbot в консолидации и подборе контента в своем магазине Editions, где продаются электронные издания для планшетных компьютеров. Инвесторы уверены, что платные функции Diffbot найдут широкий спрос у заказчиков, поскольку помогают справиться с задачами «здесь и сейчас». В дальнейшем компания Diffbot планирует продавать свои услуги для составления сводок по фотографиям и кулинарным рецептам, сравнения цен и других приложений.
Подробнее о технологии Diffbot можно узнать на официальном сайте по адресу www.diffbot.com.
По материалам сайта MIT Technology Review.