Лингвисты научили компьютеры анализировать отзывы в интернете
🕛 04.06.2013, 04:55
Компьютеры почти догнали людей в умении определять, хорошо или плохо человек отзывается о чем-то, когда пишет в интернете — показывают итоги сравнительного тестирования различных программ распознавания эмоций в тексте, представленные на конференции "Диалог". "В связи с напряженной обстановкой в России и в мире сейчас выделяются большие суммы на анализ блогов, прессы, региональной прессы, всяких сайтов", — сказала РИА Новости Наталья Лукашевич из Научно-исследовательского вычислительного центра МГУ, представившая результаты тестирования. Поэтому, по ее мнению, сравнивать работу систем, определяющих, хорошо человек отзывается о чем-то хорошо или плохо, должно быть интересно в первую очередь госзаказчикам.
В тестировании участвовало 12 команд, которым были предложены три задачи. Первая — автоматически проанализировать подборку отзывов о книгах, фильмах и цифровых камерах и определить, как пользователи их оценивают. Вторая — обработать цитаты без контекста, взятые из новостей, и понять, как их авторы относятся к событиям, о которых говорят. Третья — найти отзывы об определенных товарах, фильмах и книгах в блогах. Как показало тестирование, точность работы алгоритмов при анализе отзывов достигает 96%, а цитат из новостей — 61%. Люди же справляются с цитатами с точностью 70-75%.
Системы определения эмоциональной окраски текста могут опираться на методы машинного обучения и словари. Словари составляются лингвистами, которые помечают, какое слово "хорошее", а какое "плохое". При машинном обучении компьютеру дают образцы отзывов с пометками, какие из них положительные, а какие отрицательные. А дальше он сам выявляет, какие особенности текста соответствуют хорошей и плохой оценкам. Оказывается, даже такая мелочь, как союз "но" уже свидетельствует об отрицательной оценке.