«Яндекс» запускает систему мониторинга и анализа новостных текстов
Некоторые СМИ недовольны, что система будет делиться статистикой посещаемости их статей«Яндекс» сообщил, что начинает бета-тестирование сервиса мониторинга и анализа информационного поля «Яндекс.Медиана». С его помощью можно будет следить за тем, что пишут в интернете о людях и компаниях, и оценивать тональность и значимость публикаций. Используя технологии «Яндекса»: мировой индекс, лингвистические технологии, объектный ответ, машинный интеллект, – «Медиана» индексирует публикации на сайтах СМИ и автоматически выделяет интересующие объекты в текстах. После чего машинный интеллект, обученный на размеченных вручную текстах, определяет характер упоминания интересующего заказчика объекта – тональность, роль, упоминание этого объекта в заголовке и наличие его комментария.
Пока сервис анализирует только публикации в СМИ, но в будущем охватит и другие источники – например, социальные сети, обещает представитель «Яндекса» Татьяна Комарова. Зарабатывать компания планирует, продавая подписку, стоимость которой будет зависеть от количества упоминаний человека или компании. Например, если следить за потоком новостей о компании, упоминаемой в СМИ примерно так же часто, как «Яндекс», то подписка обойдется в 80 000 руб. в месяц, говорит Комарова.
На рынке мониторинга СМИ уже работают проекты «Медиалогия», «Интегрум», Factiva (следит за публикациями в иностранных СМИ). Оценить этот рынок «Яндекс» затруднился.
«Медиалогия» приветствует выход на рынок нового игрока, конкуренция всегда интересна, говорит ее представитель. Представитель «Интегрума» не ответил на запрос «Ведомостей».
Чтобы оценить значимость каждого упоминания, «Яндекс.Медиана» учитывает не общую посещаемость сайта СМИ, а данные о количестве прочтений конкретных публикаций, говорится в сообщении компании. Система использует данные сервиса статистики «Яндекс.Метрика» (ее счетчики стоят на сайтах СМИ), браузера «Яндекса», переходы из поисковика, объясняет Комарова.
Не все СМИ рады, что данные о популярности конкретных публикаций попадут в руки третьих лиц. Непонятно, почему «Яндекс» даже не обсудил со СМИ использование их данных, недоволен руководитель службы интернет-проектов «Интерфакса» Юрий Погорелый. Анализируя тексты, «Яндекс.Медиана» выдает данные о посещаемости конкретных страниц – по сути, внутреннюю статистику СМИ, которую «Яндекс» планирует продавать третьим лицам, замечает он: «это как если бы Facebook начал продавать рекламодателям данные конкретного пользователя с указанием его имени и фамилии». Вероятно, «Яндекс» использует статистику из своего сервиса «Яндекс.Метрика», чьи счетчики стоят на сайтах большинства СМИ, продолжает Погорелый. Но лицензионное соглашение «Метрики» гарантирует, что эти данные не будут передаваться третьим лицам. Поэтому «Интерфакс» уже отключил счетчики «Метрики» на своих сайтах: «кто знает, какие еще наши данные «Яндекс» захочет продать?».
«Медиалогия» не ставит счетчики на сайты СМИ и, соответственно, не дает данных о посещаемости клиентам, говорит ее представитель.
Кто больше
«Медиалогия» анализирует, по собственным данным, публикации в 32 000 СМИ, «Интегрум» – более чем в 9000. У «Яндекса» сейчас 6500 источников, это база сервиса «Яндекс.Новости», говорит Комарова.
«Интерфакс» сам зарабатывает на анализе и мониторинге СМИ при помощи сервиса «Скан», и понятно, что сервис «Яндекса» угрожает этому бизнесу, говорит сотрудник крупного издательского дома. Неприятно, что «Яндекс» передает сторонним лицам внутреннюю статистику посещений, согласен он, но прямой угрозы бизнесу СМИ здесь нет: главное, чтобы «Яндекс» не пересылал подписчикам «Медианы» тексты целиком. «Яндекс.Медиана» не передает клиентам полные тексты новостей СМИ, а только короткие выжимки, заверяет Комарова.
Для анализа посещаемости конкретных текстов «Яндекс» использует данные «Метрики», подтверждает Комарова. Но вместе с ними система анализирует данные браузера «Яндекса» и переходы со страницы поиска. А данные «Метрики» используются только в агрегированном виде вместе с другими данными и только для обучения математической модели, которая оценивает нижнюю границу количества прочтений. То есть пользователь «Яндекс.Медианы» видит результаты применения математической модели, а не конкретную статистику из «Яндекс.Метрики», объясняет Комарова. Данные закрытых счетчиков «Метрики» не используются: «мы не имеем права это делать, кроме того, нам нужно оценивать публикации и на тех сайтах, где нет счетчиков».
У «Коммерсанта» данные по посещаемости из «Яндекс.Медианы» практически полностью совпадают с данными «Яндекс.Метрики», говорит источник в этом издании. У «Ведомостей» статистика «Яндекс.Медианы» близка к данным трех сервисов – «Яндекс.Метрики», Liveinternet и Top.mail.ru.