KZ

Как наука о данных делает NUR.KZ лучше

Приложение Nur.kz
Скриншот нового приложения: NUR.KZ

Наука о данных (Data Science) – довольно молодое направление, которое проникает во все большее число аспектов нашей жизни и кардинально их меняет. Машинное обучение, искусственный интеллект, нейронные сети, интернет вещей, наука о мышлении, большие данные, обработка естественных языков – все эти понятия так или иначе пересекается с Data Science.

Проще говоря, наука о данных – это наука о способах сбора и анализа данных, а также извлечения из них полезных сведений.

Вот уже два года в NUR.KZ работает команда Data Science, которая разрабатывает полезные решения для пользователей и редакторов сайта.

Появление такой команды открыло для NUR.KZ новые возможности. Мы решили поделиться с нашими читателями наработками команды и рассказать, как они повлияли на работу сайта и редакции.

Как наука о данных помогает вам быстрее находить интересные материалы на NUR.KZ

Каждый день редакция NUR.KZ публикует более сотни материалов о самых важных и интересных происшествиях в Казахстане и в мире. Трудно себе представить, что современный человек способен находить время и читать все публикуемые материалы.

К тому же, у всех предпочтения разные, и не приходится рассчитывать, что человек, интересующийся политикой и экономикой, станет читать о звездах шоу-бизнеса.

Но как, имея более ста тысяч материалов на разные темы, отобрать для пользователя те, что будут ему интересны? Сегодня мы расскажем, какие есть решения, и почему NUR.KZ шагнул дальше своих конкурентов в персонализации контента.

На заре новостных сайтов, считалось хорошим тоном советовать читателям материалы той же рубрики. То есть, если пользователь сайта читает материал рубрики “Спорт”, то рекомендовать ему другие новости той же рубрики, упорядоченные по принципу “от новых к старым”.

Такое решение, однако, не учитывает, знаком пользователь с рекомендуемыми материалами или нет, и часто приводило к тому, что пользователь получал в рекомендациях материалы, которые уже читал.

Это в свою очередь неизбежно приводило к тому, что пользователь, не найдя для себя ничего нового и интересного, уходил с сайта. Кроме того, стоит упомянуть об “информационном пузыре”, в который попадал пользователь.

Информационный пузырь возникает, когда рекомендации “замыкают” пользователя в некоторой тематике и не позволяют ему узнать о чем-то новом из иной сферы.

Кроме новостей той же рубрики, можно рекомендовать материалы по тегам, которыми редактор размечает материалы. В таком случае пользователю рекомендуются материалы, имеющие те же теги, что и материал, который он читает в данный момент.

К примеру, если пользователь читает материал с тегом “Новости Актау”, то в рекомендациях он получит другие материалы с этим тегом. Такое решение можно встретить и ныне на некоторых сайтах.

На сайте указаны рекомендованные статьи и теги
Рекомендованные статьи и теги. Снимок экрана: NUR.KZ

Как и в решении с материалами одной рубрики, материалы с теми же тегами имели схожие недостатки: не учитывали опыт пользователя (пользователь мог уже прочитать рекомендованные материалы) и помещали, хоть и в меньшей степени, пользователя в информационный пузырь.

Дабы увеличить вероятность рекомендации нового для пользователя материала и избежать информационного пузыря, некоторые новостные сайты рекомендуют всегда новые материалы без привязки к рубрике или тегу.

У такого решения также есть недостатки. Пользователю не интересны все темы. Он хотел бы видеть только темы, важные для него.

Кроме того, чтобы обеспечить пользователя каждый раз новыми материалами, нужно публиковать их много и часто, как, например, это делает Washington Post, который создает до 1200 статей в день при количестве сотрудников более 700 человек.

Не каждая редакция может себе это позволить, поскольку создание качественного материала – это сложно.

Некоторые сайты решили рекомендовать самые популярные материалы. Популярные – это те материалы, которые собрали большое количество просмотров или же это материалы, которыми поделилось большое количество времени.

Однако это решение не учитывает тот факт, что раз материал популярный, то велика вероятность, что пользователь этот материал уже читал либо он заинтересован в более нишевом контенте.

Мы рассмотрели различные решения, но их можно условно разделить на две группы:

  1. привязка рекомендаций к содержимому материалов, их тематике (сходство рубрики или тега);
  2. привязка рекомендаций к пользовательскому опыту (свежеопубликованные материалы, самые популярные).

В первой группе пользователь никак не участвует в подготовке рекомендаций, то есть не влияет на них. Во второй же группе никак не учитывается тематика материала.

Женщина читает новости Nur.kz
Иллюстративное фото: NUR.KZ

Существует ли решение, позволяющее использовать достоинства каждой группы и избежать их недостатков? Существует. Такой подход мы называем “персонализацией контента”.

Персонализация контента – вопрос крайне интересный. Для реализации персонализированных рекомендаций без использования передовых технологий не обойтись, в том числе не обойтись без науки о данных.

Сегодня персонализацию используют крупнейшие IT-компании: YouTube, Netflix, Spotify. Например, Netflix показывает разным пользователям разные постеры кинофильмов.

У Spotify одна из лучших рекомендательных систем среди музыкальных приложений. А когда Вы полностью прослушаете ваш список песен (playlist), Spotify продолжит проигрывать музыку, которую подберет их рекомендательная система.

Вы никогда не думали, как YouTube определяет, какое видео Вам посоветовать следующим? Он тоже использует Data Science, и в основе его рекомендательной системы лежит искусственная нейронная сеть.

Техническая команда NUR.KZ “построила” систему персонализации контента около трех лет назад. С тех пор она претерпела значительные изменения и сегодня представляет собой совершенно новую многократно улучшенную версию, которую команда продолжает совершенствовать: проводит многочисленные эксперименты и улучшает внутренние алгоритмы системы, учит систему “понимать” новые типы данных.

Такая система сегодня учитывает, какие статьи читал пользователь, а также тематику этих статей. Система пытается угадать, какие материалы и на какую тему больше всего интересны пользователю.

Результат работы нашей рекомендательной системы вы легко можете найти в блоке “Для вас”, а также на странице любого материала, прокрутив вниз экрана и дождавшись загрузку следующего материала.

Все материалы, загружаемые под основным материалом – это рекомендации лично для вас, с учетом Ваших интересов.

Уникальная подбока новостей создается для зарегистрированных пользователей
Уникальная подбока новостей создается для зарегистрированных пользователей. Снимок экрана: NUR.KZ

Каждую минуту система подготавливает новые рекомендации, с учетом того, что вы читали на сайте или в мобильном приложении NUR.KZ, при условии, что вы там зарегистрированы.

Если вы все еще не зарегистрировались, то рекомендуем это сделать с помощью нашей формы регистрации. На сайте и в мобильном приложении будут появляться новые возможности, которыми вы точно захотите воспользоваться.

Не беспокойтесь, информация, которую мы собираем о наших пользователях, является обезличенной. NUR.KZ очень серьезно относится к персональным данным и к безопасности.

Как писали выше, мы постоянно совершенствуем рекомендательную систему NUR.KZ.

Среди планов – рекомендовать материалы с учетом географического положения пользователя. Так, для пользователей из Алматы в числе рекомендаций материалы об Алматы будут занимать более важное значение, но при этом учитывать остальные доступные данные о конкретном пользователе.

Кроме того, на сайте появятся новые типы контента: рецепты, вопрос-ответ, пошаговые инструкции и многое другое. Рекомендательная система будет учитывать эти типы и рекомендовать ваши любимые.

Как наука о данных экономит время редакции на написание материалов для NUR.KZ

Прежде, когда редактор готовил материал, он тратил немало времени на поиск похожих материалов на ту же или схожую тему, чтобы предложить пользователю.

Как из более чем ста тысяч материалов найти схожий по содержимому? Должно быть, ни одному человеку такое не под силу. Однако эта задача проста для современных компьютеров и науки о данных.

Команда NUR.KZ Data Science создала программу, которая способна, используя обработку естественных языков (Natural Language Processing) и искусственную нейронную сеть (Artificial Neural Network), из большого объема материалов выбрать те, которые ближе всего семантически (т.е. по смыслу) к целевому материалу.

Отобранные этой программой материалы можно увидеть в блоке “Читайте также”, который есть в любом материале на сайте.

Блок “Читайте также” с семантически схожим материалом
Блок “Читайте также” с семантически схожим материалом. Снимок экрана: NUR.KZ

Если вам понравился какой-либо материал, смело переходите на материалы в блоке “Читайте также” и узнавайте больше нового и интересного.

Эта программа также постоянно совершенствуется. Сейчас она не учитывает, читали ли вы предлагаемый в блоке “Читайте также” материал или же нет, но станет учитывать это в будущем.

Часто нашим читателям интересно почитать больше новостей о каком-либо человеке или месте. Отметить в каждом материале имена людей и названия мест – задача, требующая немалого количества времени и сил.

Это время лучше потратить на подготовку новых свежих материалов, чтобы читатели NUR.KZ всегда первыми узнавали о событиях в стране и мире.

И здесь также на помощь приходит наука о данных. Команда NUR.KZ Data Science написала программу, которая умеет “понимать” текст и находить в нем имена людей и названия мест. Для них будут созданы отдельные страницы, на которых будут сгруппированы все материалы об этом человеке или месте.

Чтобы на такую страницу пользователю было легко попасть и иметь возможность почитать материалы о своем любимом политике или звезде шоу-бизнеса, можно будет воспользоваться тегами, расположенными под статьей.

Под каждым материалом появятся теги о людях и местах, которые упоминаются в материале
Под каждым материаломесть теги о людях и местах, которые упоминаются в материале. Снимок экрана: NUR.KZ

Что дальше?

Вебсайт и мобильное приложение NUR.KZ продолжают развиваться и радовать своих пользователей.

Наверняка Вы уже заметили позитивные изменения, произошедшие на сайте. Мы услышали просьбы наших пользователей и значительно сократили количество рекламы. Сайт был полностью переделан и приобрел простой и удобный внешний вид.

Мобильное приложение было полностью переработано. Мы уже писали, что вышла совершенно новая версия мобильного приложения NUR.KZ.

Процесс разработки сайтов и приложений также не стоит на месте. Чтобы радовать своих пользователей, компания следит за тем, чтобы техническая разработка была организована как можно эффективнее.

Направление Data Science является одним из самых перспективных для IT-компании NUR.KZ, поскольку помогает сделать сайты и мобильные приложения удобнее для пользователей.

Вам не придется тратить время на поиск интересных материалов и услуг – программы позаботятся, чтобы материалы и услуги сами нашли своих читателей и потребителей.

Оригинал статьи: https://www.nur.kz/kak-rabotaet-nur-kz/1899446-kak-nauka-o-dannyh-delaet-nurkz-lucse/