Новости


Нечеткий поиск по названиям

Добрый день. Проблема с поиска, услуг или продукта, возникает на подавляющем большинстве сайтов. И в основной свой массе реализация подобной возможности ограничиваются поиском по точному слову, которое ввели в поисковой строке.

[recovery mode] Что в имени тебе моем: как качественно «пробить» человека в Интернет?

Мы постоянно встречаемся в своей жизни с новыми людьми, и стоит констатировать, что помимо хороших друзей нам попадаются мутные товарищи, а иногда и отъявленные мошенники. Любовь наших сограждан оставить свой след в интернет и старания наших ИТ-компаний по автоматизации всего и вся позволяют нам довольно оперативно собирать интересующую информацию о конкретных персонах по открытым источникам.

Вычисляем контент, который в будущем станет вирусным

В данной статье будет описан только общий алгоритм на примере Facebook. Однако такой же подход можно использовать повсюду. Задача На основе существующего контента (за последние 30 дней) на данной странице Facebook определить какие записи потенциально будут более популярными. Читать дальше →

Как «моделируют будущее» в Университете ИТМО: от предсказания поведения толпы до анализа мнений в соцсетях

Можно ли предсказать поведение толпы? Ученые из Института наукоемких компьютерных технологий (НИИ НКТ) при Университете ИТМО взялись решить эту задачу. Они создали систему, моделирующую варианты развития событий в местах массового скопления людей, будь то стадион во время футбольного Чемпионата Мира или святые места в период массового паломничества.

Кого агрегирует Meduza?

Гегель считал, что общество становится современным, когда новости заменяют религию. The News: A User's Manual, Alain de Botton Читать все новости стало разительно невозможно. И дело не только в том, что пишет их Стивен Бушеми в перерывах между боулингом с Лебовски, а скорее в том, что их стало слишком много.

[Перевод] Десять трендов аналитики социальных медиа в 2016 году

Хорошая статья, заслуживающая перевода для ознакомления что нам ждать от ближайщего будущего. Небольшие неточности, которые будут заметны экспертам, никак не влияют на крепкую базу собранных в одном месте тенденций и трендов развития нового «социального общества», черты которого все явственнее проявляются в рельности: и чат-боты, и эмодзи, и самоуничтожающаяся информация, сдвиг инфо-потребления и инфо-генерации в сторону видео, лингвистическая обработка и выявления фактов в гигантских объемах неструктурированного контента… Так что почитать настоятельно советуем.

Сбор и анализ логов демонов в Badoo

Введение В Badoo несколько десятков «самописных» демонов. Большинство из них написаны на Си, остался один на С++ и пять или шесть на Go. Они работают примерно на сотне серверов в четырех дата-центрах.

Отчёт с конференции Data Fest

В начале марта в офисе Mail. Ru Group прошла двухдневная конференция Data Fest2, посвящённая всевозможным актуальным вопросам в сфере анализа данных, как практическим, так и теоретическим.

Несколько мыслей о сравнении статистики

Сравнение некой сущности с известными объектами — это один из самых очевидных способов классификации. Чем больше объект похож на представителей известного нам множества, тем выше вероятность, что он принадлежит этому множеству.

Как самостоятельно проанализировать рынок труда

На данный момент IT в целом — это одно из самых динамично развивающихся направлений. Каждый день появляется сотня новых библиотек, каждый месяц кто-нибудь придумывает новый язык или платформу — да что там, появляются целые направления.

5 отчётов, которые будут полезны каждому проекту

Конкуренция между приложениями за трафик и за единицу свободного времени пользователя постоянно усиливается. В таких суровых условиях важно правильно оценивать состояние своего проекта, находить узкие места и точки роста, принимать быстрые решения по его развитию – во всех этих ситуациях вам помогает аналитика.

Используем Apache Spark как SQL Engine

Привет, Хабр! Мы, Wrike, ежедневно сталкиваемся с потоком данных от сотен тысяч пользователей. Все эти сведения необходимо сохранять, обрабатывать и извлекать из них ценность. Справиться с этим колоссальным объёмом данных нам помогает Apache Spark.

Сравнение аудиторий Хабрахабра, Гиктаймса и Мегамозга

Привет, Хабр! Год назад я писал статью о том, кто и как подписан на Хабрахабр в соцсети Вконтакте. Буквально в первых же комментариях к тому посту было выражено пожелание увидеть разницу между подписчиками Geektimes и собственно Хабра.

Лучшее

Актуальное

Big Data для автодилера и автопроизводителя: от идеи до монетизации

IHS Automotive предсказывает, что к 2020 порядка 152 миллионов «подключенных» машин будут ежедневно генерировать до 30 терабайт данных. И бизнес, который сумеет грамотно воспользоваться этим богатством, очевидно, окажется «на коне».

[Перевод] Сейчас 2016 год — почему же никто так и не может сделать достойно приложение для работы со списками задач

Технологии дали нам выход нажатием одной кнопки на такси, прачечные самообслуживания, ко всей собранной информации по истории и к сексу. Но они так и не смогли дать нам сколько-нибудь достойную программу для упорядочения списка дел.

Патентные ландшафты для стартапов

Патентные ландшафты очень тяжело подготовить, нереально тяжело. Десятки потраченных часов на поиск информации, огромнейший опыт в области ИС, дорогой доступ к многочисленным источникам данных и инструментам, плюс ко всему хорошая техническая и юридическая подготовка.