Oops... your message was not sent

Your message has been successfully sent

тематические истории, основанные на опыте компании JetRuby
Rails, Веб-разработка

Полнотекстовый поиск в Rails приложении средствами Elasticsearch

Elasticsearch — это open-source поисковый и аналитический движок, построенный на библиотеке Apache Lucene. Он обеспечивает масштабируемый, простой и надежный инструмент для поиска, позволяющий индексировать и запрашивать большие объемы структурированных данных. Elasticsearch имеет удобную RESTful API и отличается легкой интеграцией в Rails приложения (благодаря сторонним гемам).

На сегодня Elasticsearch является одним из самых надежных, быстрых и мощных поисковых движков. Кроме того, он активно поддерживается компанией Elastic, что можно назвать отдельным и вполне самодостаточным преимуществом.

Создаем простое приложение

Итак, первоначальная задача поставлена. Нам нужно простое Rails приложение, в котором мы сможем создавать объекты, а в дальнейшем — производить по ним поиск.

Генерируем новое Rails приложение:

Теперь нам нужна модель для постов в блоге. Ее и генерируем:

Интегрируем Elasticsearch в наш Блог

Далее движемся по намеченному плану. Так как мы уже создали Rails приложение и у нас имеется модель Post, по которой будет производиться поиск, можно приступить к добавлению Elasticsearch.

Разумеется, этот пункт подразумевает наличие Elasticsearch. Вы можете скачать и установить движок с сайта Elastic https://www.elastic.co/downloads/elasticsearch.

Gemfile:

Не забываем запустить  bundle install  для установки этих гемов.

Интегрируем поиск в нашу модель Post

Чтобы интегрировать поиск в нашу модель Post, мы должны добавить основные модули  elasticsearch-model  в  Post  класс.

Изменяем app/models/post.rb:

На текущем этапе мы уже располагаем базовым поиском, который может находить информацию по всем доступным полям. В нашем случае — это  title  и  text . Более того, он умеет находить вхождения целых слов. Однако этого нам недостаточно. Продолжаем работать.

Для начала мы должны создать новый объект пост:

По умолчанию,  elasticsearch-model  добавляет в наш класс  Post  метод  search, который принимает поисковый запрос, а также дополнительные параметры для поиска.

Проверим, как работает поиск и найдем наш пост:

Ситуация следующая — поиск вернул нам массив, содержащий необходимый пост. Однако останавливаться на достигнутом пока рано. Давайте создадим еще один пост, чтобы окончательно убедиться в работоспособности нашего поиска.

Поиск все еще возвращает правильный результат. Как говорится — хорошо, но мало. Теперь мы добавим третий пост и посмотрим, будет ли поиск отрабатывать одновременно по двум полям  title и text без возврата лишнего результата.

Как видите, поиск вернул оба поста, содержащих слово “Awesome”. Причем, в разных полях. Все в порядке.

Кастомизация запроса

Впрочем, это еще не все. Переходим к решению следующей проблемы. До настоящего момента мы использовали только стандартный запрос. Для того же, чтобы улучшить поиск, нам придется его изменить.

Elasticsearch предоставляет Query DSL на основе JSON запросов. Что это означает? Существуют основные запросы, такие как term или match. Есть также составные запросы, такие как bool. В этом качестве могут выступать и связанные с ними фильтры. Например,  filtered или constant_score.

Давайте переопределим метод  search  в app/models/post.rb:

Улучшение поиска

Хоть у нас уже и есть рабочий поиск, мы прекрасно понимаем, что совершенство не имеет пределов. Особенно в тех случаях, когда оптимизация просто-таки напрашивается. Вы можете заметить что наш поиск ограничен. Он умеет искать только вхождения целых слов. Например, поиск по слову во множественной форме — “foxes” вместо “fox” — вернет пустой результат. И с этим надо как-то бороться.

К счастью, Elasticsearch предоставляет массу возможностей для улучшения поиска. В частности — кастомизация маппингов.

В зону ответственности маппингов входят:

  • представление документа в поисковом движке;
  • поисковые характеристики, такие как выбор полей и разбор запроса на лексемы.

По умолчанию, маппинги могут не указываться, так как они автоматически создаются при добавлении нового поля в индекс. Они определяются только тогда, когда мы хотим их изменить.

Возвращаясь к проблеме поиска слов во множественном числе или каких-либо других формах, следует заметить, что она была решена именно с помощью маппингов. Для этого нам потребовалось указать соответствующий анализатор.

Elasticsearch имеет несколько стандартных анализаторов. Если же они нам не подходят, всегда есть возможность определить собственный. Впрочем, здесь мы не будем рассматривать этот вариант. Для решения нашей проблемы, вполне достаточно стандартного English анализатора.

Добавляем маппинги в нашу модель app/models/post.rb:

В конечном итоге наша модель должна выглядеть так:

Теперь нам нужно заново пересоздать индексы. Туда должны попасть маппинги:

Примечание: каждый раз когда мы меняем структуру индекса, мы должны заново его пересоздать и проиндексировать объекты.

Теперь можно создать пост и удостовериться в том, что мы получаем нужный результат:

Как видите, Elasticsearch справился с задачей целиком и полностью.

Заключение

В этой статье мы рассмотрели самый простой и быстрый способ интеграции Elasticsearch в Rails приложение, а также процесс изменения и настройки поиска под собственные требования. В заключении хочется сказать, что Elasticsearch имеет очень широкую область применения, начиная простым полнотекстовым поиском и заканчивая анализом и отображением статистики в режиме реального времени, а также работой с геолокационными данными.