Doorkeeper

第31回 Lucene/Solr勉強会 #SolrJP

2024-10-16(水)18:00 - 19:30 JST

BasisTech 東京支社(定員10名)

東京都港区虎ノ門1-17-1 虎ノ門ヒルズビジネスタワー CIC TOKYO

申し込む

申し込み受付は終了しました

今後イベント情報を受け取る

オンライン参加(Google Meet) 無料
現地参加 無料
Apache Lucene/Solr コミッター Alessandro Benedetti 氏の来日に合わせて急遽開催決定!BasisTech 東京支社様ご提供のミーティングルームとオンライン配信による開催です。

詳細

皆様、こんにちは。勉強会運営スタッフです。

本勉強会でもすっかりおなじみとなりましたApache Lucene/Solr コミッター Alessandro Benedetti 氏の来日に合わせまして、急遽、Lucene/Solr勉強会を開催する運びとなりました。
Alessandro Benedetti 氏からは、相互ランク融合(RRF)によるハイブリッド検索(従来のキーワードベースの検索とベクトル検索(セマンティック検索)を組み合わせたもの)のApache Solrへの実装について解説します。並びに、ロンウイット社スペシャリストよる、セマンティック検索のパフォーマンス向上レポートの講演を予定しております。

虎ノ門ヒルズビジネスタワーにあるBasisTech 東京支社様ご提供のミーティングルームをお借りして、リアル会場(10名様)での開催となります。
また、今回もGoogle Meetによるオンライン配信もありますので、遠方の方、移動時間がない等で会場へお越しいただくのが難しい方もぜひご参加ください。

なお、リアル会場では、講演終了後にネットワーキングタイムを設ける予定です。講師の方やご来場のゲスト間のコミュニケーションにご利用ください。(ドリンクやスナック類をご提供する予定です)

急なご案内とはなりますが、皆様のご参加をお待ちしております。

開催概要

第31回 Lucene/Solr勉強会

場所:
虎ノ門ヒルズビジネスタワー CIC TOKYO 16F ミーティングルーム「RENGA」 (煉瓦のローマ字表記)
※会場は16Fですが、エレベータは15Fで降りて、15Fのキッチンエリア近くの階段より16Fへ上がってください。
(会場: BasisTech 東京支社様 提供)

最寄駅:
東京メトロ日比谷線『虎ノ門ヒルズ駅』中目黒方面はB1出口(地下通路直結)、北千住方面はA2出口
東京メトロ銀座線『虎ノ門駅』B2出口(地下通路直結)
東京メトロ千代田線・丸ノ内線・日比谷線『霞ヶ関駅』A12出口より徒歩8分
都営三田線『内幸町駅』A3出口より徒歩7分
JR 山手線・京浜東北線・東海道本線・横須賀線『新橋駅』より徒歩約10分

地図:
BasisTech 東京支社様のウェブサイトにてご確認をお願いいたします。
https://www.basistech.jp/about/contact/tokyo/

日時:
2024/10/16(水)
17:30 ~ 受付開始、開場
18:00 ~ 開始
※終了は19時30分を予定(ネットワーキングタイムは含みません)しておりますが前後する場合があります。

虎ノ門ヒルズビジネスタワーご到着後のご案内:
地下通路から2つのエレベーターを乗り継ぎ 1Fエントランスまで上がります。現地参加を希望された方に別途メールにてお送りしている入館案内からQRコードを印刷してお持ちいただくか、当日現地にてスマホ画面に表示してご用意ください (QRコードの取得ができない場合は、メールに記載された番号をご用意いただき、1Fエントランスの発券機にてQRコードを発行いただけます)。エレベーターは、スターバックスに一番近い「6-16F」専用のセキュリティーゲート (入館証のQRコードリーダーは一番右側のゲートにあります) からお乗りいただき15Fまでお越しください。16Fの RENGA には、15Fのメインドアから入り、キッチンエリア付近にある階段で上がります

その他のご連絡事項:
※ ビルへの入館方法については、上記「虎ノ門ヒルズビジネスタワーご到着後のご案内」をご覧ください。
※ 16Fミーティングルーム「RENGA」 (煉瓦のローマ字表記) にて受付を行います。
※ 現地会場受付にあたって、お名刺1枚をご用意ください。
※ 18:00になりましたら、現地会場受付を終了させていただきます。

入館案内、オンライン配信のリンクは決まり次第お知らせします。

内容

1. Solr9.7負荷テストレポート:SIMD最適化によるセマンティック検索パフォーマンス向上の評価 (JA)

Apache ManifoldCF Committer & PMC member
趙 明春(チョウ メイシュン、Mingchun Zhao)(@ロンウイット)(約25分)

Apache Solr 9.7.0 リリースハイライトに「Apache Luceneが9.11.1にアップグレードされ、Java 21を使用したセマンティック検索などで大幅なパフォーマンス向上を実現しました。」と記されています。これにより、Java 20とJava 21でベクトル計算におけるSIMD最適化がデフォルトで有効になっています。
本セッションではベクトル計算性能におけるSIMD最適化の効果を評価するため実施した負荷テストの結果と考察をご紹介します。セマンティック検索性能をSIMD最適化有効・無効で比較し、SIMD最適化の効果を定量化、可視化しました。

2. Hybrid Search with Apache Solr Reciprocal Rank Fusion (EN)

Apache Lucene/Solr Committer & PMC member
Alessandro Benedetti(Director@Sease Ltd.)(約45分)

Vector-based search gained incredible popularity in the last few years: Large Language Models fine-tuned for sentence similarity proved to be quite effective in encoding text to vectors and representing some of the semantics of sentences in a numerical form. These vectors can be used to run a K-nearest neighbour search and look for documents/paragraphs close to the query in a n-dimensional vector space, effectively mimicking a similarity search in the semantic space (Apache Solr KNN Query Parser).

Although exciting, vector-based search nowadays still presents some limitations:
- it’s very difficult to explain (e.g. why is document A returned and why at position K?)
- It doesn’t care about exact keyword matching (and users still rely on keyword searches a lot)

Hybrid search comes to the rescue, combining lexical (traditional keyword-based) search with neural (vector-based) search. So, what does it mean to combine these two worlds?
It starts with the retrieval of two sets of candidates:
- one set of results coming from lexical matches with the query keywords
- a set of results coming from the K-Nearest Neighbours search with the query vector

The result sets are merged and a single ranked list of documents is returned to the user. Reciprocal Rank Fusion (RRF) is one of the most popular algorithms for such a task. This talk introduces the foundation algorithms involved with RRF and walks you through the work done to implement them in Apache Solr, with a focus on the difficulties of the process, the distributed support(SolrCloud), the main components affected and the limitations faced.
The audience is expected to learn more about this interesting approach, the challenges in it and how the contribution process works for an Open Source search project as complex as Apache Solr.

※ 発表内容等は変更されることがございます。各発表の時間は目安です。2.は英語での発表となりますが通訳はありません。

参加にあたっての注意事項

人材紹介もしくは転職や就職の斡旋・勧誘を目的としたご参加はご遠慮ください。

次回以降のスピーカー/LTスピーカーの募集

次回以降のスピーカー/LTスピーカーとして、Solrでの取り組みや事例など、ご紹介、お話いただける方がいらっしゃいましたら、管理者までご連絡ください。

コミュニティについて

Solr勉強会 #SolrJP

Solr勉強会 #SolrJP

全文検索サーバであるApache Solrについての勉強会です。 主に、Solr勉強会開催のイベント管理用に利用いたします。 スピーカーは随時募集中です。本勉強会の問い合わせまで連絡ください。 Twitterハッシュタグは#SolrJPになります。 また、SolrのGoogle Groupも用意してあります。こちらでもスピーカーを受け付けています。

メンバーになる