tag elasticsearch

標籤
貢獻63
128
03:01 PM · Oct 26 ,2025

@elasticsearch / 博客 RSS 訂閱

極限實驗室 - IK 字段級別詞典的升級之路

背景知識:詞庫的作用 IK 分詞器是一款基於詞典匹配的中文分詞器,其準確性和召回率與 IK 使用的詞庫也有不小的關係。 這裏我們先了解一下詞典匹配法的作用流程: 預先準備一個大規模的詞典,用算法在文本中尋找詞典裏的最長匹配項。這種方法實現簡單且速度快。 但面臨歧義切分和未登錄詞挑戰:同一序列可能有不同切分方式(例如“北京大學生”可以切成“北京大學/生”或“北京/大學生”),需要規則或算法消除

elasticsearch , 數據庫

收藏 評論

極限實驗室 - IK 字段級別詞典升級:IK reload API

之前介紹 IK 字段級別字典 使用的時候,對於字典的更新只是支持詞典庫的新增,並不支持對存量詞典庫的修改或者刪除。經過這段時間的開發,已經可以兼容詞典庫的更新,主要通過 IK reload API 來實現。 IK reload API IK reload API 通過對詞典庫的全量重新加載來實現詞典庫的更新或者刪除。用户可以通過下面的命令實現: # 測試索引準備 PUT my-index-000

elasticsearch , 數據庫

收藏 評論

qbit - Elasticsearch 相似度算法 TF-IDF 與 BM25 簡要説明(qbit)

前言 簡要説明 TF-IDF 與 BM25 簡要説明 BM25 下 k1 和 b 參數調整 TF-IDF 與 BM25 TF-IDF TF是指歸一化後的詞頻 IDF是指逆文檔頻率 詞彙(word)的TF-IDF 句子(sentence)的TF-IDF BM 25 一句話解釋:BM 25 可以看做 TF-IDF 的變形,原理上是類似

elasticsearch , tf-idf

收藏 評論

極限實驗室 - 搜索百科(3):Elasticsearch — 搜索界的“流量明星”

大家好,我是 INFINI Labs 的石陽。 歡迎關注 《搜索百科》 專欄!每天 5 分鐘,帶你速覽一款搜索相關的技術或產品,同時還會帶你探索它們背後的技術原理、發展故事及上手體驗等。 前兩篇我們探討了搜索技術的基石 Apache Lucene 和企業級搜索解決方案 Apache Solr。今天,我們來聊聊一個真正改變搜索遊戲規則,但也充滿爭議的產品 — Elasticsearch。 引言 如

elasticsearch , 搜索引擎 , lucene

收藏 評論

sysin - Elasticsearch 9.2 發佈 - 分佈式搜索和分析引擎

Elasticsearch Enterprise 9.2 (macOS, Linux, Windows) - 分佈式搜索和分析引擎 The Official Distributed Search Analytics Engine 請訪問原文鏈接:https://sysin.org/blog/elastic-9/ 查看最新版。原創作品,轉載請保留出處。 作者主頁:sysin.org Elasti

elasticsearch

收藏 評論

阿里雲大數據AI - 雲棲實錄 | AI 搜索引擎如何驅動億級物流:貨拉拉 x 阿里雲 Elasticsearch

在數字化與智能化浪潮的推動下,海量數據的高效檢索與實時分析,正成為各行業核心競爭力的關鍵之一。作為覆蓋全球14+市場、服務數千萬用户的智慧物流與同城貨運平台,貨拉拉不僅在業務規模與運營效率上追求卓越,也在技術底座上不斷革新。 9月26日,雲棲大會AI搜索與向量引擎分論壇上,貨拉拉Elasticsearch技術負責人——陳敏華先生分享了Elasticsearch在全球化高併發業務場景下的深度實踐,以

elasticsearch , 阿里雲 , 人工智能

收藏 評論

阿里雲大數據AI - 雲棲實錄 | 阿里雲發佈Elasticsearch Serverless 2.0,重塑AI搜索時代基礎設施

2025年9月26日,在杭州雲棲大會“AI搜索與向量引擎”分論壇上,阿里雲智能集團高級技術專家——賈新禹正式發佈ElasticsearchServerless2.0,並首次系統性闡述其技術架構與產品價值。這一全新升級的Serverless解決方案,以“極致彈性、智能核心、AI生態融合”三大技術基石,直面AI搜索時代的工程化挑戰,為企業提供一站式構建AI搜索能力的基礎設施。 時代鴻溝:AI搜

elasticsearch , 搜索 , 阿里雲 , 人工智能

收藏 評論

阿里雲大數據AI - 雲棲實錄 | AI原生搜索引擎:Elasticsearch 換“芯”——AI原生搜索內核增強技術

9月26日,雲棲大會AI搜索與向量引擎分論壇上,阿里雲智能集團技術專家魏子珺和愛橙科技技術專家周文喆,詳細闡釋了“AI原生搜索引擎:Elasticsearch換芯”技術主題,重點圍繞AI原生搜索內核增強技術的升級與替換。通過核心能力重構,讓Elasticsearch在AI原生時代具備更強的多模態理解、自然語言處理以及深度任務執行能力,為搜索場景帶來性能、智能化與可擴展性的大幅提升。這標誌着AI搜索

elasticsearch , 搜索 , 阿里雲

收藏 評論

阿里雲大數據AI - 雲棲實錄 | 阿里雲助力金山辦公打造智能搜索新標杆:WPS 雲文檔搜索技術全面升級

隨着大模型時代到來,用户需求從“關鍵詞匹配”轉向“自然語言交互與問答式搜索”。2025年9月26日,杭州雲棲大會“AI搜索與向量引擎”分論壇上,金山辦公雲搜索技術總監——陳海榮宣佈,其核心產品WPS雲文檔搜索功能結合阿里雲搜索引擎完成重大升級,正式邁入3.0時代。 此次升級以阿里雲Elasticsearch混合檢索與AI語義搜索能力為核心,全面解決海量文檔場景下的檢索效率、語義理解與成本優化難題,

elasticsearch , 搜索 , wps , 阿里雲

收藏 評論

豐木 - ES(Elasticsearch)的時間映射

1.自動映射 如果index在創建時,未手動定義schema,而是靠put進第一條數據時自動識別的, 那麼識別規則如下: 1.1 text/long/float的識別 "title": "Elasticsearch In Action"-text "age": 20 - long "rating": 50.40 - float 1.2 date的識別 1.2.1 識別為常規date(IS

elasticsearch

收藏 評論

yuxuan - 記一次Docker版本不兼容導致的Elasticsearch容器啓動失敗

背景 這幾天迴歸小型進銷存系統之後,由於落下同伴太多的知識點,就想着先啓動一下整個項目來操作操作。然後去學習一些新的代碼、新的知識、新的解決方法。 一開始後台啓動失敗,定位到 elasticsearch 這一塊。然後,才發現離組時間中,添加了很多新的鏡像:redis、elasticsearch... 接着 docker-compose up -d 拉去鏡像,但是還是報錯。 自己弄

elasticsearch , rosetta , Docker

收藏 評論

豐木 - ES實戰第二版筆記-2

第三章 架構 ISO8601日期: yyyy-MM-dd 3.1 索引(index)/別名(alias) 略 3.1 數據流(時間序列數據) 1.多個索引保存數據 2.作為單個資源訪問 3.索引es自動生成,且是隱藏的 4.數據流=滾動隱藏索引的一個別名 5.使用索引模版創建 3.2 分片和副本 _cat/health 1.分片和副本分佈在不

elasticsearch

收藏 評論

豐木 - ES實戰第二版筆記-1

第一章 概述-無 第二章 開始使用 2.1 基本檢索 2.1.1 計算文檔數量 GET books/_count 2.1.2 檢索單個ID文檔 GET books/_doc/1 2.1.3 檢索多個ID文檔 GET books/_search { "query": { "ids": { "values": [1,2,3] } } } 2.1.4 檢索所有文檔 G

elasticsearch

收藏 評論

sysin - Elasticsearch Enterprise 8.19.5 發佈 - 分佈式搜索和分析引擎

Elasticsearch Enterprise 8.19.5 (macOS, Linux, Windows) - 分佈式搜索和分析引擎 The Official Distributed Search Analytics Engine 請訪問原文鏈接:https://sysin.org/blog/elastic-8/ 查看最新版。原創作品,轉載請保留出處。 作者主頁:sysin.org Ela

elasticsearch

收藏 評論

sysin - Elasticsearch Enterprise 9.1.5 發佈 - 分佈式搜索和分析引擎

Elasticsearch Enterprise 9.1.5 (macOS, Linux, Windows) - 分佈式搜索和分析引擎 The Official Distributed Search Analytics Engine 請訪問原文鏈接:https://sysin.org/blog/elastic-9/ 查看最新版。原創作品,轉載請保留出處。 作者主頁:sysin.org Elas

elasticsearch

收藏 評論

豐木 - ES:集羣管理: 5.1diagnose shards issues and repair a cluster's health

一、檢查集羣健康:_cluster API _cluster API 1. 集羣層 GET _cluster/health GET _cluster/health?level=cluster 上面兩個等價 2. 分片層 GET _cluster/health?level=shards 索引層指定索引-分片狀態 GET _cluster/health/hamlet?level=shard

elasticsearch

收藏 評論

qbit - 試用 Elasticsearch 8 的同義詞 API(qbit)

前言 Elasticsearch 8.10 引入了同義詞 API,可以取代以前的同義詞文件 注意 synonyms_set 只能用於 search_analyzer,不能用於 index analyzer 案例 創建或更新同義詞集合 PUT _synonyms/test_syn_set { "synonyms_set": [ { "id": "pc",

elasticsearch

收藏 評論

阿里雲大數據AI - 從“字”到“畫”:基於Elasticsearch Serverless 的多模態商品搜索實踐

隨着人工智能技術的飛速發展,用户對於搜索體驗的要求早已超越了傳統的關鍵詞匹配。我們正處在一個從文本搜索向多模態、跨模態搜索演進的時代。用户希望能夠通過圖片、甚至是自然語言描述的複雜場景,來精準地找到他們想要的商品。然而,如何理解並檢索圖片中的視覺元素?如何處理那些文本標題無法完全概括的商品特徵?這些都是傳統搜索面臨的挑戰。 本文將深入探討多模態商品檢索的通用解決方案,詳細解讀其背後的兩大核心技術:

elasticsearch , 大數據 , 搜索 , 檢索系統 , serverless

收藏 評論

qbit - Elasticsearch 8.19 分詞插件獲取遠程詞典(qbit)

前言 當前(2025.8.22) hao 分詞器 的最後版本為 8.7.1,qbit 需要使用 Elasticsearch 8.19.2 版本,升級編譯使用 hao 分詞器插件過程中遇到一些問題,記錄之 問題一:Inject 依賴注入 Elasticsearch 8.19 的 SDK 不再有 org.elasticsearch.common.inject.Inject 包,移除替換之

elasticsearch , 插件 , 分詞

收藏 評論

macrozheng - 橫空出世!一款開源的數據同步工具,穩定又高效,好用到爆!

在開發項目的時候,我們經常會遇到數據同步的場景。例如將開發環境的數據庫表同步到測試環境,將MySQL中的數據同步到ES中。今天給大家分享一款好用的數據同步工具DBSyncer,自帶可視化界面,希望對你有所幫助! 簡介 DBSyncer是一款開源的數據同步工具,支持MySQL、Oracle、PostgreSQL、Elasticsearch(ES)、Kafka、File等同步場景,目前在Gitee上已

elasticsearch , MySQL , springboot , JAVA , 後端

收藏 評論

cafebabe - ElasticSearch9.1.0版本配置IK分詞器插件時報錯:null_pointer_exception

結論先行: ElasticSearch的IK分詞器插件文件夾名稱,嚴格要求使用 analysis-ik 。 報錯信息: !--用户可以在這裏配置遠程擴展字典 -- entry key="remote_ext_dict"***/entry !--用户可以在這裏配置遠程擴展停止詞字典-- entry key="remote_ext_stopwords"***/entry

elasticsearch

收藏 評論

cafebabe - ElasticSearch 相似性算法

官方算法 BM25 similarity (默認) DFR similarity DFI similarity IB similarity LM Dirichlet similarity LM Jelinek Mercer similarity Scripted similarity 相似算法 名稱 算法描述 適用場景 配置

elasticsearch , similarity , elastic-search

收藏 評論

極限實驗室 - ES 調優帖:Gateway 批量寫入性能優化實踐

背景:bulk 優化的應用 在 ES 的寫入優化裏,bulk 操作被廣泛地用於批量處理數據。bulk 操作允許用户一次提交多個數據操作,如索引、更新、刪除等,從而提高數據處理效率。bulk 操作的實現原理是,將數據操作請求打包成 HTTP 請求,並批量提交給 Elasticsearch 服務器。這樣,Elasticsearch 服務器就可以一次處理多個數據操作,從而提高處理效率。 這種優化的核心價

elasticsearch , gateway , bulk

收藏 評論

sysin - Elasticsearch Enterprise 9.1.0 - 分佈式搜索和分析引擎

Elasticsearch Enterprise 9.1.0 (macOS, Linux, Windows) - 分佈式搜索和分析引擎 The Official Distributed Search Analytics Engine 請訪問原文鏈接:https://sysin.org/blog/elastic-9/ 查看最新版。原創作品,轉載請保留出處。 作者主頁:sysin.org Elas

elasticsearch

收藏 評論