开始处理各种语言
Elasticsearch 为很多世界流行语言提供良好的、简单的、开箱即用的语言分析器集合:
阿拉伯语、亚美尼亚语、巴斯克语、巴西语、保加利亚语、加泰罗尼亚语、中文、捷克语、丹麦、荷兰语、英语、芬兰语、法语、加里西亚语、德语、希腊语、北印度语、匈牙利语、印度尼西亚、爱尔兰语、意大利语、日语、韩国语、库尔德语、挪威语、波斯语、葡萄牙语、罗马尼亚语、俄语、西班牙语、瑞典语、土耳其语和泰语。
这些分析器承担以下四种角色:
-
文本拆分为单词:
The quick brown foxes → [ The, quick, brown, foxes]
-
大写转小写:
The → the
-
移除常用的 停用词:
[ The, quick, brown, foxes] → [ quick, brown, foxes]
-
将变型词(例如复数词,过去式)转化为词根:
foxes → fox
为了更好的搜索性,每个语言的分析器提供了该语言词汇的具体转换规则:
-
英语 分析器移除了所有格 's
John's → john
-
法语 分析器移除了 元音省略 例如 l' 和 qu' 和 变音符号 例如 ¨ 或 ^ :
l'église → eglis
-
德语 分析器规范化了切词, 将切词中的 ä 和 ae 替换为 a , 或将 ß 替换为 ss :
äußerst → ausserst