您现在的位置是:首页 > 编程 > 

Google如何能搜出1分钟之前的新闻???(第29讲)

2025-07-26 20:36:37
Google如何能搜出1分钟之前的新闻???(第29讲) 《架构师之路:架构设计中的100个知识点》 29.实时搜索引擎技术网页数据量如此庞大,网上新闻更新如此之快,google为什么能搜出1分钟之前新闻?答:google使用了实时搜索引擎技术。首先,为了保证海量数据的检索效率,google并不会实时修改全量索引库,全量索引库是只读的。既然全量索引是只读的,如何检索出最新的网页呢?这里面有两个架构

Google如何能搜出1分钟之前的新闻???(第29讲)

《架构师之路:架构设计中的100个知识点》 29.实时搜索引擎技术

网页数据量如此庞大,网上新闻更新如此之快,google为什么能搜出1分钟之前新闻?

答:google使用了实时搜索引擎技术。

首先,为了保证海量数据的检索效率,google并不会实时修改全量索引库,全量索引库是只读的。

既然全量索引是只读的,如何检索出最新的网页呢?

这里面有两个架构设计核心:

其一,索引分级;

其二,dump&merge;

什么是索引分级?

将索引分为全量索引库、日增量索引库、小时增量索引库:

1. 历史数据放在全量库中,当天数据放在日库中,最近一个小时的数据放在小时库中;

2. 全量库和日库索引紧密存储,无碎片,只读,查询速度快;

. 小时库数据库小,实时修改索引,查询速度也快。

如何实时更新网页?

如上图所示:当有写请求发生时,只会操作最低级别的索引。

如何实时查询网页?

如上图所示:当有查询请求发生时,会同时查询各个级别的索引,将结果合并,得到最新的数据。

新的问题来了:小时库数据何时反映到天库中,天库中的数据何时反映到全量库中呢?

这就不得不提,实时搜索引擎技术中的第二个关键点:dump&merge。

什么是dump&merge?

这是由两个异步的工具dumper与merger完成的:

1. dumper:将在线的数据导出;

2. merger:将离线的数据合并到高一级别的索引中去;

如上图所示:

1. 小时库,一小时一次,合并到天库中去;

2. 天库,一天一次,合并到全量库中去;

这样就保证了小时库和天库的数据量都不会特别大,永远保持一个小时,一天的数据量大小。

总结

超大数据量,超高并发量,实时搜索引擎的两个架构要点:

(1)索引分级;

(2)dump&merge;

知其然,知其所以然。

思路比结论更重要。

补充阅读材料:

《搜索引擎架构》

文章不长,5分钟搞定。

本文参与 腾讯云自媒体同步曝光计划,分享自。原始发表:2024-12-27,如有侵权请联系 cloudcommunity@tencent 删除搜索引擎架构设计google数据索引

#感谢您对电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格的认可,转载请说明来源于"电脑配置推荐网 - 最新i3 i5 i7组装电脑配置单推荐报价格

本文地址:http://www.dnpztj.cn/biancheng/1217538.html

相关标签:无
上传时间: 2025-07-25 09:30:50
留言与评论(共有 5 条评论)
本站网友 青光眼的症状
14分钟前 发表
一天的数据量大小
本站网友 嘉里中心酒店
6分钟前 发表
查询速度也快
本站网友 上海房东网
1秒前 发表
既然全量索引是只读的
本站网友 四海一家电话
25分钟前 发表
当天数据放在日库中