Replies: 3 comments 4 replies
-
|
去重和归档是否只是根据某个字段去重计数, 做统计分析, 这样的话ES的查询语句就能直接写, 不用写业务代码处理 数据量大是多大,慢是哪里慢,读ES网络传输慢? 写数据库慢? 还是聚合的业务逻辑慢? 这里慢的话可以改代码优化, 可以自己打个点分析下运行时长, 或者用工具 line_profiler 进行分析 只是单一程序慢, 数据库和程序占用机器资源都不高的话,是否可以按日期切分多启几个进程干同样的逻辑就快了? 个人建议哈, 具体场景具体分析窝也不清楚 |
Beta Was this translation helpful? Give feedback.
3 replies
-
|
如果我这块没法优化,那么我就直接用你的工具,我的目的只要实现这个需求就可以了。 |
Beta Was this translation helpful? Give feedback.
1 reply
-
|
三种方案 其实我想用第二种 1、靠es统计分析 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
我的需求很简单,从es index中获取某个搜索结果 根据某个条件去重和归档,再建立一个临时表的格式 导出到excel(或csv)
我原来写的process_hits从es读取到json放到内存里清洗,数据量太大速度很慢,后来就把json先插入到数据库,通过数据库来做去重和分组归档,但是插入这个过程速度也很慢,我不知道怎么优化,但是看代码觉得很烂,优化空间很大。
本来想通过学习 idataapi-transform 项目的code 原理,但是发现code level太高,索性就直接提问好了。
excel的内容是这样

Beta Was this translation helpful? Give feedback.
All reactions