DuckDB 1.0.0发布了

版主: hci

头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 441
帖子: 9837
注册时间: 2022年 7月 22日 15:29

#1 DuckDB 1.0.0发布了

帖子 hci(海螺子)楼主 »

DuckDB貌似很火爆。好像数据科学家们很喜欢。除了分析数据很快,据说DuckDB的SQL也比较expressive,有用过的么。

https://duckdb.org/2024/06/03/announcin ... b-100.html

行数据库用SQLite,列数据库用DuckDB,都用SQL,貌似包圆了。
上次由 hci 在 2024年 6月 4日 16:10 修改。
原因: 未提供修改原因
madalpaca(狂草尼玛)
正式会员
正式会员
帖子互动: 1
帖子: 11
注册时间: 2022年 9月 15日 23:01

#2 Re: DuckDB 1.0.0发布了

帖子 madalpaca(狂草尼玛) »

重复造轮子,搁几年就有一个。
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 441
帖子: 9837
注册时间: 2022年 7月 22日 15:29

#3 Re: DuckDB 1.0.0发布了

帖子 hci(海螺子)楼主 »

这个好像很有前途,口碑很好。
madalpaca 写了: 2024年 6月 5日 13:09 重复造轮子,搁几年就有一个。
madalpaca(狂草尼玛)
正式会员
正式会员
帖子互动: 1
帖子: 11
注册时间: 2022年 9月 15日 23:01

#4 Re: DuckDB 1.0.0发布了

帖子 madalpaca(狂草尼玛) »

技术上:没意义。人不需要在搞一个SQL dialect。
商业上:搁几年搞这么一波去让用户换车才有钱赚。
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 441
帖子: 9837
注册时间: 2022年 7月 22日 15:29

#5 Re: DuckDB 1.0.0发布了

帖子 hci(海螺子)楼主 »

这个主要是用来做OLAP的。不是一般的RDBMS

再说这是open source的,赚什么?
madalpaca 写了: 2024年 6月 5日 15:58 技术上:没意义。人不需要在搞一个SQL dialect。
商业上:搁几年搞这么一波去让用户换车才有钱赚。
上次由 hci 在 2024年 6月 5日 18:02 修改。
原因: 未提供修改原因
头像
wokao
论坛元老
论坛元老
帖子互动: 912
帖子: 19142
注册时间: 2023年 3月 11日 19:17

#6 Re: DuckDB 1.0.0发布了

帖子 wokao »

我早就推荐了,压根都不用学pandas之类

viewtopic.php?t=478302

最近用duckdb把750GB的房里美的CSV读进了数据库,然后转存Parquet,才20GB。
hci 写了: 2024年 6月 4日 16:07 DuckDB貌似很火爆。好像数据科学家们很喜欢。除了分析数据很快,据说DuckDB的SQL也比较expressive,有用过的么。

https://duckdb.org/2024/06/03/announcin ... b-100.html

行数据库用SQLite,列数据库用DuckDB,都用SQL,貌似包圆了。
上次由 wokao 在 2024年 6月 5日 18:17 修改。
头像
wokao
论坛元老
论坛元老
帖子互动: 912
帖子: 19142
注册时间: 2023年 3月 11日 19:17

#7 Re: DuckDB 1.0.0发布了

帖子 wokao »

madalpaca 写了: 2024年 6月 5日 13:09 重复造轮子,搁几年就有一个。
还有个类似的,好像还是中国人做的,基于clickhouse,但是不支持Windows,这点给差评

https://github.com/chdb-io/chdb/blob/main/README-zh.md
blob
知名作家
知名作家
帖子互动: 88
帖子: 1065
注册时间: 2024年 5月 21日 15:23

#8 Re: DuckDB 1.0.0发布了

帖子 blob »

码农的新奇玩具而已,也不能说完全没意义,说不定哪天就用上了。再说了,750G才多大的数据,哪个DB会handle不了?
头像
wokao
论坛元老
论坛元老
帖子互动: 912
帖子: 19142
注册时间: 2023年 3月 11日 19:17

#9 Re: DuckDB 1.0.0发布了

帖子 wokao »

blob 写了: 2024年 6月 5日 18:32 码农的新奇玩具而已,也不能说完全没意义,说不定哪天就用上了。再说了,750G才多大的数据,哪个DB会handle不了?
用笔记本电脑?
blob
知名作家
知名作家
帖子互动: 88
帖子: 1065
注册时间: 2024年 5月 21日 15:23

#10 Re: DuckDB 1.0.0发布了

帖子 blob »

wokao 写了: 2024年 6月 5日 18:34 用笔记本电脑?
也可以,不过你把750G下载到本地电脑?
头像
wokao
论坛元老
论坛元老
帖子互动: 912
帖子: 19142
注册时间: 2023年 3月 11日 19:17

#11 Re: DuckDB 1.0.0发布了

帖子 wokao »

blob 写了: 2024年 6月 5日 18:35 也可以,不过你把750G下载到本地电脑?
房里美给我一个50GB的zip,解压缩得到96个CSV,总共750GB
我再一个一个压缩,得到96个压缩文件,大概60GB吧
然后DuckDB import,据DuckDB说 处理压缩的CSV不比处理原生的慢
blob
知名作家
知名作家
帖子互动: 88
帖子: 1065
注册时间: 2024年 5月 21日 15:23

#12 Re: DuckDB 1.0.0发布了

帖子 blob »

一点新意都没有,数据文件小是parquet格式的功劳,处理原生的压缩CSV就是多加一层解压,数据load完最终是parquet格式。
让我来,我都比他们会忽悠。
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 441
帖子: 9837
注册时间: 2022年 7月 22日 15:29

#13 Re: DuckDB 1.0.0发布了

帖子 hci(海螺子)楼主 »

除了用来转文件格式,你还用DuckDB干嘛呢?
wokao 写了: 2024年 6月 5日 18:15 我早就推荐了,压根都不用学pandas之类

viewtopic.php?t=478302

最近用duckdb把750GB的房里美的CSV读进了数据库,然后转存Parquet,才20GB。
头像
wokao
论坛元老
论坛元老
帖子互动: 912
帖子: 19142
注册时间: 2023年 3月 11日 19:17

#14 Re: DuckDB 1.0.0发布了

帖子 wokao »

计算非常快,而且是对巨量的数据。我用Julia自己的DataFrame就死掉了(用Pandas会死掉得更惨),用DuckDB没问题。

还有一个我早说过了,就是根本不用学各种语言自己的DataFrame了,SQL易懂而且成熟得多。
hci 写了: 2024年 6月 6日 00:25 除了用来转文件格式,你还用DuckDB干嘛呢?
头像
wokao
论坛元老
论坛元老
帖子互动: 912
帖子: 19142
注册时间: 2023年 3月 11日 19:17

#15 Re: DuckDB 1.0.0发布了

帖子 wokao »

wokao 写了: 2024年 6月 6日 09:20 计算非常快,而且是对巨量的数据。我用Julia自己的DataFrame就死掉了(用Pandas会死掉得更惨),用DuckDB没问题。

还有一个我早说过了,就是根本不用学各种语言自己的DataFrame了,SQL易懂而且成熟得多。
不错,DuckDB马上就更新了Julia的package
团队还是很拼的


图片
头像
hci(海螺子)楼主
论坛支柱
论坛支柱
帖子互动: 441
帖子: 9837
注册时间: 2022年 7月 22日 15:29

#16 Re: DuckDB 1.0.0发布了

帖子 hci(海螺子)楼主 »

那你会用DuckDB的SQL来实现机器学习算法么?

从一个最近的文章看,貌似这是可行的。DuckDB的SQL支持递归,所以可以用来实现算法,比如Gradient Descent啥的。
wokao 写了: 2024年 6月 6日 09:20 计算非常快,而且是对巨量的数据。我用Julia自己的DataFrame就死掉了(用Pandas会死掉得更惨),用DuckDB没问题。

还有一个我早说过了,就是根本不用学各种语言自己的DataFrame了,SQL易懂而且成熟得多。
头像
wokao
论坛元老
论坛元老
帖子互动: 912
帖子: 19142
注册时间: 2023年 3月 11日 19:17

#17 Re: DuckDB 1.0.0发布了

帖子 wokao »

那部分难道不是python R之类实现?
hci 写了: 2024年 6月 6日 21:06 那你会用DuckDB的SQL来实现机器学习算法么?

从一个最近的文章看,貌似这是可行的。DuckDB的SQL支持递归,所以可以用来实现算法,比如Gradient Descent啥的。
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3590
帖子: 41823
注册时间: 2022年 9月 6日 12:50

#18 Re: DuckDB 1.0.0发布了

帖子 赖美豪中(my pronouns: ha/ha) »

再好都没有卵用,愿意付钱的人不换数据库,你看看Oracle这么贵为什么每年接着用,ds他会花钱买这玩意,口碑好能变成钱么
hci 写了: 2024年 6月 5日 13:40 这个好像很有前途,口碑很好。
If printing money would end poverty, printing diplomas would end stupidity.
赖美豪中(my pronouns: ha/ha)
论坛元老
论坛元老
2023年度优秀版主
帖子互动: 3590
帖子: 41823
注册时间: 2022年 9月 6日 12:50

#19 Re: DuckDB 1.0.0发布了

帖子 赖美豪中(my pronouns: ha/ha) »

你在数据库里做计算?lol
wokao 写了: 2024年 6月 6日 09:20 计算非常快,而且是对巨量的数据。我用Julia自己的DataFrame就死掉了(用Pandas会死掉得更惨),用DuckDB没问题。

还有一个我早说过了,就是根本不用学各种语言自己的DataFrame了,SQL易懂而且成熟得多。
If printing money would end poverty, printing diplomas would end stupidity.
头像
wokao
论坛元老
论坛元老
帖子互动: 912
帖子: 19142
注册时间: 2023年 3月 11日 19:17

#20 Re: DuckDB 1.0.0发布了

帖子 wokao »

oltp vs olap
赖美豪中 写了: 2024年 6月 6日 22:01 再好都没有卵用,愿意付钱的人不换数据库,你看看Oracle这么贵为什么每年接着用,ds他会花钱买这玩意,口碑好能变成钱么
回复

回到 “葵花宝典(Programming)”