技术架构一些想到的
来源
听到了一个关于在AI时代下软硬件架构的挑战以及成功解决的部分场景
思考
所谓的技术架构,总是要考虑当前是什么样的技术架构,在使用了多少资源量下,解决了哪些问题。
技术的更迭也就是,新场景新问题
举个例子
在AI训练的场景下,其特点是,相对较高的延时,巨大的传输带宽,包括硬盘到内存的搬运,内存到现存的搬运。
在单机的情况下,是对PCIE和内存总线提出了新要求。
在分布式场景下,因为巨大的数据交换的消耗,TCP在这种情况下对于分包、重传等维护完整性的机制占用了巨量的CPU资源,还会占用将内存搬运到显存的CPU,使得计算效率下降。
那在这种场景下,就需要新的架构,尽可能的使得各个分系统直连,不需要CPU的参与。比如实现RDMA直通显存。
想到的
分析现状,实事求是,确实在方方面面都是相同的。