说明
《Python 教程》 持续更新中,提供建议、纠错、催更等加作者微信: gairuo123(备注:pandas教程)和关注公众号「盖若」ID: gairuo。跟作者学习,请进入 Python学习课程。欢迎关注作者出版的书籍:《深入浅出Pandas》 和 《Python之光》。
Ray 是一个用于扩展AI和Python应用程序的统一框架。Ray由一个核心分布式运行时和一个用于简化ML计算的库工具包(Ray AIR)组成。
Ray 是一个用于并行和分布式的通用框架。Ray 提供了一个统一的任务并行和actor抽象,并且通过共享内存、零复制序列化和分布式调度达到了高的性能。Ray 也包含了针对人工智能应用(如超参数调优和强化学习)的高性能库。
Ray 由伯克利开源,是一个用于并行计算和分布式 Python 开发的开源项目。
Ray 的架构如下:
使用 pip 安装:
pip install ray
安装其他功能的依赖:
pip install -U "ray[air]" # Ray AI Runtime
pip install -U "ray[tune]" # Ray Tune
pip install -U "ray[rllib]" # Ray RLlib
pip install -U "ray[serve]" # Ray Serve
Ray 的另一个显著优势是其简单通用的 API ,只需在一段函数上加入ray.remote 的装饰器,便可将一个单机程序变成分布式执行单元,如下所示:
# declare a Ray task
@ray.remote
def fun(a):
return a + 1
# submit and execute a Ray task
fun.remote()
# declare a Ray actor
@ray.remote
class Actor():
def fun(slef, a):
return a+1
actor = Actor.remote()
# execute an actor method
actor.fun.remote()
Modin 可以使用 Ray 使用 Pandas,是一个数据帧操作库,允许用户通过充当替代品来加速Pandas的工作负载。Modin还支持其他API(如电子表格)和库,如xgboost。
import modin.pandas as pd
import ray
ray.init()
df = pd.read_parquet("s3://my-bucket/big.parquet")
更多:https://docs.ray.io/en/latest/data/modin/index.html
更新时间:2024-04-04 14:41:57 标签:python ray 大数据 机器学习