基于 LLamafactory 的异步API高效调用实现与速度对比


背景

原先经常调用各家的闭源大模型的API,如果使用同步的方式调用,速度会很慢。为了加快 API 的调用速度,决定使用异步调用 API 的方式。

简介

本文编写的代码,支持原生的 llamafactory 的数据集导入方式。
推理速度远远快于同步的 API 调用方式。基于 langchain_openai.ChatOpenAI 的 invoke 方法实现异步调用。
下述代码的主要工作介绍如下:

  • 使用 LLamafactory 的原生方法加载 数据集;
  • 封装了异步调用工具类AsyncAPICall,限制API的调用速度,逐块推理,避免程序崩溃导致所有数据丢失;

async_call_api.py