OneFileLLM：一键整合海量数据源

OneFileLLM的最大作用是融合多路数据源，以统一格式输出，整理成LLM的上下文资料。

来源不限于本地文件/目录、GitHub仓库、GitHub PR、GitHub Issues、ArXiv学术论文、YouTube视频字幕、网页文档、通过DOI或PMID标识的Sci-Hub论文等等。

不管是你哪来的数据，最终都会将它们编译整理成单个文本文件，然后方便复制到LLM中使用。

OneFileLLM简直就是数据整合的瑞士军刀：

自动源类型检测：基于提供的路径、URL或标识符自动检测数据类型
多源支持：支持本地文件/目录、GitHub仓库、GitHub PR、GitHub Issues、ArXiv学术论文、YouTube视频字幕、网页文档、通过DOI或PMID标识的Sci-Hub论文
多格式处理：能够处理Jupyter Notebook、PDF等多种文件格式
网页爬取：可以提取指定深度的链接页面内容
Sci-Hub集成：使用DOI或PMID自动下载研究论文
文本预处理：包括压缩和未压缩输出、停用词删除和小写转换
自动复制功能：自动将未压缩文本复制到剪贴板，方便粘贴到LLM中
令牌计数报告：同时报告压缩和未压缩输出的令牌数
XML封装：使用XML结构化输出，提高LLM理解能力

可以看到OneFileLLM完全可以覆盖掉日常大部的场景，特别是当你需要将大量信息输入到LLM中时。

OneFileLLM：一键整合海量数据源

科研工作研究论文分析：直接通过ArXiv ID或DOI快速获取并处理学术论文。

程序员需要对代码库理解：输入GitHub仓库URL就行，可快速获取代码库概览。

对于常用的视频站YouTube可以直接提取字幕并处理。

一些线上长文档直接爬取下载，复制给LLM学习。

安装OneFileLLM非常简单。以下是使用UV包管理器的安装步骤：

# 克隆仓库  git clone https://github.com/jimmc414/onefilellm.git  cd onefilellm    # 使用UV安装依赖  uv pip install -U -r requirements.txt    # 或者创建虚拟环境  uv venv  # 激活虚拟环境(Windows)  .venvScriptsactivate  # 激活虚拟环境(Linux/Mac)  source .venv/bin/activate  # 安装依赖  uv pip install -U -r requirements.txt

使用方法也很直观：

# 基本使用  python onefilellm.py    # 或直接传入URL/路径  python onefilellm.py https://github.com/jimmc414/onefilellm

OneFileLLM的工作流程非常简单清晰：

用户提供输入URL或路径，工具检测源类型，然后调用相应的处理模块，对数据预处理文本（清理、压缩等），最后生成输出文件。

所有输出结果XML标签封装，这种结构可以提高LLM对输入的理解和处理能力。

OneFileLLM是一款非常实用的工具，极大地简化了将多源数据输入LLM的过程。

研究开发学习，经常需要向LLM提供大量结构化信息，不妨试试这个工具，可能会为你节省大量时间和精力。

{{userData.name}}已认证

OneFileLLM：一键整合海量数据源

AI应该能让发达国家GDP增长10%，Meta创始人扎克伯格对话微软CEO萨提亚：文档、应用程序和网站之间的界限消失于模型时代

AI 时代的数据底座：火山引擎多模态数据湖的设计与实践