-
阅读:它将任何 URL 转换为LLM 友好的输入 https://r.jina.ai/https://your.url
。免费为您的代理和 RAG 系统获得改进的输出。 -
搜索:它使用 搜索网络上给定的查询 https://s.jina.ai/your+query
。这使您的 LLM 能够从网络上获取最新的世界知识。
-
抓取 URL 并获取其内容,也可以异步的方式提交任务,等待结果。 -
用于搜索网页,获取最相关的结果,抓取每个页面并返回 markdown。 -
从抓取的页面中提取结构化数据。
-
客户端有python和nodejs的SDK,服务端是nodejs,可以自己部署。官网提示:此存储库处于早期开发阶段。尚未完全准备好进行完全自托管部署,但您已经可以在本地运行它。
-
SmartScraperGraph
:只需要用户提示和输入源的单页抓取工具; -
SearchGraph
:从搜索引擎的前 n 个搜索结果中提取信息的多页抓取工具; -
SpeechGraph
:从网站提取信息并生成音频文件的单页抓取工具。 -
SmartScraperMultiGraph
:多个页面抓取工具给出一个提示。
-
Spider 使用 Rust 编写,以全并发运行,实现在几秒钟内抓取数十个页面。 -
获取干净且格式化的 markdown、HTML 或文本内容,以进行微调或训练 AI 模型。 -
通过缓存重复的网页抓取进一步提高速度。 -
智能模式,当需要时,Spider 会动态切换到 Headless Chrome。 -
使用最新的 AI 模型进行自定义浏览器脚本和数据提取。
WebBaseLoader
,SitemapLoader
从给定的 URL 加载站点地图,然后抓取并加载站点地图中的所有页面,将每个页面作为文档返回。Github上就有一个基于这个逻辑实现的项目 https://github.com/langchain-ai/chat-langchain ,从文档站点和 Github 代码库中提取 html,转化为可以对话的聊天机器人。万达产投公司"其实就是一次"赌局"。王健林赌的,就是王思聪这个遗腹子最终能否真正撑起万达的家业江山。有趣的是,这对父子二人在出道时的"赌注"金额,就已经高达10个亿了!这笔疯狂现金流,虽不及王健林那些地产大盘的"门面费"。当年,王思聪在去英国留学前,父亲王健林在百忙之中特意抽空去机场送他,并对他叮嘱了4个字,振兴中华,这4个字让王思聪终身难忘。看看人家王健林,他老王之所以能成为中国首富,不就是因为他拥有远超我们普通人的气魄和胸怀吗?可你老钟呢?王健林的父亲:军人出身,活了101岁,百岁生日时王健林为他祝寿. 相信大家对"一个亿的小目标"发起人王健林都不陌生,他将万达做成了同行业的领军企业。.
Wikipedia
是历史上规模最大、阅读量最多的参考书。-
CustomYTSearchTool 搜索包含人名的YouTube 视频并返回排名前num_results 的URL。 -
CustomYTTranscribeTool 转录视频并将文本记录输出到 transcripts.json。
-
第一次使用时,您需要使用 Youtube 凭证进行身份验证。