Lazy loaded image
盘点9月神级GitHub开源项目
字数 1504阅读时长 4 分钟
2025-10-7
2025-10-7
type
status
date
slug
summary
tags
category
icon
password
💡
盘点9月热门开源项目

01 本地实时语音转文字

很多人可能用过一些语音识别工具,但它们往往需要把录音一段一段传上网处理,既不实时也不够隐私。 WhisperLiveKit 的优势就在于它完全在本地运行,不需要依赖网络,并且支持实时处理,你说完话几乎立即就能看到文字结果。
notion image
开源地址:https://github.com/QuentinFuxa/WhisperLiveKit 这个工具背后用到了几项比较前沿的技术。 它采用了来自 NVIDIA 的 Diart 方案来区分不同说话人,如果在会议中有多个人发言,它可以分辨出哪句话是谁说的。 同时,它还使用了 Silero 的语音活动检测模块,能够准确判断什么时候有人在说话,从而减少无效处理。

02 MCP 注册中心

你可以把它理解为 MCP 服务器的应用商店。为 MCP 客户端提供一个集中发现和获取 MCP 服务器的平台,像手机有应用商店一样,MCP 客户端可以通过这个注册中心找到各种可用的功能服务器。
notion image
开源地址:https://github.com/modelcontextprotocol/registry 比较有意思的是,项目包含了一个名为 mcp-publisher 的命令行工具,开发者可以用它来发布自己的 MCP 服务器到注册中心。 发布过程中有一套完整的验证机制,确保只有命名空间的真正所有者才能发布相应服务器。

03 快速克隆一个人的声音

Real-Time Voice Cloning 已经获得 57K+ 的 Star 了。 它能够快速克隆一个人的声音,并在极短时间内生成任意内容的语音。
notion image
开源地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning 底层基于 SV2TTS 的深度学习技术,这原本是一项硕士研究课题。除了核心的语音合成部分,它还使用了一个名为 WaveRNN 的声码器来保证声音生成的质量和效率。 他有一个图形化工具箱,按照说明安装必要的环境,比如 ffmpeg 和一个叫 Python 包管理工具,就可以尝试克隆声音并生成语音了。 项目支持在Windows和Linux系统上运行,并且如果你有一块较好的NVIDIA显卡,处理速度会更快。 虽然 Star 很多,但是克隆效果并不是最好的

04 uutils coreutils

coreutils 是一个使用 Rust 语言重写的 GNU coreutils,最大的特点就是:跨平台。 也就是说,不管你在Windows、macOS还是Linux上,都可以使用同一套完全一致的工具,这让跨平台写脚本或传输文件变得更简单了。
notion image

05 高质量文本转语音

另外一个开源文本转语音模型,支持包括中文、英文、日文等 23 种语言的高质量语音合成。 可以通过调节参数来控制语音的情感强度和表现力,支持零样本语音克隆,只需一段参考音频就能模仿声音特征。 它提供了一个网站,有 Chatterbox 的很多 Demo,可以去下面链接瞧瞧。 Demo:https://resemble-ai.github.io/chatterbox_demopage/开源地址:https://github.com/resemble-ai/chatterbox 同时内置了防滥用的音频水印功能。无论是制作视频内容、开发游戏还是构建语音助手,Chatterbox 都能提供自然流畅的多语言语音支持。

06 AI 应用开发框架

一个 AI 应用框架,帮你快速开发 AI 能力的全栈应用。 该项目已经在 Google 的生产环境中得到实际应用,具备较高的稳定性和实用性。 开源地址:https://github.com/firebase/genkit GenKit 提供了一系列简化 AI 开发的功能,比如处理多模态内容、生成结构化输出、调用工具函数以及构建智能工作流。 开发者只需要几行代码就能快速实现文本生成、对话机器人、自动化任务或推荐系统等常见 AI 场景。 GenKit 还自带丰富的开发工具,包括本地 CLI 和开发者界面。开发者可以在图形化界面中测试提示词、调试执行流程、对比不同模型的输出结果,从而更快地迭代和优化AI功能。

07 开源机器人项目

openpi 项目集中提供了多种视觉-语言-动作模型,用于机器人控制,支持直接推理或基于自有数据微调。 开源地址:https://github.com/Physical-Intelligence/openpi 该项目包含三类核心模型: 1️⃣ π₀₀是一种基于流匹配的视觉语言动作模型; 2️⃣ π₀₀-FAST采用自回归方式生成动作,基于FAST动作分词器; 3️⃣ π₀₀.₅₅是π₀₀的升级版本,使用知识隔离训练,具有更好的开放世界泛化能力。 这些模型都经过了超过一万小时的机器人数据预训练,可作为基础模型直接使用,也可用于后续微调。 你可在该项目中找到模型权重、训练代码、推理示例以及详细的使用文档。

08 其它开源项目

除了这几个,还有其它开源项目。
下图是本周热门开源项目总览:
notion image
💡
有关本文或者使用上的问题,欢迎您在底部评论区留言,一起交流~
 
上一篇
论文精听-用NotebookLM制作学术播客
下一篇
【软件】太乙聚搜APP分享