PushToTalk 是一款面向 Windows 平臺的高性能桌面語音輸入工具,它基于國產(chǎn)大模型(豆包/千問)提供的實時自動語音識別(ASR)能力,實現(xiàn)了低延遲、高準(zhǔn)確率的語音轉(zhuǎn)文字功能,并進(jìn)一步集成了大語言模型(LLM),支持在轉(zhuǎn)寫后進(jìn)行智能潤色、摘要或指令執(zhí)行。用戶只需按住 Ctrl?+?Win(或自定義快捷鍵)說話,松開后系統(tǒng)會自動將識別結(jié)果粘貼到當(dāng)前光標(biāo)所在的文本框,實現(xiàn)“按鍵即寫”的流暢體驗。
- PushToTalk開源項目官網(wǎng)網(wǎng)址:https://github.com/yyyzl/push-2-talk
- PushToTalk官方下載地址:https://github.com/yyyzl/push-2-talk/releases

該項目提供兩種主要工作模式:
- 聽寫模式——傳統(tǒng)的語音轉(zhuǎn)文字,適用于會議紀(jì)要、文檔撰寫等場景;
- LLM 模式——在轉(zhuǎn)寫基礎(chǔ)上調(diào)用大語言模型進(jìn)行內(nèi)容優(yōu)化或生成,提升寫作效率。
核心特性
一、雙模式工作
1.聽寫模式 – 傳統(tǒng)的語音轉(zhuǎn)文字功能
- 按住模式:按住快捷鍵錄音,松開停止(傳統(tǒng)方式)
- 松手模式:按一次 F2 開始錄音,再按一次結(jié)束(防止誤停)
2. AI 助手模式 – 語音控制文本處理
- 無選中文本:Q&A 模式,提問獲得答案
- 選中文本:語音命令處理文本(翻譯、潤色、總結(jié)、擴(kuò)寫等)
二、核心功能
- 實時流式轉(zhuǎn)錄 – WebSocket 邊錄邊傳,極低延遲(< 500ms),松手即出字
- LLM 智能后處理 – 內(nèi)置”文本潤色”、”郵件整理”、”中譯英”等預(yù)設(shè),支持自定義 Prompt
- 自定義快捷鍵 – 支持 73 種按鍵綁定(修飾鍵、字母、數(shù)字、功能鍵、方向鍵等)
- 多 ASR 引擎 – 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice
- 智能兜底 – 主引擎失敗時自動切換到備用引擎,并行競速
- 可視化反饋 – 錄音狀態(tài)懸浮窗,實時波形顯示,三種視覺狀態(tài)
- 音頻反饋 – 錄音開始/結(jié)束的清脆提示音,盲操也放心
- 歷史記錄 – 自動保存轉(zhuǎn)錄歷史,支持搜索、復(fù)制、清空
- 系統(tǒng)托盤 – 支持最小化到托盤、開機(jī)自啟動
- 自動更新 – 內(nèi)置 6 個鏡像源,自動檢查并安裝更新
- 多配置管理 – 支持保存多套 LLM 預(yù)設(shè),通過界面快速切換不同場景
PushToTalk 采用純本地運行的設(shè)計,數(shù)據(jù)不上傳云端,兼顧隱私安全;同時提供開箱即用的二進(jìn)制發(fā)布和源碼編譯指南,方便開發(fā)者二次開發(fā)或自行部署。項目在開源社區(qū)獲得了積極反饋,用戶可通過 GitHub 提交 Issue 或 Pull Request 參與改進(jìn)。
PushToTalk 將語音識別、語言模型與快捷鍵交互深度融合,為 Windows 用戶提供了一站式的語音輸入解決方案。
相關(guān)導(dǎo)航
暫無評論...




