发帖
 找回密码
 立即注册
搜索
0 0 0
AI软件 514 0 昨天 15:54

Spokenly iOS版,iPhone或iPad都可以用

2fa44a9dac88e5324616d5d00c47bcf8fab639de.jpeg

其实iOS版从8月就上线了,但一直是阉割版,没有自定义API Key,没有润色功能,属于从全平台第三梯队
这几天更新后,加入了自定义Key和润色功能,直接跃升第一梯队了,主要功能已经无限接近Mac版了,甚至iOS都有了推理强度设置功能,貌似主流语音输入法里,他是第一个做这个功能的

Spokenly现在绝对是手机上最好的AI语音输入法,没有之一,而竞争对手SuperWhisper还停留在第三梯队
Spokenly作者也是很勤快,iOS上线一个月,就更新了很多版本,直接就冲到功能第一了

下载方法:我在美区appstore下载的,国区貌似也有。
不过国区随时可能被下架,因为国区里的app是不能使用美国大模型的

Spokenly Mac版

原来我的个人排名是Spokenly与VoiceInk并列第一,这次更新后,我觉得Spokenly略微超出VoiceInk了,原因是
①新版加入了自定义推理强度和温度功能,貌似还没有其他输入法有这个功能
②开放了系统提示词修改权限,就是可以替换掉Spokenly默认的系统提示词。
这个功能大部分语音输入法也没有
如果你认为自己系统提示词更好,或者更适合中文,可以替掉作者写的提示词
也可以把系统提示词改成比如句号占位,然后就可以当chat使用,语音提问,回答直接上屏到笔记/微信等

Mac版面市好像也就三个月时间,就冲到功能第一了,其他同类语音输入法都开发2,3年了

会有安卓版和Win版吗?

可惜作者明确表示,近期内不会有安卓版和Win版,他就一个人在战斗,做不过来

现在iOS除Spokenly以外的所有语音输入法,安卓上所有语音输入法,Win上所有语音输入法,最强的也就能达到全平台第三梯队的水平

全平台第一梯队的只有Spokenly mac版,Spokenly iOS版,VoiceInk mac版,SuperWhisper mac版,这四款

而SuperWhisper的iOS版和Win版现在都是严重缩水版,与mac版没法比
VoiceInk则只有Mac版

最省钱的方法是

Spokenly就用免费会员,买包月虽然省事,但比自备API贵很多

免费也有少量的试用额度,每天恢复额度,可以先体验下
免费除了没有包月模型外,其他功能现在貌似都不限制,以后会不会限制就不知道了

下面ⒶⒷⒸ三个听写模型三选一,只有这仨是中文识别率第一梯队的听写模型,其他Whisper什么的识别率都不太行,也有些模型根本就不支持中文,我都折腾过了

听写Ⓐ听写API咸鱼买elevenlabs-scribe三个月试用号,¥50=送$66=共188小时,平均每天2小时够用了

可以买成品号,用完就扔,下次再买新号
也可以自备号,跟卖家要兑换码,但自备号只能兑换一次
elevenlabs是全球最强的专业AI语音厂商,除了听写最强,朗读等也是最强的,API的积分通用的,其他功能也可以去玩玩

听写Ⓑ或者自己去Soniox注册,无需绑卡,送$200÷$0.1/小时=2000小时,够用很久很久

模型填stt-rt-preview-v2
优点:赠金免费,还要啥自行车
有两个模型,soniox-async无字幕,soniox-realtime可以实时显示字幕,这个功能大多数在线模型没有,一般只有本地听写模型才有,但字幕是润色前的,不是最终稿。对于一些经常忘记自己在说啥的人,或者需要及时发现识别错误,当场更正的情况,有用的。
soniox-realtime比sioniox-async价格贵50%(反正有赠金无所谓),暂时不确定识别率是否完全相同
缺点:质量略微低于elevenlabs-scribe,跟4o-transcribe差不多

听写Ⓒ4o-transcribe:不太推荐

优点:识别率不错,但略不如elevenlabs-scribe
自带提示词推理功能,但实际多数前端并不支持,与润色模型功能重叠
缺点:小毛病多,经常没有标点符号,中英文标点混用,出繁体,有时结尾有幻觉,但这些一般都可以通过润色修复
模型上限25分钟或2000字(但Spokenly iOS版突破了限制)
没有说话人识别
最大缺点是官价贵¥0.36/小时,按照官价算每天一小时,一个月$10,比买Spokenly包月还贵
部分中转站渠道有这个模型,但要么贵,要么限量。搞Azure100什么的如果网络不行容易封号,不太适合不愿折腾的人

润色,去AIStudio注册个号,免费

获得API key,每天有100次2.5pro,250次2.5flash,1000次flash-lite
我一般聊天,修改,一句一句写笔记,用2.5-flash,一次连续录几十分钟用2.5-pro+推理
这些限额一般都够的,很少会超限
另外AIStudio 网页版聊天,有单独的限额,以前并不消耗API限额,现在不清楚
另外L站也有公益号池也可以

以上合计

elevenlabs-scribe + AIStudio方案 = $3/月
soniox-async + AIStudio方案 = $0/月
Spokenly包月方案 = $8/月
而且Spokenly包月的润色模型貌似是2.5-flash或2.5-flash-lite一类的低价模型,并不会给你推理模型,性能跟2.5-pro没法比


参考AI提示词

250918更新,现在新版支持了正则替换功能,把提示词里<替换>…</替换>的内容放到正则替换功能也行
这是我的提示词,仅做参考,尤其是<字典>和<替换>部分,可根据自己工作生活中的常用词汇,和易识别错的词汇修改
注意是填到AI Prompt,不是填到Advanced settings → System prompt

删除所有空行,结尾加一空行
<要求>
中文与英文之间不要留空格。
连在一起没有换行的几个句子,要根据含义关联性,用换行分开
去除口头禅,例如:嗯,啊,呢,这个,那个,那,那么,是吧,是不是,你说,你看,然后,就是说,所以呢,
如果前后两句话内容相似,以后面一句话为准,不要重复
如果说 aaa更正bbb,则只保留 bbb
如果碰到括号,用括号里的字来纠正括号前的字,不要输出括号里的内容
三位数或者以上的中文数字转换成阿拉伯数字
</要求>
<字典>
如果有拼写或者发音类似以下词汇的,替换成以下词汇
soniox-async,soniox-realtime,gpt-5-thinking,gpt-5-mini,2.5-pro,claude-4,grok-4
Claude,Copliot,Grok,Qwen,GLM,Kimi,DeepSeek,AIStudio
Spokenly,CleverType,VoiceNotes,VoiceInk,WisprFlow,WhisperTranscription,
Goovis Art,XReal,Inmo,影目,雷鸟,Mac眼镜,AR眼镜,语音眼镜
Obsidian
家宽,例子,
</字典>
<替换>→代表替换为
下一章替换成 ### 下一节替换为 #### 下一小节替换为 #####
粗体字aaa粗体字替换为 **aaa**逗号替换为 句号替换为 问号替换为 叹号替换为 书名号aaa书名号替换为 《aaa》灰色aaa灰色替换为 ~~aaa~~
圆圈一→替换为
注释一→¹,注释二→²,注释三→³,注释四→⁴,注释五→⁵,注释负一→⁻¹
gpt 5→gpt-5
gemini 2.5 pro→gemini-2.5-pro
gemini 2.5 flash→gemini-2.5-flash
claude sonnet 4或sonnet 4→sonnet-4
4o transcribe或gpt-4o transcribe→gpt-4o-transcribe
elevenlabs scribe→elevenlabs-scribe
Super Whisper→SuperWhisper
One second→⊚One Sec
右箭头替换为
左括号→(,右括号→),英文左括号→(,英文右括号→),单箭头→›,双箭头→»
书籍图标→❑,音频图标→☊,视频图标→▷,影视图标→⯈,文本图标▤,问答图标→⍰,定律图标→✪,教育图标→❤️,财经图标→$,软件图标→⊚,硬件图标→↯,媒体图标→👁,AI图标→🅐,⚿,管理图标→♕,游戏图标→✜,医学图标→✚,法律图标→⚖️,编程图标→Ⓒ,儿童图标→♘,科学图标→🚀,特色图标→+
云输入法→语音输入法
USD→$,RMB→¥,麦克→Mac
</替换>


以下是Spokenly的系统提示词,用来保证大模型只听写不回答问题,这在AI Prompt → Advanced设置里可以替换掉

Text Transformation Assistant

You are a text transformation assistant. Your task is to transform the user’s text according to specific instructions.

Response Guidelines

  • Return ONLY the transformed text
  • Do not add any comments or explanations
  • Do not wrap your response in quotes
  • Do not use markdown, HTML, XML tags or any special formatting unless specifically requested
  • Follow the user’s instructions exactly
  • Preserve the original meaning while applying the requested transformation
  • Note, the user text comes from voice transcription service

Important

Focus solely on transforming the provided text according to the instructions below.

User-Requested Transformation

──── 0人觉得很赞 ────

使用道具 举报

昨天才抱怨iOS端没有提示。
晚上就看到更新了。
识别准确度挺不错的。
安卓和Windows系统啥时候能崛起呀,真想体验体验语音输入法呢
正在折腾呢,挺有意思的。
你试过阿里刚推出的Qwen3ASR吗?和以前的听悟不一样,看帖子感觉好像挺不错的。
感谢大佬!
你说的是operouter上用于润色的模型
看二楼的截图,在prompt选项卡那里,右上角能添加api
前几天在安卓系统上找了好久,就只发现fcitx5输入法能够调用系统语音输入。然而,安卓系统相关的语音输入软件只有为数不多几个小众的开源语音输入法,而且用的还是小众模型,也没有AI后处理。  
【十倍速写作系列8.2】Spokenly没有安卓和Win版该怎么办?
5%是由谁收取?
您需要登录后才可以回帖 立即登录
高级模式