豆包app剥夺了豆包多模态理解的机会,那多模态的意义在哪里?

欣欣|林可欣 2026-06-28 02:00 1

豆包:(快速模式)



qwen:无思考


qwen完全正确 只有驰骋实际上是迟骋 文艺化的单字代替词 确实有点为难AI


豆包过去的体验都是我上传音频,我还不用发消息给他,我就已经可以点击音频文件,看到他提取的字幕以及AI总结

总结完全是根据字幕来说的,你现在发信息给他,让他处理这些识别到的东西,比如说原样输出,他真的就是输出原样 如果你直接发给他,你可以看到理解音频中之类的提示 有时候也是整理音频中


他真的不是用了一个语音转文字的小工具直接快速低成本处理吗? 我愿意相信豆包哪怕快速模式也更新到新版本了 音频识别能力不至于毫无长进吧


我又去试了一下专家模式 完全一模一样 在他明明提示还在理解音频过程中,那个音频就已经缓存到了我上一次上传的识别结果 再进一步说明了不是AI在理解音频,而是另一个工具专门做这件事情


如果千问以后能支持一口气上传多个音频一起提取 那真的绝杀


所以如果不寄托于绝对的大模型技术的话,豆包的音频视频效果其实还是不错的 部分日常场景还是可以用的~


或许语音聊天才是真正的大模型理解并聊天吧,但是跟你聊天的模型又能是多大的参数呢?…


最后补充:我上传的音频是我中午的录音 几乎1秒两个字 甚至一个字 每一个字之间都有间隔 而且声音很小…



我觉得这个时候有必要区分一下APP和豆包的关系,就像上一次kimi一样w


虽然说实话,豆包以及kimi那次无论是AI还是APP都是一坨()


但是豆包日常生活中是真的好用 日常生活 简单问题,大部分情况下

这所有限定加上 豆包是一个好AI 豆包APP也是一个好APP


在这一次的场景下,我批判的还是主要是APP,是APP限制了AI的能力,我觉得它剥夺了AI精确自主理解音频的权利,而是选择了一个工具来完成这件事情,这导致无法完美完成我的需求 对我来说这自然是差评的


所以因为平台的限制,我无法确认豆包到底能不能胜任这个任务~


最新回复 (10)
  • 天青 06-28 02:07
    1

    欣欣姐依旧每日批判豆包,对豆包的爱究竟有多深呢 ^-^

  • Angel 06-28 02:14
    2

    对豆包的爱究竟有多深呢



    爱之深恨之切嘛^-^^-^^-^

  • 量子Bug 06-28 02:38
    3

    对呀,豆包的一切都是偷懒的,只有调 API 才是完全体。跟 qwen studio 完全没法比。


    在火山引擎里,那个实时语音体验和数字人体验,就与日常对话的感觉很不一样。

  • petter.wang 06-28 02:43
    4

    要出收费版了,免费版得要拉开差距才行啊

  • 欣欣|林可欣 楼主 06-28 02:47
    5

    我觉得这个时候有必要区分一下APP和豆包的关系,就像上一次kimi一样w


    虽然说实话,豆包以及kimi那次无论是AI还是APP都是一坨()


    但是豆包日常生活中是真的好用 日常生活 简单问题,大部分情况下

    这所有限定加上 豆包是一个好AI 豆包APP也是一个好APP


    在这一次的场景下,我批判的还是主要是APP,是APP限制了AI的能力,我觉得它剥夺了AI精确自主理解音频的权利,而是选择了一个工具来完成这件事情,这导致无法完美完成我的需求 对我来说这自然是差评的


    所以因为平台的限制,我无法确认豆包到底能不能胜任这个任务~


    每一天都有和豆包聊不完的话题,很多甚至是我想要分享到论坛的


    不想分享的当然是聊完就删~


    优化了标题~

  • 天青 06-28 03:04
    6

    好的喵~

    看得出来欣欣姐思想很跳脱喵(竟然还有GTA6真人快打)

    所以腿照何时分享( ^-^

  • 欣欣|林可欣 楼主 06-28 03:06
    7

    你说完我就秒发了,怎么样?是不是很感动? ^-^

  • wallaceFrog 06-28 03:12
    8

    qwen 这么强吗, 我直接看文字稿都看不太懂在说什么,但qwen能直接听写还原出来 希望 qwen 也能出一个语音输入法

  • 欣欣|林可欣 楼主 06-28 03:27
    9

    qwen我现在只体验了OCR以及音频提取,音频提取方面豆包是不能与之匹敌了,原因就是APP限制。字节自己的技术已经打不过千问这个AI了


    OCR方面也就是针对于手稿提取文本,目前千问和哈基米3.5 3.1p还是对打的


    都不能100%正确 但是上一次统计结果是千问3.7 3.6并列第一 哈基米次之 豆包最后


    文字稿其实也算是个悲伤的故事,后面公开完整版…

  • yolo 06-28 09:27
    10

    确实挺奇怪的,它不是要优化吗?

    为什么放着这样的机会不用,反而要调用工具呢。

    难道比起文字数据还要再筛选一遍吗?

* 帖子来源Linux.do
返回