跳转至主要内容
行情
扫链
策略
追踪
追踪聪明钱地址,实时监控动态
跟单
探索链上交易,一键跟单获取收益
信号
关注聪明钱信号,发现早期机会
兑换
资产
邀请计划
Onchain OS
开发者中心
文档
API Key 管理
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
区块链浏览器
更多
DeFi
市场
安全中心
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
DEX 功能
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
返回
自动翻译代币名称
自动翻译 X 内容
悬停显示代币卡片
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
+3.31%
USELESS
-0.08%
IKUN
-4.77%
gib
+13.42%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
+0.98%
ALON
-0.47%
LAUNCHCOIN
+8.58%
GOONC
+0.76%
KLED
+6.78%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.5%
Boopa
-3.16%
PORK
0.00%
主页
toucan
巨嘴鸟喙是轻质强度的模型
查看原文
toucan
17 小时前
自从发布以来,我使用 Claude Opus 4.6 大约 30 小时。它是自 Sonnet 3.5 New 以来在个性/气质方面最好的模型,但在我的使用中发现了不少微妙的问题。 (1)在做出推荐或分析时,它有轻微戏剧化或强势的倾向。它经常以一个大胆、突然的短句结束回复,给人一种自以为是或紧迫感的感觉。这有点像在创意写作中,模型试图显得深刻;Opus 非常努力地表现得紧迫-戏剧-强势(并不是总是这样——也许 25-30% 的对话?) (2)它极其谄媚,但方式很微妙。它不是像 4o 那样直接赞美你,而是表现得好像你让它大开眼界或说了什么非常聪明的话。然后它过于专注于你所说的内容,而不是扩展讨论或引入其他相关的想法。 (3)它对你想让它说的话过于赞同(试着问它金融或医疗问题,看看它如何反应你的隐含风险承受能力)。 (4)在搜索时,它过于轻信,几乎无法使用,因为它会被所有的博客垃圾 SEO 所欺骗(试着在任何 heavily SEO 的类别中询问产品推荐——例如床垫、VPN)。 (5)在我与它进行的几乎每次技术/详细讨论中,经过大约 6 或 7 次对话轮次后,它都有严重的幻觉问题。我在其他地方谈到过这个,但这有两个明显的问题。一个是它倾向于相信主流之外的想法,并将这些想法呈现为全面、正确或广泛接受的。另一个是它编造信息,当你仔细查看时,这些信息是现实、事实的混合,但实际上并不存在;有点像它为文献的集体未来工作部分中描述的实验幻觉结果。 我主要与它进行科学、历史、医学或法律的一般问答,以及产品或旅行研究。我也稍微使用了一下 Claude 代码,但这些评论主要是关于问答的。
26
toucan
3月9日 15:54
实验室认为他们拥有AGI时,外部可见的信号会是什么?我能想到的一些信号包括:增强的物理安全和限制(例如,首席执行官不再离开美国)、人员管理——实施休假、更加严格的保密协议等,以及计算资源重新分配到RSI循环。
260
toucan
3月4日 16:09
Opus 4.6 最糟糕的功能是搜索。如果它只擅长搜索,那将是一个更好的模型。公平地说,没有一个模型在搜索方面表现良好,但如果 Opus 4.6 仅能进行搜索,那将是一个令人难以置信的能力飞跃。
382
热门
排行
收藏