DApp Store | Piattaforma Web3 per eventi e giochi | OKX Wallet

Argomenti di tendenza

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+12,92%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

toucan

I becchi tucano sono modelli di resistenza leggera

toucan

toucan15 ore fa

Ho usato Claude Opus 4.6 per circa 30 ore dalla sua uscita. È il miglior modello in termini di personalità / temperamento da Sonnet 3.5 New, ma ci sono diversi problemi sottili che ho riscontrato nel mio utilizzo. (1) Ha una tendenza a essere leggermente drammatico o insistente quando fa raccomandazioni o analisi. Spesso termina la sua risposta con una frase breve, in grassetto e brusca, che sembra auto-importante o con un senso di urgenza. È un po' come nella scrittura creativa quando i modelli cercano di essere profondi; Opus cerca davvero di essere urgente-drammatico-insistente (non sempre— forse il 25-30% delle conversazioni?) (2) È estremamente servile, ma in modo sottile. Invece di lodarti direttamente come faceva 4o, agisce come se tu gli avessi aperto la mente o avessi detto qualcosa di davvero intelligente. Poi si fissa eccessivamente su ciò che hai detto invece di estendere la discussione o introdurre altre idee rilevanti. (3) È troppo accondiscendente rispetto a ciò che pensa tu voglia che dica (prova a fargli domande finanziarie o mediche e osserva come reagisce alla tua tolleranza implicita al rischio). (4) È troppo credulone quando fa ricerche, tanto da essere praticamente inutilizzabile perché cade in tutte le trappole SEO dei blog (prova a chiedere raccomandazioni di prodotti in qualsiasi categoria pesantemente ottimizzata per SEO - ad esempio materassi, VPN). (5) Ha gravi problemi di allucinazioni dopo circa 6 o 7 turni di conversazione in quasi ogni discussione tecnica / dettagliata che ho avuto con esso. Ne parlo altrove, ma ci sono due problemi distinti in questo. Uno è che ha una tendenza a credere in idee che sono al di fuori del mainstream e a presentarle come complete, corrette o ampiamente accettate. L'altro è che inventa informazioni che, se guardi più da vicino, sono una miscela di cose reali e fattuali, ma che in realtà non esistono; è come se allucinasse risultati per esperimenti descritti nella sezione Future Work collettiva della letteratura. Ho parlato con esso principalmente per domande e risposte generali su scienza, storia, medicina o diritto, così come per ricerche su prodotti o viaggi. L'ho usato un po' per il codice di Claude, ma questi commenti riguardano principalmente domande e risposte.

2

toucan

toucan9 mar, 15:54

Quali sarebbero i segnali visibili esternamente che i laboratori credono di avere l'AGI? Alcuni che posso pensare: maggiore sicurezza fisica e restrizioni (ad es. i CEO non lasciano più gli Stati Uniti), gestione del personale—implementazione di congedi di giardinaggio, NDA più rigorosi, ecc.—e riallocazione delle risorse di calcolo verso il ciclo RSI.

239

toucan

toucan4 mar, 16:09

La peggiore capacità di Opus 4.6 è la ricerca. Sarebbe un modello molto, molto migliore se fosse solo bravo nella ricerca. A dire il vero, nessuno dei modelli è bravo nella ricerca, ma con Opus 4.6 sarebbe un incredibile salto di capacità se solo potesse fare ricerca.

359

Principali

Ranking

Preferiti

©2017 - 2026 WEB3.OKX.COM

Italiano 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Ulteriori informazioni su OKX Web 3

Scarica Academy Chi siamo Lavora con noi Contattaci Termini di servizio Informativa X (ex Twitter)

Prodotto

Dashboard del portafoglio Swap OKX NFT Guadagna Costruisci Explorer Sicurezza

Assistenza

Centro assistenza Verifica ufficiale Comunicazioni Schema commissioni DEX Connettiti con OKX Portafoglio bitcoin Portafoglio Ethereum Portafoglio Solana