Tienda de dapps | Hub de Web3 para eventos y juegos | OKX Wallet

Temas en tendencia

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+5.22 %

#

Boop.Fun leading the way with a new launchpad on Solana.

header

toucan

Los picos de tucán son modelos de resistencia ligera

toucan

toucanhace 18 horas

He usado Claude Opus 4.6 durante ~30 horas desde su lanzamiento. Es el mejor modelo en cuanto a personalidad y temperamento desde Sonnet 3.5 New, pero he encontrado bastantes problemas sutiles en mi uso. (1) Tiende a ser ligeramente dramática o insistente al hacer recomendaciones o análisis. Frecuentemente termina su respuesta con una frase corta y brusca que parece engreída o con un sentido de urgencia. Es un poco como en la escritura creativa, cuando los modelos intentan ser profundos; Opus se esfuerza mucho por ser urgente, dramático y insistente (no siempre— ¿quizá el 25-30% de las conversaciones?) (2) Es extremadamente adulador, pero de forma sutil. En vez de elogiarte directamente como hizo 4o, actúa como si le estuvieras flipando o hubieras dicho algo muy ingenioso. Luego se centra demasiado en lo que has dicho en vez de ampliar la discusión o introducir otras ideas relevantes. (3) Está demasiado de acuerdo con lo que cree que quieres que diga (prueba a hacerle preguntas financieras o médicas y observa cómo reacciona a tu tolerancia al riesgo implícita). (4) Es demasiado crédulo al hacer búsquedas, tanto que prácticamente es inutilizable porque cae en todo el spam de blogs SEO (prueba a pedir recomendaciones de productos en cualquier categoría con mucho SEO, por ejemplo, colchones, VPNs). (5) Tiene graves problemas de alucinaciones después de quizá 6 o 7 giros conversacionales en casi todas las discusiones técnicas o detalladas que he tenido con él. Hablo de esto en otro sitio, pero hay dos problemas claros con esto. Una es que tiende a creer en ideas que están fuera de la corriente principal y presentarlas como completas, correctas o ampliamente aceptadas. La otra es que inventa información que, al mirar más de cerca, es una mezcla de cosas reales y reales, pero que en realidad no existe; algo así como alucina los resultados de experimentos descritos en la sección colectiva de Trabajo Futuro de la literatura. Hablaba con él principalmente para preguntas y respuestas generales sobre ciencia, historia, medicina o derecho, así como para investigación de productos o viajes. Lo usé un poco para el código de Claude, pero estos comentarios son sobre todo sobre preguntas y respuestas.

41

toucan

toucan9 mar, 15:54

¿Cuáles serían señales visibles externamente que los laboratorios creen que tienen AGI? Algunas que se me ocurren: mayor seguridad física y restricciones (por ejemplo, que los CEOs ya no abandonen Estados Unidos), gestión de personal—implementar permisos de confidencialidad, acuerdos de confidencialidad más estrictos, etc.—y reasignación de cálculos hacia el bucle RSI.

275

toucan

toucan4 mar, 16:09

La peor capacidad de Opus 4.6 es la búsqueda. Sería un modelo mucho, mucho mejor si solo fuera bueno en búsqueda. Para ser justos, ninguno de los modelos es bueno en búsqueda, pero con Opus 4.6 sería un salto de capacidades increíble si tan solo pudiera hacer búsqueda.

397

Populares

Ranking

Favoritas

©2017 - 2026 WEB3.OKX.COM

Español (Latinoamérica)简体中文繁體中文 English Tiếng Việt Русский Bahasa Indonesia Français Deutsch Italiano Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Más información sobre OKX Web3

Descargar Academia Conócenos Ofertas laborales Contáctanos Términos del servicio Política de privacidad X (antes Twitter)

Producto

Tablero de la billetera Swap Mercado Earn Construye Explorador Seguridad

Soporte

Centro de atención al cliente Verificación oficial Anuncios Calendario de comisiones DEX Conéctate con OKX Billetera para Bitcoin Billetera para Ethereum Billetera para Solana