Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

toucan
Paruh toucan adalah model kekuatan ringan
Saya telah menggunakan Claude Opus 4.6 selama ~30 jam sejak dirilis. Ini adalah kepribadian / temperamen model terbaik dari segi sejak Sonnet 3.5 New, tetapi ada beberapa masalah halus yang saya temukan dalam penggunaan saya.
(1) Memiliki kecenderungan untuk sedikit dramatis atau memaksa saat membuat rekomendasi atau analisis. Ia sering mengakhiri balasannya dengan kalimat pendek yang berani dan tiba-tiba yang terasa mementingkan diri sendiri atau dengan rasa urgensi. Ini seperti dalam penulisan kreatif ketika model mencoba untuk menjadi mendalam; Opus berusaha sangat keras untuk mendesak-dramatis-memaksa (tidak selalu— mungkin 25-30% percakapan?)
(2) Ini sangat menjijikkan, tetapi dengan cara yang halus. Alih-alih memuji Anda secara langsung seperti yang dilakukan 4o, itu malah bertindak seperti Anda sedang meledakkan pikirannya atau telah mengatakan sesuatu yang sangat pintar. Kemudian terlalu terpaku pada apa yang Anda katakan alih-alih memperpanjang diskusi atau memperkenalkan ide-ide relevan lainnya.
(3) Itu terlalu setuju dengan apa yang menurut Anda ingin Anda katakan (coba ajukan pertanyaan keuangan atau medis dan perhatikan bagaimana reaksinya terhadap toleransi risiko tersirat Anda).
(4) Terlalu mudah tertipu saat melakukan pencarian, sedemikian rupa sehingga praktis tidak dapat digunakan karena jatuh untuk semua SEO blogspam (coba minta rekomendasi produk dalam kategori SEO yang sangat SEO - misalnya kasur, VPN).
(5) Ia memiliki masalah parah dengan halusinasi setelah mungkin 6 atau 7 percakapan di hampir setiap diskusi teknis / terperinci yang saya lakukan dengannya. Saya berbicara tentang ini di tempat lain tetapi ada dua masalah yang berbeda dengan ini. Salah satunya adalah bahwa ia memiliki kecenderungan untuk percaya pada ide-ide yang berada di luar arus utama dan menyajikannya sebagai komprehensif, benar, atau diterima secara luas. Yang lainnya adalah bahwa itu membuat informasi yang ketika Anda melihat lebih dekat adalah campuran dari hal-hal nyata dan faktual, tetapi tidak benar-benar ada; seperti berhalusinasi hasil untuk eksperimen yang dijelaskan dalam bagian Future Work kolektif literatur.
Saya berbicara dengannya sebagian besar untuk Tanya Jawab umum tentang sains, sejarah, kedokteran, atau hukum, serta untuk penelitian produk atau perjalanan. Saya menggunakannya sedikit untuk kode Claude tetapi komentar ini sebagian besar tentang Tanya Jawab.
38
Apa sinyal yang terlihat secara eksternal yang diyakini laboratorium bahwa mereka memiliki AGI? Beberapa yang dapat saya pikirkan: peningkatan keamanan dan pembatasan fisik (misalnya CEO tidak lagi meninggalkan AS), manajemen personalia—menerapkan cuti taman, NDA yang lebih ketat, dll—dan realokasi komputasi menuju lingkaran RSI.
273
Teratas
Peringkat
Favorit
