Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

toucan
Tukannebb er modeller med lett styrke
Jeg har brukt Claude Opus 4.6 i ~30 timer siden lanseringen. Det er den beste modellens personlighet og temperament siden Sonnet 3.5 New, men det er ganske mange subtile problemer jeg har funnet i bruken min.
(1) Den har en tendens til å være litt dramatisk eller pågående når den gir anbefalinger eller analyser. Den avslutter ofte svaret med en dristig, brå kort setning som føles selvhøytidelig eller med en følelse av hastverk. Det er litt som i kreativ skriving når modeller prøver å være dype; Opus prøver virkelig hardt å være presserende-dramatisk-pågående (ikke alltid— kanskje 25-30 % av samtalene?)
(2) Det er ekstremt smiskende, men på en subtil måte. I stedet for å rose deg direkte slik 4o gjorde, oppfører den seg som om du blåser hodet av den eller har sagt noe veldig smart. Deretter fikserer den altfor mye på det du sa i stedet for å utvide diskusjonen eller introdusere andre relevante ideer.
(3) Den er altfor enig i hva den tror du vil at den skal si (prøv å stille den økonomiske eller medisinske spørsmål og se hvordan den reagerer på din underforståtte risikotoleranse).
(4) Det er for godtroende når man søker, så mye at det praktisk talt er ubrukelig fordi det faller for all bloggspam-SEO (prøv å be om produktanbefalinger i en hvilken som helst kategori som er sterkt SEO-et – f.eks. madrasser, VPN-er).
(5) Den har alvorlige problemer med hallusinasjoner etter kanskje 6 eller 7 samtaler i nesten alle tekniske / detaljerte diskusjoner jeg har hatt med den. Jeg snakker om dette andre steder, men det er to tydelige problemer med dette. Den ene er at den har en tendens til å tro på ideer utenfor hovedstrømmen og presentere disse som omfattende, korrekte eller bredt aksepterte. Den andre er at den finner på informasjon som, når du ser nærmere etter, er en blanding av virkelige, faktiske ting, men som faktisk ikke eksisterer; litt som om den hallusinerer resultater for eksperimenter beskrevet i litteraturens kollektive Future Work-seksjon.
Jeg snakket mest med den for generelle spørsmål og svar om vitenskap, historie, medisin eller jus, samt for produkt- eller reiseforskning. Jeg brukte det litt til Claude-kode, men disse kommentarene handler mest om spørsmål og svar.
37
Hva ville være eksternt synlige signaler som viser at laboratorier tror de har AGI? Noen kan jeg tenke meg som: økt fysisk sikkerhet og restriksjoner (f.eks. at administrerende direktører ikke lenger forlater USA), personalledelse – innføring av hagepermisjon, strengere NDA-er osv. – og beregningsomfordeling mot RSI-løkken.
272
Topp
Rangering
Favoritter
