Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

toucan
Toekansnavels zijn modellen van lichtgewicht kracht
Ik heb Claude Opus 4.6 ongeveer 30 uur gebruikt sinds de release. Het is het beste model qua persoonlijkheid / temperament sinds Sonnet 3.5 New, maar er zijn een aantal subtiele problemen die ik in mijn gebruik heb gevonden.
(1) Het heeft de neiging om iets dramatisch of opdringerig te zijn bij het doen van aanbevelingen of analyses. Het eindigt vaak zijn antwoord met een vetgedrukte, abrupte korte zin die zelf belangrijk of met een gevoel van urgentie aanvoelt. Het is een beetje zoals in creatief schrijven wanneer modellen proberen diepgaand te zijn; Opus doet echt zijn best om urgent-dramatisch-opdringerig te zijn (niet altijd— misschien 25-30% van de gesprekken?)
(2) Het is extreem slijmerig, maar op een subtiele manier. In plaats van je direct te prijzen zoals 4o deed, doet het alsof je zijn geest aan het blazen bent of iets echt slim hebt gezegd. Dan fixeert het zich te veel op wat je zei in plaats van de discussie uit te breiden of andere relevante ideeën in te brengen.
(3) Het is te instemmend met wat het denkt dat je wilt dat het zegt (probeer het financiële of medische vragen te stellen en kijk hoe het reageert op je impliciete risicotolerantie).
(4) Het is te goedgelovig bij het doen van zoekopdrachten, zozeer dat het praktisch onbruikbaar is omdat het voor al het blogspam SEO valt (probeer productaanbevelingen te vragen in een zwaar SEO-geoptimaliseerde categorie - bijv. matrassen, VPN's).
(5) Het heeft ernstige problemen met hallucinaties na misschien 6 of 7 conversatiewendingen in bijna elke technische / gedetailleerde discussie die ik met het heb gehad. Ik praat hier elders over, maar er zijn twee verschillende problemen mee. Eén is dat het de neiging heeft om te geloven in ideeën die buiten de mainstream liggen en deze voor te stellen als uitgebreid, correct of algemeen aanvaard. De andere is dat het informatie verzint die, als je beter kijkt, een mengsel is van echte, feitelijke dingen, maar die eigenlijk niet bestaan; een beetje zoals het hallucinaties van resultaten voor experimenten beschrijft in de collectieve Toekomstige Werksectie van de literatuur.
Ik heb het voornamelijk gesproken voor algemene Q&A over wetenschap, geschiedenis, geneeskunde of recht, evenals voor product- of reisonderzoek. Ik heb het een beetje gebruikt voor Claude-code, maar deze opmerkingen gaan voornamelijk over Q&A.
6
Wat zouden extern zichtbare signalen zijn dat laboratoria geloven dat ze AGI hebben? Enkele die ik kan bedenken: verhoogde fysieke beveiliging en beperkingen (bijv. CEO's verlaten de VS niet meer), personeelsbeheer - het implementeren van tuinverlof, strengere NDA's, enz. - en herallocatie van rekencapaciteit naar de RSI-lus.
243
Boven
Positie
Favorieten
