注册并分享邀请链接,可获得视频播放与邀请奖励。

Y11 的个人资料封面
Y11 的头像

Y11 (@seclink)

@seclink
找工作、找面试题、改简历、模拟面试。关注: 创业(冷启动) | 认知心理学|智能体 | 强化学习 building:
637 正在关注    29.8K 粉丝
@lidangzzz 国内看到好东西,第一反应往往不是‘买一个’,而是快速抄一个 ... 竞争环境,很恶劣 ...
立党观察原则 原则一·留存原则:判断一个账号有没有料,看留存,大部分推友都不傻,没干货的早被取关了,能在中推圈稳定留下百万人本身就是一种筛选。光靠抽象和擦边走不到百万级,最后撑住盘子的还是推文质量和思考密度。 原则二·拆分原则:评价立党时,先把"人设/风格"和"具体观点"拆开看。擦边、黄推、抽象这些都是流量钩子,是把大家勾进来的手段,不是账号的本质;讨厌风格不等于观点没价值,喜欢风格也不等于观点就对,别拿手段当本质去评价一个人。 原则三·刺痛原则:一条推让我们感到刺痛、不适时,先别急着划走或反驳,停一下问自己:是他说错了,还是只是冒犯到我了?这两件事不是一回事——顺耳的话谁都会说,扎心的话才逼我们想一下,把"冒犯"当成"错误"就会错杀有价值的内容。 原则四·分类原则:评价立党时把内容分类看,别一锅端——技术贴、预测贴是他真正有洞见的部分,情绪化、娱乐化的推是另一回事,不能因为后者就把前者也否了。 比如这一条推文,就极其有洞见, 不要错过👇
显示更多
半年来,我一直反复介绍的四个原则: 原则1,AI时代的第一性原理:LLM一定会越来越聪明,benchmark越来越高,context window越来越大,reasoning越来越长,价格越来越便宜,inference速度越来越快, 这是scaling law今天依然持续的具体方向,不用你质疑,这是你唯一的信仰和行业最大共识。 原则2, 管理学设计红利:从我提出“自动编程机”、行业提出vibe coding、SWE-Agent以来,从cursor到manus到metaGPT到claude code, 人们逐渐把LLM Agent抽象成人,把软件管理、工程管理、管理学等等所有方法论直接套在multi agent workflow上面,严格按照人类管理学的方式去拆分、review、执行、反馈、循环, 这一波很快红利也吃完了,因为 a. LLM Agent毕竟不是人,存在着memory有限、执行力有限、function calling工具有限等等局限;b. 人类用于管理学的各种方法,直接套在LLM Agent上有利有弊,红利迅速挖掘完,剩下的弊端大量存在,比如过度交流、七手八脚、随时停工等等。 原则3,LLM Agent的职位和定位:绝大多数人,把claude code当做一个工具,最终的产品是用工具来完成的,最终的代码也是人与SWE Agent一步一步interactively迭代产生、迭代review、迭代部署的, 而我反复告诉过所有人,也是我又一条首次提出的原创观点,multi agent未来越来越会变成本身的一个runtime,这个runtime就运行在production里面,产品和面向的对象消费的,不只是软件或者SaaS本身,而是这个runtime实时产生的内容, 所以claude code/opencode/codex/openclaw这些agent,本身将会越来越多地被嵌入到产品本身,在产品关键逻辑和决策中发挥作用, 而绝对不仅仅停留在开发层面,把产品仅仅局限在SWE Agent单向产出和部署的代码和服务上。 原则4,也是我一直强调的,就是当人们试用了SWE Agent这种强大工具之后,人们还有哪些low hanging fruits可以寻找?SWE Agent目前最适合解决哪类问题? 我反复讲过的一点是,对于一个设计复杂、环境复杂、场景复杂、用户复杂、体量复杂、范式复杂、一切开放、一切无解的超级复杂系统,这并不是SWE Agent最擅长的领域,相反这些场景需要人去和环境、客户、场景、性能一点点迭代才能打磨好的产品, 比如微信的100种功能,Facebook的一大堆功能模块和十几年来迭代出来的极其复杂的infra,支付宝后面成千上万的基金和风控,这些都不是AI Agent能一次性解决的问题,相反这些场景和问题不仅高度开放,更高度依赖人的观察、人的设计、人的反馈、人的定义。 AI Agent最适合的场景,甚至是我原创提出goal driven( a. 定义简单、干净、封闭(一道数学系、一个确定性最小系统、一个编译器、一种算法、一个lean证明、一个电路或者信号模拟、蛋白质模拟和预测、CAD设计与仿真、游戏关卡测试、行为经济学仿真,都是well-defined problems,都有非常明确且封闭的边界) b. 解决问题的搜索空间巨大(可能有100~10万种天马行空的解决方案,并且绝大多数都是错的) c. 容易验证,容易verify,验证的成本是设计成本的千分之一(比如编译器,设计可能需要几万行甚至几十万行,验证只需要2000个test case全面覆盖,或者一道数学题,解决需要100步,验证答案只需要带入或者lean编译这一步) 当然,写一段简单的代码,定义一个封闭、完整、定义完全的编程问题,符合上面这些定义, 但是设计一套巨大、复杂、开放、与现实世界深度绑定、高度耦合的系统,让这个系统复杂迭代、添加功能、沟通、review、工程管理、产品管理,这些问题都远远超出这个范畴,很明显是不符合这个要求的。 人们未来探索这些multi agent产品和场景的最关键出路,在于继续挖掘这一类问题,而不是盲目把agent比作一个人,乱套各种管理学方法。 原则5,这一点我先保密,之后我再讲。
显示更多
@dotey 这意味着可能一个复杂任务提示词都跑不完就限流了... > Pro 的 20 美元用 Sonnet 只够大约六七百万 token 输入或一百多万 token 输出
问问大家:现在2B企业业务中,倒签和垫资很普遍吗?你们公司有这种情况吗?