搜索射箭社相关的推文与用户

2023.02.17 10:00

🎥 AKB48 Team TP｜Team TP 社團課 EP7.射箭社 🎥 影片這裡看🌐 Team TP 社團課首度走出戶外來到射箭場要來比拚大家的射箭技術究竟誰會是TP的神射手呢 #AKB48TeamTP# #TeamTP# #TTP# #全新企劃# #TeamTP社團課# #射箭社# #神射手#

显示更多

0

1

70

11

转发到社区

王局拍案@wangjupaian

2026.03.27 02:29

【柯文哲一审判17年：当庭否认贪腐，民众党号召上凯道】 2026年3月26日下午台北地院就京华城案、政治献金案等四案一审宣判柯文哲被判应执行有期徒刑17年并褫夺公权6年判决出炉后柯文哲与民众党成员在台大国际会议中心召开中外记者会柯文哲在会上否认贪腐强调自己未收受贿赂并称京华城案是依法办理不存在图利问题他指控此次判决属于“政治判决” 批评赖清德政府借司法进行政治整肃并表示“赖清德，我不会投降” 对于判决理由柯文哲与民众党方面质疑证据不足认为法院以模糊情节推定收贿缺乏足够物证支撑并批评这是“先射箭再画靶” 针对法院认定的210万元款项柯方称该笔资金属于捐给民众党专户的政治献金并非进入个人账户记者会上民众党立委黄国昌代表党内发布“全国动员令” 号召支持者于3月29日下午前往凯达格兰大道集会主题为“上凯道、讨公道” 抗议司法不公关于后续政治影响按台湾现行规定柯文哲因一审刑度超过10年即使案件尚未定谳也将无法登记参选2028年总统选举法院在宣判后并未解除既有强制处分柯文哲仍须维持7000万元新台币交保并继续佩戴电子脚环

显示更多

0

84

352

31

转发到社区

Cindy胖迪🥰@CindyCreation

2025.11.12 08:06

老徐终于安排团队给我们成都小伙伴放饭了！🍚 @star_okx 是要准备拉盘了吗？🥹 周六和小伙伴们一起骑马射箭🏹 @Haiteng_okx 咱俩能骑一匹么？感谢宝子们邀请！ @divemisa @Cayne_okx @OKX_yuki @Mercy_okx @Cryptosis9_OKX 听说我老师也来成都啦！啊啊啊 @UnicornBitcoin 多见好友齐聚成都！期待住了！❤️ #OKX# $OKB @okxchinese

显示更多

0

66

65

2

转发到社区

阑夕@foxshuo

2025.03.05 01:56

此时就需要补充一个推理模型的特点了，那就是推理模型的训练过程特别注重奖惩机制，通过思维链的暴露我们也能看出它通常都会想得缜密、生怕自己没有摸清用户意图，以致于经常到了「谄媚」的程度。这种训练模式的好处在于，可以让推理模型拥有举一反三的能力，能够更加灵活和完善的去完成任务，但是相对的，为了完成任务，推理模型也会在「不自知」的情况下，同时表现出欺骗性，当用户要求它写一篇作文时，哪怕缺少论据，它也会为了不辜负用户的指令，去自行编造一些材料出来，以便于自圆其说。这就是大模型行业至今仍在致力于解决的「幻觉」现象。下图就是一个经典用例，用户为DeepSeek-R1设立了阿里估值逻辑改变的靶心，于是DeepSeek-R1就逼迫自己去对着靶心射箭——它不会也不能反驳用户，或是质疑阿里的估值逻辑到底变没变——于是就「情不得已」的编造出了可以用来证明用户观点的数据。（4/n）

显示更多

0

5

47

2

转发到社区

阑夕@foxshuo

2025.02.11 10:53

在技术专家看来，DeepSeek-R1-Zero要比R1更加漂亮，因为人工干预的成分更低，纯粹是模型自己摸索出了在推理几千步里寻找到最优解的流程，对先验知识的依赖没那么高，但因为没有做对齐处理，R1-Zero基本上没法交付给用户使用，比如它会各种语言夹杂着输出，所以实际上DeepSeek在大众市场得到认同的R1，还是用了蒸馏、微调甚至预先植入思维链这些旧手段； - 这里涉及到一个能力和表现并不同步的问题，能力最好的模型未必是表现最好的，反之亦然，R1表现出色很大程度上还是因为人工使劲的方向到位，在训练语料上R1没有独占的，大家的语料库里都会包含古典诗词那些，不存在R1懂得更多，真正的原因可能在于数据标注这块，据说DeepSeek找了北大中文系的学生来做标注，这会显著提高文采表达的奖励函数，一般行业里不会太喜欢用文科生，包括梁文锋自己有时也会做标注的说法不只是说明他的热情，而是标注工程早就到了需要专业做题家去辅导AI的地步，OpenAI也是付100-200美金的时薪去请博士生为o1做标注； - 数据、算力、算法是大模型行业的三个飞轮，这一波的主要突破来自算法，DeepSeek-R1发现了一个误区，就是传统算法里对于价值函数的重视可能是陷阱，价值函数倾向于对推理过程的每一步去做判断，由此事无巨细的把模型向正确的道路上引导，比如模型在解答1+1等于几的时候，当它产生1+1=3的幻觉了，就开始惩罚它，有点像电击疗法，不许它犯错； - 这种算法理论上没毛病，但也非常完美主义，不是每道题目都是1+1这样简单的，尤其是在长思维链里动辄推理几千个Token序列的情况下，要对每一步都进行监督，投入产出比会变得非常低，所以DeepSeek做出了一个违背祖训的决定，不再用价值函数去满足研究时的强迫症，只对答案进行打分，让模型自己去解决怎么用正确的步骤得到答案，即便它存在1+1=3的解题思路，也不去过度纠正，它反而会在推理过程里意识到不对劲，发现这么算下去得不出正确答案，然后做出自我纠正； - 算法是DeepSeek之于整个行业的最大创新，包括要怎么分辨模型是在模仿还是推理，我记得o1出来后有很多人声称通过提示词让通用模型也能输出思维链，但那些模型都没有推理能力，实际上就是模仿，它还是按照常规模式给出了答案，但是因为要满足用户要求，又回过头基于答案给出思路，这就是模仿，是先射箭后画靶的无意义动作，而DeepSeek在对抗模型破解奖励方面也做了很多努力，主要就是针对模型变得鸡贼的问题，它逐渐猜到怎么思考会得到奖励，却没有真的理解为什么要这么思考；（3/n）

显示更多