搜索选择相关的推文与用户

9hours ago

微软考虑托管 #DeepSeek# V4 等开源模型帮助企业客户在 Copilot Cowork 中降低使用成本，对企业来说使用 GPT 或 Claude 太贵，所以不能无限量向员工提供。微软计划是使用 Azure 托管经过微调的 DS 模型，企业可以在使用 Copilot Cowork 时主动选择 DS 等开源模型，微软也会提供更优惠的价格。查看详情：

显示更多

0

转发到社区

DW 中文- 德国之声@dw_chinese

9hours ago

【赴肯亚参与海洋大会受阻台湾批中国霸凌外交】台湾海洋委员会周二（6月16日）表示，台湾代表团受邀赴肯亚蒙巴萨（Mombasa）出席“我们的海洋大会”（Our Ocean Conference）会前学术交流会议，但主办单位以不承认台湾护照为由，拒绝台湾学者入场，且肯亚移民局扣留其护照、手机并留置逾20小时。此外，部分海委会官员原先已获核准的入境许可也在出发前突然遭撤销。海委会在声明中指出，尽管台湾受正式邀请，但在实际参与程序受肯亚政府强力干预，包括大会报名系统自开放初期即无法由台湾IP正常连线，原可于报名系统中选择之“Taiwan”选项遭移除，使台湾代表须以人工方式递交报名资料，登录程序始终未完成。海委会谴责“肯亚政府扈从中国，阻碍台湾与国际社会正常专业交流”，并指其限制台湾学者的人身及通讯自由。台湾陆委会亦批评中国持续透过外交打压台湾国际参与空间，“再次暴露其以政治凌驾专业、以威权干预国际事务的霸权心态”；台湾外交部则呼吁盟国正视此事，“共同遏阻中国变本加厉的霸凌外交”。对此，肯亚外交部官员Korir Sing’oei透过讯息回应表示对此案“并不知情”，但补充说：“肯亚奉行‘一个中国’政策，并不承认台湾。如果该人士持台湾护照入境，这将违反我们的移民规定。” 中国外交部则尚未公开回应此事。

显示更多

0

转发到社区

华尔街日报中文网@ChineseWSJ

11hours ago

过去四个月来，特朗普一直将注意力集中在与伊朗的战争上，然而，此次在法国举行的G7峰会上，他别无选择，只能将注意力重新转回乌克兰冲突。马克龙将乌克兰议题设为优先事项，排在技术和全球经济讨论之前。

显示更多

0

1

0

转发到社区

颜克权@yantanzhang

2026.06.17 02:40

上一代女权主义者戴锦华：女性导演的电影全面崛起，是因为电影工业衰落了，电影这条大船要沉了，男性纷纷弃船而逃，而女性这个时候选择挺身而出接替他们。这老妖婆但凡看看女导演和女性向电影的票房就说不出这种话，甚至连女的自己都不看。优秀的女导演不是没有，但大部分都不行是事实，因为女人的格局注定很难拍出真正伟大的作品。

显示更多

0

1

15

0

转发到社区

瞎玩菌@Blind___Gamer

2026.06.17 01:28

当你不以赌球的想法去看世界杯，你才会发现世界杯的魅力，世界什么样取决你的认知和选择

0

1

0

转发到社区

郭宇 guoyu.eth@turingou

2026.06.16 21:55

我使用 AGS 来代替 Github 是为了最大化兼容 gh cli 和 llm 理解的 git 工作流，我很好奇 cursor 推出的 origin 是如何处理这个问题，如果他们不打算兼容 gh，人们是否还会选择使用它作为 single truth of codebase？

显示更多

0

1

4

0

转发到社区

猫投鹰 (鹰哥)@ThanksuTrump

2026.06.16 16:17

🚨5月30日街头:两名非洲难民企图搭讪路边女孩被拒后突然挥动斧头砍向路人,造成多人受伤(包括女孩的父亲),其中一人背部被砍7cm深伤口 @grok 你认为我们也要学习欧洲大量进口这种非洲难民吗 A.支持 B.反对 👇评论区写下你的选择

显示更多

0

37

32

0

转发到社区

zerowq@zerowq_eth

2026.06.16 15:00

刘强东：京东内部启动了“涅项目” 刘强东内部讲话，说京东最近启动了一个项目，叫"涅"。因为当自动化和机器人越来越普及，快递员、分拣员这些蓝领工人的岗位可能受到冲击。京东的对策不是裁员，而是建了80多个培训基地，免费教这些工人学习机器人维修、保养这些新技能。学会之后，他们就不是流水线上的重复劳动者了，而是能操作自动化设备、有技术含量的高级工人。京东管这叫"蓝领白领化"。刘强东说了一句话：被机器人取代的一线员工，京东一个不开除。他算过一笔账：管培生走了不担心，找工作不难。但蓝领工人不一样，他们选择少、转型难。公司有责任帮他们找到新位置。所以"涅"项目的本质，是让老员工学会和新工具相处，而不是把他们扔给机器。这个选择在互联网行业里确实不多见。大家都在讲AI提效、无人化运营，京东在讲怎么让老员工跟上来。还是东哥好，东哥不会抛弃兄弟们跟着东哥有肉吃

显示更多

0

32

93

4

转发到社区

Mengxin Liu@liumengxinfly

2026.06.16 14:45

看到 Redis 的作者 X 上发声，说总有人反复说中国的模型是蒸馏出来的，是根本不懂机器学习。之前看到有人说中国的模型是蒸馏出来的我还都会辩驳一番，后来实在是见到太多了，累了不想说了，干脆写出来算了。很多人说蒸馏其实根本不知道蒸馏是什么，他们背后的意思可能是收集了大量的 Claude/ChatGPT 的对话就能让自己的模型能力也变成和 Claude/ChatGPT 一样，但根本没考虑技术上的可行性。举个图像识别的例子，如果有一个模型可以识别动物，我想把它蒸馏到我自己的模型。如果我只是拿图片和老师模型分类结果给到学生模型，那这个蒸馏毫无意义。因为这和我直接拿标注好的样本进行训练没有区别，甚至标注结果比老师模型更准确，用老师模型的结果反而会降低准确性。如果老师模型的分类结果对蒸馏没有意义，那什么对蒸馏有意义？有意义的是最终结果前一层各个分类的权重。例如分类识别结果是猫，那前一层可能是猫的概率 80%，老虎概率 5%，豹子概率 7%，狗概率 0% ...，这一层其实才是模型的预测概率分布，是学生模型要学的。因为这里面比最后一个单一的结果包含了更多的隐含信息，比如猫和豹子更像，和狗更不像，这个更接近真实世界的概率分布。在 LLM 里也是类似的，看似 LLM 是生成下一个 Token，其实生成的是下一个 Token 的一个概率分布。本质上 LLM 的参数是固定的，那么同样的输入，对应输出也是固定的。现在之所以每次对话生成都不一样，是因为在输出的时候并不是选择概率最大的那个 Token，而是在一定概率范围内随机挑一个 Token 导致的输出随机性。这也就是 Temperature, Top-k 这些参数干的事情，调整最后的概率分布，增加输出的随机性。所以只是收集 Claude/ChatGPT 的大量对话输出并没有办法做严格意义的蒸馏，因为无法获得概率分布的信息，也就没有办法让模型快速收敛到 Claude/ChatGPT 的样子。那么用这些对话输出做 SFT 呢，蒸馏概念扩张后也有人把这一类叫做语料蒸馏。理论上是可以的，但是 SFT 通常作用是把语言风格和偏好进行对齐，一般认为 SFT 会牺牲大模型本身的泛化能力和智能水平，变得更像一个专业模型，我个人倾向于认为这种方式无法让模型获得能力上的提升。再有一种可能就是把这些对话内容直接作为预训练语料的一部分。在现有的模型论文里也可以看到预训练的时候已经开始使用生成数据了。但是一般认为这种工具调用和 agent 能力需要通过大规模的 RL 才能激发出来，在预训练阶段能发挥多大作用我比较怀疑。而且预训练其实更需要通用的能力，不可能让大量生成数据污染整体的数据质量。我个人倾向猜测预训练阶段会有一部分从 Claude/ChatGPT 来的数据，甚至很难避免，因为他们已经大量成为这个世界数据的一部分了，但靠这个是远远无法实现类似的编码和 agent 能力的。你看别人只是说一句模型蒸馏，我要费那么大劲去解释，真的是不想再说了。

显示更多

0

10

53

4

转发到社区

华尔街日报中文网@ChineseWSJ

2026.06.16 14:00

越来越多的人选择在比较大的年纪生育子女，而他们也由此面临一种全新的、往往出乎意料的财务现实。美国四个家庭分享了他们的晚育经历以及由此带来的财务影响。

显示更多

0

1

0

转发到社区

与「选择」相关的搜索结果