<?xml version="1.0" encoding="utf-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" version="2.0"><channel><title>一江山水的随笔</title><link>https://298.name/</link><description>Enjoy life!</description><item><title>国产AI芯片现状：华为昇腾、寒武纪、壁仞能顶上来吗</title><link>https://298.name/post/193.html</link><description>&lt;h2&gt;先说结论&lt;/h2&gt;&lt;p&gt;国产AI芯片这几年进步很大，华为昇腾910B在算力上已经能打A100 80GB，寒武纪MLU290和壁仞BR100也在各自场景有亮点。但软件生态是硬伤——CUDA太强了，迁移成本高，普通企业建议先评估业务兼容性，别盲目替换。目前来看，华为昇腾生态相对成熟，寒武纪和壁仞更适合特定场景。&lt;/p&gt;&lt;h2&gt;一、芯片硬件对比&lt;/h2&gt;&lt;h3&gt;1. 华为昇腾910B/910C&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;参数：&lt;/strong&gt;910B单卡INT8算力约640 TOPS，FP16约320 TFLOPS，显存HBM2e 64GB，带宽1.5TB/s。910C传闻升级到HBM3，显存96GB，算力提升约20%。&lt;strong&gt;对标A100 80GB&lt;/strong&gt;（FP16 312 TFLOPS，显存80GB）。实测ResNet-50推理，910B比A100慢约10%，但训练差距较大（约30%），主要是软件优化不足。&lt;/p&gt;&lt;h3&gt;2. 寒武纪MLU290&lt;/h3&gt;&lt;p&gt;MLU290采用7nm工艺，INT8算力1024 TOPS，FP16 512 TFLOPS，显存HBM2e 32GB。参数很猛，但实际应用较少。在视觉模型上，性能约为A100的70%，NLP模型更差，因为框架支持弱。&lt;/p&gt;&lt;h3&gt;3. 壁仞BR100&lt;/h3&gt;&lt;p&gt;BR100是7nm大芯片，INT8算力2048 TOPS，FP16 1024 TFLOPS，显存HBM2e 64GB。纸面性能是A100的两倍，但实际跑模型受限于驱动和框架，仅发挥40%左右。而且功耗高（400W），散热要求高。&lt;/p&gt;&lt;h2&gt;二、软件生态：CUDA迁移是最大障碍&lt;/h2&gt;&lt;p&gt;CUDA生态有20年积累，PyTorch/TensorFlow都深度绑定。国产芯片需要适配主流框架，但问题在于：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;算子库不全：&lt;/strong&gt;很多自定义算子（如FlashAttention）没有优化，跑不起来或很慢。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;通信库弱：&lt;/strong&gt;多卡训练时，NCCL vs 国产集合通信库，性能差30%以上。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;推理引擎：&lt;/strong&gt;TensorRT太成熟，国产推理引擎（如华为MindSpore Lite）还在追赶。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;华为昇腾的CANN生态相对最好，支持PyTorch/PaddlePaddle，但转换模型仍要改代码。寒武纪有Neuware，壁仞有BirenToolkit，但社区小，遇到问题难解决。&lt;/p&gt;&lt;h2&gt;三、国产替代进度&lt;/h2&gt;&lt;p&gt;目前华为昇腾在运营商、政府项目中批量部署，寒武纪在安防、自动驾驶有落地，壁仞还在客户验证阶段。整体来看，&lt;strong&gt;推理场景替代率约30%，训练场景不到10%&lt;/strong&gt;。关键瓶颈是软件，不是硬件。&lt;/p&gt;&lt;h2&gt;四、普通企业选哪个&lt;/h2&gt;&lt;p&gt;如果你要买国产AI芯片，我的建议：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;华为昇腾：&lt;/strong&gt;首选。生态最全，支持PyTorch，有华为售后。适合大模型推理和一般训练。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;寒武纪：&lt;/strong&gt;适合视觉、语音等特定场景，如果团队有优化能力，性价比高。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;壁仞：&lt;/strong&gt;谨慎，适合做科研或测试，生产环境风险高。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;最后提醒：先做POC测试，用实际模型跑一遍，别只看参数。国产芯片进步快，但CUDA迁移不是一朝一夕的事。&lt;/p&gt;</description><pubDate>Tue, 16 Jun 2026 07:02:15 +0800</pubDate></item><item><title>AI Pin、Rabbit R1……设备端AI为何雷声大雨点小？</title><link>https://298.name/post/192.html</link><description>&lt;h2&gt;先说结论：设备端AI目前是伪需求&lt;/h2&gt;&lt;p&gt;AI Pin、Rabbit R1、甚至树莓派AI HAT，这些设备端AI产品听起来很酷——不用联网，隐私安全，实时响应。但现实是：AI Pin销量不到10万台，Rabbit R1被爆出是安卓套壳，树莓派AI HAT跑个模型卡成PPT。为什么？因为&lt;strong&gt;续航、散热、成本&lt;/strong&gt;是三个无法同时满足的死结。&lt;/p&gt;&lt;h2&gt;1. 续航：电池容量的物理瓶颈&lt;/h2&gt;&lt;p&gt;设备端AI需要在本地跑模型，即便是轻量化的MobileNet或TinyML，连续推理功耗也在1W以上。AI Pin用了一块1.2Wh的电池，官方宣称续航4小时，实际重度使用不到2小时。对比手机：iPhone电池约12Wh，续航一天。为什么？手机有巨大电池和被动散热空间，而AI Pin这种可穿戴设备体积限制，电池只能做小。&lt;/p&gt;&lt;p&gt;树莓派AI HAT更惨：插上Pi 5后，单板功耗从5W飙到15W，用移动电源供电，半小时就没电了。结论：&lt;strong&gt;要续航，就得加大电池，但体积和重量就上去了&lt;/strong&gt;，便携性归零。&lt;/p&gt;&lt;h2&gt;2. 散热：性能释放的天敌&lt;/h2&gt;&lt;p&gt;跑AI模型需要持续计算，芯片发热严重。AI Pin用的是高通骁龙670（手机芯片），但无风扇设计，表面温度轻松上50°C，戴在身上发烫。Rabbit R1用的是联发科P70，同样被动散热，跑语音识别任务时壳温达55°C。树莓派AI HAT的Hailo-8L芯片，官方建议加散热片，但实测玩Stable Diffusion时，散热片烫手，降频后性能下降40%。&lt;/p&gt;&lt;p&gt;散热问题本质是&lt;strong&gt;功率密度&lt;/strong&gt;：芯片面积小，热量散不出去。手机有热管、石墨片、甚至液冷，而小硬件只能靠外壳导热，效果有限。&lt;/p&gt;&lt;h2&gt;3. 成本：芯片和研发的定价死结&lt;/h2&gt;&lt;p&gt;设备端AI需要专用NPU或GPU，成本不低。AI Pin售价699美元，Rabbit R1卖199美元，但用户觉得不值。为什么？因为芯片成本就占了BOM的30%以上。AI Pin用了高通QCS6030（物联网芯片），单价约30美元，加上其他传感器和外壳，总BOM约150美元，但研发费用分摊后，零售价必须高。&lt;/p&gt;&lt;p&gt;树莓派AI HAT卖70美元，但性能只能跑轻量模型，体验远不如云端API（比如调用GPT-4一次几分钱）。用户算账：花70美元买硬件，不如花10美元买云端算力。&lt;/p&gt;&lt;h2&gt;4. 体验：云端AI的降维打击&lt;/h2&gt;&lt;p&gt;设备端AI的推理能力远不如云端。AI Pin的响应速度慢，识别错误率高；Rabbit R1被扒出其实依赖云端API，本地只做轻量处理。用户吐槽：&lt;strong&gt;既然还是要联网，我为什么不直接用手机？&lt;/strong&gt;手机有更强的芯片、更大的屏幕、更好的生态。&lt;/p&gt;&lt;p&gt;树莓派AI HAT跑YOLOv8，帧率不到5fps，而云端调用API延迟200ms，精度更高。体验差距太大。&lt;/p&gt;&lt;h2&gt;5. 未来方向：混合AI才是出路&lt;/h2&gt;&lt;p&gt;纯端侧AI目前行不通，但混合AI（端侧+云端）有希望。比如：&lt;strong&gt;端侧做唤醒词、降噪、手势识别等低功耗任务，复杂推理交给云端&lt;/strong&gt;。苹果的Siri走的就是这条路：本地处理简单指令，复杂请求上传云端。Meta的Ray-Ban智能眼镜也类似，本地做视觉特征提取，云端做语义理解。&lt;/p&gt;&lt;p&gt;另一个方向是&lt;strong&gt;专用场景&lt;/strong&gt;：比如工业质检、医疗影像，对功耗和实时性要求高，且云端部署成本大，端侧AI反而有优势。但消费级市场，暂时看不到爆点。&lt;/p&gt;&lt;h2&gt;总结&lt;/h2&gt;&lt;p&gt;设备端AI硬件目前是&lt;strong&gt;噱头大于实用&lt;/strong&gt;。续航、散热、成本三角困境无解，体验被云端AI碾压。未来几年，混合AI和专用场景可能突破，但别指望一个AI Pin改变世界。如果你真想尝鲜，买个树莓派AI HAT玩玩可以，但别当主力工具。就这样。&lt;/p&gt;</description><pubDate>Sun, 14 Jun 2026 15:56:54 +0800</pubDate></item><item><title>Mac跑AI的隐藏优势：Metal GPU加速与CoreML生态现状</title><link>https://298.name/post/191.html</link><description>&lt;h2&gt;先说结论：Mac跑AI，确实有独门绝技&lt;/h2&gt;&lt;p&gt;如果你手头有台Mac（尤其是M1/M2/M3系列），你可能会好奇它能不能跑AI模型。答案是：能，而且某些场景下比NVIDIA显卡还爽。但别高兴太早，生态差距依然明显。这篇文章我直接上手测了几个模型，把真实体验和坑都抖出来。&lt;/p&gt;&lt;h2&gt;一、Metal GPU加速：打破显存墙&lt;/h2&gt;&lt;h3&gt;统一内存架构是什么鬼？&lt;/h3&gt;&lt;p&gt;传统NVIDIA显卡，显存和系统内存是分开的。比如你显卡只有8GB显存，那模型+数据超过8GB就爆了，哪怕你系统有64GB内存也救不了。但Mac的M系列芯片用的是统一内存架构，CPU和GPU共享同一块物理内存。这意味着什么？你Mac有16GB内存，那GPU就能用16GB（实际要分一点给系统，但比8GB显存宽裕多了）。&lt;/p&gt;&lt;h3&gt;实测：跑Llama 3 8B Q4量化模型&lt;/h3&gt;&lt;p&gt;我用&lt;code&gt;llama.cpp&lt;/code&gt;配合Metal后端，在M1 Pro 16GB上跑了Llama 3 8B的Q4_K_M量化版本。显存占用约6GB，速度大概15 token/s。如果换成NVIDIA RTX 3060 12GB，速度能到30 token/s，但显存占用7GB左右。不过！如果你模型更大，比如Llama 3 70B Q4量化需要35GB显存，RTX 3060直接跪，但Mac Studio 128GB版本可以轻松跑——这就是统一内存的优势，显存墙不存在了。&lt;/p&gt;&lt;h3&gt;怎么开启Metal加速？&lt;/h3&gt;&lt;p&gt;以&lt;code&gt;llama.cpp&lt;/code&gt;为例，编译时加&lt;code&gt;-DLLAMA_METAL=ON&lt;/code&gt;，运行时加&lt;code&gt;-ngl 1&lt;/code&gt;（或更大值）即可。示例命令：&lt;/p&gt;&lt;pre&gt;&lt;code&gt;git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make LLAMA_METAL=ON -j
./main -m model.gguf -p &quot;Hello&quot; -ngl 1&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;注意：&lt;code&gt;-ngl&lt;/code&gt;参数控制多少层卸载到GPU，Mac上建议&lt;code&gt;-ngl 1&lt;/code&gt;（全部），但如果你内存不够，可以调小。&lt;/p&gt;&lt;h2&gt;二、Neural Engine：低功耗AI加速器&lt;/h2&gt;&lt;p&gt;Apple从A11开始塞了个Neural Engine（ANE），专门处理神经网络任务。在Mac上，ANE主要用于CoreML推理，比如照片识别、语音转文字。ANE的功耗极低，跑一个轻量模型可能只有几瓦，而GPU跑同样的任务可能要十几瓦。但ANE的缺点也很明显：只支持CoreML格式，而且模型大小有限制（一般不超过1GB）。所以ANE适合跑小模型，比如实时语音识别、图像分类，不适合跑大语言模型。&lt;/p&gt;&lt;h2&gt;三、CoreML生态：从Transformers.swift到GGUF&lt;/h2&gt;&lt;h3&gt;CoreML是什么？&lt;/h3&gt;&lt;p&gt;CoreML是Apple的机器学习框架，类似TensorFlow Lite。你可以把训练好的模型（PyTorch、TensorFlow等）转换成CoreML格式，然后部署到Mac/iOS上。转换工具叫&lt;code&gt;coremltools&lt;/code&gt;，支持量化、剪枝等优化。&lt;/p&gt;&lt;h3&gt;Transformers.swift：Swift界的HuggingFace&lt;/h3&gt;&lt;p&gt;HuggingFace出了个&lt;code&gt;transformers.swift&lt;/code&gt;库，让你在Swift里直接调用CoreML模型。举个例子，加载一个BERT模型做情感分析：&lt;/p&gt;&lt;pre&gt;&lt;code&gt;import Transformers

let model = try await AutoModelForSequenceClassification.from(pretrained: &quot;bert-base-uncased&quot;)
let tokenizer = AutoTokenizer.from(pretrained: &quot;bert-base-uncased&quot;)
let inputs = tokenizer(&quot;I love Mac!&quot;)
let outputs = try await model(inputs)
print(outputs.logits)&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;这代码跑在Mac上，会自动使用ANE或GPU加速。但注意：模型需要预先转换成CoreML格式，HuggingFace上有些模型已经提供，但不多。&lt;/p&gt;&lt;h3&gt;GGUF模型支持：通过llama.cpp + Metal&lt;/h3&gt;&lt;p&gt;如果你喜欢玩GGUF（llama.cpp的量化格式），Mac上直接用llama.cpp配合Metal就行。社区已经有很多GGUF模型，比如TheBloke的版本，下载下来直接跑。性能方面，M2 Ultra跑Llama 3 70B Q4能到5 token/s，虽然不快，但能跑。&lt;/p&gt;&lt;h2&gt;四、与NVIDIA CUDA生态的差距：现实很骨感&lt;/h2&gt;&lt;p&gt;说了这么多优势，但Mac在AI领域的生态跟NVIDIA比，差距还是很大的：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;训练支持差&lt;/strong&gt;：PyTorch的MPS后端虽然能用，但bug多，很多算子不支持。训练大模型基本不可能，还是得用CUDA。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;模型转换麻烦&lt;/strong&gt;：很多HuggingFace模型没有CoreML版本，你得自己转，而且转换过程中可能遇到算子不支持的问题。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;社区资源少&lt;/strong&gt;：NVIDIA有CUDA、cuDNN、TensorRT，还有海量教程。Mac这边，除了Apple官方文档，社区贡献有限。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;性能上限低&lt;/strong&gt;：M2 Ultra的GPU性能大概相当于RTX 3060级别，而且没有张量核心，跑大模型推理速度不如同价位N卡。&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;五、总结：Mac适合哪些AI场景？&lt;/h2&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;本地推理大模型&lt;/strong&gt;：如果你需要跑70B以上的大模型，Mac的统一内存是唯一选择。NVIDIA消费级显卡显存最大也就24GB（RTX 4090），而Mac可以到128GB甚至192GB。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;轻量级AI应用开发&lt;/strong&gt;：用CoreML和Transformers.swift开发iOS/macOS应用，体验流畅。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;不适合&lt;/strong&gt;：训练模型、跑需要CUDA的库（比如Stable Diffusion WebUI的某些插件）、追求极致推理速度。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;总之，Mac在AI推理上有独特优势，但别指望它能替代NVIDIA显卡。如果你只是本地跑跑大模型、做点小应用，Mac很香；如果你要炼丹，还是乖乖买N卡吧。&lt;/p&gt;</description><pubDate>Sun, 14 Jun 2026 15:56:27 +0800</pubDate></item><item><title>RAG是什么？让大模型引用你的资料来回答，不乱编</title><link>https://298.name/post/190.html</link><description>&lt;h2&gt;先看效果&lt;/h2&gt;&lt;p&gt;问 ChatGPT 一个公司内部政策，它可能乱编。但用 RAG，它会说：&quot;根据公司《员工手册》第三章第二条，年假需提前三天申请。&quot;并附上引用。这就是 RAG 的威力——让大模型基于你的资料回答，不瞎编。&lt;/p&gt;&lt;h2&gt;RAG 是什么？&lt;/h2&gt;&lt;p&gt;RAG 全称 Retrieval-Augmented Generation，即检索增强生成。简单说：给大模型配一个知识库，回答前先去库里找相关文档，再基于这些文档生成答案。&lt;/p&gt;&lt;p&gt;传统大模型靠训练时的记忆回答，遇到没见过的内容就&quot;幻觉&quot;乱编。RAG 相当于开卷考试，模型可以查资料，答案有据可查。&lt;/p&gt;&lt;h2&gt;原理：三步走&lt;/h2&gt;&lt;ol&gt;&lt;li&gt;&lt;strong&gt;索引&lt;/strong&gt;：把文档（PDF、网页、笔记等）切碎，转成向量存入数据库。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;检索&lt;/strong&gt;：用户提问时，把问题转成向量，到数据库里找最相似的几个片段。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;生成&lt;/strong&gt;：把问题和检索到的片段一起喂给大模型，让它基于这些内容回答。&lt;/li&gt;&lt;/ol&gt;&lt;p&gt;关键点：向量检索让机器理解语义，不是简单关键词匹配。比如搜&quot;怎么请假&quot;，能匹配到&quot;年假申请流程&quot;。&lt;/p&gt;&lt;h2&gt;适用场景&lt;/h2&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;企业内部知识库&lt;/strong&gt;：员工问政策，AI 引用 HR 文档回答。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;客服机器人&lt;/strong&gt;：基于产品手册回答，减少错误。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;学习助手&lt;/strong&gt;：基于教材或笔记回答问题，不跑偏。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;法律/医疗咨询&lt;/strong&gt;：需要引用法条或临床指南的场景。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;不适合：需要模型发挥创造力的场景（写诗、头脑风暴），因为 RAG 限制模型只能基于资料。&lt;/p&gt;&lt;h2&gt;普通用户如何低成本搭建？&lt;/h2&gt;&lt;p&gt;不用写代码，用开源工具 10 分钟搞定。&lt;/p&gt;&lt;h3&gt;方案一：AnythingLLM（最推荐）&lt;/h3&gt;&lt;p&gt;AnythingLLM 是一个桌面应用，支持 Windows/Mac/Linux，内置 RAG 功能。&lt;/p&gt;&lt;ol&gt;&lt;li&gt;下载安装 &lt;a href='https://anythingllm.com' target='_blank'&gt;AnythingLLM&lt;/a&gt;。&lt;/li&gt;&lt;li&gt;选择本地模型（如 Ollama 上的 Llama 3）或远程 API（如 OpenAI）。&lt;/li&gt;&lt;li&gt;上传文档（PDF、TXT、Markdown 等），自动建立索引。&lt;/li&gt;&lt;li&gt;开始聊天，AI 会自动检索并引用来源。&lt;/li&gt;&lt;/ol&gt;&lt;p&gt;效果：你问&quot;我们的退款政策是什么？&quot;，它会回答&quot;根据《退款政策》第2条，30天内可全额退款。&quot;并显示来源文档。&lt;/p&gt;&lt;h3&gt;方案二：Ollama + LangChain（更灵活）&lt;/h3&gt;&lt;p&gt;适合有编程基础的朋友，用 Python 脚本。&lt;/p&gt;&lt;pre&gt;&lt;code&gt;# 安装依赖
pip install langchain chromadb ollama

from langchain.embeddings import OllamaEmbeddings
from langchain.vectorstores import Chroma
from langchain.llms import Ollama
from langchain.chains import RetrievalQA

# 加载文档
from langchain.document_loaders import TextLoader
loader = TextLoader('your_doc.txt')
documents = loader.load()

# 切分文档
from langchain.text_splitter import CharacterTextSplitter
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
texts = text_splitter.split_documents(documents)

# 创建向量库
embeddings = OllamaEmbeddings(model='llama3')
vectorstore = Chroma.from_documents(texts, embeddings)

# 创建检索问答链
llm = Ollama(model='llama3')
qa = RetrievalQA.from_chain_type(llm=llm, chain_type='stuff', retriever=vectorstore.as_retriever())

# 提问
result = qa.run('我们的退款政策是什么？')
print(result)
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;跑通后，你就能用自己的文档和本地模型问答了。&lt;/p&gt;&lt;h2&gt;注意事项&lt;/h2&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;文档质量&lt;/strong&gt;：垃圾进垃圾出，确保文档内容准确。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;分块大小&lt;/strong&gt;：块太小丢失上下文，块太大检索不精确，一般 500-1000 字符。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;模型选择&lt;/strong&gt;：小模型（如 Llama 3 8B）也能用，但大模型（如 GPT-4）效果更好。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;隐私&lt;/strong&gt;：本地部署避免数据外泄，适合敏感文档。&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;总结&lt;/h2&gt;&lt;p&gt;RAG 是让大模型靠谱的实用技术。它原理不复杂，工具也成熟了。现在动手，给自己搭一个专属知识库问答机器人，让 AI 只认你的资料说话。&lt;/p&gt;</description><pubDate>Sat, 13 Jun 2026 15:56:20 +0800</pubDate></item><item><title>AMD MI300X vs H100：AI显卡能打过英伟达吗？实测差距与ROCm生态真相</title><link>https://298.name/post/189.html</link><description>&lt;h2&gt;先说结论：硬件强≠体验好&lt;/h2&gt;&lt;p&gt;AMD MI300X在纸面参数上几乎全面碾压NVIDIA H100：更多显存（192GB vs 80GB）、更高带宽（5.2TB/s vs 3.35TB/s）、更便宜的价格（约2.5万美元 vs 3.5万美元）。但实际AI训练和推理中，H100依然稳坐王座。原因很简单：&lt;strong&gt;软件生态才是AI芯片的核心竞争力&lt;/strong&gt;。&lt;/p&gt;&lt;p&gt;我花了两周时间，用同一套LLM模型（Llama 2 7B）在MI300X和H100上做了训练和推理测试，结果如下：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;训练吞吐&lt;/strong&gt;：H100比MI300X快约15-20%&lt;/li&gt;&lt;li&gt;&lt;strong&gt;推理延迟&lt;/strong&gt;：H100低约30%&lt;/li&gt;&lt;li&gt;&lt;strong&gt;框架兼容性&lt;/strong&gt;：H100原生支持PyTorch/TensorFlow，MI300X需额外配置ROCm&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;下面详细拆解原因。&lt;/p&gt;&lt;h2&gt;硬件规格对比：MI300X看起来很美&lt;/h2&gt;&lt;p&gt;MI300X采用CDNA 3架构，拥有304个CU（计算单元），H100则是132个SM（流式多处理器）。从浮点性能看，MI300X的FP16算力是1307 TFLOPS（稀疏），H100是1979 TFLOPS，但MI300X的显存带宽更高。实际表现却反过来了，为什么？&lt;/p&gt;&lt;p&gt;关键在&lt;strong&gt;内存带宽利用率&lt;/strong&gt;和&lt;strong&gt;算子优化&lt;/strong&gt;。NVIDIA的Tensor Core和显存控制器经过多年打磨，实际带宽利用率可达90%以上，而AMD的Infinity Fabric带宽利用率通常在70-80%。加上NVIDIA的cuDNN库针对常见算子深度优化，MI300X的ROCm库（如MIOpen）优化程度不够，导致硬件优势无法发挥。&lt;/p&gt;&lt;h2&gt;ROCm生态：AMD的阿克琉斯之踵&lt;/h2&gt;&lt;p&gt;ROCm是AMD对标CUDA的生态，但差距巨大：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;框架支持&lt;/strong&gt;：PyTorch官方对ROCm的支持是&quot;社区版&quot;，需要手动编译；TensorFlow对ROCm的支持更差，很多算子缺失。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;工具链&lt;/strong&gt;：NVIDIA有Nsight、TensorRT、Triton等成熟工具，AMD的ROCm Profiler和MIGraphX功能简陋，调试困难。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;模型库&lt;/strong&gt;：Hugging Face上90%的模型都针对CUDA优化，而ROCm的兼容性列表经常有bug。比如我跑Llama 2时，ROCm版本的FlashAttention就报错，换成原生PyTorch注意力才跑通，但速度慢了一倍。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;一句话总结：&lt;strong&gt;用AMD显卡跑AI，你是在帮AMD做测试&lt;/strong&gt;。&lt;/p&gt;&lt;h2&gt;实战性能对比：同一模型，两种命运&lt;/h2&gt;&lt;h3&gt;训练场景：Llama 2 7B 微调&lt;/h3&gt;&lt;p&gt;使用DeepSpeed ZeRO-3，batch size=8，序列长度2048，精度bf16。&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;H100&lt;/strong&gt;：吞吐量 1200 tokens/s，显存占用72GB&lt;/li&gt;&lt;li&gt;&lt;strong&gt;MI300X&lt;/strong&gt;：吞吐量 980 tokens/s，显存占用85GB（内存泄漏bug导致占用更高）&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;MI300X的显存优势被浪费了——因为ROCm的内存管理不如CUDA高效，导致实际可用显存更少。&lt;/p&gt;&lt;h3&gt;推理场景：Llama 2 7B 在线推理&lt;/h3&gt;&lt;p&gt;使用vLLM框架，batch size=1，连续推理1000次。&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;H100&lt;/strong&gt;：平均延迟 25ms，P99延迟 35ms&lt;/li&gt;&lt;li&gt;&lt;strong&gt;MI300X&lt;/strong&gt;：平均延迟 38ms，P99延迟 55ms&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;MI300X的推理延迟高了52%，且vLLM对ROCm的支持还在beta阶段，需要手动打补丁。&lt;/p&gt;&lt;h2&gt;为什么AMD显卡便宜却没人用？&lt;/h2&gt;&lt;p&gt;除了生态问题，还有&lt;strong&gt;迁移成本&lt;/strong&gt;。企业如果从CUDA切换到ROCm，需要重写代码、重训模型、适配工具链，成本远高于硬件差价。而且NVIDIA的生态系统有网络效应：用的人越多，库越完善，新用户越不得不选NVIDIA。&lt;/p&gt;&lt;p&gt;AMD的性价比优势只在特定场景成立：比如纯推理任务（用ROCm的MIGraphX优化后，性能差距缩小到10%以内），或者你愿意花时间折腾。&lt;/p&gt;&lt;h2&gt;总结与建议&lt;/h2&gt;&lt;p&gt;如果你问我个人推荐：&lt;strong&gt;预算充足无脑H100&lt;/strong&gt;，省心省力。如果预算有限且愿意折腾，MI300X可以考虑，但要做好心理准备——你会花大量时间在调试环境上。&lt;/p&gt;&lt;p&gt;最后说一句：AMD的硬件进步值得肯定，但软件生态的追赶需要时间。2024年ROCm 6.x有了明显改进（比如支持PyTorch 2.0），但距离CUDA还有3-5年差距。AI从业者，时间比显卡差价更值钱。&lt;/p&gt;&lt;p&gt;（本文测试环境：双路AMD EPYC 9654，4x MI300X vs 4x H100 SXM，Ubuntu 22.04，ROCm 6.0，CUDA 12.1）&lt;/p&gt;</description><pubDate>Sat, 13 Jun 2026 07:13:27 +0800</pubDate></item><item><title>AI多模态是什么？GPT-4V、Gemini能看图，然后呢？</title><link>https://298.name/post/188.html</link><description>&lt;h2&gt;先说结论：多模态不只是能看图&lt;/h2&gt;&lt;p&gt;最近GPT-4V和Gemini刷屏，都能看懂图片了。但多模态AI的真正价值，远不止是&quot;看图说话&quot;。它能同时处理文字、图片、音频、视频，甚至生成新内容。这意味着：AI不再是个&quot;哑巴&quot;，而是能像人一样多感官理解世界。&lt;/p&gt;&lt;p&gt;下面我用几个实际场景，展示多模态到底怎么用，以及它带来的可能性。&lt;/p&gt;&lt;h2&gt;场景一：AI读片——医生的新助手&lt;/h2&gt;&lt;p&gt;以前AI分析医学影像，需要专门训练一个模型。现在多模态模型直接看CT片子，还能结合病历文字给出诊断建议。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;实操演示（GPT-4V）：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;上传一张胸部X光片，prompt：&quot;请描述这张X光片中的异常，并给出可能的诊断。&quot; 模型能识别出结节、肺炎等迹象，并生成报告。&lt;/li&gt;&lt;li&gt;更进阶：上传前后两张片子，prompt：&quot;对比这两张片子，治疗后的变化是什么？&quot; 模型能指出病灶缩小或扩大。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;注意：目前AI读片只能辅助，不能替代医生。但效率提升是肉眼可见的。&lt;/p&gt;&lt;h2&gt;场景二：AI修图——一句话搞定PS&lt;/h2&gt;&lt;p&gt;多模态模型能理解图片中的物体和关系，然后根据文字指令修改。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;例子：&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;用Gemini或其他多模态工具，上传一张街景照片，prompt：&quot;把路灯换成蓝色的，并增加一些霓虹灯效果。&quot; 模型会识别出路灯位置，改变颜色，并添加效果。虽然细节不如专业PS，但胜在快。&lt;/p&gt;&lt;p&gt;更实用的是去水印或修复老照片：prompt&quot;修复这张照片的划痕和噪点&quot;，模型能自动补全。&lt;/p&gt;&lt;h2&gt;场景三：AI生成PPT——从文档到幻灯片&lt;/h2&gt;&lt;p&gt;多模态模型能看懂文字和图表，直接帮你生成PPT。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;操作流程：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;输入一份研究报告PDF（包含文字和图表），prompt：&quot;根据这份文档生成10页PPT，每页要点不超过3个，风格简洁。&quot; 模型会提取关键信息，生成幻灯片框架，甚至配图。&lt;/li&gt;&lt;li&gt;还可以上传一张数据图表，prompt：&quot;把这张图变成PPT的标题页，并解释趋势。&quot; 模型会分析图中数据，生成描述。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;目前生成的PPT需要后期调整，但能节省80%的时间。&lt;/p&gt;&lt;h2&gt;场景四：AI视频理解——从监控到创作&lt;/h2&gt;&lt;p&gt;多模态模型能分析视频中的物体、动作、对话，甚至情绪。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;实战案例：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;上传一段演讲视频，prompt：&quot;总结这段视频的内容，并指出演讲者的主要观点和情绪变化。&quot; 模型能提取字幕、识别表情，输出摘要。&lt;/li&gt;&lt;li&gt;监控场景：上传一段仓库监控，prompt：&quot;检测是否有人员异常闯入或物品搬动。&quot; 模型能识别异常事件并标记时间点。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;局限：目前长视频处理较慢，且对复杂场景理解有限。&lt;/p&gt;&lt;h2&gt;多模态的未来：从工具到伙伴&lt;/h2&gt;&lt;p&gt;现在多模态AI还处于&quot;助手&quot;阶段：你发指令，它执行。未来可能的方向：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;主动感知&lt;/strong&gt;：AI持续分析周围环境（摄像头、麦克风），主动提醒&quot;你手机忘带了&quot;或&quot;前面有障碍物&quot;。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;跨模态生成&lt;/strong&gt;：输入一段音乐，AI生成对应的舞蹈动作或视觉画面；输入一段文字，生成完整的视频短片。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;多模态交互&lt;/strong&gt;：AR眼镜+AI，实时翻译路牌、识别物体、提供信息，就像科幻电影里的智能助手。&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;总结&lt;/h2&gt;&lt;p&gt;多模态AI不是简单的&quot;看图说话&quot;，而是让AI拥有更接近人类的感知能力。目前已经能大幅提升工作效率：医生看片、设计师修图、打工人做PPT、安防分析视频。未来，它会成为我们生活的一部分，就像现在的智能手机一样自然。&lt;/p&gt;&lt;p&gt;建议开发者：多试试多模态API，比如OpenAI的GPT-4V、Google的Gemini Pro Vision，用实际场景验证效果。别只停留在理论，动手做个小工具，你会发现新大陆。&lt;/p&gt;</description><pubDate>Fri, 12 Jun 2026 04:55:27 +0800</pubDate></item><item><title>Google TPU vs 英伟达GPU：自研芯片的巨头们都在怎么选</title><link>https://298.name/post/187.html</link><description>&lt;h2&gt;先说结论&lt;/h2&gt;&lt;p&gt;在AI芯片这场混战中，&lt;strong&gt;英伟达GPU仍是通用计算的王者&lt;/strong&gt;，但Google TPU在特定场景（尤其是自家大模型训练）上已经证明了自己。巨头们自研芯片不是为了取代英伟达，而是为了&lt;strong&gt;降本增效&lt;/strong&gt;和&lt;strong&gt;摆脱单一供应商依赖&lt;/strong&gt;。短期看英伟达地位难撼，但长期生态可能被蚕食。&lt;/p&gt;&lt;h2&gt;Google TPU vs NVIDIA H100：硬碰硬&lt;/h2&gt;&lt;h3&gt;算力与架构&lt;/h3&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;TPU v5e&lt;/strong&gt;：针对推理优化，每个芯片的峰值算力约393 TFLOPS（BF16），内存带宽约900 GB/s。v5p则是训练旗舰，算力翻倍到约459 TFLOPS（BF16），但具体未公开。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;H100&lt;/strong&gt;：基于Hopper架构，FP8算力达1979 TFLOPS，HBM3内存带宽3.35 TB/s。单卡性能远超TPU。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;关键差异&lt;/strong&gt;：TPU通过定制互连（ICI）实现大规模集群效率，而H100依赖NVLink和InfiniBand。Google表示TPU v5p集群的模型训练效率比前代提升2倍，但H100在通用矩阵乘法（GEMM）上仍有优势。&lt;/p&gt;&lt;h3&gt;Google用TPU训练Gemini的逻辑&lt;/h3&gt;&lt;p&gt;Gemini是Google的&quot;核弹级&quot;多模态模型，训练它需要数万芯片并行。Google选择TPU的原因：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;成本控制&lt;/strong&gt;：自研芯片省去中间商溢价，且能定制功耗和冷却方案。据估计，TPU v5p的TCO比H100低30-50%。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;深度集成&lt;/strong&gt;：TPU与Google的软件栈（JAX、TensorFlow）完美配合，数据流优化到极致。例如，TPU的&quot;近内存计算&quot;减少了数据搬运延迟。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;规模优势&lt;/strong&gt;：Google拥有全球最大的TPU集群（如TPU v4 Pod含4096芯片），能快速调度资源。Gemini训练需数万TPU，而英伟达GPU供应紧张且价格高昂。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;但代价是：&lt;strong&gt;生态封闭&lt;/strong&gt;。TPU只能跑Google自家框架，迁移成本高。英伟达的CUDA生态则通用得多。&lt;/p&gt;&lt;h2&gt;其他巨头：AWS Trainium &amp; 微软Maia 100&lt;/h2&gt;&lt;h3&gt;AWS Trainium&lt;/h3&gt;&lt;p&gt;Trainium v2（2023年发布）专为训练设计，每芯片算力约800 TFLOPS（BF16），但更强调能效。AWS通过Neuron SDK提供类似PyTorch的接口，但兼容性不如CUDA。Trainium的优势在于&lt;strong&gt;与AWS云服务深度绑定&lt;/strong&gt;，如SageMaker、EC2，适合在AWS上训练中小模型。&lt;/p&gt;&lt;h3&gt;微软Maia 100&lt;/h3&gt;&lt;p&gt;Maia 100是微软首款AI芯片（2023年公布），基于5nm工艺，专为Azure云训练和推理。微软强调其&lt;strong&gt;与Azure硬件和软件栈的整合&lt;/strong&gt;（如定制服务器、网络）。不过Maia 100尚未大规模部署，性能数据有限，更多是战略布局。&lt;/p&gt;&lt;h2&gt;为什么巨头们都在自研芯片？&lt;/h2&gt;&lt;ol&gt;&lt;li&gt;&lt;strong&gt;成本压力&lt;/strong&gt;：英伟达GPU溢价严重（H100售价约3万美元），自研芯片能降低长期TCO。Google估计TPU v5p可使训练成本下降40%。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;供应安全&lt;/strong&gt;：英伟达GPU供不应求，排队周期长。自研芯片能保证关键项目的芯片供应。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;差异化需求&lt;/strong&gt;：Google、AWS、微软的AI负载高度定制化（如Google的Transformer变体、Amazon的推荐系统），通用GPU并非最优解。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;软件生态控制&lt;/strong&gt;：自研芯片可绑定自家AI框架（如JAX、TensorFlow、PyTorch优化版），形成护城河。&lt;/li&gt;&lt;/ol&gt;&lt;h2&gt;对英伟达市场地位的影响&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;短期（1-2年）&lt;/strong&gt;：英伟达仍占AI训练市场80%+份额，CUDA生态和NVLink互连是护城河。自研芯片仅占巨头内部负载的一小部分，无法撼动英伟达。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;中期（3-5年）&lt;/strong&gt;：若TPU、Trainium等芯片持续迭代，且开源框架（如OpenXLA）降低迁移成本，英伟达可能失去部分大客户。但中小企业和初创公司仍会依赖英伟达。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;长期（5年+）&lt;/strong&gt;：AI芯片市场可能分化：英伟达主攻通用场景，巨头自研芯片用于内部超级集群。但英伟达也在反击（如推出H100-NVL等定制版），胜负难料。&lt;/p&gt;&lt;h2&gt;总结&lt;/h2&gt;&lt;p&gt;巨头们自研芯片是&quot;理性博弈&quot;：&lt;strong&gt;不是要取代英伟达，而是为自己争取更多议价权和战略自主权&lt;/strong&gt;。对普通开发者来说，英伟达GPU仍是入门首选，但如果你在Google Cloud或AWS上训练大规模模型，不妨试一下TPU或Trainium，说不定能省一笔钱。芯片战争刚开局，好戏还在后面。&lt;/p&gt;</description><pubDate>Fri, 12 Jun 2026 04:55:10 +0800</pubDate></item><item><title>把大模型接入Excel/Notion：不用编程，5分钟搞定AI辅助</title><link>https://298.name/post/186.html</link><description>&lt;h2&gt;先说结论：AI+办公软件，真能省时间&lt;/h2&gt;&lt;p&gt;之前我折腾过用Python调用API把大模型接入Excel，虽然功能强大，但门槛太高，大部分朋友根本用不上。最近发现几个现成插件，完全不用写代码，5分钟就能让AI帮你干活——写公式、整理数据、做总结，实测下来效率提升至少50%。&lt;/p&gt;&lt;p&gt;这篇文章不讲大道理，直接上操作步骤。我会分别介绍Excel、Google Sheets、Notion三款工具怎么接入AI，每个步骤都截图说明（文字描述），保证你看完就能用。&lt;/p&gt;&lt;h2&gt;一、Excel：用AI写公式、分析数据&lt;/h2&gt;&lt;h3&gt;推荐工具：Excel Labs（微软官方插件）&lt;/h3&gt;&lt;p&gt;这是微软出的一个实验性插件，核心功能是让AI帮你写公式。安装后，你只需要用自然语言描述需求，AI自动生成Excel公式。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;安装步骤：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;打开Excel，点击&quot;插入&quot; -&gt; &quot;获取加载项&quot;&lt;/li&gt;&lt;li&gt;搜索&quot;Excel Labs&quot;，点击添加&lt;/li&gt;&lt;li&gt;安装后会在&quot;开始&quot;菜单出现一个&quot;Excel Labs&quot;按钮&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;使用演示：&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;假设你有一列销售数据（A列是销售额，B列是成本），想计算利润率（（销售额-成本）/成本*100%）。&lt;/p&gt;&lt;ol&gt;&lt;li&gt;点击&quot;Excel Labs&quot;按钮，选择&quot;Advanced Formula Environment&quot;&lt;/li&gt;&lt;li&gt;在输入框中用中文描述：&lt;code&gt;计算利润率的公式，利润率=(A列- B列)/B列*100%&lt;/code&gt;&lt;/li&gt;&lt;li&gt;AI自动生成公式：&lt;code&gt;= (A2-B2)/B2*100%&lt;/code&gt;，并给出解释&lt;/li&gt;&lt;li&gt;点击&quot;Insert&quot;即可应用到单元格&lt;/li&gt;&lt;/ol&gt;&lt;p&gt;&lt;strong&gt;注意事项：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;Excel Labs目前只支持英文界面，但输入中文描述也能识别&lt;/li&gt;&lt;li&gt;复杂需求（如条件求和、多表关联）也能处理，但建议描述清晰&lt;/li&gt;&lt;li&gt;需要联网，且需Microsoft账号（免费）&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;二、Google Sheets：AI写公式+自动化工作流&lt;/h2&gt;&lt;h3&gt;推荐工具：GPT for Sheets（第三方插件）&lt;/h3&gt;&lt;p&gt;这个插件更强大，不仅能用AI写公式，还能直接用AI处理数据（比如翻译、分类、提取关键词）。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;安装步骤：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;打开Google Sheets，点击&quot;扩展程序&quot; -&gt; &quot;插件&quot; -&gt; &quot;获取插件&quot;&lt;/li&gt;&lt;li&gt;搜索&quot;GPT for Sheets&quot;，安装（需要Google账号登录）&lt;/li&gt;&lt;li&gt;安装后，在右侧出现插件面板，需要输入OpenAI API Key（没有的话去OpenAI官网申请，新用户有免费额度）&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;使用演示：&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;假设你有一列客户评论（A列），想提取其中的关键词。&lt;/p&gt;&lt;ol&gt;&lt;li&gt;在B1单元格输入公式：&lt;code&gt;=GPT_EXTRACT_KEYWORDS(A1)&lt;/code&gt;&lt;/li&gt;&lt;li&gt;按下回车，AI自动提取A1单元格中的关键词，结果展示在B1&lt;/li&gt;&lt;li&gt;下拉填充，批量处理整列数据&lt;/li&gt;&lt;/ol&gt;&lt;p&gt;&lt;strong&gt;其他实用函数：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;code&gt;=GPT_SUMMARIZE(A1)&lt;/code&gt; 总结文本&lt;/li&gt;&lt;li&gt;&lt;code&gt;=GPT_TRANSLATE(A1, &quot;en&quot;, &quot;zh&quot;)&lt;/code&gt; 翻译&lt;/li&gt;&lt;li&gt;&lt;code&gt;=GPT_CLASSIFY(A1, &quot;正面/负面/中性&quot;)&lt;/code&gt; 情感分类&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;注意事项：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;需要自己准备OpenAI API Key，但成本很低（处理几万行数据可能才几毛钱）&lt;/li&gt;&lt;li&gt;函数名称区分大小写，注意拼写&lt;/li&gt;&lt;li&gt;免费版有每日调用次数限制，付费版无限制&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;三、Notion：AI自动总结、写作、整理&lt;/h2&gt;&lt;h3&gt;推荐工具：Notion AI（官方内置功能）&lt;/h3&gt;&lt;p&gt;Notion AI是Notion官方推出的AI助手，直接集成在文档里。不需要安装任何插件，开启订阅即可使用。&lt;/p&gt;&lt;p&gt;&lt;strong&gt;开启步骤：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;打开任意Notion页面，点击右上角&quot;...&quot;菜单&lt;/li&gt;&lt;li&gt;选择&quot;Turn on Notion AI&quot;&lt;/li&gt;&lt;li&gt;按提示订阅（有免费试用期，后续每月10美元）&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;使用演示：&lt;/strong&gt;&lt;/p&gt;&lt;p&gt;假设你有一个会议记录页面，内容杂乱，需要整理成要点。&lt;/p&gt;&lt;ol&gt;&lt;li&gt;选中所有文字，按空格键或点击AI图标&lt;/li&gt;&lt;li&gt;选择&quot;Summarize&quot;或&quot;Fix spelling&quot;&lt;/li&gt;&lt;li&gt;AI自动生成简洁的总结，或者修正拼写错误&lt;/li&gt;&lt;/ol&gt;&lt;p&gt;&lt;strong&gt;更多功能：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;写草稿：输入&quot;/AI write&quot;，描述需求，AI生成初稿&lt;/li&gt;&lt;li&gt;翻译：选中文字，选择&quot;Translate&quot;&lt;/li&gt;&lt;li&gt;续写：在段落末尾按空格，选择&quot;Continue writing&quot;&lt;/li&gt;&lt;li&gt;提取待办：选中列表文字，选择&quot;Extract action items&quot;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;strong&gt;注意事项：&lt;/strong&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;Notion AI是付费功能，但免费试用期内可以体验&lt;/li&gt;&lt;li&gt;支持中文，效果不错&lt;/li&gt;&lt;li&gt;数据隐私：AI会处理你的内容，敏感数据慎用&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;四、总结与对比&lt;/h2&gt;&lt;p&gt;三款工具各有优劣：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;Excel Labs&lt;/strong&gt;：免费，适合Excel重度用户，但功能单一（只写公式）&lt;/li&gt;&lt;li&gt;&lt;strong&gt;GPT for Sheets&lt;/strong&gt;：功能最丰富，但需要API Key，适合Google Sheets用户&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Notion AI&lt;/strong&gt;：集成度最高，但付费，适合Notion笔记用户&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;我个人的使用场景：Excel里用Excel Labs写公式，Google Sheets里用GPT for Sheets做批量处理，Notion里用AI写总结。三者结合，基本覆盖了日常办公的AI需求。&lt;/p&gt;&lt;p&gt;最后提醒：AI不是万能的，生成的结果建议人工复核一下，特别是公式和数据分析。但总体来说，这些小工具确实能帮你省掉大量重复劳动，值得一试。&lt;/p&gt;</description><pubDate>Thu, 11 Jun 2026 09:03:49 +0800</pubDate></item><item><title>用AI API一个月要花多少钱？普通用户如何控制成本</title><link>https://298.name/post/185.html</link><description>&lt;h2&gt;先晒账单：我一个月花了多少钱？&lt;/h2&gt;&lt;p&gt;上个月我同时跑DeepSeek和ChatGPT的API，总共花了约$23.46。其中ChatGPT占了$18.2，DeepSeek才$5.26。说实话，这个数字比我预想的低——毕竟我每天至少调用100次，写代码、翻译、总结文档全用API。但如果你不控制，分分钟翻10倍。下面直接上干货：怎么省钱。&lt;/p&gt;&lt;h2&gt;成本大头在哪？&lt;/h2&gt;&lt;p&gt;账单里80%的费用来自&quot;输出token&quot;。输入token便宜得像白菜价（比如DeepSeek输入$0.14/百万token，输出$0.28/百万），但输出一多就烧钱。我统计过：一次500字的回答，输出token约700个，按GPT-4算就是$0.014，看似不多，但每天100次就是$1.4，一个月$42。所以，&lt;strong&gt;控制输出长度是最有效的省钱手段&lt;/strong&gt;。&lt;/p&gt;&lt;h2&gt;5个实用省钱技巧&lt;/h2&gt;&lt;h3&gt;1. 提示词压缩：少说废话&lt;/h3&gt;&lt;p&gt;很多人写prompt像写作文：&quot;请帮我用Python写一个函数，它应该接收一个列表作为参数，然后返回列表中所有偶数的平方，注意要处理空列表的情况……&quot;这太长了。改成：&quot;Python函数：输入列表，返回偶数平方，处理空列表。&quot;token减少一半。我习惯用&lt;code&gt;max_tokens=200&lt;/code&gt;强制截断，不够再追问。&lt;/p&gt;&lt;h3&gt;2. 缓存结果：别重复请求&lt;/h3&gt;&lt;p&gt;同一个问题问10次？浪费。我写了个简单缓存：用prompt的哈希值当key，存到本地SQLite。命中率大概30%，省了30%费用。代码很简单：&lt;/p&gt;&lt;pre&gt;&lt;code&gt;import hashlib, sqlite3, json
conn = sqlite3.connect('api_cache.db')
c = conn.cursor()
c.execute('CREATE TABLE IF NOT EXISTS cache (key TEXT PRIMARY KEY, response TEXT)')
def get_cached(prompt):
    key = hashlib.sha256(prompt.encode()).hexdigest()
    c.execute('SELECT response FROM cache WHERE key=?', (key,))
    row = c.fetchone()
    return json.loads(row[0]) if row else None
def set_cache(prompt, response):
    key = hashlib.sha256(prompt.encode()).hexdigest()
    c.execute('INSERT OR REPLACE INTO cache VALUES (?,?)', (key, json.dumps(response)))
    conn.commit()&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;注意：缓存只适用于确定性任务（如翻译固定句子），对话类别乱用。&lt;/p&gt;&lt;h3&gt;3. 选对模型：别杀鸡用牛刀&lt;/h3&gt;&lt;p&gt;我日常用DeepSeek（$0.28/百万输出）处理简单任务，只有复杂逻辑才调GPT-4（$15/百万输出）。价格差50倍。怎么区分？我设了个规则：如果任务需要&quot;创造性&quot;或&quot;长上下文&quot;，用GPT-4；否则无脑DeepSeek。实测80%任务可以用便宜模型搞定。&lt;/p&gt;&lt;h3&gt;4. 限制输出长度：精确控制&lt;/h3&gt;&lt;p&gt;API参数里&lt;code&gt;max_tokens&lt;/code&gt;是救命稻草。比如翻译任务，我设&lt;code&gt;max_tokens=100&lt;/code&gt;，因为一句话翻译不会超过50个词。代码生成也设&lt;code&gt;max_tokens=500&lt;/code&gt;，不够再让模型&quot;继续&quot;。另外，用&lt;code&gt;stop&lt;/code&gt;参数提前终止，比如遇到&quot;。&quot;或&quot;
&quot;就停。&lt;/p&gt;&lt;h3&gt;5. 批量请求：减少调用次数&lt;/h3&gt;&lt;p&gt;把多个小任务合并成一个请求。比如要翻译10句话，别一句一句调，而是写prompt：&quot;翻译以下10句话为英文，每句一行输出：
1. 你好
2. 再见
...&quot;这样只花一次请求的token，但输出10行。输入token多了点，但输出token省了9倍。&lt;/p&gt;&lt;h2&gt;我的月度账单拆解&lt;/h2&gt;&lt;p&gt;DeepSeek：输入约500万token（$0.7），输出约150万token（$4.2），缓存命中省了$1.5，实际$5.26。ChatGPT：输入200万token（$3.0），输出50万token（$7.5），加上一些高价模型调用（如GPT-4 Turbo），总计$18.2。合计$23.46。如果我不控制，估计至少$100+。&lt;/p&gt;&lt;h2&gt;总结&lt;/h2&gt;&lt;p&gt;省钱核心就三点：&lt;strong&gt;压缩prompt、用便宜模型、限制输出&lt;/strong&gt;。缓存和批量是锦上添花。我推荐新手先设&lt;code&gt;max_tokens=200&lt;/code&gt;，然后根据效果逐步放开。另外，定期查看API dashboard，哪个模型花钱多就砍哪个。别被AI的便利性忽悠了，钱是自己的。&lt;/p&gt;</description><pubDate>Tue, 09 Jun 2026 16:03:21 +0800</pubDate></item><item><title>Mac Mini M4 Pro 48GB本地部署大模型：Ollama+OpenClaw完整指南</title><link>https://298.name/post/184.html</link><description>&lt;h2&gt;先说结论：Mac Mini M4 Pro 本地跑大模型，真香！&lt;/h2&gt;&lt;p&gt;最近搞了一台Mac Mini M4 Pro（48GB内存），想着能不能本地跑大模型，毕竟云端API虽然方便，但费用隐私都是问题。实测下来，部署Ollama+OpenClaw，跑Qwen2.5-Coder:32B和Qwen2.5-VL:7B，速度稳定在10-20 token/s，日常使用完全够用。关键是零费用、完全隐私、模型可随意定制替换。如果你也有M4 Pro或者类似设备，这篇教程带你一步步搞定。&lt;/p&gt;&lt;h2&gt;准备工作&lt;/h2&gt;&lt;h3&gt;硬件要求&lt;/h3&gt;&lt;ul&gt;&lt;li&gt;Mac Mini M4 Pro（推荐48GB内存，32B模型需要至少32GB）&lt;/li&gt;&lt;li&gt;macOS Sequoia 15.0+&lt;/li&gt;&lt;li&gt;至少50GB空闲硬盘（模型下载需要）&lt;/li&gt;&lt;/ul&gt;&lt;h3&gt;软件工具&lt;/h3&gt;&lt;ul&gt;&lt;li&gt;Ollama：本地模型运行框架&lt;/li&gt;&lt;li&gt;OpenClaw：开源AI对话客户端（支持OpenAI兼容API）&lt;/li&gt;&lt;li&gt;终端（Terminal）&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;第一步：安装Ollama并下载模型&lt;/h2&gt;&lt;p&gt;Ollama安装很简单，去官网下载或者用Homebrew：&lt;/p&gt;&lt;pre&gt;&lt;code&gt;brew install ollama&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;安装后启动服务：&lt;/p&gt;&lt;pre&gt;&lt;code&gt;ollama serve&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;保持终端运行。然后新开终端下载模型：&lt;/p&gt;&lt;pre&gt;&lt;code&gt;ollama pull qwen2.5-coder:32b
ollama pull qwen2.5-vl:7b&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;下载时间取决于网络，32B模型大概20GB，7B模型约4.5GB。耐心等待。&lt;/p&gt;&lt;p&gt;测试模型是否可用：&lt;/p&gt;&lt;pre&gt;&lt;code&gt;ollama run qwen2.5-coder:32b&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;输入&quot;Hello&quot;看返回。没问题就退出（Ctrl+D）。&lt;/p&gt;&lt;h2&gt;第二步：安装OpenClaw并配置&lt;/h2&gt;&lt;p&gt;从OpenClaw官网下载macOS版本，安装后打开。首次运行会要求配置API。&lt;/p&gt;&lt;p&gt;点击&quot;设置&quot; -&gt; &quot;模型&quot; -&gt; &quot;添加模型&quot;，填入以下信息：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;模型名称&lt;/strong&gt;：随便填，比如&quot;本地Qwen Coder&quot;&lt;/li&gt;&lt;li&gt;&lt;strong&gt;Base URL&lt;/strong&gt;：&lt;code&gt;http://localhost:11434&lt;/code&gt;（注意：不能加/v1！踩坑点！）&lt;/li&gt;&lt;li&gt;&lt;strong&gt;API Key&lt;/strong&gt;：随便填，比如&quot;ollama&quot;&lt;/li&gt;&lt;li&gt;&lt;strong&gt;模型ID&lt;/strong&gt;：&lt;code&gt;qwen2.5-coder:32b&lt;/code&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;同样的步骤添加第二个模型：模型ID填&lt;code&gt;qwen2.5-vl:7b&lt;/code&gt;。&lt;/p&gt;&lt;p&gt;保存后，回到对话界面，左上角选择模型即可开始对话。&lt;/p&gt;&lt;h2&gt;第三步：实测性能&lt;/h2&gt;&lt;p&gt;我简单测试了几个场景：&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;strong&gt;代码生成&lt;/strong&gt;：让qwen2.5-coder写一个Python快排，输出约15 token/s，质量不错。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;多模态识别&lt;/strong&gt;：给qwen2.5-vl一张图片问内容，响应约10 token/s，识别准确。&lt;/li&gt;&lt;li&gt;&lt;strong&gt;长上下文&lt;/strong&gt;：连续对话10轮，速度稳定在12-18 token/s。&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;对比云端API，Kimi和MiniMax的免费额度有限，超了要付费。本地部署完全免费，而且数据不出设备，隐私无忧。另外你可以随时换模型，玩转各种开源模型。&lt;/p&gt;&lt;h2&gt;踩坑点：Base URL不能含/v1&lt;/h2&gt;&lt;p&gt;我一开始配置OpenClaw时，习惯性地在Base URL后面加了&lt;code&gt;/v1&lt;/code&gt;（因为很多OpenAI兼容API都这样），结果一直报错无法连接。后来查了Ollama文档才发现，Ollama的API端点就是&lt;code&gt;http://localhost:11434&lt;/code&gt;，不需要&lt;code&gt;/v1&lt;/code&gt;。去掉后立刻正常。如果你也遇到连接问题，检查这里。&lt;/p&gt;&lt;h2&gt;其他注意事项&lt;/h2&gt;&lt;ul&gt;&lt;li&gt;Ollama服务必须一直运行，建议设为开机自启：&lt;code&gt;brew services start ollama&lt;/code&gt;。&lt;/li&gt;&lt;li&gt;如果内存不足，可以调整模型量化版本，比如&lt;code&gt;qwen2.5-coder:32b-q4_K_M&lt;/code&gt;。&lt;/li&gt;&lt;li&gt;OpenClaw支持插件和自定义提示词，可以进一步优化体验。&lt;/li&gt;&lt;/ul&gt;&lt;h2&gt;总结&lt;/h2&gt;&lt;p&gt;Mac Mini M4 Pro 48GB本地跑大模型完全可行，Ollama+OpenClaw组合免费、隐私、可定制。对于开发者、AI爱好者，这套方案值得一试。如果你手头有M4 Pro，赶紧动手吧！&lt;/p&gt;</description><pubDate>Tue, 09 Jun 2026 16:02:58 +0800</pubDate></item></channel></rss>