最佳Api播客 (2026)

1
EP-85 最新出的一款基於LLM的文件解析模型的輕量級：MonkeyOCR，效能好速度快 6:13

7M ago6:13

6:13

**最新出的一款基於LLM的文件解析模型的輕量級：MonkeyOCR，效能好速度快** 其3B在中文文檔解析任務上平均表現超過了Gemini 2.5 Pro和Qwen2.5-VL-72B 對於多頁文件解析，其處理速度達到每秒0.84頁，超過了MinerU的0.65頁/秒和Qwen2.5-VL-7B的0.12頁/秒相較於MinerU，MonkeyOCR在九種中英文文件類型上平均表現提升了5.1%，公式辨識提升了15%，表格辨識提升了8.6% MonkeyOCR採用「結構偵測-內容辨識-關係預測」三元組模式，在簡化傳統分層方法的多工具流程的同時，避免了直接使用多模態模型處理整文檔頁的低效性支援多種類型中英文文檔，暫不支援照片文檔 github：https://github.com/Yulia…

1
EP-84 把Claude Code的AI能力整合到GitHub工作流程中的一款工具：claude-hub，變成GitHub的AI助手，實現自動化開發流程 8:28

7M ago8:28

8:28

**把Claude Code的AI能力整合到GitHub工作流程中的一款工具：claude-hub，變成GitHub的AI助手，實現自動化開發流程** 在GitHub的issue或PR中@機器人，Claude就能自動執行寫入程式碼、檢查程式碼、合併程式碼等開發任務 Claude能自主處理完整的開發流程，包括分析程式碼倉庫，端對端開發，進行程式碼審查，PR的生命週期管理，監控CI/CD管線，自動化程式碼回應具備智慧任務管理能力，可以持續工作，直到任務全部完成，還可以處理卡殼等待等外部進程，並自動恢復工作 https://github.com/claude-did-this/claude-hub Become a free member and never miss an update: h…

1
EP-83 具備細粒度語音編輯能力的一款AI語音修復模型：PlayDiffusion，修改後的語音聽上去可與原語音無縫銜接 7:26

7M ago7:26

7:26

**具備細粒度語音編輯能力的一款AI語音修復模型：PlayDiffusion，修改後的語音聽上去可與原語音無縫銜接** 對於做語音播報、或者是有聲讀物，這種需要頻繁修改語音內容的場景來說比較實用支援精準修改，例如對語音中的單字進行精準修改，把一句話中的“小明”改成“小紅” 其在編輯過程中保留了上下文訊息，使得修改後的語音與原語音間能保持平滑銜接透過保留說話者的特徵，來確保修改後的語音與原始語音在音色和風格上保持一致 https://github.com/playht/PlayDiffusion Become a free member and never miss an update: https://open.firstory.me/join/cma3mukjr127j01w5h4m5…

1
EP-82 很有趣的一個項目，科學研究論文轉換程式碼：Paper2Code 6:25

7M ago6:25

6:25

**很有趣的一個項目，科學研究論文轉換程式碼：Paper2Code** Paper2Code可以讀取機器學習領域的PDF/LaTeX格式的科學研究論文，然後自動幫你寫出程式碼，且能自我品質評估假如你想實作一篇論文裡的演算法，但懶得自己寫程式碼，就用它幫你把論文裡的內容寫出程式碼 Paper2Code採用多智能體設計，工作流程分成三個部分，它先閱讀論文，理解演算法的整體結構和流程；然後分析論文中的關鍵細節，例如公式、變數、參數等等；最後根據分析結果，自動產生程式碼實驗評估，PaperCoder從機器學習論文中產生程式碼的品質高、接近作者實現水平，優於其他基準模型 github：https://github.com/going-doer/Paper2Code Become a free me…

1
EP-81 GPT 殺手：FLUX.1 Kontext API 節點發布 6:19

7M ago6:19

6:19

這些文本介紹了 FLUX.1 Kontext，這是一個即將開源的生成模型套件，被宣稱為「GPT Killer」。ComfyUI 已將其作為官方的 API 節點推出，主要用於文字和圖像驅動的編輯與生成。Kontext 模型，包括 Kontext Pro 和 Kontext Max 兩種版本，旨在支援上下文中的圖像操作，實現從精確物體修改到風格傳輸等多種功能。文章還提供了如何開始使用該模型的說明，並展示了一些範例輸出，同時也包含了一些關於付費模型和審核訊息的用戶討論。 https://blog.comfy.org/p/flux1-kontext-api-node-in-day-1-workflow 加入免費會員，更新資訊不漏接： https://open.firstory.me/jo…

1
EP-80 Mary Meeker 前所未有的 AI 轉型速度 8:33

7M ago8:33

8:33

這些資料提供了一份關於人工智慧 (AI) 快速發展及其廣泛影響的綜合概述。內容涵蓋了AI 在各行各業的應用和採用現況，強調了其在軟體工程、產品開發、醫療、法律、客戶服務及金融等領域的顯著成長。此外，資料也探討了AI 基礎設施的建置與相關資本支出，並指出AI 模型效能的提升與成本下降，以及中美兩國在 AI 領域的競爭格局。加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.firstory.me/user/cma3…

1
EP-79 可從表格、圖片、圖表等複雜文件中提取結構化資料的Python庫：agentic-doc 7:10

7M ago7:10

7:10

**可從表格、圖片、圖表等複雜文件中提取結構化資料的Python庫：agentic-doc** 支援100+頁PDF長文件的處理，自動進行分割與並行處理自動重試和分頁，處理並發、超時和速率限制可以解析任意長度PDF、單一影像或指向這些文件的URL 可以把擷取的內容以邊界框的形式視覺化，支援批量解析 github：https://github.com/landing-ai/agentic-doc 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集…

1
EP-78 新的一個生物學推理模型：BioReason，第一個將DNA基礎模型與LLM深度結合的模型，疾病不可能（預測例如選擇某個基因導致出來什麼疾病）準確率達到了97% 7:26

7M ago7:26

7:26

**新出來的一種生物學推理模型：BioReason，第一個將 DNA基礎模型與LLM深度結合的模型，疾病路徑預測（例如判斷某個基因變異導致什麼疾病）準確率達到了97%** 變異效應預測準確率達80-88%。其比僅用DNA或LLM的模型相比，性能提升超過15% 它把DNA 基礎模型與LLM結合，來用於生物推理，透過監督微調+GRPO強化學習來進行訓練它不僅能預測，還能解釋原因，它會逐步推理，這個就能讓科學家清楚看到基因變異是如何導致疾病的，而不是只知道結果不知道過程 BioReason的出現讓基因組AI變得可解釋、可操作，從分析基因變異到研發新藥，這或許會改變生物學研究方式 github：https://github.com/bowang-lab/BioReason 專案頁：https://…

1
EP-77 微軟Bing凌晨開發了一個視頻生成工具出來：Bing Video Creator，Sora提供技術支持，免費使用！ 9:25

7M ago9:25

9:25

**微軟Bing凌晨開發了一個視頻生成工具出來：Bing Video Creator，Sora提供技術支持，免費使用！ ** 目前生成影片時間長為5秒，格式為9:16，未來將支援16:9 最多可以同時排隊生成三個視頻，創作內容保存90天生成速度有快速和標準兩種模式，最初有10次快速產生機會，用完後可消耗100微軟獎勵積分繼續使用，或用速度標準加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.firstory.…

1
EP-76 一款設計師的遊標：onlook，設計師可以用拖曳/點擊視覺化的方式建立前端介面，不用寫程式碼也可開發前端應用 5:19

7M ago5:19

5:19

**一款設計師的遊標：觀看，設計師可以用拖曳/點擊視覺化的方式建立前端介面，不用寫程式碼也可開發前端應用** 可以直接在瀏覽器裡拖曳、調整元素來設計網站介面，即時預覽效果，並且內建了AI功能，每一步操作都會自動轉換成程式碼設計和程式碼團體綁定，在瀏覽器裡修改設計，程式碼會自動更新；在程式碼裡修改，設計基因即時更新也可以點選瀏覽器裡的任何元素，直接定位到程式碼目前可以從文字、圖片匯入創建應用支援無縫整合到現有的 React + TailwindCSS 專案中 github：https://github.com/onlook-dev/onlook 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw…

1
EP-75 一款增強版的Markdown工具：Quarkdown，它在Markdown基礎上增加了許多功能，可以用來產生書籍、簡報標籤 6:49

7M ago6:49

6:49

**一款增強版的Markdown工具：Quarkdown，它在Markdown基礎上增加了許多功能，可以用來產生書籍、簡報** 可以排版組件頁的書籍格式，包含章節、頁碼等，可插入圖表、數學公式等支援“函數”和“變數”，可以定義函數來擴展功能支援即時預覽，內容有修改會自動更新 github：https://github.com/iamgio/quarkdown 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.…

1
EP-74 ElevenLabs大更新，發布了對話式AI 2.0，增加了多語言對話切換、RAG、多模態、大量通話的能力 6:28

7M ago6:28

6:28

**ElevenLabs大更新，發布了對話式AI 2.0，增加了多語言對話切換、RAG、多模態、批量通話的能力** 自動辨識您使用的語言，並用相同的語言回答，需要手動切換能夠存取使用外部知識庫來回答問題可以同時處理文字和語音大量通話功能，可以同時撥打多通電話，對於需要快速聯繫多個場景的比較實用部落格：https://elevenlabs.io/blog/conversational-ai-2-0 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對…

1
EP-73 音訊驅動的多人對話視訊產生工具：MultiTalk，從效果看人物唇形同步的一致性非常高 5:36

7M ago5:36

5:36

加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments Powered by Firstory Hosting

1
EP-72 一款日語學習AI工具：japanese-analyzer，可以進行日文句子深度解析，拆解句法結構、標註詞性、呈現發音與釋義 6:06

7M ago6:06

6:06

**一款日語學習AI工具：japanese-analyzer，可以進行日文句子深度解析，拆解句法結構、標註詞性、呈現發音與釋義** 原聲TTS朗讀，還原純正日文發音一鍵輸出詞性、假名、羅馬音與文法成分，提供精準中文釋義支持OCR，雙語對照 github：https://github.com/cokice/japanese-analyzer 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.firstory.m…

1
EP-71 智能體卷瘋了，來一款全端通用AI Agent：Lemon AI，具備自主性和工具調用能力，可從需求到成果交付全流程自動化 7:12

7M ago7:12

7:12

**智能體卷瘋了，來一款全端通用AI Agent：Lemon AI，具備自主性和工具調用能力，可從需求到成果交付全流程自動化** 無需人工幹預，給它提供任務目標，它能自動找出完成任務所需的步驟以及工具，支援透過頁面端即時查看任務執行狀態 Lemon AI整合了自然語言處理、程式碼產生、網頁瀏覽、API呼叫、系統命令執行、應用程式操作等多種能力可執行市場調查、金融分析、數據分析、程式碼程式設計、生活規劃等領域的複雜任務 github：https://github.com/hexdocom/lemonai 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open…

1
EP-70 DeepSeek R1 及其更新版本 R1-0528 9:02

7M ago9:02

9:02

https://chat.deepseek.com/ 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments Powered by Firstory Hosting

1
EP-69 HunyuanVideo-Avatar，根據音頻生成動畫視頻，它能根據語音匹配豐富的表情，讓你的數位人具備「生命力」標籤 7:33

7M ago7:33

7:33

**騰訊剛剛開源了HunyuanVideo-Avatar，根據音頻生成動畫視頻，它能根據語音匹配豐富的表情，讓你的數位人具備「生命力」** 給一張人物的圖片，再給一段音頻，它能讓這張圖片裡的人物動起來，從效果看，嘴型、表情、動作都和語音高度同步！並且支持多個人物同時對話，這可以用來做對話、訪談類的內容了支援多種風格，真人照片、動漫、3D角色、卡通等等做電商直播、創意短片、個人化老師、AI播報員都可以，數位人捲起來了 github：https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊…

1
EP-68 AI在育兒領域的應用：一個AI保母計畫：ai-baby-monitor，讓家長不必揪著寶寶，可以安心的時刻做其他事情，也可以延伸到老人看護場景標籤 7:20

8M ago7:20

7:20

**AI在育兒領域的應用：一個AI保姆專案：ai-baby-monitor，讓家長不必時刻緊盯著嬰兒，可以安心的做其他事情，也可以延伸到老人看護場景** ai-baby-monitor是一個基於本地視頻和LLM的AI嬰兒監視器，可作為家長的“第二雙眼睛”，及時發現嬰兒的危險行為或潛在危險情況，提醒大人及時幹預可以提前設定一些安全規則，如果違反了規則，它就會發出蜂鳴聲警報基於Qwen2.5 VL模型，所有數據均在本地處理，支援同時監控多個房間 github：https://github.com/zeenolife/ai-baby-monitor 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小…

1
EP-67 給一個公司名稱，幾傢俱樂部完成任何公司的研究，取得格式化的公司資料！給一個公司名稱，幾傢俱樂部完成任何公司的研究，取得格式化的公司資料！ 7:44

8M ago7:44

7:44

**完成一個公司名稱，進行一些公司的研究，取得格式化的公司資料！ ** hyperbrowserai搞一個公司研究員工具，一個無介面命令列工具搞公司研究/市場分析的可做資訊收集工具 github：https://github.com/hyperbrowserai/examples/tree/main/company-researcher 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.firstory.me/…

1
EP-66 微軟開源的：NLWeb，讓網站從點按鈕、填表格的方式升級為用聊天的方式 12:31

8M ago12:31

12:31

**微軟開源的：NLWeb，讓網站從點按鈕、填表格的方式升級為用聊天的方式互動！ ** NLWeb是讓網站實現對話式介面的協議，並且支援MCP，也就是說NLWeb也可以和其他AI工具無縫對接它基於Schema org等語意層，提供了開放式協定和開源工具，用來建構AI網路的基礎層，類似當年HTML對文件共享的作用一樣支援Windows、MacOS、Linux等作業系統，也相容於Qdrant、Snowflake等多種函式庫、大模型並提供了程式碼範例和工具，可以快速為網站添加自然語言互動功能 github：https://github.com/microsoft/NLWeb 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr12…

1
EP-65 一個用語言互動的無人機控制研究計畫：UAV-Flow，透過語言指令實現無人機的精確控制，直接說話就能飛 6:11

8M ago6:11

6:11

**一個用語言互動的無人機控制研究計畫：UAV-Flow，透過語言指令實現無人機的精確控制，直接說話就能飛** UAV-Flow是第一個專注於精細動作控制的系統，過去的研究主要集中在遠距離導航控制 UAV-Flow主要專注於語言引導的精細動作控制，無人機根據語言指示可執行更複雜、更精準的近距離動作例如，用說話的方式，讓它繞樹飛行，在車的左側降落等，更適合一般人使用其用「模仿學習」的方法來訓練無人機，就是說讓無人機「模仿」經驗豐富的飛行員是怎麼飛的，把飛行員的飛行軌跡和對應的語言指令結合起來，讓無人機學習由於無人機機載運算能力的限制，UAV-Flow搞了一套地空協同部署策略，把複雜的運算任務放在地面站完成，解決在無人機上部署大規模AI模型的問題支援固定命令集和開放詞彙命令集專案頁：h…

1
EP-64 一套LLM幻覺偵測工具：uqlm，給了多種評測方式來偵測AI輸出幻覺，可以根據不同的場景選擇適合的方法 7:20

8M ago7:20

7:20

**一套LLM幻覺檢測工具：uqlm，給了多種評測方式來檢測AI輸出幻覺，可以根據不同的場景選擇合適的方法** 1.黑盒評分器，透過多次產生並比較相同提示的回復來評估一致性。就反覆問同一個問題，如果每次回答的核心意思不一致或差異很大，表示它可能在瞎編 2.白盒評分器，利用token機率估計不確定性。看看LLM對自己答案中每個部分的自信程度，如果它對某個字或句子很不確定，就表示這部分內容可能有問題 3.專家評審法 (LLM 作為評審評分器)，使用一個或多個 LLM評估原始LLM回應的可靠性，就是找其他LLM來評判答案的可靠性 4.綜合評估法 (整合評分器)，結合以上幾種方法進行綜合評估 github：https://github.com/cvs-health/uqlm 加入免費會員，更新資訊不…

1
EP-63 Google基於Gemma 3的多模態醫療模型：MedGemma，可根據醫學影像和病歷描述產生診斷報告 3:51

8M ago3:51

3:51

**Google基於Gemma 3的多模態醫療模型：MedGemma，可根據醫學影像和病歷描述產生診斷報告** 它在胸部X光片、皮膚病圖像、眼科圖像、病理切片等大量醫療數據上進行了預訓練和微調可以看圖說話，給一張X光片，讓它用文字描述圖像內容；讓它回答關於醫學的問題；或給它一些醫學影像和相關病歷信息，讓它產生一份診斷報告兩個版本， 4B 多模態版，支援圖像和文字 27B 純文字版性能都優於其基礎模型應用場景可以用於醫學影像分類；視覺問答，看X光片、看看皮膚照片、看眼底照片、看病理切片；報告生成等等；可做為開發醫療AI應用的起點模型：https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6…

1
EP-62 Manus類agent卷瘋了，又出來一款ii-agent開源框架，擅長建構跨多個領域工作流程的agent，能獨立執行複雜任務已成為Agent標配 6:46

8M ago6:46

6:46

**Manus類agent卷瘋了，又出來一款ii-agent開源框架，擅長建構跨多個領域工作流程的agent，能獨立執行複雜任務已成為Agent標配** 其技能涵蓋研究與核查、內容產生、資料分析視覺化、軟體開發、工作流程自動化、問題解決6個面向可以用它來做筆記、寫文章、做研究、分析資料、寫程式碼、建立網站、自動化工作流程、故障排除等等，基本上日常工作涵蓋的差不多了 ii-agent整合了搜尋引擎、程式碼編輯器、命令列終端機等工具，使得它可以處理更複雜的任務，具備持續學習和適應能力給了命令列介面和網頁介面兩種互動方式。目前正在開發針對PDF、音訊、影像、視訊、幻燈片等不同模態的處理能力 github：https://github.com/Intelligent-Internet/ii-ag…

1
EP-61 最強編寫代碼大模型 Claude 4介紹 6:21

8M ago6:21

6:21

https://claude.ai/new 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments Powered by Firstory Hosting

1
EP-60 紅杉資本：這次市場規模比雲端轉型大一個數量級，學會「隨機性思維」與「管理 AI Agents」」 9:28

8M ago9:28

9:28

加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments Powered by Firstory Hosting

1
EP-59 Google I/O '2025 主題演講 6:32

8M ago6:32

6:32

Google I/O 大會的演講稿，內容圍繞著 Google 在人工智慧 (AI) 領域的最新進展。演講者詳細介紹了 Gemini 模型的性能提升、應用擴展以及其在搜尋、影像生成、影片創作、機器人等方面的整合。此外，演講稿也涵蓋了 AI 驅動的新產品和功能，例如 Project Starline 的 Beam 視訊通訊平台、Project Astra 的通用 AI 助理、Project Mariner 的網路互動代理，以及針對開發者的 AI 工具和 API。最後，演講中也討論了 AI 在協助身心障礙者、災害應變等方面的潛力，並預告了 Android XR 眼鏡等新硬體產品。加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127…

1
EP-58 Google 開發的全新 AI 製片工具Flow 8:00

8M ago8:00

8:00

是一款由 Google 開發的全新 AI 製片工具，專為搭配其先進模型 Veo、Imagen 和 Gemini 使用而設計。Flow 旨在透過提供如攝影機控制、場景建構器和資產管理等功能，協助創作者輕鬆製作出具電影感的短片和場景。此工具是 VideoFX 的演變，目前已開放給訂閱 Google AI Pro 或 Ultra 方案的美國使用者，未來將陸續開放給更多國家。此外，Google 也與多位電影製作人合作，探索 AI 在電影敘事中的潛力，並將他們的意見整合到 Flow 的開發中。 https://blog.google/technology/ai/google-flow-veo-ai-filmmaking-tool/ 加入免費會員，更新資訊不漏接： https://open.firsto…

1
EP-57 微軟Microsoft Build 2025 強調人工智慧為開發者帶來的新平台轉變 6:18

8M ago6:18

6:18

微軟執行長薩蒂亞·納德拉在 Build 2025 開場演講中，強調人工智慧（AI）為開發者帶來的新平台轉變。他深入探討了包括 GitHub Copilot 在內的 AI 工具如何提升開發者效率，並宣布 Microsoft 365 Copilot 的最新進展，特別是在代理程式和多代理程式協調方面的突破。演講還介紹了 Azure AI Foundry，作為支援各類 AI 工作負載的全面應用程式伺服器，並宣布與 OpenAI、Mistral 和 XAI 等公司在模型選擇和基礎設施方面的合作。此外，演講展示了 Windows AI Foundry 和 MCP 協定，強調在客戶端設備上實現 AI 功能的重要性，最後則展示了 AI 在科學研究和教育等不同領域的實際應用，展現了微軟對賦予全球開發者權力以塑…

1
EP-56 Google NotebookLM 的 Sparks 影片 6:15

8M ago6:15

6:15

Google NotebookLM 將推出的新功能「Sparks」影片摘要，此功能旨在將使用者文件或研究報告自動轉換為短影片。文章指出，此項技術仰賴 Gemini2.5Pro 的多模態能力以及 Deep Research 功能，能夠快速生成包含文字、圖片和音訊的結構化影片。報導也分析了「Sparks」在教育、研究與內容創作等多個領域的應用潛力及其對 AI內容生成領域的影響，同時提及可能引發的版權與原創性爭議。加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56gi…

1
EP-55 OpenAI Codex 程式設計應用與指南 8:05

8M ago8:05

8:05

OpenAI Codex，這是一個用於理解和產生程式碼的 AI 模型，是 GPT-3 的一個變種。文章解釋了 Codex 的工作原理，包括它如何處理自然語言提示、預測程式碼序列以及從大量資料中學習模式。多個來源都強調 Codex 的多功能性，可用於程式碼生成、自動完成、偵錯、解釋和自動化任務，支援多種程式語言。然而，這些文章也指出了一些限制，例如可能生成帶有錯誤或安全問題的程式碼，以及訓練資料的時效性。最後，資源概述了存取和使用 Codex 的不同方法，包括透過 OpenAI API、Codex CLI 和整合到 ChatGPT 的代理程式，並提供優化提示和將其整合到開發工作流程中的技巧。 https://openai.com/index/introducing-codex/ 加入免…

1
EP-54 黃仁勳2025 COMPUTEX 談論台灣AI產業的夥伴關係 6:11

8M ago6:11

6:11

加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments Powered by Firstory Hosting

1
EP-53 Telegram快讀助手：telegram link summarizer agent，它可以總結聊天中分享的各種鏈接，提取內容並產生簡潔摘要 7:09

8M ago7:09

7:09

**Telegram快讀助手：telegram link summarizer agent，它可以總結聊天中分享的各種鏈接，提取內容並產生簡潔摘要** 有人發鏈接，它就幫你讀，快速告訴你鏈接內容說了什麼，輔助判斷是否需要深讀。例如一些資訊群、學習群，或是內容量比較大的工作群就可以用它輔助基本各種連結都可以，支援總結網頁文章、PDF文件、推特/LinkedIn帖子，以及YouTube影片等等智慧路由，可自動辨識連結類型選擇適合的處理方式 github：https://github.com/kargarisaac/telegram_link_summarizer_agent 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j…

1
EP-52 AI智能體的行為快取系統：Muscle-mem，能讓智能體記住重複任務，減少重複調用LLM，可以與現有Agent系統集 5:35

8M ago5:35

5:35

**AI智能體的行為快取系統：Muscle-mem，能讓智能體記住重複任務，減少重複呼叫LLM，可以與現有Agent系統整合** 相當於給智能體加了個大腦，幫它記住之前做過的事，當智能體接到任務時，它會先檢查記憶庫，如果之前做過，就直接按照之前記錄步驟去做；如果是新的任務，就會把任務交給智能體處理核心是它的驗證機制，並不是簡單復用所有先前的操作，它會判斷這個記憶是不是真的適合現在的任務，如果任務的某些關鍵訊息變了，就不能直接用之前的記憶對重複任務直接用緩存，減少呼叫AI模型次數，節省成本 github：https://github.com/pig-dot-dev/muscle-mem 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mu…

1
EP-51 一款具備自我進化能力的多智能體自動化系統：EvoAgentX，對需要持續優化及多步驟協作的複雜AI應用場景非常適用 6:32

8M ago6:32

6:32

**一款具備自我進化能力的多智能體自動化系統：EvoAgentX，對需要持續優化及多步驟協作的複雜AI應用場景非常適用** 比如說，醫療診斷輔助、科研助理、電商平台訂單處理、自動化客服、個人化推薦、履歷智能職缺推薦、股票視覺分析等等 EvoAgentX是一款具備自動工作流程產生、任務排程執行、且整合了MCP能力的多智能體系統工具除了構建，核心在於它透過整合多種演化演算法，可以自動調整智能體的參數、優化工作流程結構，使AI智能體處理重複任務時更有效率，同時也能自動優化自我行為在Open Deep Research和OWL上，透過EvoAgentX優化其在某些任務上的表現得到了提升 github：https://github.com/EvoAgentX/EvoAgentX 加入免費會員，更新…

1
EP-50 整合了RAG、MCP的多智能體無程式碼建構工具：open-agent-platform，圖形化操作，適合無程式快速原型 7:00

8M ago7:00

7:00

**整合了RAG、MCP的多智能體無程式碼建構工具：open-agent-platform，圖形化操作，適合無程式快速原型** 可以用它做例如，自動化相關任務，資料分析、個人/研究助理、智慧客服、個人化推薦，或企業內部知識庫等等可透過介面建立和管理智能體，設定智能體的行為、回答風格、處理邏輯等等，可與智能體即時交互，測試共響應與功能，支援擴展 github：https://github.com/langchain-ai/open-agent-platform 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3…

1
EP-49 一款專用於數學建模的AI助理：Math Model Agent，給它題目，它可以完成從問題分析、建立模型、寫程式碼、寫論文等全流程 6:23

8M ago6:23

6:23

**一款專用於數學建模的AI助理：MathModelAgent，給它題目，它可以完成從問題分析、建立模型、寫程式碼、寫論文等全流程** 它是一個多Agent協作系統，包括負責數學建模的agent、編寫/調試程式碼的agent、論文撰寫的agent 支援不同AI模型，內建了本地程式碼解釋器，可以直接運行和調試生成的程式碼適用於輔助數學建模比賽、輔助做數學建模研究，或是做數據分析等等 github：https://github.com/jihe520/MathModelAgent 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/…

1
EP-48 新出的一款整合了瀏覽器操作、MCP、自動工具呼叫、任務規劃、深度研究等多種能力的智慧體框架：minion-agent 6:11

8M ago6:11

6:11

**新出的一款整合了瀏覽器操作、MCP、自動工具呼叫、任務規劃、深度研究等多種能力的智慧體框架：minion-agent** 它的能力在於比如說，8分鐘自動收集了35篇文章，生成6頁的詳細分析報告；自動訪問網站提取定價信息，生成結構化的價格比較表，輔助市場調查等等好比AI助理製作套裝，告訴它要做什麼，它就能自動完成像網站互動、工具使用、計畫、研究等複雜任務支援多種AI模型，可以隨時增加新功能，能和各種工具一起使用用它做科學研究助理、市場調查助理、媒體助理或個人助理都可以 github：https://github.com/femto/minion-agent 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h…

1
EP-47 arXiv論文摘要產生器：arxiv_summarizer，給一個arXiv連結或關鍵字，指定日期範圍，讓它去arXiv上幫你找到對應的論文並總結 7:17

8M ago7:17

7:17

**arXiv論文摘要產生器：arxiv_summarizer，給一個arXiv連結或關鍵字，指定日期範圍，讓它去arXiv上幫你找到對應的論文並總結** 也可以設定自動運行，讓它每天找新的相關論文，並把總結發到你的Google文件裡支援單篇或批量處理，對於需要瀏覽大量論文的研究人員或學生比較有用 github：https://github.com/Shaier/arxiv_summarizer 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集…

1
EP-46 Qwen3的Agent能力使用指南！透過Qwen-Agent讓Qwen3模型無縫調用MCP Server，一鍵將文件轉換為結構化的心智圖 3:39

8M ago3:39

3:39

**Qwen3的Agent能力使用指南！透過Qwen-Agent讓Qwen3模型無縫調用MCP Server，一鍵將文件轉換為結構化的心智圖** 範例中展示了從檔案讀取、智慧編號到心智圖轉換，Qwen-Agent透過Qwen3呼叫MCP Server服務的全流程，程式碼請見下方另外還有基於自然語言操作資料庫、即時智慧地圖服務兩個範例，可以拿來做快速原型開發，修改擴展，或練手使用 CookBook：資料庫操作：https://github.com/QwenLM/Qwen-Agent/blob/main/examples/cookbook_database_manipulation.ipynb 地圖：https://github.com/QwenLM/Qwen-Agent/blob/main…

1
EP-45 一款具備情緒表達的說話者影片產生工具：DICE-Talk，具備多元的情緒表現 5:24

8M ago5:24

5:24

**復旦大學與騰訊放出來的一款具備情緒表達的說話者影片產生工具：DICE-Talk，具備多元的情緒表現** 從效果看身份特徵保持的很好，可以用來做創意短視頻它把身分和情感分開處理，確保表情改變時樣貌不變，並協同處理情感關係，不同情感間自然過渡，避免表情跳變基於音頻驅動面部動畫的生成，根據音頻中的語音和情感信息，自動生成對應的面部表情和口型動作，口型同步保持的可以 github：https://github.com/toto222/DICE-Talk 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukj…

1
EP-44 谷歌等搞的一款影像光源控制系統：LightLab，它的能力不光是可以控制環境光，不一樣的是能控制局部光，還可以增加局部虛擬光 6:32

8M ago6:32

6:32

**Google等搞的一款影像光源控制系統：LightLab，它的能力不光是可以控制環境光，不一樣的是能控制局部光，還可以增加局部虛擬光** 從單張圖片即可實現光源控制能力，從效果看光線變化、以及陰影/反光效果比較自然，每個光源都可以獨立控制功能上，可以控制可見光源，比如說圖片中有一盞檯燈，就可以控制這盞檯燈的亮度、顏色以及位置比方說你想在圖片中增加新光源，點選放置位置系統自動建立光源調整環境光，可以調整圖片整體的明暗度或是窗戶光等這個可以用到比如說，商品廣告，快速生成商品圖多種光效；室內設計，不同光照方案效果的對比；或者是創意拍攝什麼的支援滑桿控制，點擊即可新增光源，來即時預覽效果，可以分別調整單一光源，這個就比較方便程式碼還沒放出來，專案頁：https://nadmag.gi…

1
EP-43 一種新的醫學技術，由加州理工學院的團隊開發，深層組織活體聲音列印 (DISP)，能夠在活體動物體內深處的特定位置3D 列印聚合物。 8:22

8M ago8:22

8:22

描述了一種新的醫學技術，由加州理工學院的團隊開發。這種技術被稱為深層組織活體聲音列印 (DISP)，能夠在活體動物體內深處的特定位置3D 列印聚合物。這項創新利用超聲波來定位，並透過低溫敏感脂質體釋放交聯劑來引發聚合物形成。DISP 平台具有廣泛的潛在應用，包括選擇性藥物輸送、封閉內部傷口，甚至監測生理訊號。 https://www.caltech.edu/about/news/3d-printing-in-vivo-using-sound 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j0…

1
EP-42 馬斯克利用這次訪問推廣其公司的技術，包括Starlink、Optimus機器人、自動駕駛汽車和Boring Company隧道，並與沙烏地官員簽署了協議 6:34

8M ago6:34

6:34

加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw 留言告訴我你對這一集的想法： https://open.firstory.me/user/cma3mukjr127j01w5h4m56giw/comments Powered by Firstory Hosting

1
EP-41 GoogleDeepmind搞了個用於高階演算法設計的AI程式智能體：AlphaEvolve，其幫Google資料中心節省了0.7%算力 7:43

8M ago7:43

7:43

GoogleDeepmind搞了個用於高階演算法設計的AI程式智能體：AlphaEvolve，其幫Google資料中心節省了0.7%算力 AlphaEvolve結合了LLM的創造力和自動化評估器的能力，可以編寫和不斷優化複雜演算法，不僅能產生單一函數，還能進化整個程式碼庫，開發更複雜的演算法它也把Gemini架構中的核心運算效率提高了23%，使訓練時間減少了1%；在數學領域，發現了新的矩陣乘法演算法，在多個開放性數學問題上取得了進展這個工具目前還沒有開放，學術人員可以申請早期訪問計劃，地址見下條部落格：https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing…

1
EP-40 利用OpenMemory MCP，為AI工具加上一個可共享的大腦，讓AI工具可以記住並分享互動前的信息，保持上下文，本地運行 6:13

8M ago6:13

6:13

**利用OpenMemory MCP，為AI工具加上一個可共享的大腦，讓AI工具可以記住並共享互動前的信息，保持上下文，本地運行** 也就是說，你用不同的AI工具設計了一個遊戲角色，你需要修改角色的某個屬性，只要在OpenMemory MCP中修改一次，所有使用該資訊的AI工具就會更新，不用逐一修改相容於Cursor、Claude Desktop、Windsurf、Cline等資料儲存在本機上有集中式儀表板，可查看與控制 github：https://github.com/mem0ai/mem0 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊助支持本節目： https://open.…

1
EP-39 Lovart 是一款號稱是全球首個設計代理的應用程式 5:32

8M ago5:32

5:32

Lovart 是一款號稱是全球首個設計代理的應用程式，旨在簡化整個設計流程，將想法轉化為專業設計。該平台能夠自動化數百項決策，模仿專業設計師的創意和直覺。從概念到成品，Lovart 能夠分解設計需求、進行網路搜尋以獲取參考資料、建立設計概念，並選用工具（如平面風格）來生成標誌和顏色調色盤。它還能尋找合適的字體並建立客製化排版，甚至在幾分鐘內生成品牌視覺形象。此外，Lovart 還具備編輯和智慧生成功能，使用者可以使用自然語言來請求新的內容或調整現有設計。Lovart 似乎也能夠根據文字描述或圖片來生成角色設計、故事板，甚至是影片。總體而言，Lovart 致力於降低創意表達的門檻，讓使用者只需輸入想法，即可看到它們變成現實。 https://www.lovart.ai/?utm_source=…

1
EP-38 VIDEOMIMIC，一種將人類的日常影片轉換為人形機器人可用的情境感知技能的系統。 9:37

8M ago9:37

9:37

這些資料描述了 VIDEOMIMIC，一種將人類的日常影片轉換為人形機器人可用的情境感知技能的系統。 VIDEOMIMIC 管道首先從單眼影片共同重建人類動作和周圍環境，然後將這些動作重塑並轉化為適合機器人使用的訓練資料。接著，這個資料被用於訓練一個強化學習策略，使機器人能夠根據感測到的地形和指令，在實際環境中執行各種動作，例如爬樓梯或坐在椅子上，而無需手動編寫程式或設定獎勵。最終，這項技術為人形機器人提供了一種可擴展的方式，讓它們透過觀察來學習在多樣化現實世界中操作。 https://www.arxiv.org/abs/2505.03729 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m56giw 小額贊…

1
EP-37 微軟宣布支援A2A協議 AI技術又迎來另一行業標準，開放式 A2A 協定 8:19

8M ago8:19

8:19

Microsoft 部落格文章討論了人工智慧代理程式的興起及其在企業中的重要性，強調了對於這些代理程式之間進行協作的需求。文章介紹了即將推出的 Agent2Agent (A2A) 開放協定，它將整合至 Azure AI Foundry 和 Copilot Studio 中，旨在促進代理程式跨平台和雲端環境進行互通。 A2A 協定的目標是實現代理程式之間的結構化溝通，包括目標交換、狀態管理和動作呼叫。 Microsoft 強調了對於開放協定的承諾，並認為 A2A 是邁向代理程式協作未來的重要一步，確保代理程式能夠跨越不同應用程式和領域工作。 https://www.microsoft.com/en-us/industry/blog/healthcare/2025/05/09/the-ai-p…

1
EP-36 Config 2025最強更新　Figma Sites打造設計與建站無縫整合，可直接建置網站神進化！ 6:06

8M ago6:06

6:06

Figma 在 2025 年發布會上的新功能和工具，旨在幫助設計師和團隊將設計流程從概念推進到實際成品。文章介紹了 Figma Make，這是一個能將設計轉化為程式碼的工具； Figma Sites 則讓使用者能直接從 Figma 發布網頁。此外，Grid 提供了更靈活的排版控制，Figma Draw 增強了向量編輯功能以實現更多元的視覺表達，而 Figma Buzz 則是一個專門用於創建品牌資產的空間。這些更新共同強調了 Figma 成為產品團隊單一來源的目標。 https://www.figma.com/blog/config-2025-recap/ 加入免費會員，更新資訊不漏接： https://open.firstory.me/join/cma3mukjr127j01w5h4m…

值得一听的播客

Api播客

值得一听的播客

快速参考指南