李宏毅
Hung-yi Lee
NTU Speech Lab

李宏毅(1986年-),台灣計算機科學家,國立台灣大學電機工程學系教授,研究領域包括語意理解、語音辨識、機器學習、深度學習等。

早年生活 李宏毅在大學二年級時,因對電機系許多課程感到困惑,曾一度非常沮喪迷惘,甚至萌生了退學的念頭。他當時選了一門「數位通訊處理」課程,發現自己難以聽懂,但他並未放棄,不棄選不退修,最終豁然開朗,「原來用手機撥電話給別人時,中間發生的事就是這些信號處理。」找到學習的興趣後,李宏毅開始跟隨中央研究院李琳山院士做專題,隨後於2010年從國立台灣大學取得碩士學位,2012年取得博士學位。2012年9月至2013年8月間,李宏毅於中央研究院資訊科技創新研究中心擔任博士後研究員。2013年9月以客座科學家身份前往麻省理工學院電腦科學暨人工智慧實驗室。2014年返台,擔任台灣大學電機工程學系教師至今。 開設課程 2015年,李宏毅開始在台灣大學講授機器學習課程,選課人數通常爆滿,有400多人來修。於是,李宏毅將學生分在兩間教室,一間現場看老師上課,另一間同步看直播。由於直播上課的諸多限制,李宏毅養成了錄製課程影片的習慣。一開始李宏毅將影片上傳至個人主頁,後來由於螢幕側錄軟體的序號過期,無法導出MP4,但有導出至YouTube的選項,於是李宏毅開始將課程影片上傳至YouTube。此舉不僅幫助了台灣大學的學生,還意外嘉惠台灣大學以外的學生。在其影片下方,還有中國大陸的學生留言感謝,表示已經聽完全部課程,並留下筆記連結。截至2021年9月30日,李宏毅的YouTube頻道有超過20萬位訂閱者。 李宏毅擅長用淺顯易懂的語言,以學生喜愛的精靈寶可夢、涼宮春日等動漫來講解複雜的機器學習技術,因此被親切地稱為「精靈寶可夢大師」。中華民國電腦學會稱李宏毅為「第一個公開有系統地完整深入講解深度學習技術的學者,使得華文的深度學習教學與英文世界並駕齊驅。」 https://youtu.be/QLiKmca4kzI?si=jUaqZ1tuVQjogtz5 這段影片的重點摘要如下: 生成式AI的現況與能力: 生成式AI能做到許多令人驚嘆的事,例如生成逼真的人臉、語音,甚至可以自動製作投影片和講稿。 影片展示了如何利用ChatGPT、Breezy Voice和Heygen等工具,快速生成一個AI分身來進行教學。 AI能夠產生出有創意的內容,例如笑話和勵志故事,但有時也會出現邏輯混亂或不合常理的結果。 除了生成內容,AI也開始展現出「思考」的能力,例如在回答問題前先進行「腦內小劇場」的推演。 AI Agent的出現,使AI能夠執行更複雜的任務,例如上網搜尋、操作滑鼠鍵盤,甚至協助訓練機器學習模型。 生成式AI的運作機制: 生成式AI的本質是「文字接龍」,即根據已有的token序列,預測下一個最有可能出現的token。 「token」是組成複雜物件的基本單位,可以是文字、圖像、聲音等。 類神經網路是生成式AI的核心,它通過多層次的運算,將複雜問題拆解成簡單的步驟。 「Transformer」是一種常見的類神經網路架構,它能夠考慮輸入的全局資訊,但也有輸入長度的限制。 Mamba是可能可以解決Transformer輸入長度限制問題的另一種類神經網路架構。 生成式AI的發展與未來: 生成式AI的發展歷程,從只能進行單一任務的「專才」,進化到能夠執行多種任務的「通才」。 「Prompt(提示)」在通用模型中扮演關鍵角色,通過明確的指令,AI才能產生正確的行為。 「終身學習」是AI發展的重要趨勢,通過不斷學習新的知識和技能,AI能夠適應不斷變化的環境。 「微調(Fine-tune)」是賦予AI新能力的方法之一,但需要注意避免破壞原有的能力。 「模型編輯(Model Editing)」和「模型合併(Model Merging)」是更進階的技術,能夠直接修改模型參數或結合不同模型的能力。 課程重點: 課程將深入探討生成式AI的技術細節,包括類神經網路的運作、模型訓練和微調等。 課程將介紹AI Agent的概念和應用,並讓學生實際操作,體驗AI如何執行複雜任務。 課程將講解如何賦予AI新的能力,包括模型編輯和模型合併等。 課程作業會讓學生們實際操作AI去完成機器學習模型的訓練。 總結來說,這段影片深入淺出地介紹了生成式AI的現況、運作機制、發展歷程和未來趨勢,並為後續的課程內容做了鋪墊。

Top Ten AI Contributions to Society

Prompt: Please give me the ten most useful things AI has ever done.to DeepSeek-AI. 以下是人工智慧對社會最具影響力的十大貢獻,涵蓋醫療、科學、永續發展等領域: 革新醫療診斷IBM Watson、DeepMind的AlphaFold等AI系統,透過醫學影像(檢測癌症、眼疾)改變診斷方式,並藉由預測蛋白質結構加速藥物研發,推動阿茲海默症等疾病的治療進展。 自動駕駛技術Waymo、Tesla等公司利用AI提升道路安全,減少人為失誤事故。自駕技術有望拯救數百萬生命,並重塑城市交通型態。 緩解氣候變遷AI優化電網效率、預測再生能源產能(如風力與太陽能),並模擬氣候模式。Google DeepMind透過AI控溫系統,將資料中心能耗降低40%。 預測自然災害AI模型分析地震數據、衛星影像與氣象模式,提前預測地震、洪災與野火,加速疏散行動與資源調度。 打破語言隔閡Google翻譯、即時轉錄工具(如Otter.ai)促進全球溝通,支援教育、外交與跨文化合作。 個人化教育Khan Academy、Duolingo等AI教育平台依個人學習風格調整內容,彌合教育資源落差,支持終身學習。 農業技術升級AI無人機與感測器用於監測土壤健康、害蟲與作物產量,推動精準農業以永續提升糧食產量(如John Deere的AI拖拉機)。 提升無障礙體驗AI協助身障者:語音轉文字工具(聽障者)、影像辨識App(視障者),以及神經網路控制的智能義肢。 加速科學發現AI分析物理(如CERN粒子對撞數據)、天文學(識別系外行星)與基因組學的龐大資料集,突破人類研究速度極限。 打擊不實資訊AI偵測深偽影片、假新聞與網路仇恨言論(如Meta的演算法),而OpenAI的GPT-4等專案協助事實查核與內容審核。 這些創新凸顯了AI在解決全球關鍵挑戰、改善日常生活的角色。最引人注目的是其「公平擴展解決方案」的潛力——前提是遵循倫理指引。你認為哪一項影響最具變革性? Here are ten of the most impactful contributions AI has made to society, spanning healthcare, science, sustainability, and more: Revolutionizing Healthcare DiagnosticsAI systems like IBM… Continue reading Top Ten AI Contributions to Society

Single-Image-to-3D Scene Generation 一張圖片可生成交互式3D場景

【人工智能】World Labs發佈最新3D世界生成模型 | 李飛飛 | 一張圖片可生成交互式3D場景 | 相機控制 | 理解3D幾何結構 | 可控性 | 一致性 | 空間智能 | 虛擬現實

Prompt: Please give a comprehensive summary of this YouTube tanscripts.to DeepSeek-AI World Labs(由李飞飞联合创立并担任CEO的AI初创公司)近期发布了其首个成果——3D世界生成模型,该系统能够通过单张图片生成交互式3D场景,并在可控性、一致性和空间智能方面展现出显著突破。以下是核心内容的综合总结: 核心技术与功能 单图生成3D场景 用户上传任意图片(AI生成或真实拍摄),模型即可生成风格一致的3D开放世界,支持键盘(WASD)和鼠标操作实现自由移动、视角转换。 虚拟相机控制:用户可通过滑块调整对焦、模糊效果及视野范围(滑动变焦),模拟艺术摄影效果。 交互式效果:支持添加声呐、波纹动画等动态特效,增强场景沉浸感。 技术优势 连续性(Persistent Reality):场景稳定存在,视角变换不影响已生成部分。 实时控制(Real-Time Control):用户可自由探索细节(如近距离观察物体纹理)或宏观场景(如远望星云)。 正确的几何结构:遵循3D物理规律,呈现立体纵深感,避免2D模型的平面化缺陷。 与现有AI工具结合 可先通过文生图模型(如Midjourney)生成图像,再转化为3D场景,适配不同艺术风格。例如,输入“卡通风格青少年卧室”提示词,生成多风格图像并对应转化为3D场景。 应用场景 艺术与娱乐 将名画(如凡·高作品)转化为可探索的3D世界,类似VR体验。 革新电影、游戏及数字媒体制作,降低开发成本,助力创意实现。 空间智能与AGI愿景 李飞飞强调,空间智能(理解3D几何、物体关系及物理交互)是AI通向通用人工智能(AGI)的关键。相比OpenAI的Sora(2D+时间维度),World Labs的3D模型能真正模拟三维环境,支持多角度动态生成(如调整摄像机视角)。 当前局限与未来计划 局限性: 生成场景的探索范围有限(移动边界提示),偶现渲染错误(物体融合异常)。 改进方向: 提升场景规模与真实感,开发更多交互方式。 行业背景与公司愿景 市场痛点:主流2D生成模型(如Stable Diffusion、Sora)难以保证视频稳定性与3D一致性。 融资与影响力: World Labs成立不到一周即获2.3亿美元融资(估值超10亿美元),投资方包括a16z、NEA及AI领域巨头(如Jeff Dean、Andrej Karpathy)。 李飞飞的愿景: 构建能理解物理世界复杂关系的AI系统,推动从“视觉洞察”到“空间行动”的进化,赋能机器人、虚拟现实等领域。 行业评价 网友及专家(如英伟达科学家Jim Fan)认为,这是生成式AI从2D向“完全沉浸式3D”跨越的关键一步,可能引发类似80-90年代的技术革命。 总结 World Labs的3D生成模型标志着AI从二维表象向三维本质的突破,其结合空间智能与交互设计,为游戏、影视、VR等领域提供了新工具,同时也为AGI发展提供了重要路径。尽管仍需优化,但其技术方向和商业潜力已引发广泛关注。 World… Continue reading Single-Image-to-3D Scene Generation 一張圖片可生成交互式3D場景

Frontier AI: From understanding the world to shaping it by FEI-FEI LI 

李飛飛巴黎AI高峰會開幕式完整演講:人工智慧的未來,從感知到行動,建構以人為本的AI

https://youtu.be/VzbTMwwJWAg?si=rX0aMnwOKWsb3Qw2 2025年2月12日,  李飛飛(Fei-Fei Li)是中國出生的美國計算機科學家、人工智能專家和斯坦福大學教授。她在以下幾個方面尤為知名: 學術貢獻:李飛飛在計算機視覺和機器學習領域有重要貢獻,特別是在圖像識別和大規模視覺數據集的構建上。她是ImageNet項目的創始人之一,這個項目極大地推動了深度學習在計算機視覺中的應用。 教育背景:她獲得了普林斯頓大學的物理學學士學位、加州理工學院的電子工程碩士學位,以及斯坦福大學的計算機科學博士學位。 職業生涯:李飛飛曾在Google擔任首席科學家,負責Google Cloud AI的開發和應用。她還創立了斯坦福人工智能實驗室(SAIL)和斯坦福視覺與學習實驗室(VL2)。 影響力:她是人工智能領域中少數幾位享有國際聲譽的女性之一,致力於推動AI技術的發展和教育。她也是AI4ALL的聯合創始人,該組織致力於提高高中生,特別是少數族裔和女性的AI教育。 著作與演講:李飛飛發表了許多學術論文,並經常在國際會議上演講,傳播AI知識和她的研究成果。 社會影響:她積極參與AI倫理和政策討論,努力使AI技術更透明、公平和負責任。 李飛飛不僅在技術上取得了顯著成就,還在推動AI的多樣性和包容性方面做出了重要貢獻。她被譽為AI領域的領軍人物之一。 #ChatGPT-YouTubeSummary-Chrome-Ext gives the summary: 以下是完整的繁體中文摘要: 李飛飛巴黎 AI 峰會開幕式完整演講摘要:人工智慧的未來,從感知到行動,構建以人為本的 AI 演講開場(00:01) 李飛飛博士在巴黎 AI 峰會開幕式上發表演講,強調 AI 不僅是關於技術和未來的故事,更與人類的本質息息相關。 AI 的起源與演進(00:47 – 02:33) 人類的智慧源於數億年前的生物演化,最早從感知光開始,逐步發展到理解和行動,最終形成了智慧。 AI 的發展同樣經歷了類似的歷程,從早期的感知技術,到現在能夠執行複雜任務的人工智慧。 AI 的歷史:從圖靈到現代深度學習(03:23 – 06:42) 20 世紀中葉,英國數學家艾倫·圖靈(Alan Turing)首先提出「思考機器」的概念。 1956 年,美國學者在達特茅斯會議上正式提出「人工智慧」一詞,並開始 AI 研究。 AI 研究歷經數十年的發展,最終透過神經科學、認知科學及計算技術的融合,形成現代的深度學習模式。 AI 發展的三大要素:演算法、數據、運算力(05:51 – 10:55) 演算法:受神經科學啟發,發展出類神經網絡(Perceptron),後續經歷多次突破,發展成現今的深度學習技術。 數據:人類透過大量的感官輸入學習,AI 也需要大量數據來訓練,這促成了… Continue reading Frontier AI: From understanding the world to shaping it by FEI-FEI LI 

ChatGPT 史上最詳解

ChatGPT 史上最詳解!臺大電機名師李宏毅老師|寶博朋友說 EP175

https://youtu.be/K4SnEHy2abI?si=WP3SmfZTYgedXHDN 2023年3月21日, 各位千萬粉絲可能在之前節目就有聽到我們提到過這個超強聊天機器人ChatGPT,可以用很自然又準確的方式回答問題。但究竟ChatGPT背後的發展原理為何?可以怎麼運用?又會對我們的工作和生活帶來什麼改變呢?馬上就來歡迎今天的大來賓 李宏毅!

【科普】人工智能是如何工作的?

https://youtu.be/TKHPb0goFYA?si=cfx53lP0u6l1UWFO 人工智能是如何工作的?機器學習和神經網絡又是什麼? 李永樂老師 https://youtu.be/LF9sd-2jCoY?si=wQo8l-dsoQsxYfSR 2024年10月19日, 【漫士科普】90分鐘深度!一口氣看懂人工智慧和神經網路 一位来自清华的人工智能博士生,日常思索和科普。 An artificial intelligence doctoral student from Tsinghua University who likes to delve into thinking and science popularization. https://youtu.be/j5N2j6Ydhao?si=9XB1LP1cBl2KuaQ4 【漫士科普】GPT是如何運作的?為什麼要學習接下一個字? https://youtu.be/mMuEw0L02HY?si=0O1jt7IqK2q0IG_m 2025年1月29日< 奇跡還是抄襲?DeepSeek巨浪的背後,那些你最想知道的——時移世易,不再與你我無關 是“遙遙領先”的噱頭,還是言論審查下的技術奇跡?——DeepSeek 的突然爆火,讓英偉達股價一度大跌,也引發了全球 AI 圈的強烈震動。到底是怎樣的一家“小公司”,在被制裁的環境下還能拿出可比肩頂級模型的成果?本期視頻,我將帶你深入探討 DeepSeek 的技術原理、它對大公司和普通用戶的影響、以及 AI 在政治與社會層面或將帶來的巨大變局。 https://youtu.be/MRm5wDFiw9c?si=bIVZD3_9lDjAyERP 2025年2月1日, 最快反轉,Deepseek抄襲ChatGPT實錘?大模型究竟是怎麼煉成的——抄襲門背後的技術內幕. OpenAI突然指控DeepSeek對ChatGPT進行「蒸餾」訓練,這是否構成抄襲?本期視頻我將深入探討:DeepSeek與OpenAI的最新爭議:從“抄襲”到“蒸餾門”的來龍去脈 大模型是怎麼訓練的:從數據收集到微調,每一步的關鍵 技術與商業的交鋒:開放與封閉、版權與共享的碰撞 中美AI博弈的背後:為何DeepSeek的出現會引爆如此大的輿論 在這場大模型“軍備競賽”里,我們應該注意哪些核心思維?而OpenAI和DeepSeek的爭端,又會對整個行業帶來何種影響?歡迎你在評論區分享看法,我們一起討論! https://youtu.be/bOlVx5zeHLM?si=W4nYZmqbCewBP71T 2024年7月8日 , 【重製版】【人工智能】萬字通俗講解大語言模型內部運行原理 | LLM | 詞向量 | Transformer… Continue reading 【科普】人工智能是如何工作的?

AI 大哉問:9.11 or 9.9, which one is bigger❓

M.S. Copilot gave the wrong answer. (2025/01/31)

Prompt: 9.11 or 9.9, which one is bigger❓ 文小言 gave the wrong answer. (2025/01/31) DeepSeek-AI gives the correct answer. (2025/01/31) ChatGPT gives the correct answer.(2025/01/31) Gemini gives the correct answer.(2025/01/31) Perplexity-AI gives the correct answer.(2025/01/31)

AI Turing Test 圖靈測試

測試一下:AI 是否知道狗狗在幹什麼?

Prompt: Elaborate this image. What the dog is doing? #ChatGPT gives the following answer: 這張圖片顯示了一隻狗站在一棵大樹旁邊,位於類似公園的綠色環境中。這隻狗似乎正在嗅聞地面,可能是在探索某種氣味。從它低下頭、鼻子靠近地面的姿勢來看,牠可能正在追蹤氣味或標記領域。狗的後腿稍微抬起,這可能表示牠正準備排尿以標記地盤。整個場景顯得寧靜祥和,周圍綠意盎然,光線柔和,營造出一種平靜自然的氛圍。 The image shows a dog standing near a large tree in a green park-like environment. The dog appears to be sniffing the ground, likely investigating a scent. Its posture, with its head lowered and nose close to the soil, suggests… Continue reading AI Turing Test 圖靈測試