當你變成 AI 的訓練資料

當你變成 AI 的訓練資料

February 9, 2026

原本想說關於 AI 訓練資料的事會放到未來再說,但看到則倫今天的貼文,發現不能再拖了。

AI 發展不是壞事,但如果為了訓練 AI,使用非授權內容,會變成很可怕的事。

這樣寫好像沒什麼感覺。但,要是自己的聲音、模樣變成訓練資料之一呢?

假設今天有人以匿名身份生成了有人講述非法內容的影片並上傳到網路上,而影片中的人物剛好就是你的樣子跟聲音,不覺得聽起來恐怖很多嗎?

而我覺得這件事情更可怕的是,當有人開了第一槍、越過這條禁忌的界線之後,恐怕後面只會有越來越多人跟上,同樣是因為擴展定律。

給一些沒什麼概念的人;AI 能有訓練資料,不是因為 AI 自己會上網抓資料,而是公司會拿網路上的資料微調模型。簡單來說,資料是靠人工抓取的。至於公司有沒有良心尊重授權跟隱私呢 … 你知道的。

那要怎麼做?或許我們沒有辦法阻止大公司隨便抓取資料,不過我們還是可以保護自己。

反正都不管授權的問題了,那 bilibili 爬完之後要爬什麼,Instagram 嗎?還是 Facebook?

而這些平台的內容是誰提供的?都是我們呀!那些你放在社群媒體或影音平台上的照片、文字、圖片,跟影片,全部都有可能在未經你同意的情況下被作為大型 AI 模型的訓練資料,而這些內容可能包含你的小孩的照片、你跟家人出遊的影片,還有你辛苦寫下的文章或創作的影片 —— 而我們卻永遠不會發現

可以減少最大傷害的一步 ── 不要用社群媒體。

當然我知道對某部份人來說要做到很難啦,但至少也要能減少在社群媒體留下足跡,跟把之前留下的貼文移動到其他安全的地方(例如有防止機器人爬文的部落格?)

其實最大的重點是希望大家可以重視科技巨頭造成的問題


(最近在考慮要不要從 GitHub 搬家到 Codeberg)