IThome 2024 鐵人賽 AI VTuber 的完善之路 - Day1
前言
高中畢業之後花了大概一個月的時間開發出了一套 AI VTuber 的雛型,有測試直播過了,目前有 CLI 輸入、語音輸入、Youtube 聊天室問答的功能,也就是完成了大概在雜談方面的開發,但這個月參加了各種活動以至於有點小小荒廢了這個專案,想在這個 IThome 鐵人賽中至少完成:
- 良好記憶系統
- 點歌
- 翻唱歌曲
- 會玩一款遊戲
- 開 5 場超過 50 人以上參與的直播測試
希望我可以順利達成目標~
之前測試的直播連結
目前已有功能的流程圖
flowchart TB
option[選擇輸入方式] --1--> voice[語音輸入] --> ASR --> llm
option --2--> cli[CLI 輸入] --> llm["LLM(文字)"]
option --3-->chat[Youtube 聊天室隨機選擇] --> llm
llm --> TTS
TTS --> v[VTS 轉換成嘴型]
llm --> obs[轉換成文字顯示在 OBS]
然後上面比較有趣的應該是我的 LLM 是拿 Dcard 上的文章 finetune 過的,有做過一些神奇處理,然後還有爬 Dcard 文章真的是非常的有趣,這些之後可能會來分享一下。
目標進度與細節
- 良好記憶系統 (Day2 ~ Day 8)
- 應該會先使用 RAG 做長期記憶系統,然後短期記憶就直接拿跟他對話的前面幾句話,但把記憶放在前面的模式好像會讓他蠻多幻覺,還會有一些很詭異的回覆,可能要再多做很多很多的 Prompt Engineering 或是 finetune 看看
- 點歌 (Day9 ~ Day10)
- 這邊就比較簡單了,讓 LLM 學會輸出某種指令後,可以從歌曲的資料庫中挑選一首他可能想要撥放的歌曲
- 翻唱歌曲 (Day11 ~ Day15)
- 這邊應該會套 So-VITS-SVC ,但這東西我沒用過,感覺會有點久
- 會玩一款遊戲 (Day16 ~ Day25)
- 我其實一直很想讓 AI 完 MOBA 類遊戲,但感覺這會有點太難,可能賽後再開一個鐵人賽才有機會 xd,所以這邊我想先選一點有點挑戰但又好像不會太難的,最好還有點創意,想來想去就決定是 日麻 (應該就是用雀魂)
- 開 5 場超過 50 人以上參與的直播測試 (Day2 ~ Day 30)
- 反正有到一定進度就會開開直播測試,但其實可能會很困難? 或者我可能要研究看看演算法,反正這目標就是先靠佛系經營