NOESIS

NOESIS是一款沉浸式VR叙事游戏,核心依托手部追踪与生成式AI对话系统,构建了以 “虚拟意识空间” 为载体的交互式叙事框架。
玩家通过无控制器裸手交互与实时语音指令,与搭载情感模拟模块的“情绪节点AI NPC”建立动态反馈机制 —— 其行为逻辑与对话内容会基于玩家语音情绪特征实时生成,形成非线性交互叙事链路。
系统监管者VIDA作为核心叙事变量,引导玩家在“监管规则”与“自我意识”的博弈中完成关键抉择节点的触发。
项目通过“技术实现(交互精度)- 艺术表达(空间叙事)- 哲学思辨(意志选择)”的三层架构,在VR媒介中完成了对“情感数字化”与“自由意志边界”的探索性实践,为玩家提供了兼具技术沉浸感与思想深度的叙事体验。

2025

  VR游戏 / 手部追踪  / 生成式AI对话NPC

Unity,  Blender



实机演示









参考作品

参考风格








核心机制


手势移动

玩家通过特定手势实现自然移动、加速及坡度感知定向移动,设计以物理代入感为核心,全程无人工 UI 干预。围绕 “手势输入 - 视觉反馈 - 物理感知” 协同落地。

手势物体交互

物体交互由抓取检测、物体自由缩放以及手势触发指令驱动。玩家能够在空间中操控环境元素,模拟人工智能对数字物质的认知控制。​

AI 驱动语音对话

玩家通过实时语音输入与 NPC 交流,实现开放式对话。该系统包含:​
Whisper(语音转文字)、ChatGPT(语义生成)、ElevenLabs(情感语音合成)



语音对话系统流程图




游戏原型

原型1 —— 手势触发立方体生成

为测试 “食指指向前方” 手势的触发条件,我开发了立方体生成指令。测试结果符合预期,全程未观测到误激活案例;该功能落地后表现出可靠性能,有效验证了手势识别系统的精度。

原型demo




原型2 —— 手部追踪连续移动

在手势识别触发立方体生成的可行性验证的基础上,我实现了一套基于手势的自由移动系统。代码核心功能借助手部手部射线控制 VR 环境中玩家的移动方向,具体是通过 Meta Interaction SDK 的 RayInteractor 获取手部朝向信息,进而驱动移动方向判定。

原型demo





原型3 —— 手势控制物体缩放

缩放功能通过双手捏合手势触发。当用户用双手同时捏合物体时,系统会计算双手间的距离。随着用户双手分开或靠近,物体将实时动态缩放。这实现了直观、连续的尺寸调整体验。
原型demo


AI 驱动 NPC 的实时语音交互系统

该系统在 Unity 中构建了完整的音频到音频处理流程,支持玩家与 AI 驱动的 NPC 进行实时语音交互。系统模拟富有情感的对话过程,使语音成为表达与叙事推进的主要接口。

原型1 —— 文本输入转文本响应


在集成语音交互前,该原型通过与 ChatGPT 的直接文本接口测试核心对话逻辑。玩家通过在对话框中输入文字与 AI NPC 互动,系统将这些信息发送至 GPT 模型,并实时接收具有上下文关联且包含情感的回应。
原型demo

原型2 —— 语音输入转文本响应

该原型在原有文本交互系统基础上进行扩展,通过集成 Whisper 实现语音输入功能。玩家不再需要打字,而是通过自然语音与 NPC 交流。
定制化音量检测脚本会监测玩家是否正在说话。一旦检测到语音输入,系统便开始录制,并捕捉完整的音频内容 —— 从玩家开始说话到结束的全过程。随后,音频通过 Whisper 实时转录为文本,并发送至 GPT 模型生成回应。

原型demo

原型3 —— 语音输入转语音响应

该原型完成了从文字对话到全语音交互系统的落地,玩家可通过自然语音与 NPC 交流,NPC 则以 AI 生成的、富有情感表现力的语音进行回应。
完整交互流程包含:通过音量检测触发录制 → 借助 Whisper 实现实时语音转文字 → 利用 ChatGPT 生成兼具语义逻辑与情感的回应内容 → 依托 ElevenLabs 输出富有表现力的语音。

原型demo
原型4 —— 按钮控制语音录制与关键词触发系统

1. 按钮控制语音录制

玩家可通过点击场景内的虚拟按钮,手动启动或停止语音录制,替代了此前的手势输入方式。考虑到场景中存在多个 NPC 时,为每个 NPC 分配独立激活手势会导致操作低效且易混淆,而按钮交互提供了更简洁精准的控制方案 —— 尤其在测试阶段,或玩家需要自主掌控对话节奏的场景中优势显著。

2. 关键词触发系统

当 NPC 完成回应内容生成与语音播放后,系统会自动扫描输出文本中预设的情感类或叙事类关键词(如 “thank you”“awaken”“understand”)。检测到匹配关键词时,将触发以下游戏反馈:

1. 激活 NPC 溶解着色器效果
2. 生成情感记忆道具.


该机制让语言超越单纯的沟通功能,成为游戏中触发情感关联结果的象征性媒介。



原型demo







游戏内实机画面截图