基于财报文本的情感语调的分析:DEEPSEEK辅助识别财务瑕疵
特征池构建:基于上市公司定期财务报告,从8个维度构建378个比率型指标,经筛选处理后保留100个指标,形成特征池,包含5483个财务造假样本和42046个控制样本。
情感语调因子构建:利用DeepSeek R1模型分析财报文本情感语调,设计相关函数和处理流程,获取情感语调分数。财务造假公司情感语调分数整体低于正常公司,可捕捉情绪矛盾、模糊表述和行业异常等风险线索。
模型表现:分别构建Logistic、LightGBM和MLP模型,加入情感语调因子后,三个模型召回率均提升,第二类错误下降。情感语调因子在非线性模型(MLP、LightGBM)中重要性高,与传统财务指标协同,提升综合预警能力。
拓展路径:基于Zero-Shot的财报文本直接分析模式,利用大模型通用语义理解能力挖掘潜在造假信号;基于违规说明的Fine-Tuning模式,对基座LLMs进行微调构建专家模型,通过精准匹配率和人工盲测评估。
风险提示:模型过拟合风险,DeepSeek的训练依赖于投喂的框架语料与底稿数据,多维框架下存在未来函数和过拟合风险;数据口径调整风险,财务指标统计口径的调整可能带来AI配置结论的改变;AI推理的不稳健性,AI模型的输出结论具备一定随机性,多次生成可能产生不同的结果。