图26 社会价值词频对比(大于1字符)
在“大于2字符”的词频分析中(图27),与往年有所不同的,2022年的参与团队在经济上的考量相对较弱,与之相关的“经济发展”关键词也仅排到第6位,可见此次的参与团队普遍有着更强的社会责任感,对项目社会价值方面的思考更为深入并给予了其更多的关注。此外,与往年不同,“农产品”“互联网”等词得到了参与团队更多地关注,可见其在达成项目社会价值时有了更多更切实际的落脚点。
图27 社会价值词频对比(大于2字符)
总体而言,2020-2022年度的参与团队都非常关注“服务”“平台”“市场”等词语,这在五个维度均有体现。其次,2022年的参与团队在各个方面都对“大学生”“消费者”“互联网”“农产品”这五个词语给予较大关注:“大学生”体现了本次参与团队的身份特色以及对大学生消费群体的关注;“消费者”体现了本次参与团队相比于往年对“产品”“项目”的重点强调,更加关注来自市场的反馈,由企业推着市场的“推动式”逐渐向市场拉动企业的“拉动式”发展;“互联网”和“农产品”体现了本次参与团队对于信息网络技术和乡村振兴大背景的着重关注,与往年相比,本次参与团队更充分地考虑到了外部环境的可利用资源,并对创业项目做出了更具体更切合实际的描述。
三、微创业项目LDA主题模型分析
LDA 主题模型是一种基于概率的文本分类模型,它是 Latent Dirichlet Allocation 的缩写,于2003年由 David Blei, Andrew Ng和 Michael I. Jordan提出。在 LDA 主题模型中,每个主题被表示为一个概率分布,而每个文本被表示为一个主题分布矩阵。通过计算主题概率和文本概率,LDA 主题模型可以将提供的文本数据分为多个主题类别,并得到每段文本概率最高的主题分类。为了更好地了解参与作品所涉及的主题和内容,本文运用LDA主题模型分析的方法对参与项目进行了主题分类,得到了如图28中所示的7个高频出现的主题。需要说明的是,维度数为本文根据LDA模型运算结果得出,学者们普遍根据“计算困惑度”指标选择LDA主题模型的维度数,“计算困惑度”越小代表模型拟合效果越好,通过计算,7维度模型的“计算困惑度”约为550,显著低于其他可能模型,因此本文将参与项目的文本内容共划分为7个维度(主题)。此外,在文本分类及主题划分的过程中,本文发现一些与商业模式、市场营销等主题相关的专业词汇会混杂在各维度下,从而影响后续对主题内容的判定,因此,为统一衡量标准,使主题模型结果更符合“对参与项目所涉及的主题”进行界定这一最终目的,本文将“盈利”“渠道”“成本”“销售”“价值链”等与商业模式和市场营销相关且对主题界定无明显价值的专业词汇纳入停词库以做筛除处理。
图28 项目文本LDA主题模型分布情况
由图可知,在1081个参与项目中,与“数字科技”“电商经济”相关的作品数量最多,分别占到了总数的22.39%和19.52%,随后是与“社区服务”“乡村振兴”相关的项目,占比为17.67%和17.39%,而参与团队对“文化旅游”和“医疗健康”相关领域的关注相对较少,相关项目在此次大赛中的占比仅为5%左右。
从上述数据可以看出,信息技术及其所衍生出的如“数字科技”“电商经济”等诸多领域仍是目前大学生们开展创业实践时的主攻方向,理工科专业背景的参与团队主要基于信息技术的基础层面进行创业创新,如研发软件、设计算法、开发人工智能等,而商科和其他文科类专业背景的参与团队则更多地基于信息技术的应用层面进行商业模式上的产品或服务创新创业,如进行直播带货、开展社区营销等。此外,许多参与团队立足于其大学生的社会身份,着眼于各种常见的社会问题,从身边实际出发搭建创业构想、进行创业实践,因此与教育、青少年、老年人、公益志愿等相关的“社区服务”占比也相对较高。受乡村振兴、双碳目标等国家宏观政策导向及实际存在的社会问题影响,与“乡村振兴”“绿色环保”两个主题相关的参与项目也相对丰富。然而也应注意到,与“文化旅游”和“医疗健康”相关的产业相对为人们所忽视,在新冠疫情结束,居民出行意愿上涨的大背景下,与文旅相关的行业将迎来不小的机遇,而面对我国老龄化趋势加剧,健康问题突出等状况,与“医疗健康”相关的领域无疑也有着极大的发展前景。
图29LDA模型不同主题下300佳获奖情况分布