学会了吗（cda数据分析师）“戴笠乘车“

2024-10-16 12:23来源： undefined

王明月
2年数据产品工作经验，管科博士生在读，CDA数据分析师二级持证人。

科研与数据分析师日常工作有所不同，但也有相似之处。科研的成果通常是论文，包括题目、摘要、关键词、引言、文献综述、数据与方法、结果、讨论、结论和参考文献。其中，红框标记的部分与数据分析紧密相关。除了综述性文章，几乎所有论文都需要数据和方法的支持，通过这些来得出结果并进行深入讨论，类似于数据分析中的策略性工作。

一、数据处理

在数据处理方面，科研中涉及数据采集、清洗和探索性分析。数据可以通过调查问卷、实验、实地调研或网络爬虫获取。获取后，需要进行清洗，然后进行描述性统计、数据可视化和变量相关性分析。

二、构建模型

数据处理后我们要构建模型，包括计量经济模型、回归模型、时间序列模型、结构方程模型和优化模型等。这些构建模型的方法我是在CDA数据分析师二级备考中集中学习了一下，所以在做科研的时候，感觉特别游刃有余，CDA数据分析师二级教材对回归模型和时间序列模型有详细描述，真的建议不论本科生还是研究生都考一下CDA数据分析师，这对能力的提高帮助很大，扫码“CDA认证”小程序，获取数据分析资料。

在备考CDA数据分析师二级的时候，我对主成分分析和因子分析的理解加深了，之前我只是使用软件得出结果，但对其背后的计算公式、假设条件和应用前提了解不多。此外，科研中会用到博弈模型和网络分析模型，也建议大家去学习。

三、论文实例解析

论文1

我们来看一个例子，这是一篇关于特色农产品网络零售满意度影响因素的研究。文章的数据来源并非传统的调查问卷或访谈，而是通过网络爬虫技术获取的。研究者选择了25款产品，并以两个电商平台为数据源，使用Python编写爬虫程序收集了大量消费者评论数据。

数据分析阶段，首先进行了描述性统计，通常以表格形式呈现。随后进行了数据清洗，包括剔除无关数据和压缩重复性副词，如数字、字母、表情符号等。

CDA考试内容中有关于数据处理的章节，介绍了缺失值填充和重复值剔除的方法。

最终，研究者采用LDA主题模型对评论数据进行聚类分析，提取出影响网络零售满意度的主要因素，并据此提出改进建议。这篇文章的分析过程相对简单。

论文2

这一篇文章题目直译可能较为抽象，但它发表在知名期刊上，探讨了环境信息披露对供应链网络中绿色创新产出的影响。这篇文章是基于中国上市公司的实证分析，主要研究网络结构对企业绿色创新产出的影响。研究采用了负二项回归模型进行分析。数据主要来自国泰安数据库，涵盖了2012年至2019年A股上市公司的详细信息，包括供应链网络结构。研究强调了供应链网络结构对绿色创新产出的影响，并考虑了环境信息披露（EID）的条件效应。从国泰数据库中提取的数据包括了不同合作伙伴的详细信息，数据整理后得到研究所需的指标。

数据处理全流程：

在数据处理方面，研究者进行了数据清洗，这个过程包括了明确的步骤，类似于科研数据分析中常用的方法。研究者首先描述了获取的数据的时间范围和类型，包括A股上市公司的详细信息，如公司名称和股票代码。接着，从数据集中选取了每个企业的前五大供应商和前五大客户数据，并解释了选择这些数据的原因。

处理缺失值时，研究者提到，由于一些企业可能没有披露绿色创新数据，这些数据通常用绿色专利和新型专利数量来衡量。为了填补缺失值，研究者手动从官方网站、年报等权威报告中获取信息。这样做是为了避免因剔除缺失值而导致数据量减少，影响后续分析。尽管这一步骤工作量较大，但对于确保分析的准确性和完整性是必要的。

接着，它构建了自己的模型，包括核心解释变量、被解释变量、控制变量以及调节变量。使用负二项回归模型进行建模，建立了两个模型，一个不包括环境信息披露（EID）变量，另一个包括，以做对比。