知行指南

Question

美国的语言大学有哪些特点？

郭昕慈最佳答案

答主在UC-Santa Barbara 上过一门课，和楼上的同学一样是MLE（最大似然估计），不过老师用的是R，所以这里就以R来举例说明美国语言数据分析的流程。首先，你要有数据对吧，没有数据的童鞋可以翻我之前的答案（如何获取免费高清语料数据？），这里有Data we have on language and communication disorders. Data are in multiple formats including spreadsheet (.xls)， comma separated values (.csv) 和 binary (.arff)。

然后，你根据数据做第一步分析。假设你的数据是简单结构，比如只含有一个变量和一个序列。以这个假设为例，最简单的做法是将每个类别看做一个观察值，然后将所有的观察值组成一个数据框，输入到R中进行分析即可。

如果是这样的话，那么输出结果应该是你最想知道的结果了，也就是每一个类别的词汇频率。但现实往往没这么理想化，有时候你的数据会有这样那样的问题，需要先进行预处理。常见的情况包括：

1、标签不统一：即各个研究人对同一个类别有不同的叫法，例如将“中国普通话”标记为“CMN”，“英语”标记为“ENGLISH”等等；

2、标签数量不统一：有的研究人中只有一个“英文字母”的标签，而有的研究者则把“A”标记为“字母1”，把“B”标记为“字母2”这样的；

3、顺序无关：有些语言项目调查的时候并不注意被试的答题顺序，而R进行分析和输出的时候默认是按照顺序来的，如果被试的答案是随机排列的，那么在导入R的时候就会出现问题；

4、多词项：即一个汉字有两个以上的单词解释，如“大”字有“da large”， “da big”等翻译。

5、其他问题。应对上面这些问题，最好的方式就是提前发现提前解决——在做文本分析的时候同时把这些问题解决了，这样分析起来就省了很多时间。但如果遇到了顽固的问题，可以找一块干净的屏幕（没有登录任何账号），按照下面流程处理一下试试：

1、查看是否有特殊字符或编码：用remove_special_char()函数解决；

2、清理多词项：使用process_multiple()处理；

3、清理单词长度：使用trim_words()删除短词；

4、分词：使用word_tokenize()功能；

5、保存字典：用create_dictionary()函数建立词典。

发布于 2024/6/25 14:53:17