美国的语言大学有哪些特点?
答主在UC-Santa Barbara 上过一门课,和楼上的同学一样是MLE(最大似然估计),不过老师用的是R,所以这里就以R来举例说明美国语言数据分析的流程。 首先,你要有数据对吧,没有数据的童鞋可以翻我之前的答案(如何获取免费高清语料数据?),这里有Data we have on language and communication disorders. Data are in multiple formats including spreadsheet (.xls), comma separated values (.csv) 和 binary (.arff)。
然后,你根据数据做第一步分析。假设你的数据是简单结构,比如只含有一个变量和一个序列。以这个假设为例,最简单的做法是将每个类别看做一个观察值,然后将所有的观察值组成一个数据框,输入到R中进行分析即可。
如果是这样的话,那么输出结果应该是你最想知道的结果了,也就是每一个类别的词汇频率。但现实往往没这么理想化,有时候你的数据会有这样那样的问题,需要先进行预处理。常见的情况包括:
1、标签不统一:即各个研究人对同一个类别有不同的叫法,例如将“中国普通话”标记为“CMN”,“英语”标记为“ENGLISH”等等;
2、标签数量不统一:有的研究人中只有一个“英文字母”的标签,而有的研究者则把“A”标记为“字母1”,把“B”标记为“字母2”这样的;
3、顺序无关:有些语言项目调查的时候并不注意被试的答题顺序,而R进行分析和输出的时候默认是按照顺序来的,如果被试的答案是随机排列的,那么在导入R的时候就会出现问题;
4、多词项:即一个汉字有两个以上的单词解释,如“大”字有“da large”, “da big”等翻译。
5、其他问题。 应对上面这些问题,最好的方式就是提前发现提前解决——在做文本分析的时候同时把这些问题解决了,这样分析起来就省了很多时间。但如果遇到了顽固的问题,可以找一块干净的屏幕(没有登录任何账号),按照下面流程处理一下试试:
1、查看是否有特殊字符或编码:用remove_special_char()函数解决;
2、清理多词项:使用process_multiple()处理;
3、清理单词长度:使用trim_words()删除短词;
4、分词:使用word_tokenize()功能;
5、保存字典:用create_dictionary()函数建立词典。