加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

操作文本发掘技能来找出收集中的“小鲜词”

发布时间:2021-01-18 05:51:30 所属栏目:大数据 来源:网络整理
导读:开始之前,先看一下从大家网中发明的90后用户爱用的词 是不是很好玩,哈哈。写这篇文章就是让你简朴的自动的从文本中找出新的词,这样就知道此刻的年青人喜好什么了(对付博主这种上了岁数的人来说,真的是很有效,呜呜) 项目布局 虽然,text.dat和common.d

这里写图片描写

NewWordDiscoverTest.java

package grid.test;

import grid.common.TextDatReader;
import grid.text.evolution.NewWordDiscover;

import java.io.IOException;
import java.util.Set;


public class NewWordDiscoverTest {

    private final static String path = "text.dat";

    public static void main(String args[]) throws IOException {
        // Replace your document here
        String document = TextDatReader.read(path);

        NewWordDiscover discover = new NewWordDiscover();
        long start = System.currentTimeMillis();
        Set<String> words = discover.discover(document);
        System.out.println("Speed: " + (double) document.length()
                / (System.currentTimeMillis() - start) * 1000);
        System.out.println("New words size: " + words.size());
        System.out.println("New word is: "+"n");
        for (String str : words) {  
            System.out.println(str+"n");
        }  

    }
}

抽词测试,功效如下

这里写图片描写

ParticipleTest.java

package grid.test;

import grid.text.participle.MechanicalParticiple;

import java.util.Vector;


public class ParticipleTest {

    private static String document = "我是中国人";

    public static void main(String args[]) {
        MechanicalParticiple participle = new MechanicalParticiple();
        Vector<String> vec = participle.partition(document);
        System.out.println(vec);
    }
}

分词测试,功效如下

这里写图片描写

怎么样,很酷吧,你还可以试着用《天龙八部》数据集玩下,看看主角是不是乔帮主。假如发明白什么奇怪词,请汇报博主,咱也不落伍哈!

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读