BAT大数据的口试题 快保藏!
发布时间:2018-09-12 14:04:44 所属栏目:教程 来源:千锋大数据开发学院
导读:9月15日技能沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖切磋精准运维! 1、kafka的message包罗哪些信息 一个Kafka的Message由一个牢靠长度的header和一个变长的动静体body构成 header部门由一个字节的magic(文件名目)和四个字节的CRC32(用于判定body
位图法较量得当于这种环境,它的做法是凭证荟萃中最大元素 max 建设一个长度为 max+1的新数组,然后再次扫描原数组,碰着几就给新数组的第几位置上 1,如碰着 5 就给新数组的第六个元素置 1,这样下次再碰着 5 想置位时发明新数组的第六个元素已经是 1 了,这声名这次的数据必定和早年的数据存在着一再。这 种给新数组初始化时置零厥后置一的做法相同于位图的处理赏罚要领故称位图法。它的运算次数最坏的环境为 2N。假如已知数组的最大值即能事先给新数组定长的话效 率还能进步一倍。 21、怎么在海量数据中找出一再次数最多的一个?
22、上万万或上亿数据(有一再),统计个中呈现次数最多的钱 N 个数据。
23、一个文本文件,约莫有一万行,每行一个词,要求统计出个中最频仍呈现的前 10 个词,给出头脑,给出时刻伟大度说明 ##。
24、100w 个数中找出最大的 100 个数 ##。
25、有一万万条短信,有一再,以文本文件的情势生涯,一行一条,有一再。 请用 5 分钟时刻,找出一再呈现最多的前 10 条。
【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |