zhufucdev

大数据技术实践任务分解

由Steve Reed发布于4月23日 01:24,不列出

社交网络情感分析

功能需求

这是一个基于集群的批量社交媒体文本情感分析应用,要求实现:

  1. 用户可以上传文本文件,换行符分隔,表示需要分析的语句。语句数在1k量级。
  2. 系统返还相应语句的分析结果。包括情感积极性、置信度、情感分布等统计信息。
  3. 用户可以下载分析结果。

任务分解

经过研究,可以将任务分解成多个子任务,每个子任务由一个或多个团队负责,从而充分利用团队成员的技能和经验。

数据预处理

要求:

  1. 爬虫:实现爬虫程序,获取社交媒体平台上的数据。
  2. 数据清洗:对爬取的数据进行清洗,去除噪声和无效信息。
  3. 数据标注:对清洗后的数据进行标注,标记情感极性。
  4. 数据量在10k条以上。

成果:.tar.xz压缩档,包含一个或多个.csv文件,每个文件包含爬取的数据、清洗后的数据和标注后的数据,格式如下:

textpositive
吴亦凡:你不乖0
...0
......

模型设计与训练

使用传统机器学习方法进行情感分析模型训练。

要求:

  1. 至少支持中文和英语。
  2. 测试准确率不低于90%。

参考:Steve的数学建模论文

成果:

  1. 可执行文件:二进制或脚本,及其模型归档,不包含数据集。需要能够运行在Linux系统上,且在1s内完成预测。
  2. 模型能力评估:准确率、召回率、F1值等指标。

网页设计

设计一个简洁、易用的网页界面,用于展示情感分析结果。网页应支持用户上传文本或粘贴文本,然后显示情感分析结果。网页应支持多种语言,包括中文、英文等。

运维工作

使用Kubernetes或其衍生工具(如Helm)进行部署和管理。Steve会给你分配资源。

任务:

  1. 将模型和应用(前后端)打包为Docker镜像,并上传至Docker Hub或其他公网可访问的仓库。
  2. 在zhufusarch搭建Kubernetes集群,或生成Helm Chart,以便部署模型。参与此工作的团队成员向Steve询问加入Tailnet。
  3. 对接API服务,实现数据的实时传输和处理。

要求:

  1. 前端可以在HTTP和HTTPS下访问。
  2. 应用可以承受500次/秒的并行请求。
你的观点

留下你的评论,我是不会读的。

拉取请求

写得不咋样?你可以帮助改进这篇文章。

此网站受reCAPTCHA保护,因而Google的隐私权政策服务条款生效。

Copyright zhufucdev 2025