转跳到内容

AlGoRiThM

【净土】SS自购团
  • 内容数

    1,045
  • 加入

  • 最后访问

AlGoRiThM 发表的所有内容

  1. 本来是想把笔记po到notion的,但是想了想,还是来一起受苦吧。 NLP预处理方面论文,基于DOM Tree的内容提取 我这几天预计要一天一个帖子,如果有一天我没有来请赶快骂我,谢谢XD 与各位共勉,研究加油啊~ 今日论文题目:Content Extraction Using Diverse Feature Sets (2013) 推荐理由:对于通过对于在网页中的标签等进行机器学习,对于网站内容主体进行提取 精彩亮点: We use the method in [4] to compute the F1-scores, where each word in the document is distinct even if two words are lexically the same. To demonstrate the versatility the learning approach, we train only on the 2012 Train set and make predictions on the rest of the data. In general, combining features does improve model performance, even if the individual model performance is poor. Model performance decreases on the newer 2012 data when compared to the older data sets. Individually, the IC features give a small performance improvement over the baseline, and not surprisingly perform poorly on the older data when CSS was less popular. The low individual performance of the IC features may be attributable to the fact that we accumulate tokens in each block, but meaningful tokens may appear outside the block at higher levels in the DOM. The small train/test differences suggest we may be slightly overfitting.
  2. 学校洗衣机收费太正常了……
  3. 列大纲,列完了,啊好无聊
  4. 因为看论文而已啦,有什么正常不正常的
  5. 如果放完血了,用水泡过了之后是可以的。因为血液里有很多细菌,所以不能隔夜。
  6. 好活,我去瞅瞅!不对啊,这玩意是有机化学?
  7. 论文标题:Trafilatura: A Web Scraping Library and Command-Line Toolfor Text Discovery and Extraction 论文领域:NLP / Machine Learning / Data Mining 推荐原因: 数据挖掘在数据分析/机器学习的数据收集过程中一个很重要的步骤。这个论文很有意思在于他对于网站结构进行了解析,并且研究出了一个对于大多数网站通用的model。由于还没读完,但是从下图可以看出来这个的表现是很不错的~ 如果有人有更好的模型也可以推荐推荐,让我cp一下我下周例会要说点啥hhh 真实原因: 导师让我读的,但总不能我一个人受苦不是~
  8. 不急不急,一直不急 反正我对于结婚什么的没有什么迫切的需求,甚至对于恋爱都没有需求 孤寡的挺好的
  9. 欢迎来到ss大学啊~ 希望有一个美好的一天~
  10. 祭奠我们逝去的一年呜呜呜 时间过得也太快了
  11. 说起网游,第一款网游我玩了的是新飞飞~甚至比摩尔庄园还早 不得不说这个游戏自由度可以超过现在市面上大部分游戏 中国游戏退化说
  12. 刚在刷B站,然后从一个视频里看到了这个: https://github.com/immortal-autumn/force_maximize 大致是可以将窗口强制最大化,还可以等比例放大。个人感觉也许是挺有用的hhh来分享给大家 不得不说这个up说话好含糊,要不是看了看readme我甚至没搞懂他想做啥hhh
  13. 这算什么社死…… 我研究了好久才从字里行间看出来你在炫耀
  14. 半监督的问题也一样,机器学习主要问题就是数据样本不平衡,不是什么学习能搞定的事情。 啊啊啊啊好烦……
  15. 这个可以说是一种新的架构了,未来发展前景不知道,但是是一个可以搞搞的 无监督学习发展停滞了好久了,突破点都不知道在哪里
  16. 最近实在太无聊了……所以想着,既然闲着也是闲着,那么不如来和你们分享分享痛苦,所以来一起读论文吧~~ 所以,就有了这个帖子。 论文标题:Unsupervised Semantic Segmentation by Contrasting Object Mask Proposals 作者:Wouter Van Gansbeke, Simon Vandenhende, Stamatios Georgoulis, and Luc Van Gool. Github: https://github.com/wvangansbeke/Unsupervised-Semantic-Segmentation Area: CV / Clustering / Unsupervised Learning 论文描述: 在计算机视觉领域中对于数据集进行像素点级别的无监督学习, 使用了一种全新的框架。目前准确率60%多,很有卷的价值。
  17. 歌曲名:A Letter - Cyua 链接:https://mdl.ink/MN15Nb 随便唱唱,不建议听,听了也是白听 不过话说,你们上传音乐一般怎么上传啊?有没有那种直接用audio标签的?
  18. 每天都在被迫早起…… 毕竟不早起是真的会一天都不想动的
×
×
  • 新建...

重要消息

为使您更好地使用该站点,请仔细阅读以下内容: 使用条款