转跳到内容

AlGoRiThM

【净土】SS自购团
  • 内容数

    1,040
  • 加入

  • 最后访问

AlGoRiThM 发表的所有内容

  1. 就是我前天发的那个帖子,我现在还是特别特别郁闷烦躁。 你们有什么方法能够发泄自己吗? 快给我分享分享,我发红包呜呜呜
  2. 周五时候分手,然后回忆了一下我们什么时候认识,然后道了个欠说我对不起你 里面全都是感情,结果被说是茶言茶语 本来是以真心衬真心,结果我是傻逼 难受 你们是怎么界定茶言茶语的啊哎
  3. 昨天正式解除了双方的关系,就当作我们的感情从来没有发生过。当然,我个人是很希望我们还是朋友的,而且我会一直保留我的这段认知,我不知道你是否会觉得我不负责任或者说是怎么,但是我觉得还是有必要去说一说,但是想了想好像又没有什么好说的,总而言之我全责反正是没错的。 感觉想了想自己的这段“感情”,到处都整了个烂活。或许从一开始就可以说是一个错误的选择吧 回想起一开始这段剧情的起源,大致就是我自己在国内百无聊赖,周围没有人可以交流。再加上一时冲动而造成的烂账,现在回头想想又是何必呢 我对于自己的了解在于自己对于人际关系上是一个淡漠的人,淡漠在于维持,仿佛就是一切理所当然一般。但是又想了一想,却发现好似淡漠与重视无关,我是很重视这一段感情的。 自己本来就是那种无聊的人,谈了恋爱也不能让我自己更加活跃,就仿佛是惰性气体填装了全身,意动只出现在表白前的那一刻,而之后越想就越害怕和后悔。害怕的是害怕失去,后悔的是后悔冲动。说实在的,一段网上的表白,大多是基于一时的冲动,而冲动过后就要开始买单。在冲动之时,我可以像好我要去怎么做,但是冲动之后,却难以更改自己的淡漠。 也不知道我想要说一点什么,反正就发一发吧。大家就当没看到,我就是单纯的想要发泄一下最近积累的负面情绪罢了。
  4. hhh天庭会认证特斯拉电圈版本雷击木吗
  5. 怎么看……我会盯着自助看? 如果是烤肉自助我会看着烤盘,如果是中餐自助我会看着盘子
  6. 原帖子https://sstm.moe/topic/299712-在隔离期间遇到了鬼该怎么办/ 感觉这个问题很有意思,特地开个帖子来讨论讨论hhhh 雷击木不就是木头被闪电劈了吗?那话说用高压电劈木头然后出售能不能算出售正品雷击木呢?
  7. 我感觉吧,隔离时候遇到鬼都能让隔离时候生活更加有意思一些~ 可惜见不得~
  8. 去运动吧!睡觉的秘诀都藏在那里了!
  9. 我倒是没有和同学一起玩黄油 但是我和同学分享过小黄书XD
  10. 其实无所谓的,只要没有出现什么 漫画balabalabala之类,剧透到结尾的,我一切都好
  11. 论文阅读第二天,两天读了六篇论文,看来你们不一定见得到我了明天hhh 今日论文推荐:《Boilerplate Detection using Shallow Text Features》 作者: Christian Kohlschütter, Peter Fankhauser, Wolfgang Nejdl 内容简介:文章通过对于文本特征的分析,建立了一个语言模型来提取正文内容当中的主题内容。其中有很多对于网页结构的分析,值得一读。与此同时,boilerplate表现也挺好的,在准确度精确度方面都达到了相当高的水准。 文章重点: 1. In the field of Quantitative Linguistics, it is generally assumed that the text creation process can be modeled as urn trials at the level of various linguistic units such as phoneme, word, sentence, text segment, etc. and for several shallow features such as frequency, length, repeat rate, polysemy, and polysexuality. 2. Through our systematical analysis, we found that removing the words from the short text class alone already is a good strategy for cleaning boilerplate and that using a combination of multiple shallow text features achieves an almost perfect accuracy. To a large extent the detection of boilerplate text does not require any inter-document knowledge (frequency of text blocks, common page layout, etc.) nor any training at the token level. 3. the textual content on the Web can apparently be grouped into two classes, long text (most likely the actual content) and short text (most likely navigational boilerplate text) respectively.
  12. MBTI不被认可吗话说?我昨天才测试了MBTI那个,发现我更加自闭了233
  13. 本来是想把笔记po到notion的,但是想了想,还是来一起受苦吧。 NLP预处理方面论文,基于DOM Tree的内容提取 我这几天预计要一天一个帖子,如果有一天我没有来请赶快骂我,谢谢XD 与各位共勉,研究加油啊~ 今日论文题目:Content Extraction Using Diverse Feature Sets (2013) 推荐理由:对于通过对于在网页中的标签等进行机器学习,对于网站内容主体进行提取 精彩亮点: We use the method in [4] to compute the F1-scores, where each word in the document is distinct even if two words are lexically the same. To demonstrate the versatility the learning approach, we train only on the 2012 Train set and make predictions on the rest of the data. In general, combining features does improve model performance, even if the individual model performance is poor. Model performance decreases on the newer 2012 data when compared to the older data sets. Individually, the IC features give a small performance improvement over the baseline, and not surprisingly perform poorly on the older data when CSS was less popular. The low individual performance of the IC features may be attributable to the fact that we accumulate tokens in each block, but meaningful tokens may appear outside the block at higher levels in the DOM. The small train/test differences suggest we may be slightly overfitting.
×
×
  • 新建...

重要消息

为使您更好地使用该站点,请仔细阅读以下内容: 使用条款