• 我要登录|
  • 免费注册
    |
  • 我的丁香通
    • 企业机构:
    • 成为企业机构
    • 个人用户:
    • 个人中心
  • 移动端
    移动端
丁香通 logo丁香实验_LOGO
搜实验

    大家都在搜

      大家都在搜

        0 人通过求购买到了急需的产品
        免费发布求购
        发布求购

        进行倾向得分匹配纳入的变量数

        相关实验:食品中大肠菌群的测定实验

        user-title

        纳什的那时

        想请问下各位老师:

        ps评分是由logistic回归得出的,是否要遵循5-10EPV的原则纳入变量计算Ps评分呢?因为看到很多文章,都把把所有变量纳入,会不会导致过度拟合,结果不准确呢?


        比如某篇文章,病例组和对照组分别45和93例,确纳入了所有基线变量(13个)计算PS评分,EPV仅有45/13=3.46,是否最多只能纳入45/5=9个变量?

        wx-share
        分享

        2 个回答

        user-title

        土井挞克树

        有帮助

        所有变量纳入一定会过度拟合,所以不要这样做

        user-title

        loveliufudan

        有帮助

        PS评分的构建可以采用多种方法,其中包括logistic回归等。在构建PS评分时,确保有足够的EPV是很重要的,因为EPV越高,对结果的置信度就越高。通常,建议至少每个分组(例如治疗组和对照组)需要有10个事件(例如死亡或复发)才能确保具有足够的EPV。

        因此,如果病例组和对照组分别有45和93个个体,那么病例组的EPV仅为4.5,而对照组的EPV为9.3。在这种情况下,最好不要使用所有的基线变量来构建PS评分,因为这可能导致过度拟合和不准确的结果。

        建议使用适当数量的变量,以确保足够的EPV。通常建议每个变量至少有5-10个事件(或10%的事件比例)来获得可靠的结果。因此,在这种情况下,建议最多只使用4-9个变量来构建PS评分,具体取决于每个变量的事件比例。同时,建议使用交叉验证或其他技术来评估模型的性能和稳定性。

        ad image
        提问
        扫一扫
        丁香实验小程序二维码
        实验小助手
        丁香实验公众号二维码
        扫码领资料
        反馈
        TOP
        打开小程序